机器学习中的统计学基础知识
生活随笔
收集整理的這篇文章主要介紹了
机器学习中的统计学基础知识
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
- 負偏斜分布
人類存活年齡分布
- 均勻分布
沒有眾數,天氣預報
- 多峰分布
有多個眾數,該例子為前半部分為女士鞋號,后半部分為男士鞋號
- 眾數指的是x軸,y軸代表具體的頻率
- 眾數不受總體數據影響,而平均值又會因為總體影響過大導致被平均,所以就發明了中位數
- 中位數在處理偏斜分布時通常能很好的反映出趨勢
對于上圖的正偏斜分布來說,眾數<中位數<均值
對于上圖的正態分布來說,眾數=中位數=均值
統計學家在做統計的時候,通常會砍掉已經排序好的前25%的值,和后25%的值
Q1是第一個四分位數,Q3是第三個四分位數,IQR=Q3?Q1得到的值域通常就是統計學家要用的部分數據
統計學中計算是否為異常值的公式為
Outlier<Q1?1.5?IQR∥Outlier<Q3+1.5?IQR
- 箱線圖
注意:上圖中最下面的點表示異常值
- IQR也存在一定問題,對于不同的分布IQR可能相同,所以IQR不能考慮分布特性
- 方差和標準差的圖像解釋
- 貝塞爾校正
當做數據抽樣的時候,抽出來的數據量由于小于總體數據量,所以他的方差和標準差總是小于總體數據量的方差和標準差,于是做了貝塞爾校正,將原來的標準差公式 S=Σ(xi?xˉ)2n???????√ 變成S=Σ(xi?xˉ)2n?1???????√ ,也就是樣本標準差,主要目的是用來估算總體標準差的
總結
以上是生活随笔為你收集整理的机器学习中的统计学基础知识的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PagerAdapter学习
- 下一篇: ScaleAnimation动画