偏度和峰度的计算
偏度(skewness)和峰度(kurtosis):
偏度能夠反應分布的對稱情況,右偏(也叫正偏),在圖像上表現為數據右邊脫了一個長長的尾巴,這時大多數值分布在左側,有一小部分值分布在右側。
峰度反應的是圖像的尖銳程度:峰度越大,表現在圖像上面是中心點越尖銳。在相同方差的情況下,中間一大部分的值方差都很小,為了達到和正太分布方差相同的目的,必須有一些值離中心點越遠,所以這就是所說的“厚尾”,反應的是異常點增多這一現象。
偏度的定義:
樣本X的偏度為樣本的三階標準矩
其中$mu$是均值,$delta$為標準差,E是均值操作。$mu_3$是三階中心距,$kappa_t $是$t^{th}$累積量
偏度可以由三階原點矩來進行表示:
樣本偏度的計算方法:
一個容量為n的數據,一個典型的偏度計算方法如下:
其中$ar x$為樣本的均值(和$mu$的區(qū)別是,$mu$是整體的均值,$ar x$為樣本的均值)。s是樣本的標準差,$m_3$是樣本的3階中心距。
另外一種定義如下:
$k_3$是三階累積量$kappa_3$的唯一對稱無偏估計(unique symmetric unbiased estimator)($k_3$ 和 $kappa_3$寫法不一樣)。$k_2=s^2$是二階累積量的對稱無偏估計。
大多數軟件當中使用$G_1$來計算skew,如Excel,Minitab,SAS和SPSS。
峰度的定義:
峰度定義為四階標準矩,可以看出來和上面偏度的定義非常的像,只不過前者是三階的。
樣本的峰度計算方法:
樣本的峰度還可以這樣計算:
其中$k_4$是四階累積量的唯一對稱無偏估計,$k_2$是二階累積量的無偏估計(等同于樣本方差),$m_4$是樣本四階平均距,$m_2$是樣本二階平均距。
同樣,大多數程序都是采用$G_2$來計算峰度。
python使用pandas來計算偏度和峰度
import pandas as pd x = [53, 61, 49, 66, 78, 47] s = pd.Series(x) print(s.skew()) print(s.kurt())
它是用上面的$G_1$來計算偏度 $G_2$來計算峰度,結果如下:
0.7826325504212567 -0.2631655441038463
參考:
偏度和峰度如何影響您的分布
Skewness 維基百科給出了偏差的計算公式
Kurtosis 維基百科給出峰度的計算公式
總結
- 上一篇: 炸弹人游戏
- 下一篇: 字符串中大小写字母转换小程序