第四章 数据的概括性度量
1 集中趨勢的度量
分類數據:眾數
順序數據:中位數和分位數
分位數:上四分位數(Ql)、下四分位數(Qu)
Ql位置=n/4,Qu位置=3n/4
如果位置是整數,四分位數就是在該位置對應的值;如果是在0.5的位置上,則取該位置兩側值的平均數;如果在0.25或0.75的位置上,則四分位數等于該位置的下側值加上按比例分攤位置兩側數值的差值。
數值型數據:平均數
幾何平均數:n個變量值乘積的n次方根,主要用于計算平均比率。
眾數和中位數都不受極端值的影響。
2 離散程度的度量
分類數據:異眾比率
異眾比率指非眾數組的頻數占總頻數的比例。
順序數據*:四分位差
四分位差是上四分位數與下四分位數之差,反映了中間50%數據的離散程度,其數據越小,說明中間數據越集中
數值型數據:方差和標準差
極差:最大值與最小值之差,易受極端值影響
平均差:平均絕對離差,各變量值與其平均數離差絕對值的平均數
方差:各變量與其平均數離差平方的平均數。樣本方差用樣本數據個數減1后去除離差平方和,其中樣本數據個數減1即n-1成為自由度
標準差:與方差不同的是,其是具有量綱的,它與變量值的計量單位相同。
相對位置的度量
有了平均數和標準差之后,可以計算一組數據中各個數值的標準分數,以測度每個數據在該組數據中的相對位置,并可以用它來判斷一組數據是否有離群數據。
標準分數:變量值與其平均數的離差除以標準差后的值,也稱標準化值。如某個數值的標準分數為-1.5,則該數值低于平均數1.5倍的標準差。
經驗法則:
當一組數據對稱分布時,經驗法則表明:
約有68%的數據在平均數±1個標準差的范圍內;
約有95%的數據在平均數±2個標準差的范圍內;
約有99%的數據在平均數±3個標準差的范圍內;
一組數據中,高于或低于平均數3個標準差的數值很少,這些數據成為離群點。
切比雪夫不等式
經驗法則適合對稱分布數據,而對于不對稱數據,則可使用切比雪夫不等式,它對任何分布形狀的數據都使用。根據切比雪夫不等式,至少有(1?1/k?2?)?的數據落在k?個標準差之內,其中k 是大于1的任意值,但不一定是整數。對于k=2?,則表示至少有75%的數據落在平均數±2個標準差的范圍之內。
相對離散程度:離散系數
對于平均水平不同或計量單位不同的不同組別的變量值,是不能用標準差直接比較其離散程度的。為消除變量值水平高低和計量單位不同對離散程度測量值的影響,需要計算離散系數。
離散系數:也稱變異系數,是一組數據的標準差與其相應的平均之比,離散系數大,說明數據的離散程度也大。
3 偏態與峰態的度量
1偏態及其測度
偏態(skewness)是對數據分布對稱性的測度。測度偏度的統計量是偏態系數,記作SK。
根據未分組的原始數據計算偏態系數時,通常采用下面的公式:
SK=n∑(x?i??x?ˉ?)?3?(n?1)(n?2)s?3???
式中s?3??是樣本標準差的三次方
如果一組數據的分布是對稱的,則偏態系數等于0;如果偏態系數明顯不等于0,表明分布是非對稱的。若大于1或小于-1,為高度偏態分布;若在0.5~1或-1~-0.5,則為中等偏態分布,越接近0,偏態程度就越低。
根據分組數據計算偏態系數,可采用以下公式:
SK=∑?k?i=1?(M?i??x?ˉ?)?3?f?i?ns?3???
2 峰態及其測度
峰態(kurtosis)是對數據分布平峰或尖峰程度的測度,通常是與標準正態分布相比較而言的。測度峰度的統計量是峰態系數,記作K。
在根據未分組數據計算峰態系數時,通常采用以下公式:
K=n(n+1)∑(x?i??x?ˉ??4?)?3(∑(x?i??x?ˉ?)?2?)?2?(n?1)(n?1)(n?2)(n?3)s?4???
根據分組數據計算峰態系數是離差四次方的平均數再除以標準差的四次方,其計算公式為:
SK=∑?k?i=1?(M?i??x?ˉ?)?4?f?i?ns?4???3?
正態分布的峰態系數為0,當K>0時為尖峰分布,數據的分布更集中;當K<0時為扁平分布,數據的分布越分散。
總結
以上是生活随笔為你收集整理的第四章 数据的概括性度量的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: s12诺手大乱斗出装 2022出装顺序是
- 下一篇: 多张表的数据库设计