KS检验、t检验、f检验、Grubbs检验、狄克逊(Dixon)检验、卡方检验小结
1. KS檢驗
Kolmogorov-Smirnov檢驗是基于累計分布函數的,用于檢驗一個分布是否符合某種理論分布或比較兩個經驗分布是否有顯著差異。
單樣本K-S檢驗是用來檢驗一個數據的觀測經驗分布是否符合已知的理論分布。
兩樣本K-S檢驗由于對兩樣本的經驗分布函數的位置和形狀參數的差異都敏感,所以成為比較兩樣本的最有用且最常用的非參數方法之一。
檢驗統計量為:,其中Fn(x)為觀察序列值,F(x)為理論序列值或另一觀察序列值
1.1 步驟
(1)提出假設H0:Fn(x)=F(x)
(2)計算樣本累計頻率與理論分布累計概率的絕對差,令最大的絕對差為Dn;Dn=max{[Fn(x) - F(x)]}
(3)用樣本容量n和顯著水平a查出臨界值Dna;
(4)如果Dn<Dna,則認為擬合是滿意的。
1.2 實例
單樣本KS檢驗
兩樣本KS檢驗
?
2. t檢驗
T檢驗,也稱student t檢驗,主要用戶樣本含量較小,總體標準差未知的正態分布。
t檢驗是用t分布理論來推論差異發生的概率,從而比較兩個平均數的差異是否顯著。
t檢驗分為單總體檢驗和雙總體檢驗。
單總體t檢驗是檢驗一個樣本平均數與一個已知的總體平均數的差異是否顯著。當總體分布是正態分布,如總體標準差未知且樣本容量小于30,那么樣本平均數與總體平均數的離差統計量呈t分布。 單總體t檢驗統計量為: 其中為樣本平均數,為樣本標準偏差,n為樣本數。該統計量t在零假說:μ=μ0為真的條件下服從自由度為n?1的t分布。2.1 步驟
(1)建立假設、確定假設水準α;
(2)計算檢驗統計量t;
(3)查相應界值表,確定P值,下結論;
3. f檢驗
T檢驗和F檢驗的由來:為了確定從樣本中的統計結果推論到總體時所犯錯的概率。
F檢驗又叫做聯合假設檢驗,也稱方差比率檢驗、方差齊性檢驗。是由英國統計學家Fisher提出。
通過比較兩組數據的方差,以確定他們的精密度是否有顯著性差異。
計算步驟:
樣本標準偏差的平方,即: S*S?= ∑(x-μ)'2/(n-1) 兩組數據就能得到兩個S2值 F=S'2/S'2 然后計算的F值與查表得到的F表值比較,如果 F < F表?表明兩組數據沒有顯著差異; F ≥ F表?表明兩組數據存在顯著差異。4. Grubbs檢驗
4.1 概述
一組測量數據中,如果個別數據偏離平均值很遠,那么稱這個數據為“可疑值”。用格拉布斯法判斷,能將“可疑值”從測量數據中剔除。
4.2 步驟
(1) 計算平均值μ和標準差σ;
(2) 計算“可疑值”的G值:
????????????????? ? Gi=(xi-μ)/σ,? 其中i為可疑值編號。
(3) 定出檢測水平α,那么置信概率p=1-α(α越小越嚴格);根據p值和測量次數n查格拉布斯表得到臨界值Gp(n);
(4) 比較Gi和臨界值,如果Gi>Gp(n),則判為異常;
4.3? 狄克遜檢驗
用于一組測定數據的一致性檢驗和提出異常數值的檢驗,適用于檢出一個或多個異常值。
當最大值和最小值同時為可疑值,或在最大(小)值同側同時出現兩個可疑值時,此方法不理想。
檢測方法如下:
將n次測定的數據從小到大排列為x1,x2,...,xn-1,xn。x1為最小可疑值,xn為最大可疑值,然后按照下列相應公式計算統計量r:
根據n次測定和顯著性水平從表中查得的臨界值,如果將統計量r大于臨界值,則判為異常,可以剔除。重復檢測,知道不再檢出其他異常值為止。
5. 卡方檢驗
卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趨于符合,若兩個值完全相等時,卡方值就為0,表明理論值完全符合。
5.1 步驟
(1)提出原假設H0:總體X的分布函數F(x);
(2)將總體x的取值范圍分成k個互不相交的小區間A1-Ak;
(3)把落入第i個區間Ai的樣本的個數記做fi,成為組頻數,f1+f2+f3+...+fk = n;
(4)當H0為真時,根據假設的總體理論分布,可算出總體X的值落入第i個小區間Ai的概率pi,于是n*pi就是落入第i個小區間Ai的樣本值的理論頻數;
(5)當H0為真時,n次試驗中樣本落入第i個小區間Ai的頻率fi/n與概率pi應該很接近。基于這種思想,皮爾遜引入檢測統計量
? ? ? ? ? ?,在H0假設成立的情況下服從自由度為k-1的卡方分布。
5.2 檢驗方法
????? ?獨立樣本四格表
????? ?自由度為1(k=2),自由度=(行數 - 1) * (列數 - 1)
????? ? 假設兩個分類變量X和Y,值域分別為(x1, x2)和(y1, y2),其樣本頻數列聯表為:
| ? | y1 | y2 | 總計 |
| x1 | a | b | a+b |
| x2 | c | d | c+d |
| 總計 | a+c | b+d | a+b+c+d |
??????
x2值描述了自變量與因變量之間的相關程度:x2值越大,相關程度也越大,所以很自然的可以利用x2值來做降維,保留相關程度大的變量。
6. 對比
6.1 KS檢驗與卡方檢驗
相同點:都采用實際頻數和期望頻數只差進行檢驗
不同點:①卡方檢驗主要用于類別數據,而KS檢驗主要用于有計量單位的連續和定量數據。
????????????? ②卡方檢驗也可以用于定量數據,但必須先將數據分組才能獲得實際的觀測頻數,而KS檢驗能直接對原始數據進行檢驗,所以它對數據的利用比較完整。
6.2 KS檢驗的優勢與劣勢
- 作為一種非參數方法,具有穩健性
- 不依賴均值的位置
- 對尺度化不敏感
- 適用范圍廣(t檢驗僅局限于正態分布,當數據偏離正態分布太多時,t檢驗會失效)
- 比卡方更有效
- 如果數據缺失服從正態分布,則沒有t檢驗敏感(有效)
總結
以上是生活随笔為你收集整理的KS检验、t检验、f检验、Grubbs检验、狄克逊(Dixon)检验、卡方检验小结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android N Preview No
- 下一篇: cin.tie(0)和ios::sync