grubbs检测c语言,Grubbs算法检测离群值
▲概述:一組測量數(shù)據(jù)中,如果個別數(shù)據(jù)偏離平均值很遠(yuǎn),那么這個(這些)數(shù)據(jù)稱作“可疑值”。如果用統(tǒng)計(jì)方法—例如格拉布斯(Grubbs)法判斷,能將“可疑值”從此組測量數(shù)據(jù)中剔除而不參與平均值的計(jì)算,那么該“可疑值”就稱作“異常值(粗大誤差)”。本文就是介紹如何用格拉布斯法判斷“可疑值”是否為“異常值”。
▲測量數(shù)據(jù):例如測量10次(n=10),獲得以下數(shù)據(jù):8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列數(shù)據(jù):將上述測量數(shù)據(jù)按從小到大的順序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。
▲計(jì)算平均值x-和標(biāo)準(zhǔn)差s:x-=7.89;標(biāo)準(zhǔn)差s=2.704。計(jì)算時,必須將所有10個數(shù)據(jù)全部包含在內(nèi)。
▲計(jì)算偏離值:平均值與最小值之差為7.89-4.7=3.19;最大值與平均值之差為14.0-7.89=6.11。
▲確定一個可疑值:比較起來,最大值與平均值之差6.11大于平均值與最小值之差3.19,因此認(rèn)為最大值14.0是可疑值。
▲計(jì)算Gi值:Gi=(xi-x-)/s;其中i是可疑值的排列序號
——10號;因此G10=( x10-x-)/s=(14.0-7.89)/2.704=2.260。由于x10-x-是殘差,而s是標(biāo)準(zhǔn)差,因而可認(rèn)為G10是殘差與標(biāo)準(zhǔn)差的比值。下面要把計(jì)算值Gi與格拉布斯表給出的臨界值GP(n)比較,如果計(jì)算的Gi值大于表中的臨界值GP(n),則能判斷該測量數(shù)據(jù)是異常值,可以剔除。但是要提醒,臨界值GP(n)與兩個參數(shù)有關(guān):檢出水平α (與置信概率P有關(guān))和測量次數(shù)n (與自由度f有關(guān))。
▲定檢出水平α:如果要求嚴(yán)格,檢出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不嚴(yán)格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
▲查格拉布斯表獲得臨界值:根據(jù)選定的P值(此處為0.95)和測量次數(shù)n(此處為10),查格拉布斯表,橫豎相交得臨界值G95(10)=2.176。
▲比較計(jì)算值Gi和臨界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。
▲判斷是否為異常值:因?yàn)镚i>G95(10),可以判斷測量值14.0為異常值,將它從10個測量數(shù)據(jù)中剔除。
▲余下數(shù)據(jù)考慮:剩余的9個數(shù)據(jù)再按以上步驟計(jì)算,如果計(jì)算的Gi>G95(9),仍然是異常值,剔除;如果Gi<G95(9),不是異常值,則不剔除。本例余下的9個數(shù)據(jù)中沒有異常值。
格拉布斯表——臨界值GP(n)
P
n
0.95
0.99
P
n
0.95
0.99
3
1.135
1.155
17
2.475
2.785
4
1.463
1.492
18
2.504
2.821
5
1.672
1.749
19
2.532
2.854
6
1.822
1.944
20
2.557
2.884
7
1.938
2.097
21
2.580
2.912
8
2.032
2.231
22
2.603
2.939
9
2.110
2.323
23
2.624
2.963
10
2.176
2.410
24
2.644
2.987
11
2.234
2.485
25
2.663
3.009
12
2.285
2.550
30
2.745
3.103
13
2.331
2.607
35
2.811
3.178
14
2.371
2.659
40
2.866
3.240
15
2.409
2.705
45
2.914
3.292
16
2.443
2.747
50
2.956
3.336
對異常值及統(tǒng)計(jì)檢驗(yàn)法的解釋
■測量過程是對一個無限大總體的抽樣:對固定條件下的一種測量,理論上可以無限次測量下去,可以得到無窮多的測量數(shù)據(jù),這些測量數(shù)據(jù)構(gòu)成一個容量為無限大的總體;或者換一個角度看,本來就存在一個包含無窮多測量數(shù)據(jù)的總體。實(shí)際的測量只不過是從該無限大總體中隨機(jī)抽取一個容量為n(例如n=10)的樣本。這種樣本也可以有無數(shù)個,每個樣本相當(dāng)于總體所含測量數(shù)據(jù)的不同隨機(jī)組合。樣本中的正常值應(yīng)當(dāng)來自該總體。通常的目的是用樣本的統(tǒng)計(jì)量來估計(jì)總體參量。總體一般假設(shè)為正態(tài)分布。
■異常值區(qū)分:樣本中的正常值應(yīng)當(dāng)屬于同一總體;而異常值有兩種情況:第一種情況異常值不屬于該總體,抽樣抽錯了,從另外一個總體抽出一個(一些)數(shù)據(jù),其值與總體平均值相差較大;第二種情況異常值雖屬于該總體,但可能是該總體固有隨機(jī)變異性的極端表現(xiàn),比如說超過3σ的數(shù)據(jù),出現(xiàn)的概率很小。用統(tǒng)計(jì)判斷方法就是將異常值找出來,舍去。
■犯錯誤1:將本來不屬于該總體的、第一種情況的異常值判斷出來舍去,不會犯錯誤;將本來屬于該總體的、出現(xiàn)的概率小的、第二種情況的異常值判斷出來舍去,就會犯錯誤。
■犯錯誤2:還有一種情況,不屬于該總體但數(shù)值又和該總體平均值接近的數(shù)據(jù)被抽樣抽出來,統(tǒng)計(jì)檢驗(yàn)方法判斷不出它是異常值,就會犯另外一種錯誤。
■異常值檢驗(yàn)法:判斷異常值的統(tǒng)計(jì)檢驗(yàn)法有很多種,例如格拉布斯法、狄克遜法、偏度-峰度法、拉依達(dá)法、奈爾法等等。每種方法都有其適用范圍和優(yōu)缺點(diǎn)。
■格拉布斯法最佳:每種統(tǒng)計(jì)檢驗(yàn)法都會犯犯錯誤1和錯誤2。但是有人做過統(tǒng)計(jì),在所有方法中,格拉布斯法犯這兩種錯誤的概率最小,所以推薦使用格拉布斯法。
■多種方法結(jié)合使用:為了減少犯錯誤的概率,可以將3種以上統(tǒng)計(jì)檢驗(yàn)法結(jié)合使用,根據(jù)多數(shù)方法的判斷結(jié)果,確定可疑值是否為異常值。
■異常值來源:測量儀器不正常,測量環(huán)境偏離正常值較大,計(jì)算機(jī)出錯,看錯,讀錯,抄錯,算錯,轉(zhuǎn)移錯誤。
——
總結(jié)
以上是生活随笔為你收集整理的grubbs检测c语言,Grubbs算法检测离群值的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: STM32利用光敏二极管实现光度测量
- 下一篇: Haar特征原理与icvCreateIn