经典假设检验理论记录一二
? ? ? ?大數據環境下的假設檢驗問題比較復雜,目前還未詳細深入了解,但其思想還是源于經典假設檢驗理論,故在此先對經典假設檢驗理論記錄一二。
? ? 1.假設檢驗方法的作用
? ? ? ?實際問題中很多時候需要通過樣本去作推斷,由于樣本帶有隨機性,基于我們對總體的認知,有時并不確定該推斷是否可信(或者說可靠),或者說偏差的程度如何,此時就可以用到假設檢驗方法,在我們認知范圍內去判斷該推斷是否可信(或可靠)、偏差程度。之前看到過一段話,說假設檢驗方法背后的哲學思想是:“肯定一件事情有時候是很難的,但是否定一件事情就容易得多”(挺有意思的一句話,就像人們常說的“一世清明毀于一旦”啥的),該思想在概率論中,即為“小概率事件理論”。假設檢驗的實施過程就是利用小概率事件理論去判斷推斷是否可信。
? ? 2.假設檢驗問題的一般處理步驟
? ? ?(1)? ?明確要處理的問題,問題的回答只能是“是”或者“否”
? ? ?(2)? ?設計適當的觀察或試驗以取得樣本X,X的概率分布必須與所提的問題有一定聯系
? ? ?(3)? ?把問題的一種回答(例如“是”)作為一個命題,將該命題轉化到樣本X的分布上,這樣即得到關于后者的一個等價命題 ,稱為假設
? ? ?(4)? ?依據樣本X的具體值,按照一定的規則,作為接受或否定假設的決定(即檢驗過程)
? ? 3.檢驗方法? ? ? ?
? ? ? ?當提出合適的假設后,接下來的工作主要是如何去檢驗提出的假設。檢驗的方法有很多種,每種方法一般都是針對某一方面問題而針對性提出的,下面介紹幾種比較重要的檢驗方法。
? ?? 3.1 擬合優度檢驗
? ? ? ?擬合優度檢驗方法是K.Pearson提出的。K.Pearson認為統計的任務是對未來進行預測,故需要得到樣本數據的統計模型,也即是一條分布曲線,所以他提出了矩估計法來確定這樣一條分布曲線,但是得到的分布曲線對樣本的擬合程度該如何判斷呢?為此K.Pearson引進了一個統計量——統計量k,,統計量k反映樣本與所擬合的分布曲線間的偏離,k越小,擬合程度越好,反之亦然。從一組樣本中,可以計算出統計量k的值?,也許會很小,總體上覺得擬合程度不錯,但是還是存在這樣一個問題:統計量k的值取到??這樣的程度,可以認為擬合程度比較好、可以認為樣本是來自于分布曲線中嗎?為了解決這個問題,K.Pearson證明了一個極限定理,通過該定理可以計算出概率,該定理為
? ?定理:若樣本是來自于分布曲線,則當樣本大小時,統計量k的分布收斂于,即自由度為r-1的分布。
? ? ? ?至此為止,文中還未引入統計量k的定義,這個后面再引入。越大(小),則表明產生像這么大(小)的值的概率越大(小),因此的出現并不稀奇(比較稀奇),基于此,可以做出如下假設:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?樣本是從具有分布的總體中抽樣得到
? ? ? ?檢驗時,指定閾值,若,則否定;若,則接受。現在開始引入統計量k,文中只討論總體分布曲線完全已知的情況,對分布確定、帶有參數的情況不予討論,感興趣的同學可以自行進一步研究。當樣本X為一維時,X只取有限個不同值,理論分布集中在?的概率為,則對于以上的假設可以這樣提
? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ?記為中等于的個數,稱為觀察頻數,稱為理論頻數,可知
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? 則統計量k定義如下
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? 當樣本X的取值為一維連續值時,則可以將X的取值空間劃分為m個連續、互不相交的空間,也即是將其取值范圍離散化,之后便可用上述統計量k的定義形式;當樣本X為多維數據(離散取值或連續取值)時,也可以按照上述思路引入統計量k,具體過程此處不詳述。
? ?? 3.2? 顯著性檢驗
? ? ? ?顯著性檢驗是Fisher提出的,從字面上理解,該檢驗最終需要通過結果的顯著性程度(概率)去決定是否接受假設。現在通過一個例子來了解顯著性檢驗的思想。?
? ? ? ?為比較A、B兩種施肥方法那種更優,選擇15塊大小近似的地,把每塊地分成大小、形狀一樣的兩小塊,隨機的將一塊用A施肥方法,另外一塊用B施肥方法,各小塊的產量如下??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ?現做出假設? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?H: 施肥方法A與B的效果一樣
? ? ? ??由上表的產量結果,可以計算出???,由于每塊地中的兩小塊是隨機分給A和B的,基于提出的假設,上表中得到的產量差也可能是由于兩小塊地間的差別導致,因此的結果可能會反過來,故??的計算結果應該有種可能,即
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ?計算得到的314只是種結果中的一種,當施肥方法A與B間效果差別較大時,絕對值應該取較大值,為此將種結果按絕對值大小從大到小排列,在假設H成立的前提下,每個值出現的概率都是,而在本例中所有結果出現的概率,這個概率非常小,即便在的顯著性水平下,我們也有理由否定假設H,由于本次觀察的結果,因此認為施肥方法A的效果優于B。
? ? ? ? 通過該例,可以將顯著性檢驗的一般過程概括如下
? ? ? ?(1)? 明確一個命題(假設)H
? ? ? ?(2)? 設計一個試驗觀察與假設相關的變量X,當假設H成立時,X要有明確、已知的分布
? ? ? ?(3)? 根據假設H和X的具體內容,對X可能出現的值排序,使越靠前的值對提出的假設H越不利
? ? ? ?(4)? 記x為實際觀察到的X值,計算x及x更靠前的值出現的概率和 , 越小,則對假設H越不利。
? ? ? ?(5)? 依據選擇的顯著性水平來決定是否接受假設H
???? 3.3? 似然比檢驗
?????? 似然比檢驗是J.Neyman和E.S.Pearson提出一種檢驗方法,這是一種基于直觀想法的檢驗方法。在說明似然比檢驗方法前,先介紹一下二人在假設檢驗問題上提出的一系列理論,合稱為Neyman-Pearson理論(簡稱NP理論)。
?????? (1) 問題的提法,原假設與對立假設
?????? 設有樣本X,取值于樣本空間,只知道X的分布屬于一個分布族。設是的一個非空子集,則命題:稱為一個假設或原假設,也成為零假設,命題的確切含義為:存在一個,使X的分布為。記,則命題:稱為H的對立假設,表述
???????????????????????????????????????????????????????????????????????????????????? ? ? ? ? ? ? ??
稱為一個假設檢驗問題。注意此處,在提出原假設
?? ?? (2)? 兩類錯誤與功效函數
????? 在假設檢驗時,錯誤有兩類:一是
????? (3) 檢驗水平,限定第一類錯誤概率原則
? ? ? 若檢驗函數
? ? ? 現在開始介紹似然比檢驗。設樣本X有概率函數,是的一個非空子集,考慮本小節中提出的假設問題,可構造統計量
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??????? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
? ? ? 稱為關于該檢驗問題的似然比。對于統計量可以這樣理解:基于NP理論中假設的提出方式,由于肯定是屬于其取值空間的,也可以認為最大似然估計是接近其真實值的,那么當值越大時,表明在得到樣本時,的可能性越小,此時更傾向于否定假設。有了統計量后,定義如下檢驗函數
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)
? ? ? 當,否定假設,當時接收假設。至此為止,似然比檢驗的基本思路已經明了,但是還未說明如何去確定這樣一個值。值的確定根據具體應用中樣本X的概率函數確定,下面舉個例子來說明似然比檢驗的過程
?????????? 設 ,給定,有
?????????????????????????????????????????????????????????
????????? 依據極大似然估計方法,可以得到
???????????????????????????????????????????????????????????????? ??????
?????????????????????????????????????????????????????????????????????????????????????????????????
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ??
??????? 這里
???????????????????????????????????????????????????????????????????????????????? ?
????? 對于正態分布函數,其均值的極大似然估計即為, 則統計量計算為
???????????????????????????????????????????????????????????????? ? ? ? ? ? ? ? ? ? ? ? ??
????? 可以看出時 的嚴格增加函數,因此對于我們的假設有否定域,注意此處值與公式(1)中值雖然代號相同,但指的不是同一個值,當然這個也不重要。依據的定義,有
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)
? ? ? 此時的分布為連續分布,公式(1)中檢驗函數取??那一行沒有必要。值需要依據檢驗水平來確定,若取水平,則依據式(3)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ??
? ? ??
? ?4.小結
? ? ??以上內容簡單的介紹了假設檢驗方法的作用及一般步驟,并介紹了幾種常見的檢驗方法,其中還順便提到了NP理論。可以看到,假設檢驗過程比較重要的是采用何種檢驗方法,除了以上介紹的幾種檢驗方法,其它重要的檢驗方法還有正態分布均值檢驗中用到的檢驗、正態分布方差檢驗中用到的檢驗(二者都是基于似然比檢驗方法展開的),它們分別構造了統計量和統計量,依據這兩個統計量的概率分布和檢驗水平來檢驗假設是否可接受。??
?
? ??
?????
???????
?
??????
??????
? ? ? ??
?
?
?
? ? ?
? ? ??
? ? ? ??
轉載于:https://www.cnblogs.com/hgz-dm/p/10885956.html
總結
以上是生活随笔為你收集整理的经典假设检验理论记录一二的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: C++_系列自学课程_第_9_课_C语言
- 下一篇: EA+svn实现UML的版本号控制
