UA MATH566 统计理论7: Multiple Test
UA MATH566 統計理論7: Multiple Test
- Bonferroni調整
- Benjamini-Hochberg方法
- Fisher方法
- False Discovery Rate
Multiple test就是同時做多個假設檢驗,回歸和試驗設計都有涉及到,那兩個系列用的是Bonferroni方法和WHS方法。這里也介紹一下Bonferroni方法,另外再介紹一個Fisher方法。
Bonferroni調整
假設要同時做mmm個假設檢驗,第iii個的p值為pi,i=1,?,mp_i,i=1,\cdots,mpi?,i=1,?,m,第iii個檢驗出現type I error的事件為AiA_iAi?。定義Family-wise error rate (FWER)表示至少有一個檢驗出現type I error的概率,αB\alpha_BαB?表示單個檢驗的顯著性水平。假設α\alphaα為這mmm個聯合檢驗的顯著性水平,根據Bonferroni不等式
α=P(?i=1mAi)≤∑i=1mP(Ai)=mαB\alpha = P(\bigcup_{i=1}^m A_i) \le \sum_{i=1}^m P(A_i) = m\alpha_Bα=P(i=1?m?Ai?)≤i=1∑m?P(Ai?)=mαB?
因此拒絕第iii個檢驗的原假設的條件可以寫為
pi≤αm≤αBp_i \le \frac{\alpha}{m} \le \alpha_Bpi?≤mα?≤αB?
這說明要同時做mmm個假設檢驗的話,如果要求的顯著性水平為α\alphaα,那么對單個檢驗做判斷時顯著性水平應該用α/m\alpha/mα/m。
注意到Bonferroni不等式在所有的AiA_iAi?都獨立時取等,此時
α=P(?i=1mAi)=1?P(?i=1mAiC)=1?∏i=1mP(AiC)=1?(1?αB)m\alpha= P(\bigcup_{i=1}^m A_i) = 1 - P(\bigcap_{i=1}^m A_i^C) \\ = 1 - \prod_{i=1}^mP( A_i^C) = 1 - (1-\alpha_B)^mα=P(i=1?m?Ai?)=1?P(i=1?m?AiC?)=1?i=1∏m?P(AiC?)=1?(1?αB?)m
Benjamini-Hochberg方法
當mmm比較大之后,要拒絕原假設的條件會變得非常苛刻,甚至到幾乎不可能的程度。為了得到更合理的推斷,Benjamini-Hochberg方法用了比Bonferroni調整更寬松的條件:
假設p(i)p_{(i)}p(i)?是這mmm個p值的次序統計量,search
k=arg?max?i=1,2,?,m,p(i)≤kαmik = \argmax_{i=1,2,\cdots,m,p_{(i)} \le k\frac{\alpha}{m}} ik=i=1,2,?,m,p(i)?≤kmα?argmax?i
拒絕這kkk個p(1),?,p(k)p_{(1)},\cdots,p_{(k)}p(1)?,?,p(k)?對應的原假設。
Fisher方法
Fisher方法比較有意思,第五講提到了原假設下p值服從均勻分布U[0,1]U[0,1]U[0,1]:
p1,?,pm~iidU[0,1]p_1,\cdots,p_m \sim_{iid} U[0,1]p1?,?,pm?~iid?U[0,1]
根據概率論推導過的結論,它等價于
?2ln?p1,?,?2ln?pm~iidexp(1/2)-2\ln p_1,\cdots,-2 \ln p_m \sim_{iid} exp(1/2)?2lnp1?,?,?2lnpm?~iid?exp(1/2)
因為mmm個指數分布exp(1/2)exp(1/2)exp(1/2)的和是gamma分布Γ(12,m)\Gamma(\frac{1}{2},m)Γ(21?,m),它其實就是卡方分布χ2(2m)\chi^2(2m)χ2(2m)。因此上面的結果可以寫成
?2ln?p1???2ln?pm~χ2(2m)-2\ln p_1 - \cdots -2 \ln p_m \sim \chi^2(2m)?2lnp1????2lnpm?~χ2(2m)
因此mmm個聯合檢驗的原假設下,可以用?2ln?p1???2ln?pm-2\ln p_1 - \cdots -2 \ln p_m?2lnp1????2lnpm?作為檢驗的統計量構造一個卡方檢驗。
False Discovery Rate
這里引入false discovery rate的概念,它是p值的一個替代品之一。這里就直接用我老師的ppt截圖了
簡單解釋一下這張表,首先一共要同時做mmm個檢驗,其中有mπ0m\pi_0mπ0?個檢驗的原假設是真命題,m(1?π0)m(1-\pi_0)m(1?π0?)個檢驗的備擇假設是真命題。我們拒絕了RRR個原假設,接受了m?Rm-Rm?R個原假設。每個檢驗有四種可能的結果:原假設為真、拒絕原假設;原假設為假,拒絕原假設;原假設為真,接受原假設;原假設為假,接受原假設,符合這四個結果的檢驗數目分別為V,S,U,TV,S,U,TV,S,U,T。其中V,TV,TV,T分別是type I error的數目和type II error的數目。
先討論一下false discovery rate (FDR),ppt里面那個定義的意思就是FDR就是在拒絕原假設的條件下,原假設為真的概率。根據Hierarchical Model,p值服從混合分布
Fpvalue(x)=π0x+(1?π0)ROC(x)F_{pvalue}(x) = \pi_0 x + (1-\pi_0)ROC(x)Fpvalue?(x)=π0?x+(1?π0?)ROC(x)
如果選擇α\alphaα作為p值的上限,則
FDR=P[H0istrue∣rejectH0]=P[rejectH0∣H0true]P[H0true]P[rejectH0]=απ0Fpvalue(α)FDR=P[H_0\ is\ true|reject\ H_0] \\= \frac{P[reject\ H_0|H_0\ true]P[H_0\ true]}{P[reject\ H_0]} = \frac{ \alpha \pi_0}{F_{pvalue}(\alpha)}FDR=P[H0??is?true∣reject?H0?]=P[reject?H0?]P[reject?H0?∣H0??true]P[H0??true]?=Fpvalue?(α)απ0??
也就是說
FDR=π0απ0α+(1?π0)(1?β)FDR = \frac{\pi_0 \alpha}{\pi_0 \alpha + (1-\pi_0)(1-\beta)}FDR=π0?α+(1?π0?)(1?β)π0?α?
總結
以上是生活随笔為你收集整理的UA MATH566 统计理论7: Multiple Test的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH636 信息论7 并行高斯
- 下一篇: UA MATH571B 试验设计V 析因