R中的假设检验(四)卡方检验
最近幾天沒(méi)碰編程,渾身難受,日子過(guò)的渾渾噩噩,還是得每天接觸下編程。相較于核磁分析,我感覺(jué)統(tǒng)計(jì)建模更對(duì)我的胃口。今天寫(xiě)卡方檢驗(yàn)(χ2檢驗(yàn),chi-square test)。
醫(yī)學(xué)中最最常見(jiàn)的就是四格表的卡方檢驗(yàn),spss教材上計(jì)算四格表資料的卡方檢驗(yàn)結(jié)果值有:Pearson chi-square 、Continuity correction 、Likelihood ratio 、 Fisher’s exact test 、 Linear-by-Linear association 。步驟就不講了,spss上實(shí)現(xiàn)卡方檢驗(yàn)太簡(jiǎn)單了。
在spss里這些結(jié)果的選擇條件:(1)Pearson chi-square檢驗(yàn) :用于 n≥40 且Trc≥5 (2)Yates檢驗(yàn)(即Continuity correction檢驗(yàn),連續(xù)校正檢驗(yàn)):用于n≥40 且5≥Trc≥1 (3)Fisher exact檢驗(yàn):用于n<40,或者Trc<1。
n代表樣本量,Trc代表四格表中的任意一格的頻數(shù)。
今天介紹的有所不一樣。今天學(xué)習(xí)四個(gè)函數(shù):prop.test、binom.test、chisq.test、fisher.test。
比例檢驗(yàn) prop.test()
prop就是 proportion 比例。
prop.test(觀測(cè)值,樣本總量,檢驗(yàn)的比率)
完整函數(shù)格式:prop.test(x, n, p = NULL,alternative = c(“two.sided”, “l(fā)ess”, “greater”),conf.level = 0.95, correct = TRUE)
單樣本的比例檢驗(yàn)
代碼:prop.test(42,356,.35) #p-value<0.01
上面代碼的意思是:假設(shè)1個(gè)小區(qū)有356個(gè)患有冠心病的病人,其中有42名患者抽煙,某人提出假說(shuō)患有冠心病的人吸煙的概率是0.35,然后對(duì)這個(gè)進(jìn)行檢驗(yàn)。這個(gè)臨床試驗(yàn)中用的很少,簡(jiǎn)單介紹跳過(guò)。這個(gè)函數(shù)在醫(yī)學(xué)臨床上用的不多。
兩個(gè)獨(dú)立樣本的比例
代碼:> lewitt.machin.success <- c(9,4) #每組觀測(cè)值
> lewitt.machin.total <- c(12,13) #每組總數(shù)
> prop.test( lewitt.machin.success,lewitt.machin.total ) #p-value=0.07
可以看出,用prop.test計(jì)算的時(shí)候,里面是向量。實(shí)際上這個(gè)的理論方法簡(jiǎn)單來(lái)說(shuō)就是假設(shè)兩個(gè)樣本比例的差值,兩個(gè)樣本的計(jì)數(shù),都服從同一個(gè)參數(shù)p的二項(xiàng)分布。根據(jù)上面代碼同理可推,若有3組,4組,或更多,只需要把相應(yīng)的值寫(xiě)入向量就好了。例如lewitt.machin.total <- c( 12,13,14,15)。若設(shè)置correct=F,那就是不使用Yates連續(xù)校正。
擬合優(yōu)度檢驗(yàn) chisq.test(),全名chi-square test,即卡方χ2檢驗(yàn)
這個(gè)是醫(yī)學(xué)臨床上最常用的檢驗(yàn)方法,就是spss上介紹的χ2檢驗(yàn)。
完整函數(shù)格式:chisq.test(x, y = NULL, correct = TRUE, p = rep(1/length(x), length(x)), rescale.p = FALSE, simulate.p.value = FALSE, B = 2000)
chisq.test(表格)
舉例:
| 急性期 | 69 | 37 |
| 慢性期 | 30 | 46 |
首先構(gòu)造表格數(shù)據(jù):> mymatrix <- matrix(c(69,37,30,46),2,by=c)
>chisq.test(mymatirx,correct = F)#11.713,p-value=0.000,不進(jìn)行校正
>chisq.test(mymatrix) #10.703,p-value=0.001,默認(rèn)有連續(xù)校正
這個(gè)函數(shù)是最常用的,但是與spss不一樣的是,它需要輸入表格樣式,可以是矩陣或數(shù)據(jù)框。spss示例中的是變量樣式,包含療效,分期,頻數(shù)。這中間如何互相轉(zhuǎn)化,我得研究研究,這里先擺出來(lái)常用的方式。
值得注意的是:用prop.test()和chisq.test()算出來(lái)的結(jié)果是一樣的。
如下:> effect <- c(69,30)
> total <- c(106,76)
> prop.test ( effect , total ) #x-squared=10.703,p-value=0.001
同理, prop.test ( effect , total ,correct = F) #不較正,11.713,0.000
所以在這里的話,我個(gè)人是覺(jué)得prop.test比chisq.test好用的,原因是:第一它顯示的細(xì)節(jié)比chisq更多,比如它會(huì)顯示比例之差的95%的置信區(qū)間;第二它的構(gòu)造很方便,用的是向量,比矩陣和數(shù)據(jù)框方便些,可以快速計(jì)算出模型結(jié)果。
這里先介紹個(gè)基礎(chǔ)知識(shí),一般認(rèn)為小樣本情況,屬于超幾何分布;大樣本情況,屬于二項(xiàng)分布及近似正態(tài)分布。
二項(xiàng)分布與超幾何分布的區(qū)別:(1) 超幾何分布需要知道總體的容量,而二項(xiàng)分布不需要(2) 超幾何分布是不放回抽取,它描述了從有限個(gè)物件中抽出n個(gè)物件,成功抽出指定種類的物件的次數(shù)(不歸還)。(3)二項(xiàng)分布是放回抽取(獨(dú)立重復(fù))。即重復(fù)n次獨(dú)立的伯努利試驗(yàn)。在每次試驗(yàn)中只有兩種可能的結(jié)果,而且兩種結(jié)果發(fā)生與否互相對(duì)立,并且相互獨(dú)立,與其它各次試驗(yàn)結(jié)果無(wú)關(guān),事件發(fā)生與否的概率在每一次獨(dú)立試驗(yàn)中都保持不變,則這一系列試驗(yàn)總稱為n重伯努利實(shí)驗(yàn),當(dāng)試驗(yàn)次數(shù)為1時(shí),二項(xiàng)分布就是伯努利分布(4)當(dāng)總體的容量非常大時(shí),超幾何分布近似于二項(xiàng)分布。
binom.test(),又稱符號(hào)檢驗(yàn),binomial 檢驗(yàn),二項(xiàng)分布檢驗(yàn)。
binomial 二項(xiàng)分布,原理:如果兩個(gè)配對(duì)樣本實(shí)際沒(méi)有差別,則樣本數(shù)據(jù)相減所得的差值應(yīng)當(dāng)大致一半為正一半為負(fù)。
binom.test(觀測(cè)值,樣本總量,檢驗(yàn)的比率)
完整函數(shù)格式:binom.test(x, n, p = 0.5 , alternative = c(“two.sided”, “l(fā)ess”, “greater”) , conf.level = 0.95)
零假設(shè):觀測(cè)值的分布=檢驗(yàn)的比率。
這個(gè)函數(shù)是對(duì)分布的概率值進(jìn)行檢驗(yàn),因此不像prop函數(shù)應(yīng)用那么廣泛,在醫(yī)學(xué)臨床研究中也用的不多。binom.test并不能進(jìn)行向量計(jì)算,所以不能用于兩個(gè)及以上獨(dú)立樣本。它只是用來(lái)檢測(cè)概率值的p值,這個(gè)概率值在一般情況下是0.5,它使用的時(shí)候稍微注意下是單側(cè)檢驗(yàn)還是雙側(cè)檢驗(yàn)。
fisher.test(),又稱 Fisher精確檢驗(yàn)
fisher.test(表格) #同chisq.test,輸入四格表
完整的函數(shù)格式:fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE, hybridPars = c(expect = 5, percent = 80, Emin = 1),control = list(), or = 1, alternative = “two.sided”,conf.int = TRUE, conf.level = 0.95, simulate.p.value = FALSE, B = 2000)
因?yàn)樗枰骋桓裥∮?,在臨床統(tǒng)計(jì)上用處很小。
其他的還有配對(duì)卡方檢驗(yàn) McNemar檢驗(yàn),和kappa一致性檢驗(yàn)。今天不講了,因?yàn)槲沂歉闩R床研究的,臨床基本沒(méi)有配對(duì)的涉及。等以后我去養(yǎng)老鼠了,再來(lái)一次性更新完跟配對(duì)樣本有關(guān)的參數(shù)和非參數(shù)檢驗(yàn)。
補(bǔ)充一句吧,就如果是excel上整理好的表格數(shù)據(jù),不論是2x2還是RxC,按表格的形式整理導(dǎo)入后,就可以直接用 chisq.test()和 fisher.test(),因?yàn)檫@樣很方便。前者就不說(shuō)了,后者就是因?yàn)槟硞€(gè)頻率太小,所以就假定數(shù)據(jù)是超幾何分布,這樣就可以記住他們倆的適用范圍,以5為準(zhǔn)。
總結(jié)
以上是生活随笔為你收集整理的R中的假设检验(四)卡方检验的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Node.js_exports和modu
- 下一篇: Object类型转数组