R语言与总体比例的置信区间
學習筆記
學習書目:《統計學:從數據到結論》
成功概率或總體比例的置信區間
大總體和大樣本情況
假設有一個總體很大,我們共調查了nnn個人,其中持有某種觀點的為xxx人,則樣本比例為p^=x/n\hat {p}=x/np^?=x/n,那么比例ppp的100(1?α)%100(1-\alpha) \%100(1?α)%近似置信區間為:
p^±zα/2p^(1?p^)n\hat{p} \pm z_{\alpha /2}\sqrt{ \frac{\hat{p}(1-\hat{p})}{n}} p^?±zα/2?np^?(1?p^?)??
- 啥是大樣本?
一個近似判斷大樣本的方法,是當區間:
p^±3p^(1?p^)n\hat{p} \pm 3\sqrt{ \frac{\hat{p}(1-\hat{p})}{n}} p^?±3np^?(1?p^?)??
完全包含在(0, 1)區間內部時,可以認為樣本足夠大。
大總體和小樣本情況
在大總體,小樣本時,有木有精確的關于比例的置信區間的求法呢?當然有!
我們用p(k)p(k)p(k)代表在nnn次伯努利實驗中成功的次數的概率,ppp為每次試驗成功的概率,則有:
p(k)=(nk)pk(1?p)n?kk=0,1,...,np(k)= \begin{pmatrix} n \\k \end{pmatrix} p^k (1-p)^{n-k} \quad k=0,1,...,n p(k)=(nk?)pk(1?p)n?kk=0,1,...,n
如果已經觀測到nnn次試驗有xxx次成功,那么ppp的100(1?α)%100(1-\alpha) \%100(1?α)%置信區間(pL,pU)(p_L, p_U)(pL?,pU?)的上限pUp_UpU?應該為,滿足:
∑k=0xp(k)=∑k=0x(nk)pk(1?p)n?k=α2\sum_{k=0}^{x} p(k)= \sum_{k=0}^{x} \begin{pmatrix} n \\k \end{pmatrix} p^k (1-p)^{n-k} = \frac{\alpha}{2} k=0∑x?p(k)=k=0∑x?(nk?)pk(1?p)n?k=2α?
的ppp .
而置信區間的下限pLp_LpL?應該為滿足:
∑k=xnp(k)=∑k=xn(nk)pk(1?p)n?k=α2\sum_{k=x}^{n} p(k)= \sum_{k=x}^{n} \begin{pmatrix} n \\k \end{pmatrix} p^k (1-p)^{n-k} = \frac{\alpha}{2} k=x∑n?p(k)=k=x∑n?(nk?)pk(1?p)n?k=2α?
的ppp .
小總體情況
在小總體的抽樣調查中求比例的問題大都屬于超幾何分布,這是因為在調查中的抽樣屬于不放回抽樣。由于一切統計模型都是近似模型,超幾何分布也不例外。超幾何分布要求總體中每一個個體都有同等機會被抽到,但是這不可能在實踐中完全做到。
按照計算置信區間的精確方法,這個置信區間應該從求kkk(比如總體中的廢品個數)的100(1?α)%100(1- \alpha) \%100(1?α)%的置信區間著手,而該區間(k1,k2)(k_1, k_2)(k1?,k2?)上限k2k_2k2?應該為滿足:
P(N,n,k,x)≤α2P(N, n, k, x) \leq \frac{\alpha}{2} P(N,n,k,x)≤2α?
的最小的kkk.
而其下限k1k_1k1?應該滿足:
P(N,n,k,x?1)≥1?α2P(N, n, k, x-1) \geq 1- \frac{\alpha}{2} P(N,n,k,x?1)≥1?2α?
的最大的kkk.
這里P(N,n,k,x)≡P(X≤x)P(N, n, k, x)\equiv P(X \leq x)P(N,n,k,x)≡P(X≤x)是參數為N,n,kN, n, kN,n,k的超幾何分布的累計分布函數:
P(N,n,k,x)=∑i=0xp(N,n,k,i)P(N, n, k, x)= \sum_{i=0}^{x}p(N, n, k, i) P(N,n,k,x)=i=0∑x?p(N,n,k,i)
而
p(N,n,k,i)=(ki)(N?kn?i)(Nn)p(N, n, k, i) = \frac{\begin{pmatrix} k \\ i \end{pmatrix} \begin{pmatrix} N-k \\ n-i \end{pmatrix}}{\begin{pmatrix} N \\ n \end{pmatrix} } p(N,n,k,i)=(Nn?)(ki?)(N?kn?i?)?
有了區間(k1,k2)(k_1, k_2)(k1?,k2?)之后,除以NNN就可以得到比例k/Nk/Nk/N的位置區間了.
R語言實例
這里有兩種方法可以進行總體比例的區間估計,但好像都是針對大總體的,一個是binom.test方法,一種是binconf方法。前面一種方法是可以得到精確的置信區間,后一種方法可以得到精確和近似的置信區間。
話不多說,直接放代碼:
> library(Hmisc) > binom.test(50, 200, con = 0.95)$conf [1] 0.1916072 0.3159628 attr(,"conf.level") [1] 0.95 > binconf(50, 200, alpha = 0.05, method = "all")PointEst Lower Upper Exact 0.25 0.1916072 0.3159628 Wilson 0.25 0.1950817 0.3143410 Asymptotic 0.25 0.1899886 0.3100114可以看到binom.test方法的輸出結果和binconf方法中Exact得到結果是一樣的,它們都可以得到精確的置信區間;而binconf的Asymptotic 得到的是大樣本下正態近似的置信區間,Wilson是正態近似區間的改進。
總結
以上是生活随笔為你收集整理的R语言与总体比例的置信区间的全部內容,希望文章能夠幫你解決所遇到的問題。

- 上一篇: 如何优雅的转发微信聊天记录?4个微信小技
- 下一篇: Recently什么意思