UA MATH566 统计理论 Bayes统计基础
UA MATH566 統計理論 Bayes統計基礎
- 共軛分布
- 基于后驗概率預測新的觀測值
Bayes統計思想的基礎是Bayes公式
P(Ci∣A)=P(A,Ci)P(A)=P(A∣Ci)P(Ci)∑i=1nP(A∣Ci)P(Ci)P(C_i|A) = \frac{P(A,C_i)}{P(A)}= \frac{P(A|C_i)P(C_i)}{\sum_{i=1}^n P(A|C_i)P(C_i)}P(Ci?∣A)=P(A)P(A,Ci?)?=∑i=1n?P(A∣Ci?)P(Ci?)P(A∣Ci?)P(Ci?)?
其中P(Ci)P(C_i)P(Ci?)是先驗概率,P(A∣Ci)P(A|C_i)P(A∣Ci?)是似然,P(Ci∣A)P(C_i|A)P(Ci?∣A)是后驗概率。頻率派統計關注的焦點是似然函數(樣本信息),貝葉斯學派則使用似然函數(樣本信息)與先驗概率(先驗信息)。
假設隨機變量為XXX,定義在概率空間(Ω,F,Pθ)(\Omega,\mathcal{F},P_{\theta})(Ω,F,Pθ?)上,f(x,θ)f(x,\theta)f(x,θ)是概率PθP_{\theta}Pθ?的密度函數。貝葉斯統計認為θ\thetaθ也是一個隨機變量,定義在參數空間Θ\ThetaΘ上,概率密度為π(θ)\pi(\theta)π(θ),即先驗密度。根據貝葉斯公式,給定一組樣本X\textbf{X}X,參數的后驗密度為
π(θ∣X)=f(X,θ)f(X)=∏i=1nf(xi∣θ)π(θ)∫Θ∏i=1nf(xi∣θ)π(θ)dθ\pi(\theta|\textbf{X}) = \frac{f(\textbf{X},\theta)}{f(\textbf{X})} = \frac{\prod_{i=1}^nf(x_i|\theta)\pi(\theta)}{\int_{\Theta} \prod_{i=1}^nf(x_i|\theta)\pi(\theta)d\theta}π(θ∣X)=f(X)f(X,θ)?=∫Θ?∏i=1n?f(xi?∣θ)π(θ)dθ∏i=1n?f(xi?∣θ)π(θ)?
基于后驗密度可以計算后驗風險(參考UA MATH574M 統計學習I 監督學習理論),然后做一些統計決策。比如使用平方損失,后驗均值就是參數的Bayes估計;使用絕對值損失,后驗中位數就是參數的Bayes估計。后驗密度的含義就是給定樣本時參數的密度函數,因此用后驗密度的分位點就可以構成參數的置信區間,何種置信區間叫做可信區間(Credible Intervals)。后驗密度中與參數有關的部分被稱為后驗核(kernel),大部分分布憑核就可以識別出來,比如
| N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2) | exp(?12σ2(x?μ)2)exp(-\frac{1}{2\sigma^2}(x-\mu)^2)exp(?2σ21?(x?μ)2) |
| Γ(α,λ)\Gamma(\alpha,\lambda)Γ(α,λ) | xα?1e?λxx^{\alpha-1}e^{-\lambda x}xα?1e?λx |
| Beta(α,β)Beta(\alpha,\beta)Beta(α,β) | xα?1(1?x)β?1x^{\alpha-1}(1-x)^{\beta-1}xα?1(1?x)β?1 |
例1 假設Ber(p)Ber(p)Ber(p)中p~Beta(α,β)p \sim Beta(\alpha,\beta)p~Beta(α,β),則
π(p∣X)∝p∑i=1nXi(1?p)n?∑i=1nXipα?1(1?p)β?1=p∑i=1nXi+α?1(1?p)n?∑i=1nXi+β?1\pi(p|\textbf{X}) \propto p^{\sum_{i=1}^nX_i}(1-p)^{n-\sum_{i=1}^nX_i}p^{\alpha-1}(1-p)^{\beta-1} = p^{\sum_{i=1}^nX_i+\alpha-1}(1-p)^{n-\sum_{i=1}^nX_i+\beta-1}π(p∣X)∝p∑i=1n?Xi?(1?p)n?∑i=1n?Xi?pα?1(1?p)β?1=p∑i=1n?Xi?+α?1(1?p)n?∑i=1n?Xi?+β?1
這說明p∣X~Beta(∑i=1nXi+α,n?∑i=1nXi+β)p|\textbf{X}\sim Beta(\sum_{i=1}^nX_i+\alpha,n-\sum_{i=1}^nX_i+\beta)p∣X~Beta(∑i=1n?Xi?+α,n?∑i=1n?Xi?+β)
例2 假設多元分布(1;p1,?,pr)(1;p_1,\cdots,p_r)(1;p1?,?,pr?)中(p1,?,pr)~Dir(α1,?,αr)(p_1,\cdots,p_r) \sim Dir(\alpha_1,\cdots,\alpha_r)(p1?,?,pr?)~Dir(α1?,?,αr?),則
π(p1,?,pr∣X)∝∏i=1rpi∑i=1nXi∏i=1rpiαi?1=∏i=1rpi∑i=1nXi+α?1\pi(p_1,\cdots,p_r|\textbf{X}) \propto \prod_{i=1}^r p_i^{\sum_{i=1}^n X_i} \prod_{i=1}^r p_i^{\alpha_i-1} = \prod_{i=1}^rp_i^{\sum_{i=1}^n X_i+\alpha-1}π(p1?,?,pr?∣X)∝i=1∏r?pi∑i=1n?Xi??i=1∏r?piαi??1?=i=1∏r?pi∑i=1n?Xi?+α?1?
這說明(p1,?,pr)∣X~Dir(∑i=1nX1+α1,?,∑i=1nXr+αr)(p_1,\cdots,p_r)|\textbf{X}\sim Dir(\sum_{i=1}^n X_1+\alpha_1,\cdots,\sum_{i=1}^n X_r+\alpha_r)(p1?,?,pr?)∣X~Dir(∑i=1n?X1?+α1?,?,∑i=1n?Xr?+αr?),其中X1,?,XrX_1,\cdots,X_rX1?,?,Xr?都是Bernoulli變量。
共軛分布
上面的兩個例子有一個很重要的性質,先驗分布與后驗分布都是beta分布,我們稱這種先驗分布與后驗分布相同時的分布為共軛分布族,更準確一點,稱Beta分布是Ber(p)Ber(p)Ber(p)的共軛分布族,從先驗到后驗的參數變換規則是
Beta(α,β)→Beta(∑i=1nXi+α,n?∑i=1nXi+β)Beta(\alpha,\beta) \to Beta(\sum_{i=1}^nX_i+\alpha,n-\sum_{i=1}^nX_i+\beta)Beta(α,β)→Beta(i=1∑n?Xi?+α,n?i=1∑n?Xi?+β)
下面列出了一些典型的共軛分布族的表:
| Ber(p)Ber(p)Ber(p) | Beta(α,β)→Beta(∑i=1nXi+α,n?∑i=1nXi+β)Beta(\alpha,\beta) \to Beta(\sum_{i=1}^nX_i+\alpha,n-\sum_{i=1}^nX_i+\beta)Beta(α,β)→Beta(∑i=1n?Xi?+α,n?∑i=1n?Xi?+β) |
| N(θ,σ02)N(\theta,\sigma_0^2)N(θ,σ02?),σ02\sigma^2_0σ02?已知 | N(θ1,1λ0)→N(λ0θ1+(n/σ02)Xˉλ0+n/σ02,σ02n+λ0σ02)N(\theta_1,\frac{1}{\lambda_0}) \to N(\frac{\lambda_0\theta_1 + (n/\sigma_0^2)\bar{X}}{\lambda_0+n/\sigma^2_0},\frac{\sigma_0^2}{n+\lambda_0\sigma^2_0})N(θ1?,λ0?1?)→N(λ0?+n/σ02?λ0?θ1?+(n/σ02?)Xˉ?,n+λ0?σ02?σ02??) |
| Pois(λ)Pois(\lambda)Pois(λ) | Γ(α,β)→Γ(α+∑i=1nXi,β+n)\Gamma(\alpha,\beta) \to \Gamma(\alpha+\sum_{i=1}^n X_i,\beta+n)Γ(α,β)→Γ(α+∑i=1n?Xi?,β+n) |
基于后驗概率預測新的觀測值
基于樣本X={X1,?,Xn}\textbf{X} = \{X_1,\cdots,X_n\}X={X1?,?,Xn?}預測新的觀測值X?X_*X??,只需要根據下面的公式就可以計算出新觀測值的分布:
fX?∣X(x?)=∫Θf(x?∣θ)π(θ∣X)dθf_{X_*|\textbf{X}}(x_*) = \int_{\Theta} f(x_*|\theta)\pi(\theta|\textbf{X})d\thetafX??∣X?(x??)=∫Θ?f(x??∣θ)π(θ∣X)dθ
下面列出了上表共軛分布族的新觀測值分布:
| Ber(p)Ber(p)Ber(p) | Ber(β+n?∑i=1nXiα+β+n)Ber(\frac{\beta + n - \sum_{i=1}^n X_i}{\alpha+\beta+n})Ber(α+β+nβ+n?∑i=1n?Xi??) |
| N(θ,σ02)N(\theta,\sigma_0^2)N(θ,σ02?),σ02\sigma^2_0σ02?已知 | N(λ0θ1+(n/σ02)Xˉλ0+n/σ02,σ02n+λ0σ02+1λ0)N(\frac{\lambda_0\theta_1 + (n/\sigma_0^2)\bar{X}}{\lambda_0+n/\sigma^2_0},\frac{\sigma_0^2}{n+\lambda_0\sigma^2_0}+\frac{1}{\lambda_0})N(λ0?+n/σ02?λ0?θ1?+(n/σ02?)Xˉ?,n+λ0?σ02?σ02??+λ0?1?) |
| Pois(λ)Pois(\lambda)Pois(λ) | Negbin(∑i=1nXi+α,1n+β+1)Negbin(\sum_{i=1}^n X_i +\alpha,\frac{1}{n+\beta+1})Negbin(∑i=1n?Xi?+α,n+β+11?) |
第三個結果是比較意外的,在共軛分布下,新觀測服從負二項分布而不是原來的Poisson分布,這里給一個簡單的推導:
fX?∣X(x?)=∫Θf(x?∣θ)π(θ∣X)dθ=∫0∞λX?X?!e?λλα+∑i=1nXi?1(β+n)α+∑i=1nXiΓ(α+∑i=1nXi)e?(α+∑i=1nXi)λdλ=(β+n)α+∑i=1nXiΓ(α+∑i=1nXi)X?!∫0∞λ∑i=1nXi+α+X??1e?(n+β+1)λdλ=(β+n)α+∑i=1nXiΓ(α+∑i=1nXi)X?!Γ(α+∑i=1nXi+X?)(n+β+1)∑i=1nXi+α+X?=C∑i=1nXi+α+X??1∑i=1nXi+α(n+βn+β+1)n+∑i=1nXi(1n+β+1)X?f_{X_*|\textbf{X}}(x_*) = \int_{\Theta} f(x_*|\theta)\pi(\theta|\textbf{X})d\theta \\ = \int_0^{\infty} \frac{\lambda^{X_*}}{X_*!}e^{-\lambda}\frac{\lambda^{\alpha+\sum_{i=1}^n X_i-1}(\beta+n)^{\alpha+\sum_{i=1}^nX_i}}{\Gamma(\alpha+\sum_{i=1}^nX_i)}e^{-(\alpha+\sum_{i=1}^nX_i)\lambda}d\lambda \\ = \frac{(\beta+n)^{\alpha+\sum_{i=1}^nX_i}}{\Gamma(\alpha+\sum_{i=1}^nX_i)X_{*}!}\int_0^{\infty} \lambda^{\sum_{i=1}^n X_i+\alpha+X_{*}-1}e^{-(n+\beta+1)\lambda}d\lambda \\ = \frac{(\beta+n)^{\alpha+\sum_{i=1}^nX_i}}{\Gamma(\alpha+\sum_{i=1}^nX_i)X_{*}!}\frac{\Gamma(\alpha+\sum_{i=1}^nX_i+X_{*})}{(n+\beta+1)^{\sum_{i=1}^n X_i + \alpha + X_{*}}} \\ = C_{\sum_{i=1}^n X_i + \alpha + X_{*}-1}^{\sum_{i=1}^n X_i + \alpha} \left( \frac{n+\beta}{n+\beta+1} \right)^{n+\sum_{i=1}^n X_i}\left( \frac{1}{n+\beta+1} \right)^{X_*}fX??∣X?(x??)=∫Θ?f(x??∣θ)π(θ∣X)dθ=∫0∞?X??!λX???e?λΓ(α+∑i=1n?Xi?)λα+∑i=1n?Xi??1(β+n)α+∑i=1n?Xi??e?(α+∑i=1n?Xi?)λdλ=Γ(α+∑i=1n?Xi?)X??!(β+n)α+∑i=1n?Xi??∫0∞?λ∑i=1n?Xi?+α+X???1e?(n+β+1)λdλ=Γ(α+∑i=1n?Xi?)X??!(β+n)α+∑i=1n?Xi??(n+β+1)∑i=1n?Xi?+α+X??Γ(α+∑i=1n?Xi?+X??)?=C∑i=1n?Xi?+α+X???1∑i=1n?Xi?+α?(n+β+1n+β?)n+∑i=1n?Xi?(n+β+11?)X??
總結
以上是生活随笔為你收集整理的UA MATH566 统计理论 Bayes统计基础的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH564 概率论 Diric
- 下一篇: UA MATH571A 回归分析 概念与