贝叶斯多元Logistics回归理论基础
貝葉斯多元Logistic回歸理論基礎
- 多元Logistic分布
- 一元Logit模型
- 多元Logistic分布
- t分布近似
- 多元分類數據的似然函數(t-近似)
- 后驗計算
- 第一步:用t分布近似的MCMC算法
- 第二步:重要性調整
原文:Bayesian Multivariate Logistic Regression by O’Brien and Dunson (2004)
多元Logistic分布
一元Logit模型
假設Yi∈{0,1}Y_i \in \{0,1\}Yi?∈{0,1}表示樣本i=1,?,ni = 1,\cdots,ni=1,?,n的類別,并且P(Yi=1)=piP(Y_i=1)=p_iP(Yi?=1)=pi?,則一元Logit模型的形式為
log?pi1?pi=xi′β,β∈Rq×1\log \frac{p_i}{1-p_i}=x_i'\beta,\beta \in \mathbb R^{q \times 1}log1?pi?pi??=xi′?β,β∈Rq×1
可以用輔助變量ZiZ_iZi?改寫這個模型。令Yi=1{Zi>0}Y_i=1\{Z_i>0\}Yi?=1{Zi?>0},并且Zi~L(xi′β,1)Z_i \sim L(x_i'\beta,1)Zi?~L(xi′?β,1)(一元Logistisc分布),即
f(zi)=exp?(?(zi?xi′β))[1+exp?(?(zi?xi′β))]2F(zi)=11+exp?(?(zi?xi′β))f(z_i)=\frac{\exp(-(z_i-x_i'\beta))}{[1+\exp(-(z_i-x_i'\beta))]^2} \\ F(z_i)=\frac{1}{1+\exp(-(z_i-x_i'\beta))}f(zi?)=[1+exp(?(zi??xi′?β))]2exp(?(zi??xi′?β))?F(zi?)=1+exp(?(zi??xi′?β))1?
可以驗證
log?pi1?pi=log?1?F(0)F(0)=log?1?11+exp?(xi′β)11+exp?(xi′β)=xi′β\log \frac{p_i}{1-p_i}=\log \frac{1-F(0)}{F(0)}=\log \frac{1-\frac{1}{1+\exp(x_i'\beta)}}{\frac{1}{1+\exp(x_i'\beta)}}=x_i'\betalog1?pi?pi??=logF(0)1?F(0)?=log1+exp(xi′?β)1?1?1+exp(xi′?β)1??=xi′?β
即用輔助變量改寫后的模型與原模型一致。
如果要把這個模型推廣到多元,比如ppp個類別的情況,仿照一元Logit模型,我們需要引入0-1向量Yi=(Yi1,?,Yip)∈RpY_{i}=(Y_{i1},\cdots,Y_{ip}) \in \mathbb R^pYi?=(Yi1?,?,Yip?)∈Rp,其中Yip=1Y_{ip}=1Yip?=1代表樣本iii屬于第ppp個類別。類似地,我們可以引入輔助變量Zij,j=1,?,pZ_{ij},j=1,\cdots,pZij?,j=1,?,p表示多元Logit模型:
Yij=1{Zij>0}Y_{ij}=1\{Z_{ij}>0\} \\ Yij?=1{Zij?>0}
其中Zij~L(xij′β,1)Z_{ij} \sim L(x_{ij}'\beta,1)Zij?~L(xij′?β,1)(邊緣分布), Xi′=(xi1′,?,xip′)∈Rp×qX_i'=(x_{i1}',\cdots,x_{ip}') \in \mathbb R^{p \times q}Xi′?=(xi1′?,?,xip′?)∈Rp×q。直接使用這個模型隱含的假設是Zi1,?,ZipZ_{i1},\cdots,Z_{ip}Zi1?,?,Zip?互相獨立,而想要在模型中引入不同類別之間的相關性,則需要建立起定義多元Logistic分布的一般方法。
多元Logistic分布
引理1:假設XXX服從一個連續分布,它的CDF為FFF,則F(X)~Unif(0,1)F(X) \sim Unif(0,1)F(X)~Unif(0,1)
引理2:假設Y~Unif(0,1)Y \sim Unif(0,1)Y~Unif(0,1),則μ+log?Y1?Y~L(μ,1)\mu+\log \frac{Y}{1-Y} \sim L(\mu,1)μ+log1?YY?~L(μ,1)
根據引理1與引理2,我們可以獲得定義多元Logistic分布的一般方法:
用這個方法定義的多元Logistic分布,不同類別之間的相關性由X?\vec XX的相關性決定。
t分布近似
一種可行的方案是假設X?=(X1,?,Xp)\vec X=(X_1,\cdots,X_p)X=(X1?,?,Xp?)服從ppp元自由度為ν\nuν,均值為000,scale matrix為RRR的多元t分布,記為X?~Tp,v(0,R)\vec X \sim T_{p,v}(0,R)X~Tp,v?(0,R),它的密度函數為
f(x?∣0,R)=Γ(ν+p2)Γ(ν2)(νπ)p2∣R∣12(1+1νx?′R?1x?)?ν+p2f(\vec x|0,R)= \frac{\Gamma(\frac{\nu+p}{2})}{\Gamma(\frac{\nu}{2})(\nu \pi)^{\frac{p}{2}}|R|^{\frac{1}{2}}} \left( 1+ \frac{1}{\nu}\vec x'R^{-1}\vec x \right)^{-\frac{\nu+p}{2}}f(x∣0,R)=Γ(2ν?)(νπ)2p?∣R∣21?Γ(2ν+p?)?(1+ν1?x′R?1x)?2ν+p?
它的任意分量XiX_iXi?服從自由度為ν\nuν的一元t分布,記CDF為TνT_{\nu}Tν?。定義Z?=(Z1,?,Zp)\vec Z=(Z_1,\cdots,Z_p)Z=(Z1?,?,Zp?),其中Zi=μi+log?Tν(Xi)1?Tν(Xi)Z_i=\mu_i+\log \frac{T_{\nu}(X_i)}{1-T_{\nu}(X_i)}Zi?=μi?+log1?Tν?(Xi?)Tν?(Xi?)?,則Z?~Lp,ν(μ?,R)\vec Z \sim L_{p,\nu}(\vec{\mu},R)Z~Lp,ν?(μ?,R)。這個方案的優勢在于1993年,Albert and Chib發現L1,ν(μ,R)L_{1,\nu}(\mu,R)L1,ν?(μ,R)與T1,ν(μ,σ2R)T_{1,\nu}(\mu,\sigma^2R)T1,ν?(μ,σ2R)非常接近,以兩個密度函數的L2 distance最小作為標準的話,可以取ν=7.3\nu=7.3ν=7.3,σ2=π2ν?23ν\sigma^2=\pi^2\frac{\nu-2}{3\nu}σ2=π23νν?2?(下文后驗相關計算均用這兩個取值)。因此,用這個方案建模時的計算思路為,根據t分布作為總體分布,用Gibbs采樣得到后驗樣本,在用后驗樣本進行推斷時,用重要性權重對樣本進行調整。
多元分類數據的似然函數(t-近似)
假設一組分類數據為{(Xi,yi)}\{(X_i,y_i)\}{(Xi?,yi?)},其中yiy_iyi?是p維的0-1向量,代表類別信息,XiX_iXi?是p×qp \times qp×q維的矩陣,代表解釋變量,根據上述推導,樣本的似然函數為
L(β,R)=∏i=1nP(Yi=yi)=∏i=1n∫[∏j=1p1{zij>0}yij{zij<0}1?yij]Lp,v(zi∣Xiβ,R)dzi≈∏i=1n∫[∏j=1p1{zij>0}yij{zij<0}1?yij]Tp,v(zi∣Xiβ,σ2R)dziL(\beta,R)=\prod_{i=1}^n P(Y_i=y_i) \\ = \prod_{i=1}^n \int \left[ \prod_{j=1}^p 1\{z_{ij}>0\}^{y_{ij}}\{z_{ij}<0\}^{1-y_{ij}} \right]L_{p,v}(z_i|X_i\beta,R)dz_i \\ \approx \prod_{i=1}^n \int \left[ \prod_{j=1}^p 1\{z_{ij}>0\}^{y_{ij}}\{z_{ij}<0\}^{1-y_{ij}} \right]T_{p,v}(z_i|X_i\beta,\sigma^2R)dz_iL(β,R)=i=1∏n?P(Yi?=yi?)=i=1∏n?∫[j=1∏p?1{zij?>0}yij?{zij?<0}1?yij?]Lp,v?(zi?∣Xi?β,R)dzi?≈i=1∏n?∫[j=1∏p?1{zij?>0}yij?{zij?<0}1?yij?]Tp,v?(zi?∣Xi?β,σ2R)dzi?
后驗計算
用Normal-Inverse Gamma Mixture代替似然中的t分布,得到的模型如下:
yij=1{zij>0}zi∣β,R,?i~Np(Xiβ,σ2?i?1R)?i∣β,R~Gamma(0.5ν,0.5ν)y_{ij}=1\{z_{ij}>0\} \\ z_i|\beta,R ,\phi_i \sim N_p(X_i\beta,\sigma^2\phi^{-1}_iR) \\ \phi_i|\beta, R \sim Gamma(0.5\nu,0.5\nu)yij?=1{zij?>0}zi?∣β,R,?i?~Np?(Xi?β,σ2?i?1?R)?i?∣β,R~Gamma(0.5ν,0.5ν)
引入β\betaβ與RRR的先驗:β~Nq(β0,Σβ)\beta \sim N_q(\beta_0,\Sigma_{\beta})β~Nq?(β0?,Σβ?),RRR的先驗可以是支撐集為所有相關性系數矩陣上的任意分布。
第一步:用t分布近似的MCMC算法
第二步:重要性調整
用{(β(t),R(t))}t=1T\{(\beta^{(t)},R^{(t)})\}_{t=1}^T{(β(t),R(t))}t=1T?表示一組后驗樣本,則估計后驗均值Eh(β,R)Eh(\beta,R)Eh(β,R)的公式為
∑t=1Th(β(t),R(t))T\sum_{t=1}^T \frac{h(\beta^{(t)},R^{(t)})}{T}t=1∑T?Th(β(t),R(t))?
但是因為這組后驗樣本是根據近似的總體分布導出的后驗分布中采樣得到的,所以我們還需要根據重要性權重對樣本進行調整,用w(t)w^{(t)}w(t)表示第ttt個后驗樣本的權重,π(β,R,z∣y)\pi(\beta,R,z|y)π(β,R,z∣y)代表近似的似然導出的后驗,π(β,R,z∣y)\pi(\beta,R,z|y)π(β,R,z∣y)代表用真實的似然導出的后驗,則
其中
eij=Tν?1(ezij?xij′β(t)1+ezij?xij′β(t))e_{ij}=T_{\nu}^{-1}(\frac{e^{z_{ij}-x_{ij}'\beta^{(t)}}}{1+e^{z_{ij}-x_{ij}'\beta^{(t)}}})eij?=Tν?1?(1+ezij??xij′?β(t)ezij??xij′?β(t)?)
總結
以上是生活随笔為你收集整理的贝叶斯多元Logistics回归理论基础的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH524 复变函数13 补充
- 下一篇: UA OPTI544 量子光学14 量子