贝叶斯统计:Inverted Beta与Three Parameter Beta分布
貝葉斯統計:Inverted Beta與Three Parameter Beta分布
- Beta分布
- Inverted Beta與Three Parameter Beta
- TPB-Normal Mixture
這一篇介紹兩個基于beta分布延申出來的在貝葉斯統計中非常常用的分布——Inverted Beta(IB)與Three Parameter Beta(TPB)。
Beta分布
Beta分布記為Beta(α,β)Beta(\alpha,\beta)Beta(α,β),它的概率密度是
f(x)=1B(α,β)xα?1(1?x)β?1,x∈(0,1)B(α,β)=Γ(α)Γ(β)Γ(α+β),α,β>0f(x) = \frac{1}{\Beta (\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1},x \in (0,1) \\ B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)},\alpha,\beta>0f(x)=B(α,β)1?xα?1(1?x)β?1,x∈(0,1)B(α,β)=Γ(α+β)Γ(α)Γ(β)?,α,β>0
其中Γ()\Gamma()Γ()是gamma函數,B()\Beta()B()是beta函數。在貝葉斯統計中,如果樣本服從二項分布,則Beta分布是樣本的共軛分布;二項分布的多元推廣是多項分布,Beta分布的多元推廣是Dirichlet分布,而Dirichlet分布也是多項分布樣本的共軛分布。
Beta分布的參數α,β\alpha,\betaα,β可以確定唯一一個Beta分布,但α,β\alpha,\betaα,β可以用其他參數來表示,用兩個參數表示Beta分布的表示方法被稱為Two Parameter Beta,用四個參數表示Beta分布的表示方法被稱為Four Parameter Beta,下面介紹兩個常見的兩參數表示:
均值與樣本量表示
用μ\muμ表示Beta(α,β)Beta(\alpha,\beta)Beta(α,β)的均值,用ν\nuν表示α+β\alpha+\betaα+β,在貝葉斯統計中對于α+β\alpha+\betaα+β的解釋與樣本量有關,所以這種兩參數表示被稱為均值與樣本量表示,
α=μν,β=(1?μ)ν\alpha=\mu \nu, \beta=(1-\mu)\nuα=μν,β=(1?μ)ν
均值與方差
均值與方差是最容易想到的兩參數表示了,用μ\muμ表示Beta(α,β)Beta(\alpha,\beta)Beta(α,β)的均值,varvarvar表示Beta(α,β)Beta(\alpha,\beta)Beta(α,β)的方差,
α=μ(μ(1?μ)var?1),β=(1?μ)(μ(1?μ)var?1)\alpha=\mu \left( \frac{\mu(1-\mu)}{var}-1 \right),\beta=(1-\mu) \left( \frac{\mu(1-\mu)}{var}-1 \right)α=μ(varμ(1?μ)??1),β=(1?μ)(varμ(1?μ)??1)
因為α+β>0\alpha+\beta>0α+β>0,有var<μ(1?μ)var<\mu(1-\mu)var<μ(1?μ)。
四參數beta
對xxx做變換,y=x(c?a)+ay=x(c-a)+ay=x(c?a)+a,y∈(a,c)y \in (a,c)y∈(a,c),使得BetaBetaBeta分布的支撐集變為(a,c)(a,c)(a,c),變換后概率密度為
f(y;α,β,a,c)=(y?ac?a)α?1(c?yc?a)β?1(c?a)B(α,β)f(y;\alpha,\beta,a,c) = \frac{(\frac{y-a}{c-a})^{\alpha-1} (\frac{c-y}{c-a})^{\beta-1}}{(c-a)\Beta(\alpha,\beta)}f(y;α,β,a,c)=(c?a)B(α,β)(c?ay?a?)α?1(c?ac?y?)β?1?
這個分布被稱為四參數beta,它的作用是把Beta分布從(0,1)(0,1)(0,1)推廣到更大或者更小的區間(a,c)(a,c)(a,c)上。
Inverted Beta與Three Parameter Beta
Inverted Beta分布也叫第二類Beta分布(Beta density of the second kind),記為IB(β,α)IB(\beta,\alpha)IB(β,α),其中α,β>0\alpha,\beta>0α,β>0,假設X~IB(β,α)X \sim IB(\beta,\alpha)X~IB(β,α),它的概率密度是
f(x)=1B(α,β)xα?1(1+x)?(α+β),x>0f(x) =\frac{1}{\Beta(\alpha,\beta)} x^{\alpha-1}(1+x)^{-(\alpha+\beta)},x>0f(x)=B(α,β)1?xα?1(1+x)?(α+β),x>0
下表是Kowal et. al (2019) Dynamic Shrinkage Process的總結:
Three Parameter Beta分布記為TPB(α,β,τ2)TPB(\alpha,\beta,\tau^2)TPB(α,β,τ2),如果X~TPB(α,β,τ2)X \sim TPB(\alpha,\beta,\tau^2)X~TPB(α,β,τ2),它的概率密度是
f(x)=(τ2)βB(α,β)xβ?1(1?x)α?1[1?(1?τ2)x]?(α+β),x∈(0,1)f(x) = \frac{(\tau^2)^{\beta}}{\Beta(\alpha,\beta)}x^{\beta-1}(1-x)^{\alpha-1}[1-(1-\tau^2)x]^{-(\alpha+\beta)} ,x \in (0,1)f(x)=B(α,β)(τ2)β?xβ?1(1?x)α?1[1?(1?τ2)x]?(α+β),x∈(0,1)
假設τ=1\tau=1τ=1,則
f(x)=xβ?1(1?x)α?1B(α,β)f(x)=\frac{x^{\beta-1}(1-x)^{\alpha-1}}{\Beta(\alpha,\beta)}f(x)=B(α,β)xβ?1(1?x)α?1?
也就是TPB(α,β,1)=Beta(β,α)TPB(\alpha,\beta,1)=Beta(\beta,\alpha)TPB(α,β,1)=Beta(β,α)。為了研究Beta分布、IB與TPB之間的關系,再引入一個輔助分布,記為Z(α,β,μ,σ)Z(\alpha,\beta,\mu,\sigma)Z(α,β,μ,σ),它的概率密度為
f(z)=[exp?(z?μσ)]α[1+exp?(z?μσ)]?(α+β)σB(α,β),z∈Rf(z)=\frac{[\exp(\frac{z-\mu}{\sigma})]^{\alpha}[1+\exp(\frac{z-\mu}{\sigma})]^{-(\alpha+\beta)}}{\sigma \Beta(\alpha,\beta)},z \in \mathbb{R}f(z)=σB(α,β)[exp(σz?μ?)]α[1+exp(σz?μ?)]?(α+β)?,z∈R
性質1 如果X~IB(α,β)X \sim IB(\alpha,\beta)X~IB(α,β),則11+X~Beta(α,β)\frac{1}{1+X} \sim Beta(\alpha,\beta)1+X1?~Beta(α,β)
性質2 如果X~IB(α,β)X \sim IB(\alpha,\beta)X~IB(α,β),則log?(X)~Z(α,β,0,1)\log(X) \sim Z(\alpha,\beta,0,1)log(X)~Z(α,β,0,1)
性質3 如果X~Z(α,β,μ,1)X \sim Z(\alpha,\beta,\mu,1)X~Z(α,β,μ,1),則11+eX~TPB(α,β,eμ)\frac{1}{1+e^X} \sim TPB(\alpha,\beta,e^{\mu})1+eX1?~TPB(α,β,eμ)
證明
eXe^XeX的密度核為
y?1[elog?(y)?μ]α[1+elog?(y)?μ]?(α+β)∝yα?1(1+y/eμ)?(α+β)y^{-1}[e^{\log(y)-\mu}]^{\alpha}[1+e^{\log(y)-\mu}]^{-(\alpha+\beta)} \propto y^{\alpha-1}(1+y/e^{\mu})^{-(\alpha+\beta)}y?1[elog(y)?μ]α[1+elog(y)?μ]?(α+β)∝yα?1(1+y/eμ)?(α+β)
假設μ=0\mu=0μ=0,這個密度核為
yα?1(1+y)?(α+β)y^{\alpha-1}(1+y)^{-(\alpha+\beta)}yα?1(1+y)?(α+β)
這是IB(α,β)IB(\alpha,\beta)IB(α,β)的密度核,所以Z(α,β,0,1)=IB(α,β)Z(\alpha,\beta,0,1)=IB(\alpha,\beta)Z(α,β,0,1)=IB(α,β),性質二得證。
11+eX\frac{1}{1+e^X}1+eX1?的密度核為
z?2(z?1?1)α?1[1+(z?1?1)/eμ]?(α+β)∝z?2?(α?1)(1?z)α?1[z?1(zeμ+(1?z))]?(α+β)∝(1?z)α?1zβ?1[zeμ+(1?z)]?(α+β)\begin{aligned} & z^{-2}(z^{-1}-1)^{\alpha-1}[1+(z^{-1}-1)/e^{\mu}]^{-(\alpha+\beta)} \\ \propto & z^{-2-(\alpha-1)}(1-z)^{\alpha-1}[z^{-1}(ze^{\mu}+(1-z))]^{-(\alpha+\beta)} \\ \propto & (1-z)^{\alpha-1}z^{\beta-1}[ze^{\mu}+(1-z)]^{-(\alpha+\beta)}\end{aligned}∝∝?z?2(z?1?1)α?1[1+(z?1?1)/eμ]?(α+β)z?2?(α?1)(1?z)α?1[z?1(zeμ+(1?z))]?(α+β)(1?z)α?1zβ?1[zeμ+(1?z)]?(α+β)?
因此11+eX~TPB(α,β,eμ)\frac{1}{1+e^X} \sim TPB(\alpha,\beta,e^{\mu})1+eX1?~TPB(α,β,eμ),性質三得證,結合性質二與性質三可得性質一。
TPB-Normal Mixture
之所以要引入TPB這個看起來復雜又奇怪的分布是因為它在Gaussian Mixture中作為先驗有非常好的性質。
定理
在正態均值模型μ~N(0,λ2τ2)\mu \sim N(0,\lambda^2 \tau^2)μ~N(0,λ2τ2)中,如果λ2~IB(α,β)\lambda^2 \sim IB(\alpha,\beta)λ2~IB(α,β),則給定τ\tauτ時,relevant amount of shrinkage κ=11+λ2τ2~TPB(α,β,τ2)\kappa=\frac{1}{1+\lambda^2\tau^2} \sim TPB(\alpha,\beta,\tau^2)κ=1+λ2τ21?~TPB(α,β,τ2)。
證明
如果τ=1\tau=1τ=1,根據前文性質二、三可以直接得到這個定理;如果τ≠1\tau \ne 1τ?=1,考慮x=λ2τ2x=\lambda^2 \tau^2x=λ2τ2的密度核:
(x/τ2)α?1(1+x/τ2)?(α+β)(x/\tau^2)^{\alpha-1}(1+x/\tau^2)^{-(\alpha+\beta)}(x/τ2)α?1(1+x/τ2)?(α+β)
然后考慮z=11+xz=\frac{1}{1+x}z=1+x1?的密度核:
z?2(z?1?1)α?1[1+(z?1?1)/τ2]?(α+β)\begin{aligned} & z^{-2}(z^{-1}-1)^{\alpha-1}[1+(z^{-1}-1)/\tau^2]^{-(\alpha+\beta)} \end{aligned}?z?2(z?1?1)α?1[1+(z?1?1)/τ2]?(α+β)?
所以κ=11+λ2τ2~TPB(α,β,τ2)\kappa=\frac{1}{1+\lambda^2\tau^2} \sim TPB(\alpha,\beta,\tau^2)κ=1+λ2τ21?~TPB(α,β,τ2)。
總結
以上是生活随笔為你收集整理的贝叶斯统计:Inverted Beta与Three Parameter Beta分布的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 电动力学每日一题 2021/10/11
- 下一篇: 电动力学每日一题 2021/10/12