UA MATH566 统计理论 Fisher信息量的性质上
UA MATH566 統計理論 Fisher信息量的性質上
- Fisher信息量的定義
- Fisher信息量的數學意義
C-R下界是由Fisher統計量定義的,在推導C-R下界的時候,我們只是把下界的逆定義成了Fisher信息量,但尚未探討這個量的本質是什么?為什么要叫它信息量?它有哪些性質?以及怎么計算的問題。這一講我們討論前兩個問題,下一講討論它的性質,計算則留到后續的博客結合例題介紹。
Fisher信息量的定義
某分布族為f(x,θ),θ∈Θf(x,\theta),\theta \in \Thetaf(x,θ),θ∈Θ,假設Θ?R\Theta \subset \mathbb{R}Θ?R,則此時的得分函數關于分布參數是一維的
S(x,θ)=?log?L(θ)?θ=1f(x,θ)?f(x,θ)?θS(x,\theta) = \frac{\partial \log L(\theta)}{\partial \theta} = \frac{1}{f(x,\theta)} \frac{\partial f(x,\theta)}{\partial \theta}S(x,θ)=?θ?logL(θ)?=f(x,θ)1??θ?f(x,θ)?
則它的一階矩為零,并稱它的二階矩為Fisher信息量
E[S(X,θ)]=0,E[S(X,θ)]2=I(θ)E[S(X,\theta)]=0,\ \ E[S(X,\theta)]^2 = I(\theta)E[S(X,θ)]=0,??E[S(X,θ)]2=I(θ)
Fisher信息量的數學意義
下面說明為什么I(θ)I(\theta)I(θ)可以用來衡量信息的多少。在UA MATH636 信息論1 熵中我們介紹了熵、Divergence、互信息等用來衡量信息多少的量,下面我們就來討論一下Fisher信息量與信息論中的這些信息度量之間的關系。
參考UA MATH636 信息論6 微分熵,微分熵的定義是
h(θ)=?E[log?f(x,θ)]=?∫f(x,θ)log?f(x,θ)dxh(\theta) = -E[\log f(x,\theta)] = -\int f(x,\theta) \log f(x,\theta)dxh(θ)=?E[logf(x,θ)]=?∫f(x,θ)logf(x,θ)dx
計算微分熵的差分
Δh=h(θ+Δθ)?h(θ)=?∫f(x,θ)[log?f(x,θ+Δθ)?log?f(x,θ)]dx\Delta h = h(\theta + \Delta\theta) - h(\theta) = -\int f(x,\theta)[ \log f(x,\theta + \Delta\theta)- \log f(x,\theta)]dxΔh=h(θ+Δθ)?h(θ)=?∫f(x,θ)[logf(x,θ+Δθ)?logf(x,θ)]dx
接下來做Taylor展開
log?f(x,θ+Δθ)?log?f(x,θ)=?log?f(x,θ)?θΔθ+12!?2log?f(x,θ)?2θ(Δθ)2+o(Δθ)2\log f(x,\theta + \Delta\theta)- \log f(x,\theta) = \frac{\partial \log f(x,\theta)}{\partial \theta}\Delta \theta +\frac{1}{2!} \frac{\partial^2 \log f(x,\theta)}{\partial^2 \theta}(\Delta \theta)^2 + o(\Delta \theta)^2logf(x,θ+Δθ)?logf(x,θ)=?θ?logf(x,θ)?Δθ+2!1??2θ?2logf(x,θ)?(Δθ)2+o(Δθ)2
下面計算那兩個導數
?log?f(x,θ)?θ=f′(x,θ)f(x,θ),?2log?f(x,θ)?2θ=f′′(x,θ)f(x,θ)?[f′(x,θ)]2f2(x,θ)\frac{\partial \log f(x,\theta)}{\partial \theta} = \frac{f'(x,\theta)}{f(x,\theta)},\ \frac{\partial^2 \log f(x,\theta)}{\partial^2 \theta} = \frac{f''(x,\theta)}{f(x,\theta)}-\frac{[f^{'}(x,\theta)]^2}{f^2(x,\theta)}?θ?logf(x,θ)?=f(x,θ)f′(x,θ)?,??2θ?2logf(x,θ)?=f(x,θ)f′′(x,θ)??f2(x,θ)[f′(x,θ)]2?
把這些結論帶入差分中,
Δh=?∫f(x,θ)[f′(x,θ)f(x,θ)Δθ+12(f′′(x,θ)f(x,θ)?[f′(x,θ)]2f2(x,θ))(Δθ)2+o(Δθ)2]dx\Delta h = -\int f(x,\theta)[ \frac{f'(x,\theta)}{f(x,\theta)}\Delta \theta +\frac{1}{2}(\frac{f''(x,\theta)}{f(x,\theta)}-\frac{[f^{'}(x,\theta)]^2}{f^2(x,\theta)})(\Delta \theta)^2+o(\Delta \theta)^2]dx Δh=?∫f(x,θ)[f(x,θ)f′(x,θ)?Δθ+21?(f(x,θ)f′′(x,θ)??f2(x,θ)[f′(x,θ)]2?)(Δθ)2+o(Δθ)2]dx
我們逐項分析,第一項
∫f(x,θ)f′(x,θ)f(x,θ)Δθdx=E[S(X,θ)]Δθ=0\int f(x,\theta) \frac{f'(x,\theta)}{f(x,\theta)}\Delta \theta dx = E[S(X,\theta)]\Delta \theta = 0∫f(x,θ)f(x,θ)f′(x,θ)?Δθdx=E[S(X,θ)]Δθ=0
最后一項積分后還是高階無窮小量,可以忽略
∫o(Δθ)2dx=o(Δθ)2\int o(\Delta \theta)^2 dx = o(\Delta \theta)^2∫o(Δθ)2dx=o(Δθ)2
第二項中的第一部分
∫f(x,θ)f′′(x,θ)f(x,θ)dx=E[?S(X,θ)?θ]=??θE[S(X,θ)]=0\int f(x,\theta )\frac{f''(x,\theta)}{f(x,\theta)} dx = E[\frac{\partial S(X,\theta)}{\partial \theta}] = \frac{\partial}{\partial \theta}E[S(X,\theta)] = 0∫f(x,θ)f(x,θ)f′′(x,θ)?dx=E[?θ?S(X,θ)?]=?θ??E[S(X,θ)]=0
因此最后只剩下
Δh=12∫f(x,θ)[f′(x,θ)]2f2(x,θ)(Δθ)2dx=E[?log?L(x,θ)?θ?log?L(x,θ)?θ](Δθ)2=12I(θ)(Δθ)2\Delta h = \frac{1}{2} \int f(x,\theta)\frac{[f^{'}(x,\theta)]^2}{f^2(x,\theta)}(\Delta \theta)^2dx \\= E[\frac{\partial \log L(x,\theta)}{\partial \theta}\frac{\partial \log L(x,\theta)}{\partial \theta}](\Delta \theta)^2 = \frac{1}{2}I(\theta)(\Delta \theta)^2Δh=21?∫f(x,θ)f2(x,θ)[f′(x,θ)]2?(Δθ)2dx=E[?θ?logL(x,θ)??θ?logL(x,θ)?](Δθ)2=21?I(θ)(Δθ)2
如果是多維分布,那么
Δh=12ΔθTI(θ)Δθ\Delta h = \frac{1}{2} \Delta \theta^TI(\theta)\Delta \thetaΔh=21?ΔθTI(θ)Δθ
也就是說,熵的差分可以表示為以Fisher信息量為矩陣的二次型。
總結
以上是生活随笔為你收集整理的UA MATH566 统计理论 Fisher信息量的性质上的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH566 统计理论 Cram
- 下一篇: UA MATH566 统计理论 Fish