UA MATH636 信息论6 微分熵
UA MATH636 信息論6 微分熵
- Differential Entropy
- Conditional Differential Entropy
- Differential Entropy of Gaussian r.v.
- 信源編碼基礎(chǔ)
- Typical Set
- 數(shù)據(jù)壓縮
之前討論的熵都是基于離散型隨機(jī)變量討論的,現(xiàn)在考慮基于連續(xù)型隨機(jī)變量來定義熵。假設(shè) XXX是連續(xù)型隨機(jī)變量,概率密度函數(shù)為 f(x)f(x)f(x),定義 XXX的支撐集為
Supp(X)={x:f(x)>0}Supp(X) = \{x:f(x)>0\}Supp(X)={x:f(x)>0}
Differential Entropy
定義微分熵為
h(X)=?∫Supp(X)f(x)ln?f(x)dxh(X)=-\int_{Supp(X)}f(x)\ln f(x) dxh(X)=?∫Supp(X)?f(x)lnf(x)dx
因?yàn)?span id="ze8trgl8bvbq" class="katex--inline">f(x)f(x)f(x)要用來做對(duì)數(shù)運(yùn)算,所以要排除掉f(x)=0f(x)=0f(x)=0的部分,一般就把這個(gè)積分直接定義在XXX的支撐集上了。
例1(均勻分布的微分熵)
如果X~U[0,a]X \sim U[0,a]X~U[0,a],則f(x)=1af(x)=\frac{1}{a}f(x)=a1?,
h(X)=?∫0a1aln?1adx=ln?ah(X) = -\int_0^a \frac{1}{a} \ln \frac{1}{a} dx = \ln ah(X)=?∫0a?a1?lna1?dx=lna
與離散型隨機(jī)變量的熵不同,微分熵可能為負(fù)。在這個(gè)例子中,如果0<a<10<a<10<a<1,h(X)<0h(X)<0h(X)<0。另外,eh(X)e^{h(X)}eh(X)表示支撐集Supp(X)Supp(X)Supp(X)的Lebesgue測(cè)度,即
eh(X)=∣Supp(X)∣e^{h(X)} = |Supp(X)|eh(X)=∣Supp(X)∣
在這個(gè)例子中,eh(X)=ae^{h(X)}=aeh(X)=a,aaa是區(qū)間[0,a][0,a][0,a]的Lebesgue測(cè)度。
例2(正態(tài)分布的微分熵)
如果X~N(0,σ2)X \sim N(0,\sigma^2)X~N(0,σ2),則
f(x)=12πσexp?(?x22σ2)ln?f(x)=?x22σ2?ln?2πσf(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp(-\frac{x^2}{2\sigma^2}) \\ \ln f(x) = -\frac{x^2}{2\sigma^2} - \ln \sqrt{2 \pi} \sigmaf(x)=2π?σ1?exp(?2σ2x2?)lnf(x)=?2σ2x2??ln2π?σ
支撐集為Supp(X)=RSupp(X)=\mathbb{R}Supp(X)=R,從而
h(X)=?∫?∞∞f(x)ln?f(x)dx=∫?∞∞[x22σ2+ln?2πσ]f(x)dx=EX22σ2+ln?2πσ=ln?2πσ+12=12ln?2πeσ2h(X) = -\int_{-\infty}^{\infty} f(x) \ln f(x) dx \\ = \int_{-\infty}^{\infty} [\frac{x^2}{2\sigma^2} + \ln \sqrt{2 \pi} \sigma]f(x) dx \\ = \frac{EX^2}{2\sigma^2} + \ln \sqrt{2 \pi}\sigma = \ln \sqrt{2 \pi}\sigma + \frac{1}{2} = \frac{1}{2} \ln 2 \pi e \sigma^2h(X)=?∫?∞∞?f(x)lnf(x)dx=∫?∞∞?[2σ2x2?+ln2π?σ]f(x)dx=2σ2EX2?+ln2π?σ=ln2π?σ+21?=21?ln2πeσ2
根據(jù)這個(gè)函數(shù),如果σ2→0\sigma^2 \to 0σ2→0,正態(tài)分布的概率密度函數(shù)趨近于delta函數(shù)δ(x)\delta(x)δ(x),此時(shí)h(X)→?∞h(X) \to -\inftyh(X)→?∞。
例3(離散型隨機(jī)變量的微分熵)
如果XXX是離散型隨機(jī)變量,分布為p(xi),i=1,2,?,np(x_i),i=1,2,\cdots,np(xi?),i=1,2,?,n。這個(gè)分布的概率密度可以表示為
f(x)=∑i=1np(xi)δ(xi)f(x) = \sum_{i=1}^n p(x_i)\delta(x_i)f(x)=i=1∑n?p(xi?)δ(xi?)
因此h(X)→?∞h(X) \to -\inftyh(X)→?∞。另一種思考方式更簡(jiǎn)單,因?yàn)?span id="ze8trgl8bvbq" class="katex--inline">∣Supp(X)∣=0|Supp(X)|=0∣Supp(X)∣=0,所以h(X)=ln?∣Supp(X)∣→?∞h(X) = \ln |Supp(X)| \to -\inftyh(X)=ln∣Supp(X)∣→?∞。
Conditional Differential Entropy
假設(shè)(X,Y)(X,Y)(X,Y)是二元連續(xù)型隨機(jī)變量,則joint differential entropy為
h(X,Y)=?∫Supp(X,Y)f(x,y)ln?f(x,y)dxdyh(X,Y) = -\int_{Supp(X,Y)}f(x,y)\ln f(x,y) dxdyh(X,Y)=?∫Supp(X,Y)?f(x,y)lnf(x,y)dxdy
由此可以定義conditional differential entropy
h(X∣Y)=?∫Supp(X,Y)f(x,y)ln?f(x∣y)dxdy=?∫Supp(X,Y)f(x,y)ln?f(x,y)dxdy+∫Supp(X,Y)f(x,y)ln?f(y)dxdy=h(X,Y)?h(Y)h(X|Y) = -\int_{Supp(X,Y)}f(x,y)\ln f(x|y) dxdy \\ = -\int_{Supp(X,Y)}f(x,y)\ln f(x,y) dxdy + \int_{Supp(X,Y)}f(x,y)\ln f(y) dxdy \\ = h(X,Y) - h(Y)h(X∣Y)=?∫Supp(X,Y)?f(x,y)lnf(x∣y)dxdy=?∫Supp(X,Y)?f(x,y)lnf(x,y)dxdy+∫Supp(X,Y)?f(x,y)lnf(y)dxdy=h(X,Y)?h(Y)
這說明鏈?zhǔn)椒▌t仍然成立。K-L Divergence為
D(f∣∣g)=∫Supp(X)f(x)ln?f(x)g(x)dxD(f||g) = \int_{Supp(X)} f(x)\ln \frac{f(x)}{g(x)} dxD(f∣∣g)=∫Supp(X)?f(x)lng(x)f(x)?dx
互信息為
I(X;Y)=h(X)?h(X∣Y)=h(Y)?h(Y∣X)=D(f(x,y)∣∣f(x)f(y))I(X;Y) = h(X)- h(X|Y) = h(Y)-h(Y|X) = D(f(x,y)||f(x)f(y))I(X;Y)=h(X)?h(X∣Y)=h(Y)?h(Y∣X)=D(f(x,y)∣∣f(x)f(y))
Differential Entropy of Gaussian r.v.
假設(shè)X~Nn(μ,Σ)X \sim N_n(\mu,\Sigma)X~Nn?(μ,Σ),則
h(X)=12ln?((2πe)ndet?(Σ))h(X) = \frac{1}{2} \ln ((2\pi e)^n \det(\Sigma))h(X)=21?ln((2πe)ndet(Σ))
我們都知道μ\muμ是位置參數(shù),它居然是對(duì)entropy沒有貢獻(xiàn)的,entropy完全取決于形狀參數(shù),下面推導(dǎo)一下這個(gè)式子。
f(x)=(2π)?n/2det?(Σ)?1/2exp?(?12(x?μ)TΣ?1(x?μ))f(x) = (2\pi)^{-n/2} \det(\Sigma)^{-1/2} \exp \left( -\frac{1}{2} (x - \mu)^T \Sigma^{-1} (x-\mu) \right)f(x)=(2π)?n/2det(Σ)?1/2exp(?21?(x?μ)TΣ?1(x?μ))
計(jì)算
h(X)=?∫Xf(x)ln?f(x)dx=?∫X(?12(x?μ)TΣ?1(x?μ)?12ln?((2π)ndet?(Σ)))f(x)dxh(X) = -\int_{\mathcal{X}} f(x) \ln f(x) dx \\ = -\int_{\mathcal{X}} \left( -\frac{1}{2} (x - \mu)^T \Sigma^{-1} (x-\mu) - \frac{1}{2} \ln ((2\pi )^n \det(\Sigma))\right)f(x)dxh(X)=?∫X?f(x)lnf(x)dx=?∫X?(?21?(x?μ)TΣ?1(x?μ)?21?ln((2π)ndet(Σ)))f(x)dx
第二項(xiàng)為
∫X(12ln?((2π)ndet?(Σ)))f(x)dx=12ln?((2π)ndet?(Σ))\int_{\mathcal{X}} \left( \frac{1}{2} \ln ((2\pi )^n \det(\Sigma))\right)f(x)dx = \frac{1}{2} \ln ((2\pi )^n \det(\Sigma))∫X?(21?ln((2π)ndet(Σ)))f(x)dx=21?ln((2π)ndet(Σ))
第一項(xiàng)為
∫X(12(x?μ)TΣ?1(x?μ))f(x)dx=12E[(x?μ)TΣ?1(x?μ)]=12E[tr((x?μ)TΣ?1(x?μ))]=12E[tr(Σ?1(x?μ)(x?μ)T)]=12tr(Σ?1E[(x?μ)(x?μ)T])=12trIn=n2\int_{\mathcal{X}} \left( \frac{1}{2} (x - \mu)^T \Sigma^{-1} (x-\mu) \right)f(x)dx \\ = \frac{1}{2}E\left[(x - \mu)^T \Sigma^{-1} (x-\mu) \\\right] \\ = \frac{1}{2}E\left[ tr((x - \mu)^T \Sigma^{-1} (x-\mu) ) \right] \\ = \frac{1}{2}E\left[ tr( \Sigma^{-1}(x - \mu) (x-\mu)^T ) \right] \\ = \frac{1}{2} tr( \Sigma^{-1}E[(x - \mu) (x-\mu)^T ]) = \frac{1}{2} trI_n = \frac{n}{2} ∫X?(21?(x?μ)TΣ?1(x?μ))f(x)dx=21?E[(x?μ)TΣ?1(x?μ)]=21?E[tr((x?μ)TΣ?1(x?μ))]=21?E[tr(Σ?1(x?μ)(x?μ)T)]=21?tr(Σ?1E[(x?μ)(x?μ)T])=21?trIn?=2n?
因此
h(X)=n2+12ln?((2π)ndet?(Σ))=12ln?((2πe)ndet?(Σ))h(X) = \frac{n}{2} + \frac{1}{2} \ln ((2\pi )^n \det(\Sigma)) = \frac{1}{2} \ln ((2\pi e)^n \det(\Sigma)) h(X)=2n?+21?ln((2π)ndet(Σ))=21?ln((2πe)ndet(Σ))
這些結(jié)論以后在考察Gauss信道的時(shí)候會(huì)很有用。
例4(二元正態(tài)分布的互信息)
假設(shè)X,Y~N(μ,σ2)X,Y \sim N(\mu,\sigma^2)X,Y~N(μ,σ2),并且Corr(X,Y)=ρCorr(X,Y)=\rhoCorr(X,Y)=ρ,則
h(X)=h(Y)=12ln?2πeσ2h(X,Y)=12ln?[(2πe)2σ4(1?ρ2)]I(X;Y)=h(X)+h(Y)?h(X,Y)=?12ln?(1?ρ2)h(X)=h(Y) = \frac{1}{2} \ln 2 \pi e \sigma^2 \\ h(X,Y) = \frac{1}{2} \ln [(2 \pi e)^2 \sigma^4(1-\rho^2)] \\ I(X;Y) = h(X)+h(Y)-h(X,Y) = -\frac{1}{2} \ln (1-\rho^2)h(X)=h(Y)=21?ln2πeσ2h(X,Y)=21?ln[(2πe)2σ4(1?ρ2)]I(X;Y)=h(X)+h(Y)?h(X,Y)=?21?ln(1?ρ2)
信源編碼基礎(chǔ)
Typical Set
假設(shè)總體f(x)f(x)f(x)的一組簡(jiǎn)單隨機(jī)樣本記為{X1,?,Xn}\{X_1,\cdots,X_n\}{X1?,?,Xn?},可以將AEP直接推廣到連續(xù)的情況:
?1nln?f(x1,?,xn)→ph(X)-\frac{1}{n} \ln f(x_1,\cdots,x_n) \to_p h(X)?n1?lnf(x1?,?,xn?)→p?h(X)
也可以類似地定義typical set:
A?(n)={(x1,?,xn):∣?1nln?f(x1,?,xn)?h(X)∣≤?}A_{\epsilon}^{(n)} = \{(x_1,\cdots,x_n):|-\frac{1}{n} \ln f(x_1,\cdots,x_n)-h(X)| \le \epsilon\}A?(n)?={(x1?,?,xn?):∣?n1?lnf(x1?,?,xn?)?h(X)∣≤?}
離散情況下我們考察的是typical set包含的元素?cái)?shù)目,連續(xù)情況下我們關(guān)注typical set的測(cè)度,通常我們計(jì)算typical set的Lebesgue測(cè)度。下面給出typical set的性質(zhì):
第一條可以用AEP證,與離散情況類似,這里給出第二條的證明:
1=∫Supp(X)nf(x1,?,xn)dx1?dxn≥∫A?(n)f(x1,?,xn)dx1?dxn≥∫A?(n)e?n(h(X)+?)dx1?dxn=e?n(h(X)+?)∣A?(n)∣1 = \int_{Supp(X)^n} f(x_1,\cdots,x_n) dx_1 \cdots dx_n \\ \ge \int_{A_{\epsilon}^{(n)}} f(x_1,\cdots,x_n) dx_1 \cdots dx_n \\ \ge \int_{A_{\epsilon}^{(n)}} e^{-n(h(X)+\epsilon)} dx_1 \cdots dx_n = e^{-n(h(X)+\epsilon)} |A_{\epsilon}^{(n)}|1=∫Supp(X)n?f(x1?,?,xn?)dx1??dxn?≥∫A?(n)??f(x1?,?,xn?)dx1??dxn?≥∫A?(n)??e?n(h(X)+?)dx1??dxn?=e?n(h(X)+?)∣A?(n)?∣
這樣就證明了第二條的上界,下界也是類似的,用上性質(zhì)1就可以證了。這兩條性質(zhì)告訴我們,包含大部分概率(即1??1-\epsilon1??)的序列的集合中Lebesgue測(cè)度最小為enh(X)e^{nh(X)}enh(X)。
數(shù)據(jù)壓縮
實(shí)際上即使是對(duì)連續(xù)信號(hào),計(jì)算機(jī)處理時(shí)也需要做quantize。對(duì)Supp(X)Supp(X)Supp(X)做分割,假設(shè)按每個(gè)bin的長度為Δ\DeltaΔ進(jìn)行分割來做離散化,定義
Xd=xi,ifxi≤X<xi+ΔX_d = x_i,if\ x_i\le X < x_i + \DeltaXd?=xi?,if?xi?≤X<xi?+Δ
從而
P(Xd=xi)=P(xi≤X<xi+Δ)≈f(xi)ΔP(X_d=x_i) = P(x_i\le X < x_i + \Delta) \approx f(x_i) \DeltaP(Xd?=xi?)=P(xi?≤X<xi?+Δ)≈f(xi?)Δ
XdX_dXd?的熵(離散型隨機(jī)變量的熵)為
H(Xd)=?∑i=?∞∞f(xi)Δln?f(xi)Δ=?∑i=?∞∞f(xi)Δln?f(xi)?ln?ΔH(X_d) = - \sum_{i=-\infty}^{\infty} f(x_i)\Delta \ln f(x_i) \Delta \\ = - \sum_{i=-\infty}^{\infty} f(x_i)\Delta \ln f(x_i) - \ln \DeltaH(Xd?)=?i=?∞∑∞?f(xi?)Δlnf(xi?)Δ=?i=?∞∑∞?f(xi?)Δlnf(xi?)?lnΔ
簡(jiǎn)單變形一下,
H(Xd)+ln?Δ=?∑i=?∞∞f(xi)Δln?f(xi)H(X_d) + \ln \Delta = - \sum_{i=-\infty}^{\infty} f(x_i)\Delta \ln f(x_i)H(Xd?)+lnΔ=?i=?∞∑∞?f(xi?)Δlnf(xi?)
這個(gè)分割的話,當(dāng)Δ→0\Delta \to 0Δ→0,
H(Xd)+ln?Δ→H(Xd)?∑i=?∞∞f(xi)Δln?f(xi)→h(X)H(X_d) + \ln \Delta \to H(X_d) \\ - \sum_{i=-\infty}^{\infty} f(x_i)\Delta \ln f(x_i) \to h(X)H(Xd?)+lnΔ→H(Xd?)?i=?∞∑∞?f(xi?)Δlnf(xi?)→h(X)
因此,如果我們?nèi)∽銐蛐〉?span id="ze8trgl8bvbq" class="katex--inline">Δ\DeltaΔ,可以做近似
H(Xd)=h(X)?ln?ΔH(X_d) = h(X) - \ln \DeltaH(Xd?)=h(X)?lnΔ
例如取Δ=e?n\Delta = e^{-n}Δ=e?n,則
H(Xd)=h(X)+nH(X_d) = h(X) + nH(Xd?)=h(X)+n
其含義是用h(X)+nh(X)+nh(X)+n個(gè)nats來做這個(gè)連續(xù)型隨機(jī)變量的quantize。
總結(jié)
以上是生活随笔為你收集整理的UA MATH636 信息论6 微分熵的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH564 概率论IV 次序统
- 下一篇: UA MATH574M 统计学习II 高