信息论基本概念-自信息、互信息、信息熵、信道容量
???????本文主要介紹和Polar碼相關的信息論一些基本概念,包括自信息、互信息、信息熵和信道容量;便于后續對Polar碼的介紹與研究。
自信息
???????事件集合X中的事件x=aix=a_{i}x=ai?的自信息定義為Ix(ai)=?logPx(ai)I_{x}(a_{i})=-logP_{x}(a_{i})Ix?(ai?)=?logPx?(ai?)???????可以簡單標記為I(x)=?logp(x)I(x)=-log\, p(x)I(x)=?logp(x)???????對于上述定義,有ai∈Xa_{i} \in Xai?∈X,且有∑i=1nPX(ai)=1,0≤PX(ai)≤1\sum_{i=1}^{n}P_{X}(a_{i})=1,0\leq P_{X}(a_{i})\leq 1∑i=1n?PX?(ai?)=1,0≤PX?(ai?)≤1;對于自信息的單位,若上述對數是以2為底,則單位為比特(bit);若是以10為底,則單位為迪特(Dit)或者哈特(Hart)。
???????對于一個事件,當它發生的概率越低時,它所包含的信息量就越大,這個與我們的直觀感覺是相吻合的,比如一個班級內上個學期考倒數第一的同學,這個學期突然考了第一名,這件事情發生的概率是比較低的,因此當它發生后會給我們帶來很大的驚訝,即這件事情包含的信息量是比較大的,很可能是一個“爆炸性新聞”。
聯合自信息
???????聯合事件集合XY中的事件x=aix=a_{i}x=ai?,y=bjy=b_{j}y=bj?包含的聯合自信息定義為
IXY(ai,bj)=?logPXY(ai,bj)I_{XY}(a_{i}, b_{j})=-log\, P_{XY}(a_{i}, b_{j})IXY?(ai?,bj?)=?logPXY?(ai?,bj?)???????可以簡記為I(xy)=?logp(xy)I(xy)=-log\, p(xy)I(xy)=?logp(xy)???????其中p(xy)p(xy)p(xy)滿足非負性和歸一化條件。
條件自信息
???????給定聯合事件集XY,事件x=aix=a_{i}x=ai?在事件y=bjy=b_{j}y=bj?給定條件下的條件自信息定義為IX/Y(ai∣bj)=?logPX/Y(ai∣bj)I_{X/Y}(a_{i}|b_{j})=-log\, P_{X/Y}(a_{i}|b_{j})IX/Y?(ai?∣bj?)=?logPX/Y?(ai?∣bj?)???????可以簡記為I(x∣y)=?logp(x∣y)I(x|y)=-log\, p(x|y)I(x∣y)=?logp(x∣y)???????其中p(x∣y)p(x|y)p(x∣y)表示在事件y發生前提下事件x發生的條件概率;并且自信息、聯合自信息和條件自信息之間的關系如下I(xy)=I(x)+I(y∣x)=I(y)+I(x∣y)I(xy)=I(x)+I(y|x)=I(y)+I(x|y)I(xy)=I(x)+I(y∣x)=I(y)+I(x∣y)???????上述這個式子可以從條件概率的公式出發簡單證明一下,條件概率的定義為p(x∣y)=p(xy)/p(y)p(x|y)=p(xy)/p(y)p(x∣y)=p(xy)/p(y)???????則有p(xy)=p(x∣y)?p(y)p(xy)=p(x|y)*p(y)p(xy)=p(x∣y)?p(y)???????對兩邊同時取對數有并同乘負號有?logp(xy)=?log(p(x∣y))?log(p(y))-log\,p(xy)=-log(p(x|y))-log(p(y))?logp(xy)=?log(p(x∣y))?log(p(y))???????即可得證上式。
互信息
???????設兩個事件集合X和Y,其中事件x∈Xx\in Xx∈X,事件y∈Yy\in Yy∈Y。由于特定的限制,我們通過觀察y來獲取對x的信息。離散隨機事件x=aix=a_{i}x=ai?和y=bjy=b_{j}y=bj?之間的互信息(x∈X,y∈Yx\in X,y\in Yx∈X,y∈Y)定義為IX;Y(ai;bj)=logPX∣Y(ai∣bj)PX(ai)I_{X;Y}(a_{i};b_{j})=log\frac{P_{X|Y}(a_{i}|b_{j})}{P_{X}(a_{i})}IX;Y?(ai?;bj?)=logPX?(ai?)PX∣Y?(ai?∣bj?)????????可以簡記為I(x;y)=logp(x∣y)p(x)=logp(y∣x)p(x)=logp(xy)p(x)p(y)I(x;y)=log\frac{p(x|y)}{p(x)}=log\frac{p(y|x)}{p(x)}=log\frac{p(xy)}{p(x)p(y)}I(x;y)=logp(x)p(x∣y)?=logp(x)p(y∣x)?=logp(x)p(y)p(xy)????????通過計算可得I(x;y)=I(x)?I(x∣y)I(x;y)=I(x)-I(x|y)I(x;y)=I(x)?I(x∣y)???????互信息反映了兩個隨機事件x和y之間的相關性,當x和y統計獨立時,則互信息為0。在通信系統中,當收端接收到信號y后,獲取的關于發端信號x的信息量;為了能夠通過y準確的估計x,這種關聯性肯定越大越好。Polar編碼在某種程度上也是利用這一特性進行編碼,改善x和y之間的相關性,從而提高信息傳輸的可靠性。
條件互信息
???????設聯合事件集XYZ,在給定z∈Zz\in Zz∈Z條件下,x∈Xx\in Xx∈X和y∈Yy\in Yy∈Y之間的條件互信息定義為I(x;y∣z)=logp(x∣yz)p(x∣z)I(x;y|z)=log\frac{p(x|yz)}{p(x|z)}I(x;y∣z)=logp(x∣z)p(x∣yz)?
信息熵
???????離散隨機變量X(隨機變量可以理解為事件集合中某一或者某些事件的發生)的熵定義為自信息的平均值H(X)=?∑xp(x)logp(x)H(X)=-\sum_{x}p(x)log\,p(x)H(X)=?x∑?p(x)logp(x)???????其中X的概率分布可寫成矢量形式,稱為概率矢量,記為p=(p1,p2,...,pn)\mathbf{p}=(p_{1},p_{2},...,p_{n})p=(p1?,p2?,...,pn?),則X的熵可簡記為H(x)=H(p)=H(p1,p2,...,pn)H(x)=H(\mathbf{p})=H(p_{1},p_{2},...,p_{n})H(x)=H(p)=H(p1?,p2?,...,pn?)???????前邊介紹過,自信息表示某一隨機事件發生的不確定性的度量,而信息熵則表示在概率平均意義上隨機變量整體不確定性的度量,其具體含義還可表現在以下幾個方面
???????1)在事件發生前,表示隨機變量取值的平均不確定性
???????2)在事件發生后,其不確定性就被解除,熵就是解除隨機變量不確定平均所需要的信息量。
聯合熵
???????聯合熵用于多維隨機矢量的信息度量。設N維隨機矢量XN=(X1,X2,...,XN)\mathbf{X}^{N}=(X_{1},X_{2},...,X_{N})XN=(X1?,X2?,...,XN?),取值為x=(x1,x2,...,xn)\mathbf{x}=(x_{1}, x_{2},...,x_{n})x=(x1?,x2?,...,xn?),聯合熵的定義為聯合自信息的概率平均值H(XN)=H(X1X2...XN)=?∑xp(x)?logp(x)H(\mathbf{X}^{N})=H(X_{1}X_{2}...X_{N})=-\sum_{x}p(\mathbf{x})*log\,p(\mathbf{x})H(XN)=H(X1?X2?...XN?)=?x∑?p(x)?logp(x)???????其中p(x)p(\mathbf{x})p(x)為矢量x\mathbf{x}x的聯合概率。對于二維隨機矢量XY\mathbf{XY}XY,聯合熵表示為H(XY)=?∑x∑yp(xy)log(p(xy))H(\mathbf{XY})=-\sum_{x}\sum_{y}p(xy)log\,(p(xy))H(XY)=?x∑?y∑?p(xy)log(p(xy))
條件熵
???????考慮多維矢量的情況,設N維隨機矢量XN=(X1X2...XN)\mathbf{X}^{N}=(X_{1}X_{2}...X_{N})XN=(X1?X2?...XN?)和M維隨機矢量YM=(Y1Y2...YM)\mathbf{Y}^{M}=(Y_{1}Y_{2}...Y_{M})YM=(Y1?Y2?...YM?),其中x=(x1,x2,...,xN)\mathbf{x}=(x_{1}, x_{2}, ..., x_{N})x=(x1?,x2?,...,xN?)和y=(y1,y2,...,yM)\mathbf{y}=(y_{1},y_{2},...,y_{M})y=(y1?,y2?,...,yM?),聯合集XNYM\mathbf{X}^{N}\mathbf{Y}^{M}XNYM上,條件熵定義為H(YM∣XN)=?∑xyp(xy)logp(y∣x)H(\mathbf{Y^{M}|X^{N}})=-\sum_{\mathbf{xy}}p(\mathbf{xy})log\,p(\mathbf{y|x})H(YM∣XN)=?xy∑?p(xy)logp(y∣x)???????回歸到二維隨機矢量XY\mathbf{XY}XY的情況,條件熵定義為條件自信息的概率平均值H(Y∣X)=?∑x∑yp(xy)logp(y∣x)H(Y|X)=-\sum_{x}\sum_{y}p(xy)log\,p(y|x)H(Y∣X)=?x∑?y∑?p(xy)logp(y∣x)???????熵與條件熵的關系可表示為H(Y∣X)?H(X)H(\mathbf{Y|X})\leqslant H(\mathbf{X})H(Y∣X)?H(X)???????這就是著名的熵不增原理,即條件熵永遠不會大于隨機變量自己的信息熵。
平均互信息
???????離散隨機變量X,Y\mathbf{X,Y}X,Y之間的平均互信息定義為I(X;Y)=∑xp(x)∑yp(y∣x)logp(y∣x)p(y)=∑xyp(x)p(y∣x)logp(y∣x)∑xp(x)p(y∣x)I(\mathbf{X;Y})=\sum_{x}p(x)\sum_{y}p(y|x)log\,\frac{p(y|x)}{p(y)}=\sum_{xy}p(x)p(y|x)log \frac{p(y|x)}{\sum_{x}p(x)p(y|x)}I(X;Y)=x∑?p(x)y∑?p(y∣x)logp(y)p(y∣x)?=xy∑?p(x)p(y∣x)log∑x?p(x)p(y∣x)p(y∣x)????????平均互信息其實就是在互信息I(x;y)I(x;y)I(x;y)在概率空間XY\mathbf{XY}XY中求統計平均的結果,是從整體上表示一個隨機變量Y\mathbf{Y}Y提供的關于另一個隨機變量X\mathbf{X}X的信息量。
???????平均互信息和熵之間的關系有I(X;Y)=H(X)?H(X∣Y)I(\mathbf{X;Y})=H(X)-H(X|Y)I(X;Y)=H(X)?H(X∣Y)I(X;Y)=H(Y)?H(Y∣X)I(\mathbf{X;Y})=H(Y)-H(Y|X)I(X;Y)=H(Y)?H(Y∣X)I(X;Y)=H(X)+H(Y)?H(XY)I(X;Y)=H(X)+H(Y)-H(XY)I(X;Y)=H(X)+H(Y)?H(XY)???????從通信的角度理解,建立一個簡單的信道模型Y=HX\mathbf{Y=HX}Y=HX???????其中X\mathbf{X}X為發送信號;Y\mathbf{Y}Y為接收信號;H\mathbf{H}H為無線信道。H(X)H(\mathbf{X})H(X)表示發送信號X\mathbf{X}X的整體不確定度;H(X∣Y)H(\mathbf{X|Y})H(X∣Y)表示接收信號Y\mathbf{Y}Y中關于X\mathbf{X}X不確定度,則平均互信息即為兩者之差,表示關于X\mathbf{X}X的不確定度的變化,即通過Y\mathbf{Y}Y可獲取到的關于X\mathbf{X}X的信息量,我們肯定希望從Y\mathbf{Y}Y中獲取到的關于X\mathbf{X}X的信息量越多越好,這樣更有助于我們完成對X\mathbf{X}X的估計。
信道容量
???????此處我們只討論確定性信道的信道容量,確定性信道的容量被定義為C=maxf(x)I(x;y)C=\underset{f(x)}{max}I(\mathbf{x;y})C=f(x)max?I(x;y)???????其中f(x)f(x)f(x)表示發射信號向量X\mathbf{X}X的PDF(概率密度函數);I(x;y)I(\mathbf{x;y})I(x;y)表示隨機變量X\mathbf{X}X和Y\mathbf{Y}Y之間的互信息;此確定性信道的容量定義為平均互信息的最大值。上述關于信道容量的定義,我們可以從兩個方面理解:第一,當信道確定時,它對應的信道容量也已經確定,且與發送信號X\mathbf{X}X的分布無關;第二,當信道的容量是否能達到理論值與發送信號X\mathbf{X}X的分布有關,即存在滿許某種概率分布的發送信號X\mathbf{X}X,使得當前信道的實際容量能達到該信道的理論信道容量。
???????在進行polar編碼時,我們就是通過子信道的信道容量來判斷它的“好”“壞”。將信息傳輸在“好”的子信道上,我們可以從接收信號Y中獲取到更多關于發送信號X的信息量,從而更好的抵抗無線信道對于傳輸X的不利影響,更大概率的正確還原X。
參考文獻:
1、《信息論基礎第二版》作者 田寶玉/楊潔/賀志強/許文俊
2、《MIMO-OFDM無線通信技術及MATLAB實現》作者 孫鍇/黃威譯
總結
以上是生活随笔為你收集整理的信息论基本概念-自信息、互信息、信息熵、信道容量的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [HEOI2013] SAO(dp +
- 下一篇: [CQOI2017] 老C的任务(差分