Entropy推导
信息論
???信息是關(guān)于事物的運動狀態(tài)和規(guī)律的認(rèn)識,它可以脫離具體的事物而被攝取、傳輸、存貯、處理和變換。
???信息論,就是用數(shù)理統(tǒng)計方法研究信息的基本性質(zhì)以及度量方法,研究最佳解決信息的攝取、傳輸、存貯、處理和變換的一般規(guī)律的科學(xué)。它的成果將為人們廣泛而有效地利用信息提供基本的技術(shù)方法和必要的理論基礎(chǔ)。
信息論的研究范圍分成三種不同類型:
(1)狹義信息論是一門應(yīng)用數(shù)理統(tǒng)計方法來研究信息處理和信息傳遞的科學(xué)。它研究存在于通訊和控制系統(tǒng)中普遍存在著的信息傳遞的共同規(guī)律,以及如何提高各信息傳輸系統(tǒng)的有效性和可靠性的一門通訊理論。
(2)一般信息論主要是研究通訊問題,但還包括噪聲理論、信號濾波與預(yù)測、調(diào)制與信息處理等問題。
????(3)廣義信息論不僅包括狹義信息論和一般信息論的問題,而且還包括所有與信息有關(guān)的領(lǐng)域,如心理學(xué)、語言學(xué)、神經(jīng)心理學(xué)、語義學(xué)等。
?
???狹義信息,是針對通信意義上的信息而言的。1948年,美國數(shù)學(xué)家C. E. Shannon發(fā)表的《通信的數(shù)學(xué)理論》。差不多同一時候,美國數(shù)學(xué)家N. Wiener發(fā)表了《時間序列的內(nèi)插、外推和平滑化》以及專著《控制論》。他們分別解決了狹義信息的度量問題,并且得到了相同的結(jié)果。
????Shannon的論文還給出了信息傳輸問題的一系列重要成果,建立了比較完整而系統(tǒng)的信息理論,這就是Shannon信息論,也叫狹義信息論。Shannon理論的建立,在很大程度上澄清了通信的基本問題。它以概率論為工具,刻畫了信源產(chǎn)生信息的數(shù)學(xué)模型,導(dǎo)出了度量概率信息的數(shù)學(xué)公式;同時,它利用概率論的方法,描述了信道傳輸信息的過程,給出了表征信道傳輸能力的容量公式;此外,它還建立了一組信息傳輸?shù)木幋a定理,論證了信息傳輸?shù)囊恍┗窘缦蕖hannon的理論是通信科學(xué)發(fā)展史上的一個轉(zhuǎn)折點,它使通信問題的研究從經(jīng)驗轉(zhuǎn)變?yōu)榭茖W(xué)。
????作為運動狀態(tài)表現(xiàn)的廣義信息既具有一定的形式又具有一定的內(nèi)容。在原則上,數(shù)學(xué)可以精確地刻畫形式。但是,如何從數(shù)學(xué)上定量地刻畫內(nèi)容,至今仍是一個巨大的難題。一般的情形是用數(shù)學(xué)來表達(dá)形式,用語言來描述內(nèi)容。但是,對于通信領(lǐng)域,通信只不過是信息的傳輸,因此可以把它看作是“在通信的一端精確地或近似地復(fù)現(xiàn)另一端所挑選的消息”,“至于通信的語義方面的問題,與工程方面的問題是沒有關(guān)系的”。由于通信的任務(wù)只是單純地復(fù)制消息,并不需要對信息的語義作任何處理和判斷。只要在通信接收端把發(fā)送端發(fā)出的消息從形式上復(fù)制出來,也就同時復(fù)現(xiàn)了它的語義內(nèi)容。
?
????信息論的主要內(nèi)容用語言來闡述。 一種簡潔的語言(以英語為例)通常有兩個重要特點: 首先,最常用的詞(比如"a", "the", "I")應(yīng)該比不太常用的詞(比如"benefit", "generation", "mediocre")要短一些;其次,如果句子的某一部分被漏聽或者由于噪聲干擾(比如一輛車輛疾馳而過)而被誤聽,聽者應(yīng)該仍然可以抓住句子的大概意思。而如果把電子通信系統(tǒng)比作一種語言的話,這種健壯性(robustness)是不可或缺的。將健壯性引入通信是通過信道編碼完成的。信源編碼和信道編碼是信息論的基本研究課題。
?
??自信息量I(ai)表示一個消息ai出現(xiàn)后所帶來的信息量,用其概率的負(fù)對數(shù)來表示,即I(ai)=-log2p(ai),因此I(ai)是非負(fù)值,并且是概率p(ai)的單調(diào)遞減函數(shù)。
?
熵
在信息論中,熵表示的是不確定性的量度。信息論的創(chuàng)始人香農(nóng)在其著作《通信的數(shù)學(xué)理論》中提出了建立在概率統(tǒng)計模型上的信息度量。他把信息定義為“用來消除不確定性的東西”。
????1 Chaos(混沌),無序.物理學(xué):除非施加能量,否則熵不會降低 舉例:把房間弄亂很容易,整理干凈不容易
????2 是不確定性(Uncertainty)的衡量, 不確定性越高,熵越高,我們從一次實驗中得到的信息量越大.
????3 熵也可以被視為描述一個隨機變量的不確定性的數(shù)量。一個隨機變量的熵越大,它的不確定性越大。那么,正確估計其值的可能性就越小。越不確定的隨機變量越需要大的信息量用以確定其值。
熵在信息論中的定義如下:
如果有一個系統(tǒng)S內(nèi)存在多個事件S = {E1,...,En}, 每個事件的機率分布 P = {p1, ..., pn},則每個事件本身的訊息為
Ie = ? log2pi
(對數(shù)以2為底,單位是位元(bit))
Ie = ? lnpi
(對數(shù)以e為底,單位是納特/nats)
如英語有26個字母,假如每個字母在文章中出現(xiàn)次數(shù)平均的話,每個字母的訊息量為
I_e = -\log_2 {1\over 26} = 4.7
;而漢字常用的有2500個,假如每個漢字在文章中出現(xiàn)次數(shù)平均的話,每個漢字的信息量為
I_e = -\log_2 {1\over 2500} = 11.3
整個系統(tǒng)的平均消息量為
H_s = \sum_{i=1}^n p_i I_e = -\sum_{i=1}^n p_i \log_2 p_i
這個平均消息量就是消息熵。因為和熱力學(xué)中描述熱力學(xué)熵的玻耳茲曼公式形式一樣,所以也稱為“熵”。
如果兩個系統(tǒng)具有同樣大的消息量,如一篇用不同文字寫的同一文章,由于是所有元素消息量的加和,那么中文文章應(yīng)用的漢字就比英文文章使用的字母要少。所以漢字印刷的文章要比其他應(yīng)用總體數(shù)量少的字母印刷的文章要短。即使一個漢字占用兩個字母的空間,漢字印刷的文章也要比英文字母印刷的用紙少。
實際上每個字母和每個漢字在文章中出現(xiàn)的次數(shù)并不平均,因此實際數(shù)值并不如同上述,但上述計算是一個總體概念。使用書寫單元越多的文字,每個單元所包含的訊息量越大。
I(A)度量事件A發(fā)生所提供的信息量,稱之為事件A的自信息,P(A)為事件A發(fā)生的概率。如果一個隨機試驗有N個可能的結(jié)果或一個隨機消息有N個可能值,若它們出現(xiàn)的概率分別為p1,p2,…,pN,則這些事件的自信息的和:[H=-SUM(pi*log(pi)),i=1,2…N]稱為熵。
熵的公式
熵H(X)=-Σx∈Ωp(x)logxp(x)
– 假設(shè)PX(x)是隨機變量X的分布
– 基本輸出字母表是Ω
– 單位:bits
? 熵是X的平均信息量,是自信息量的期望
E(X)=Σx∈Ω p(x) x
I(X)=-logp(x),取2為底,I(X)=-log2p(x)
E(I(X)=E(-log2p(x))= Σx∈Ω p(x)(-log2p(x)) = H(X)
H(X)=H(p)=Hp(X)=HX(p)=H(pX)
熵的例子
? 擲均勻硬幣,Ω={H,T}
p(H)=.5, p(T)=.5
H(p)=-0.5log20.5 (-0.5log20.5)=1
? 32面的均勻股子,擲股子
H(p)=-32((1/32)log2(1/32))=5
? 事實上,擲的次數(shù)21=2, 25=32(perplexity)
? 擲不均勻硬幣
?p(H)=0.2, p(T)=0.8, H(p)=0.722(不確定性更大)
p(H)=0.01, p(T)=0.99, H(p)=0.081
什么時候H(p)=0?
– 試驗結(jié)果事先已經(jīng)知道
– 即:?x∈Ω, p(x)=1; ?y∈Ω, p(y)=0 if y≠x
? 熵有沒有上限?
– 沒有一般的上限
– 對于|Ω|=n,H(p)≤-log2n
– 均衡分布的熵是最大的
??等概率分布
– 2個輸出的等概率分布,H(p)=1bit
– 32個輸出的等概率分布,H(p)=5bits
– 43億輸出的等概率分布,H(p)=32bits
? 非等概率分布
– 32個輸出,2個0.5,其余為0,H(p)=1bit
– 怎樣比較具有不同數(shù)量輸出的“熵”?困惑度(perplexity)
困惑度(perplexity)即混亂度
G(p)=2的H(p)次方,在NLP中,如果詞表中的詞具有統(tǒng)一的分布概率,則最難預(yù)測,熵最大,混亂度最高
反之,分布越不均衡,熵越小,混亂度越小
條件熵
給定隨機變量X的情況下,隨機變量Y的條件熵定義為:
H(Y|X)=Σx∈Ωp(x)H(Y|X=x)
???= Σx∈Ωp(x)(-Σ y∈Ψp(y|x)log2p(y|x))
???=-Σx∈Ω Σ y∈Ψp(y|x)p(x)log2p(y|x)
???= -Σx∈Ω Σ y∈Ψp(x,y)log2p(y|x)
p(x,y)是加權(quán),權(quán)值是沒有條件的
聯(lián)合熵(joint entropy)
如果X, Y 是一對離散型隨機變量X, Y ~ p(x, y),X, Y 的聯(lián)合熵H(X, Y) 為:
(X,Y)被視為一個事件
H(X,Y)=-Σx∈Ω Σ y∈Ψp(x,y)log2p(x,y)
聯(lián)合熵實際上就是描述一對隨機變量平均所需要的信息量
聯(lián)合熵(joint entropy)
如果X, Y 是一對離散型隨機變量X, Y ~ p(x, y),X, Y 的聯(lián)合熵H(X, Y) 為:
(X,Y)被視為一個事件
H(X,Y)=-Σx∈Ω Σ y∈Ψp(x,y)log2p(x,y)
聯(lián)合熵實際上就是描述一對隨機變量平均所需要的信息量
熵的性質(zhì)
熵是非負(fù)的
H(X)≥0
Chain Rule
H(X,Y)=H(Y|X) H(X)
H(X,Y)=H(X|Y) H(Y)
H(X,Y)≤H(X) H(Y),X和Y獨立時相等
H(Y|X)≤H(Y),條件熵比熵小
互信息(Mutual Information)
如果( X, Y ) ~ p(x, y),X, Y 之間的互信息I(X; Y) 為:I (X; Y) = H(X) –H( X | Y )
推導(dǎo)為:I(x,y)=log2p(x,y)/(p(x)p(y))
互信息I (X; Y) 是在知道了Y 的值后X 的不確定性的減少量。即,Y 的值透露了多少關(guān)于X 的信息量。
? 比如計算兩個詞的搭配
I(偉大,祖國)=log2p(偉大,祖國)/(p(偉大)p(祖國))
? 此值較高,說明“偉大”和“祖國”是一個比較強的搭配
I(的,祖國)=log2p(的,祖國)/(p(的)p(祖國))
? 此值較低,因為p(的)太高,“的”和“祖國”不是一個穩(wěn)定的搭配
互信息性質(zhì)
I(x,y)>>0:x和y關(guān)聯(lián)強度大
I(x,y)=0:x和y無關(guān)
I(x,y)<<0:x和y具有互補的分布
由于H(X, X) = 0, 所以,
H(X) = H(X) –H(X|X) = I(X; X)
這一方面說明了為什么熵又稱自信息,另一方面說明了兩個完全相互依賴的變量之間的互信息并不是一個常量,而是取決于它們的熵。
總結(jié)
- 上一篇: vim常用替换表达式
- 下一篇: shell 传参数