机器学习之信息熵
首先我們要區(qū)分信息量和信息熵的區(qū)別。
下面根據(jù)我的理解一步一步引出信息熵及其公式的來源:
信息熵的公式
先拋出信息熵公式如下:
其中 p(xi) 代表隨機(jī)事件X為 xi的概率,下面來逐步介紹信息熵的公式來源!
信息量
信息量是對信息的度量,就跟時(shí)間的度量是秒一樣,當(dāng)我們考慮一個(gè)離散的隨機(jī)變量x的時(shí)候,當(dāng)我們觀察到的這個(gè)變量的一個(gè)具體值的時(shí)候,我們接收到了多少信息呢?
多少信息用信息量來衡量,我們接受到的信息量跟具體發(fā)生的事件有關(guān)。
信息的大小跟隨機(jī)事件的概率有關(guān)。越小概率的事情發(fā)生了產(chǎn)生的信息量越大,如湖南產(chǎn)生的地震了;越大概率的事情發(fā)生了產(chǎn)生的信息量越小,如太陽從東邊升起來了(肯定發(fā)生嘛,沒什么信息量)。這很好理解!
例子
腦補(bǔ)一下我們?nèi)粘5膶υ?#xff1a;
師兄走過來跟我說,小明啊,今天你們湖南發(fā)生大地震了。
我:啊,不可能吧,這么重量級的新聞!湖南多低的概率發(fā)生地震啊!師兄,你告訴我的這件事,信息量巨大,我馬上打電話問問父母什么情況。
又來了一個(gè)師妹:小明師兄,我發(fā)現(xiàn)了一個(gè)重要情報(bào)額,原來德川師兄有女朋友額德川比師妹早進(jìn)一年實(shí)驗(yàn)室,全實(shí)驗(yàn)室同學(xué)都知道了這件事。我大笑一聲:哈哈哈哈,這件事大家都知道了,一點(diǎn)含金量都沒有,下次八卦一些其它有價(jià)值的新聞吧!orz,逃
因此一個(gè)具體事件的信息量應(yīng)該是隨著其發(fā)生概率而遞減的,且不能為負(fù)。
但是這個(gè)表示信息量函數(shù)的形式怎么找呢?
隨著概率增大而減少的函數(shù)形式太多了!不要著急,我們還有下面這條性質(zhì)
如果我們有倆個(gè)不相關(guān)的事件x和y,那么我們觀察到的倆個(gè)事件同時(shí)發(fā)生時(shí)獲得的信息應(yīng)該等于觀察到的事件各自發(fā)生時(shí)獲得的信息之和,即:
h(x,y) = h(x) + h(y)
由于x,y是倆個(gè)不相關(guān)的事件,那么滿足p(x,y) = p(x)*p(y).
根據(jù)上面推導(dǎo),我們很容易看出h(x)一定與p(x)的對數(shù)有關(guān)(因?yàn)橹挥袑?shù)形式的真數(shù)相乘之后,能夠?qū)?yīng)對數(shù)的相加形式,可以試試)。因此我們有信息量公式如下:
[h(x)=-log_{2}p(x)
(https://img-blog.csdnimg.cn/20190424000311314.png)
下面解決倆個(gè)疑問?
(1)為什么有一個(gè)負(fù)號
其中,負(fù)號是為了確保信息一定是正數(shù)或者是0,總不能為負(fù)數(shù)吧!
(2)為什么底數(shù)為2
這是因?yàn)?#xff0c;我們只需要信息量滿足低概率事件x對應(yīng)于高的信息量。那么對數(shù)的選擇是任意的。我們只是遵循信息論的普遍傳統(tǒng),使用2作為對數(shù)的底!
信息熵
下面我們正式引出信息熵。
信息量度量的是一個(gè)具體事件發(fā)生了所帶來的信息,而熵則是在結(jié)果出來之前對可能產(chǎn)生的信息量的期望——考慮該隨機(jī)變量的所有可能取值,即所有可能發(fā)生事件所帶來的信息量的期望。即
轉(zhuǎn)換一下為:
最終我們的公式來源推導(dǎo)完成了。
這里我再說一個(gè)對信息熵的理解。信息熵還可以作為一個(gè)系統(tǒng)復(fù)雜程度的度量,如果系統(tǒng)越復(fù)雜,出現(xiàn)不同情況的種類越多,那么他的信息熵是比較大的。
如果一個(gè)系統(tǒng)越簡單,出現(xiàn)情況種類很少(極端情況為1種情況,那么對應(yīng)概率為1,那么對應(yīng)的信息熵為0),此時(shí)的信息熵較小。
轉(zhuǎn)自:https://www.zhihu.com/question/22178202
熵的示例
示例1
至于是如何編碼使其平均長度最小的,參考[哈夫曼編碼]就知道了。
參考:http://blog.csdn.net/pipisorry/article/details/51695283
總結(jié)
- 上一篇: mean,std,var
- 下一篇: 离散信号与系统分析(上)