理解熵(信息熵,交叉熵,相对熵)
生活随笔
收集整理的這篇文章主要介紹了
理解熵(信息熵,交叉熵,相对熵)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Highlights:
1)信息熵:編碼方案完美時,最短平均編碼長度的是多少。
2)交叉熵:編碼方案不一定完美時(由于對概率分布的估計不一定正確),平均編碼長度的是多少。
平均編碼長度 = 最短平均編碼長度 + 一個增量
3)相對熵:編碼方案不一定完美時,平均編碼長度相對于最小值的增加值。(即上面那個增量)
信息熵
1、熵的本質是香農信息量 log(1/p) 的期望;(參考了第一個答案)
是一個期望的計算,也是記錄隨機事件結果的平均編碼長度;
為什么信息量 是 log(1/p) 呢?
因為:一個事件結果的出現概率越低,對其編碼的bit長度就越長。 以期在整個隨機事件的無數次重復試驗中,用最少的 bit 去記錄整個實驗歷史。即無法壓縮的表達,代表了真正的信息量。
2、熵的本質的另一種解釋:最短平均編碼長度;
本質含義:編碼方案完美時,最短平均編碼長度的是多少
3、交叉熵,則可以這樣理解:使用了“估算”的編碼后,得到的平均編碼長度(可能不是最短的)p是真實概率分布,q是你以為的概率分布(可能不一致);你以 q 去編碼,編碼方案 log(1/q_i)可能不是最優的;于是,平均編碼長度 = ∑ p_i *log(1/q_i),就是交叉熵;只有在估算的分布 q 完全正確時,平均編碼長度才是最短的,交叉熵 = 熵
交叉熵
1.定義
本質含義:編碼不一定完美時,平均編碼長度是多少
連續函數:
其中H(p)是p的信息熵,后者是相對熵
離散函數:
H(p,q)=?∑xp(x)logq(x)=entropy(p)+DKL(p||q)
2、在 ML 中等效于相對熵
作用:用來評估,當前訓練得到的概率分布,與真實分布有多么大的差異 因為與相對熵只差一個 分布 P 的信息熵,若 P 是固定的分布,與訓練無關;Q 是估計的分布,應盡量等于 P。 二者一致時,交叉熵就等于 P 的熵。
相對熵
本質含義:由于編碼方案不一定完美,導致的平均編碼長度的增大值
離線:
連續:
1)用來衡量2個取值為正數的函數的相似性
2)2個完全相同的函數,相對熵為0;差異越大,相對熵越大;
3)概率分布函數,或 概率密度函數,若函數值均大于0,相對熵可以度量兩個隨機分布的差異性;
4)相對熵不對稱,沒有交換律
總結
以上是生活随笔為你收集整理的理解熵(信息熵,交叉熵,相对熵)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NFT Insider #73:淡马锡将
- 下一篇: 材料学博士转型大数据开发,是一种什么体验