最大化互信息
總說
因為,一般做分類的,交叉熵很常見吧,類似KL散度或者交叉熵,本質上就是利用“編碼長度”作文章。比如KL散度就是,不完美的概率qqq去編碼完美信息條件下的概率ppp,從而多需要的編碼長度。這種都是利用直接預測的某件事情的概率去做的。
比如,我需要預測這張圖是不是貓,預測的貓的概率為 p(x)p(x)p(x),對吧,就是表示獨立事件的本身。
某些情況下,有兩個事件,一個事件的發生可以去預測另外一個事件的概率,就是條件概率。互信息衡量兩個變量的依賴程度,可以理解為給定其中一個變量,可以多大程度的減少另一個變量的不確定性,具體為
I(A,B)=H(A)?H(A∣B)=H(B)?H(B∣A)I(A,B) = H(A) - H(A|B) = H(B) - H(B|A) I(A,B)=H(A)?H(A∣B)=H(B)?H(B∣A)
這個很容易理解了。前者就是預測的事件的熵,后者就是依賴另外一個事件,我們去預測需要預測的事件的熵。含義很容易理解,假設我不能直接去拿到一個事件AAA的信息,我需要另外一個事件BBB,依賴這個事件去預測AAA事件。
常見的例子是,類別ccc去預測輸入圖的信息。就可以用互信息。
具體參考:
https://zhuanlan.zhihu.com/p/261704731
總結
- 上一篇: 基于P2P万信金融--day01 分布式
- 下一篇: 计算机表格中如何计算数据透视表,Exce