【机器学习】LR与最大熵模型的关系
邏輯回歸與最大熵模型MaxEnt的關系?
邏輯回歸跟最大熵模型到底有啥區別呢?
簡單粗暴?的回答是:邏輯回歸跟最大熵模型沒有本質區別。邏輯回歸是最大熵對應類別為二類時的特殊情況,也就是當邏輯回歸類別擴展到多類別時,就是最大熵模型。
在進行下面推導之前,先上幾個數學符號定義,假定輸入是一個n維空間的實數向量:
我們的任務就是學習一個函數使得,對所有成立,更進一步,學習這么一個模型,用表示的概率。因此有如下一些特性:
邏輯回歸
標準的邏輯回歸是二類模型,,有:?
其中的向量,模型由參數完全控制。實際上有種符號更加對稱而且更為通用的的表達方式
這里是一個的矩陣,對應每一個類別一個向量。
實際上在相當于LR的多分類One Vs All策略,對每個類別都訓練一個LR二分類。
我們原始的形式,是通過迫使參數為zero vector獲得的。
由上式我們可以獲得一些有益的推導公式:
記,則我們有
綜合一下,可得:
回到我們的需求第三條:?tends to be large,可以依據最大似然函數:
等價的,可以寫成如下形式:
希望求的最大值,將對所有的求偏導,然后在偏導等于0求極值。
對于二分類的LR模型,與梯度下降相比在符號上差了一個負號,是由于在這里是求的極大問題,另外,對于LR二分類問題,我們強制讓為零向量,同時我們只對參數進行更新。
令偏導等于0得到:
上式表明,在所有樣本中,類別為u的樣本第j個特征的和等于所有樣本第j個特征與其判別為類別u的概率乘積的和。
同時可以發現,為使上述等式成立。我們就是要尋找一個用最合適參數刻畫的模型,使其行為與經驗先驗十分相似。又稱上式為'balance equations'。
參數并沒有顯示地出現在上式中,在模型中,在某種意義上說結果只依賴于我們選擇的那些特征,而與怎么用刻畫模型無關。(因此留給我們需要做的是特征工程,選擇更好的特征。)
求參數可以選擇多種方法,如梯度下降方法,牛頓法,擬牛頓法。或者用拉格朗日求優化問題,但直接求優化問題總是較為困難。
最大熵模型
不需要巧妙的猜測sigmoid函數的形式,假定我們希望平衡方程
成立,沒有任何其他條件,推導出模型的公式。
我們可以假定平衡方程成立。是因為我們假定了可以從訓練數據中刻畫出模型,即我們可以用經驗先驗去約束真實的概率分布。
從以下的簡單條件開始:
這里對于希望是個連續,平滑的,低復雜度的。在信息論中,最大熵被定義為如下:
這個公式不是憑空出來的,其背后有信息論基礎。我們的優化問題就轉為求解在上述三個約束條件下極大化上式的最優化問題。
求解約束問題的通用辦法是引入拉格朗日函數轉化為無約束問題:
注:約束1并沒有加入到拉格朗日函數中去,也沒有必要,對于信息熵而言,其概率密度函數必然是大于0的,否則無法求解。
對L求偏導:
令其等于0,得到:
有:
得到:
將上式代入往上數第三式(這邊的公式編號還不會用。。。)
那么就證明了,我們是如何從已知訓練樣本數據根據最大熵模型推導出LR回歸。
小結
邏輯回歸跟最大熵模型沒有本質差別。邏輯回歸是最大熵相應類別為二類時的特殊情況
指數簇分布的最大熵等價于其指數形式的最大似然。
二項式分布的最大熵解等價于二項式指數形式(sigmoid)的最大似然;?
多項式分布的最大熵等價于多項式分布指數形式(softmax)的最大似然。
最大熵與邏輯回歸的等價性
?
總結
以上是生活随笔為你收集整理的【机器学习】LR与最大熵模型的关系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习】坐标下降法(Coordina
- 下一篇: 【机器学习】逻辑回归小结