Newton Method in Maching Learning
牛頓方法:轉自http://blog.csdn.net/andrewseu/article/details/46771947
本講大綱:
1.牛頓方法(Newton’s method)
2.指數族(Exponential family)
3.廣義線性模型(Generalized linear models)
1.牛頓方法
假設有函數:,我們希望找到滿足的值. 這里是實數.
牛頓方法執行下面的更新:
下圖為執行牛頓方法的過程:
簡單的來說就是通過求當前點的導數得到下一個點.用到的性質是導數值等于該點切線和橫軸夾角的正切值.
令,我們可以用同樣的算法去最大化
牛頓方法的一般化:
如果是一個向量,那么:
其中,是對的偏導數;
H稱為黑塞矩陣(Hessian matrix),是一個n*n的矩陣,n是特征量的個數,并且(==當年學的各種名詞又開始在腦海里翻滾==)
牛頓方法的收斂速度比批處理梯度下降快很多,很少次的迭代就能夠非常接近最小值了;但是當n很大時,每次迭代求黑塞矩陣和黑塞矩陣的逆代價是很大的.
與其不同,梯度下降方法采用的步長如下:
2.指數族
指數族形式:
其中,被稱為自然參數(natural parameter)或者典范參數(canonical parameter);
T(y)是充分統計量(sufficient statistic)(對于我們考慮的分布來說,通常T(y)=y);
是日志分配函數(log partition function),是一個規范化常數,使得分布的和為1.
給定T,a,b,通過改變參數得到不同的分布.
下面展示伯努利(Bernoulli)和高斯分布(Gaussian distribution)都是指數分布族的特例:
伯努利分布可以寫成:
因此,令(有趣地發現其反函數為),并且,
高斯分布:
回憶我們對線性回歸求導時,方差對我們最終結果并沒有任何影響.為了使問題簡化,令于是有,
得:
指數分布族還包括很多其他的分布:
多項式分布(multinomial)
泊松分布(poisson):用于計數的建模
伽馬分布(gamma),指數分布(exponential):用于對連續非負的隨機變量進行建模
β分布,Dirichlet分布:對小數建模
3.GLMS
為了導出GLM,作三個假設:
(1)
(2)給定x,我們的目標是預測T(y)的預期值. 在大部分例子中,我們有T(y)=y,因此意味著我們通過學習得到的假設滿足(這個假設對logistic回歸和線性回歸都成立)
(3)自然參數和輸入變量是線性相關的,也就是說(如果自然參數是向量,則)
3.1普通的最小二乘法
為了說明普通的最小二乘法是GLM的特例,設定目標變量y(在GLM術語中叫響應變量-response variable)是連續的,并且假設服從高斯分布,高斯分布寫成指數族的形式,有得到:
3.2 logistic回歸
考慮logistic,我們感興趣的是二元分類,也就是說很容易想到指數分布族的伯努利分布,有,同理得到:
正則響應函數(canonical response function):
正則鏈接函數(canonical link function):
3.3 softmax 回歸
當分類問題的y取值不止兩個時,我們需要采用多項式分布(multinomial distribution).
在推導多項式分布的GLM之前,先把多項式分布表達成指數族.
為了參數化多項式分布的k各可能結果,有人可能會用k個參數來說明每一種情況的可能性,但是這些參數是冗余的,并且并不是獨立的(由于知道任何其中的k-1個,剩下的一個就可以求出,因為滿足). 因此我們用k-1個參數對多項分布進行參數化,.
定義,如下,
介紹一個很有用的記號,,例如1{2=3}=0,1{3=5-2}=1.
因此T(y)和y的關系為.
并且有,因此:
鏈接函數為,,為了方便,定義.
可得:
因此,反代回去得到響應函數:
從η到的映射叫做softmax函數.
根據假設3,得到:
這個應用于分類問題(當),叫做softmax回歸(softmax regression).是logistic回歸的推廣.
與最小二乘法和logistic回歸類似,
再通過梯度上升或者牛頓方法求出θ.
總結
以上是生活随笔為你收集整理的Newton Method in Maching Learning的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么早睡有利于减肥
- 下一篇: GPU Shader 程序调试方法