【机器学习】坐标下降法(Coordinate descent)
coordinate-wise minimization(坐標朝向最小)
coordinate-wise minimization介紹的是坐標下降法的理論依據。
問題的描述:給定一個可微的凸函數,如果在某一點,使得在每一個坐標軸上都是最小值,那么是不是一個全局的最小值。
形式化的描述為:是不是對于所有的都有
這里的代表第個標準基向量。
答案為成立。
這是因為:
但是問題來了,如果對于凸函數,若不可微該會怎樣呢?
答案為不成立,上面的圖片就給出了一個反例。
那么同樣的問題,現在,其中是可微的凸函數,每一個都是凸的?這其實就是Lasso回歸的目標函數。
答案為成立。
證明如下,對每一個
給定一個可微的凸函數,如果在某一點,使得在每一個坐標軸上都是最小值,那么就是一個全局的最小值。
坐標下降(Coordinate descent)
坐標下降法屬于一種非梯度優化的方法,它在每步迭代中沿一個坐標的方向進行線性搜索(線性搜索是不需要求導數的),通過循環使用不同的坐標方法來達到目標函數的局部極小值。
算法過程
假設目標函數是求解的極小值,其中是一個n維的向量,我們從初始點開始(是我們猜想的一個初值)對k進行循環:
相當于每次迭代都只是更新的一個維度,即把該維度當做變量,剩下的n-1個維度當作常量,通過最小化來找到該維度對應的新的值。坐標下降法就是通過迭代地構造序列來求解問題,即最終點收斂到期望的局部極小值點。通過上述操作,顯然有:
證明如下:
當時,對應的的值為
由于,所以,以此類推
所以
所以
同理可得,命題得證。
相比梯度下降法而言,坐標下降法不需要計算目標函數的梯度,在每步迭代中僅需求解一維搜索問題,所以對于某些復雜的問題計算較為簡便。但如果目標函數不光滑的話,坐標下降法可能會陷入非駐點。
流程總結:
小結
關于坐標下降法,有幾點需要注意的:
坐標軸下降法的求極值過程,可以和梯度下降做一個比較:
?
參考文章
Lasso回歸算法: 坐標軸下降法與最小角回歸法小結
機器學習筆記——簡述坐標下降法
坐標下降法(Coordinate descent)
總結
以上是生活随笔為你收集整理的【机器学习】坐标下降法(Coordinate descent)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习】次梯度(subgradien
- 下一篇: 【机器学习】LR与最大熵模型的关系