【机器学习】Lasso回归(L1正则,MAP+拉普拉斯先验)
前言
目前這個方法還沒有一個正規的中文名,如果從lasso這個單詞講的話,叫套索。那么套索是啥呢,就是套馬脖子的東西,見下圖:?
就是拿這個東西把動物脖子套住,不要它隨便跑。lasso 回歸就是這個意思,就是讓回歸系數不要太大,以免造成過度擬合(overfitting)。所以呢,lasso regression是個啥呢,就是一個回歸,并且回歸系數不要太大。
具體的實現方式是加了一個L1正則的懲罰項。
拉普拉斯分布
在概率論與統計學中,拉普拉斯分布是以皮埃爾-西蒙·拉普拉斯的名字命名的一種連續概率分布。由于它可以看作是兩個不同位置的指數分布背靠背拼接在一起,所以它也叫作雙指數分布。兩個相互獨立同概率分布指數隨機變量之間的差別是按照指數分布的隨機時間布朗運動,所以它遵循拉普拉斯分布。
如果隨機變量的概率密度函數為:
那么它就是拉普拉斯分布。記為:
其中,是位置參數,是尺度參數。
與正態分布有一些差別。在均值處變化的相當迅速。
數字特征:
MAP概率推導
推導方式與貝葉斯線性回歸類似貝葉斯線性回歸(最大后驗估計+高斯先驗)
對于線性回歸,有
記誤差,則
對參數的分布加入先驗分布信息(注不加任何先驗就是普通的線性回歸),
可以得到MAP方程:
取對數得:
上面的所有都應改為,記為的集合。
等價于:
至此,我們已經通過MAP最大后驗估計加上對于參數的Laplace先驗分布得到了帶L1正則項的線性回歸目標函數。
正則項的意義
對于上面的目標函數,我們還可以寫成以下這種帶約束條件的形式:
妙處就在這個地方,在第一范數的約束下,一部分回歸系數剛好可以被約束為0。這樣的話,就達到了特征選擇的效果。至于為什么大家可以看看下圖 (在嶺回歸(L2正則在干嘛!)中有介紹過了)。
不再詳細解釋了,如果有需要可以參閱之前的博客。
L1正則項不可導的梯度下降方法
對于凸函數不可導的情形,如L1正則項在0點處不可導,我們可以使用坐標下降法或者次梯度方法。
?
參考文章:
Sparsity and Some Basics of L1 Regularization
Lasso回歸的坐標下降法推導
總結
以上是生活随笔為你收集整理的【机器学习】Lasso回归(L1正则,MAP+拉普拉斯先验)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习】岭回归(L2正则在干嘛!)
- 下一篇: 【机器学习】次梯度(subgradien