L1、L2正则化详解
正則化是一種回歸的形式,它將系數(shù)估計(jì)(coefficient estimate)朝零的方向進(jìn)行約束、調(diào)整或縮小。也就是說(shuō),正則化可以在學(xué)習(xí)過(guò)程中降低模型復(fù)雜度和不穩(wěn)定程度,從而避免過(guò)擬合的危險(xiǎn)。
一、數(shù)學(xué)基礎(chǔ)
1. 范數(shù)
?
?
范數(shù)是衡量某個(gè)向量空間(或矩陣)中的每個(gè)向量以長(zhǎng)度或大小。范數(shù)的一般化定義:對(duì)實(shí)數(shù)p>=1, 范數(shù)定義如下:- L1范數(shù)
當(dāng)p=1時(shí),是L1范數(shù),其表示某個(gè)向量中所有元素絕對(duì)值的和。 - L2范數(shù)
當(dāng)p=2時(shí),是L2范數(shù), 表示某個(gè)向量中所有元素平方和再開根, 也就是歐幾里得距離公式。
2. 拉普拉斯分布
如果隨機(jī)變量的概率密度函數(shù)分布為:
那么它就是拉普拉斯分布。其中,μ 是數(shù)學(xué)期望,b > 0 是振幅。如果 μ = 0,那么,正半部分恰好是尺度為 1/2 的指數(shù)分布。 拉普拉斯分布的概率密度函數(shù)?
3. 高斯分布
?
?
又叫正態(tài)分布,若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、標(biāo)準(zhǔn)方差為σ2的高斯分布,記為:X~N(μ,σ2),其概率密度函數(shù)為:?
其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ = 0,σ = 1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。 高斯分布的概率密度函數(shù)還有涉及極大似然估計(jì)、概率論相關(guān)的先驗(yàn)和后驗(yàn)相關(guān)概率, 為了控制篇幅, 本文就不詳細(xì)介紹, wiki百科和百度百科都講得很清楚。
二、正則化解決過(guò)擬合問(wèn)題
正則化通過(guò)降低模型的復(fù)雜性, 達(dá)到避免過(guò)擬合的問(wèn)題。 正則化是如何解決過(guò)擬合的問(wèn)題的呢?從網(wǎng)上找了很多相關(guān)文章, 下面列舉兩個(gè)主流的解釋方式。
?
原因1:來(lái)自知乎上一種比較直觀和簡(jiǎn)單的理解, 模型過(guò)于復(fù)雜是因?yàn)槟P蛧L試去兼顧各個(gè)測(cè)試數(shù)據(jù)點(diǎn), 導(dǎo)致模型函數(shù)如下圖,處于一種動(dòng)蕩的狀態(tài), 每個(gè)點(diǎn)的到時(shí)在某些很小的區(qū)間里,函數(shù)值的變化很劇烈。這就意味著函數(shù)在某些小區(qū)間里的導(dǎo)數(shù)值(絕對(duì)值)非常大,由于自變量值可大可小,所以只有系數(shù)足夠大,才能保證導(dǎo)數(shù)值很大。 而加入正則能抑制系數(shù)過(guò)大的問(wèn)題。如下公式, 是嶺回歸的計(jì)算公式。如果發(fā)生過(guò)擬合, 參數(shù)θ一般是比較大的值, 加入懲罰項(xiàng)后, 只要控制λ的大小,當(dāng)λ很大時(shí),θ1到θn就會(huì)很小,即達(dá)到了約束數(shù)量龐大的特征的目的。
原因二:從貝葉斯的角度來(lái)分析, 正則化是為模型參數(shù)估計(jì)增加一個(gè)先驗(yàn)知識(shí),先驗(yàn)知識(shí)會(huì)引導(dǎo)損失函數(shù)最小值過(guò)程朝著約束方向迭代。 L1正則是拉普拉斯先驗(yàn),L2是高斯先驗(yàn)。整個(gè)最優(yōu)化問(wèn)題可以看做是一個(gè)最大后驗(yàn)估計(jì),其中正則化項(xiàng)對(duì)應(yīng)后驗(yàn)估計(jì)中的先驗(yàn)信息,損失函數(shù)對(duì)應(yīng)后驗(yàn)估計(jì)中的似然函數(shù),兩者的乘積即對(duì)應(yīng)貝葉斯最大后驗(yàn)估計(jì)。
給定訓(xùn)練數(shù)據(jù), 貝葉斯方法通過(guò)最大化后驗(yàn)概率估計(jì)參數(shù)θ:
?
下面我們從最大后驗(yàn)估計(jì)(MAP)的方式, 推導(dǎo)下加入L1和L2懲罰項(xiàng)的Lasso和嶺回歸的公式。
首先我們看下最小二乘公式的推導(dǎo)(公式推導(dǎo)截圖來(lái)自知乎大神)
?
-
假設(shè)1: w參數(shù)向量服從高斯分布
最終的公式就是嶺回歸計(jì)算公式。與上面最大似然估計(jì)推導(dǎo)出的最小二乘相比,最大后驗(yàn)估計(jì)就是在最大似然估計(jì)公式乘以高斯先驗(yàn), 這里就理解前面L2正則就是加入高斯先驗(yàn)知識(shí)。
以下為貝葉斯最大后驗(yàn)估計(jì)推導(dǎo):?
-
假設(shè)2: w參數(shù)服從拉普拉斯分布
最終的公式就是Lasso計(jì)算公式。與上面最大似然估計(jì)推導(dǎo)出的最小二乘相比,最大后驗(yàn)估計(jì)就是在最大似然估計(jì)公式乘以拉普拉斯先驗(yàn), 這里就理解前面L1正則就是加入拉普拉斯先驗(yàn)知識(shí)。
以下為貝葉斯最大后驗(yàn)估計(jì)推導(dǎo):?
L1和L2正則化的比較
為了幫助理解,我們來(lái)看一個(gè)直觀的例子:假定x僅有兩個(gè)屬性,于是無(wú)論嶺回歸還是Lasso接觸的w都只有兩個(gè)分量,即w1,w2,我們將其作為兩個(gè)坐標(biāo)軸,然后在圖中繪制出兩個(gè)式子的第一項(xiàng)的”等值線”,即在(w1,w2)空間中平方誤差項(xiàng)取值相同的點(diǎn)的連線。再分別繪制出L1范數(shù)和L2范數(shù)的等值線,即在(w1,w2)空間中L1范數(shù)取值相同的點(diǎn)的連線,以及L2范數(shù)取值相同的點(diǎn)的連線(如下圖所示)。
L1正則化比L2正則化更易于得到稀疏解
嶺回歸與Lasso的解都要在平方誤差項(xiàng)與正則化項(xiàng)之間折中,即出現(xiàn)在圖中平方誤差項(xiàng)等值線與正則化項(xiàng)等值線相交處。而由上圖可以看出,采用L1范數(shù)時(shí)平方誤差項(xiàng)等值線與正則化項(xiàng)等值線的交點(diǎn)常出現(xiàn)在坐標(biāo)軸上,即w1或w2為0,而在采用L2范數(shù)時(shí),兩者的交點(diǎn)常出現(xiàn)在某個(gè)象限中,即w1或w2均非0。
這說(shuō)明了嶺回歸的一個(gè)明顯缺點(diǎn):模型的可解釋性。它將把不重要的預(yù)測(cè)因子的系數(shù)縮小到趨近于 0,但永不達(dá)到 0。也就是說(shuō),最終的模型會(huì)包含所有的預(yù)測(cè)因子。但是,在 Lasso 中,如果將調(diào)整因子 λ 調(diào)整得足夠大,L1 范數(shù)懲罰可以迫使一些系數(shù)估計(jì)值完全等于 0。因此,Lasso 可以進(jìn)行變量選擇,產(chǎn)生稀疏模型。注意到w取得稀疏解意味著初始的d個(gè)特征中僅有對(duì)應(yīng)著w的非零分量的特征才會(huì)出現(xiàn)在最終模型中,于是求解L1范數(shù)正則化的結(jié)果時(shí)得到了僅采用一部分初始特征的模型;換言之,基于L1正則化的學(xué)習(xí)方法就是一種嵌入式特征選擇方法,其特征選擇過(guò)程和學(xué)習(xí)器訓(xùn)練過(guò)程融為一體,同時(shí)完成。
總結(jié)
作者:suwi
鏈接:https://www.jianshu.com/p/c9bb6f89cfcc
轉(zhuǎn)載于:https://www.cnblogs.com/USTC-ZCC/p/10123610.html
總結(jié)
以上是生活随笔為你收集整理的L1、L2正则化详解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: java学习-http中get请求的非a
- 下一篇: emulator: Trying to