當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

正则化方法：数据增强、regularization、dropout

發布時間：2025/3/20 编程问答 17 豆豆

生活随笔收集整理的這篇文章主要介紹了正则化方法：数据增强、regularization、dropout 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

- 過擬合 overfitting
- 數據增強
- 正則化項
- 范數 norm
- L1 正則 Lasso regularizer
- L2 正則 Ridge Regularizer / Weight Decay
- L1 與 L2 的差異
- Dropout

過擬合 overfitting

在訓練數據不夠多，或者模型過于復雜時，常常會導致模型對訓練數據集過度擬合。
其直觀的表現如下圖所示：隨著訓練過程的進行，在訓練集上的錯誤率漸漸減小，但是在驗證集上的錯誤率卻反而漸漸增大。

正則化技術是保證算法泛化能力的有效工具。

數據增強

數據增強是提升算法性能、滿足深度學習模型對大量數據的需求的重要工具。數據增強通過向訓練數據添加轉換或擾動來人工增加訓練數據集。數據增強技術如：水平或垂直翻轉圖像、裁剪、色彩變換、擴展和旋轉通常應用在視覺表象和圖像分類中。

正則化項

最基本的正則化方法，是在代價函數中添加懲罰項，對復雜度高的模型進行“懲罰”。正則化一般具有如下形式：

$J(w,b)=1m∑i=1mL(y^,y)+λR(w)J(w,b)= \frac{1}{m} \sum_{i=1}^{m}L(\hat{y},y)+\lambda R(w)$

其中：

$L(y^,y)L(\hat{y},y)$ 是經驗風險項
$λR(w)\lambda R(w)$ 是正則項
$λ \geq 0$ 為調整兩者之間關系的系數
$λ$ 值可以使用交叉驗證的方法嘗試一系列可能的值，比如從 0，0.01，0.02，0.04 … 開始，一直試下去，將步長設為2倍的速度增長。

常見的正則項有 $L 1$ 正則項和 $L 2$ 正則項。

范數 norm

$L_1$ 范數： $∣∣x∣∣1=∑i=1N∣xi∣||x||_1 = \sum_{i=1}^N|x_i|$

即向量元素絕對值之和。
$L_2$ 范數： $∣∣x∣∣2=∑i=1Nxi2||\textbf{x}||_2 =\sqrt{\sum_{i=1}^Nx_i^2}$

即 Euclid范數（歐幾里得范數），常用計算向量長度。
$L_p$ 范數： $∣∣x∣∣p=(∑i=1N∣xi∣p)1p||\textbf{x}||_p = (\sum_{i=1}^N|x_i|^p)^{\frac{1}{p}}$

即向量元素絕對值的 $p$ 次方之和的 $1 / p$ 次冪

L1 正則 Lasso regularizer

$J(w,b)=1m∑i=1mL(y^,y)+λ∣w∣J(w,b)=\frac{1}{m} \sum_{i=1}^{m}L(\hat{y},y)+\lambda|w|$

L1正則化，是一個相對常用的正則化方法。
正則化目的：減少參數的絕對值總和。

L2 正則 Ridge Regularizer / Weight Decay

$J(w,b)=1m∑i=1mL(y^,y)+12λw2J(w,b)=\frac{1}{m} \sum_{i=1}^{m}L(\hat{y},y)+\frac{1}{2}\lambda w^2$

L2 正則化，可能是最常用的正則化方法了
正則化目的：減少參數的平方值總和。
系數 $12\frac{1}{2}$ 主要是為了后面的求導操作方便，加上 $12\frac{1}{2}$ 后，該式子關于 $w$ 梯度就是 $λw\lambda w$ 而不是 $2λw2\lambda w$ 了。
L2 正則化，可以直觀理解為它對于大數值的權重向量進行嚴厲懲罰，傾向于更加分散的權重向量，使網絡更傾向于使用所有輸入特征，而不是嚴重依賴輸入特征中某些小部分特征。

舉個例子，假設輸入向量 $x = [1, 1, 1, 1]$ ，兩個權重向量 $w_1=[1,0,0,0]，w_2=[0.25,0.25,0.25,0.25]$ 。那么 $w1Tx=w2T=1w^T_1x=w^T_2=1$ ，兩個權重向量都得到同樣的內積，但是 $w_1$ 的 L2 懲罰是 $1.0$ ，而 $w_2$ 的 L2 懲罰是 $0.25$ 。

因此，根據 L2 懲罰來看， $w_2$ 更好，因為它的正則化損失更小。從直觀上來看，這是因為 $w_2$ 的權重值更小且更分散。既然 $L 2$ 懲罰傾向于更小更分散的權重向量，這就會鼓勵分類器最終將所有維度上的特征都用起來，而不是強烈依賴其中少數幾個維度。
在梯度下降時，使用 L2 正則化意味著所有的權重都以 $w$ += - $λ?w\lambda *w$ 向著 0 線性下降。

L1 與 L2 的差異

L1 與 L2 的差異：

假設個體 $x$ 只有兩個分量，則 $w$ 也只有兩個分量 $w 1 ， w 2$ ，將其作為兩個坐標軸，對于目標函數：

$\frac{1}{m} \sum_{i=1}^{m}(y_i -w^Tx_i)^2+\lambda R(w)$
先繪出目標函數中 $y_i -w^Tx_i)^2$ 的平方誤差項等值線（平方誤差項取值相同的點的連線）。
再分別繪制出 L1 范數和 L2 范數的等值線。
目標函數的解，要在平方誤差項與正則化項之間折中，即出現在圖中的等值線交點處。
可發現采用 L1 范數時，平方誤差等值線與正則化等值線的交點經常出現在坐標軸上，即 $w 1$ 或 $w 2$ 為 $0$ 。
而采用 L2 范數時，交點經常出現在象限中，即 $w 1$ 和 $w 2$ 均不為 $0$ ，故采用 L1 正則化項更易得到稀疏解。

L1 與 L2 的使用：

由于 L1 正則化得到的是稀疏解，它會讓權重向量在最優化的過程中變得稀疏（即非常接近0），使用 L1 正則化的神經元最后使用的是它們最重要的輸入特征的稀疏子集。
相較 L1 正則化，L2 正則化中的權重向量大多是分散的小數字。
在實踐中，如果不是特別關注某些明確的特征選擇，一般說來 L2 正則化都會比 L1 正則化效果好。

Dropout

L1、L2 正則化是通過修改代價函數來實現的，而 Dropout 則是通過修改神經網絡本身來實現的，它是在訓練網絡時用的一種技巧。

隨機失活（dropout）：

在訓練網絡時，對于完整的網絡結構（如左圖），每次迭代時，都讓神經元以超參數 $p$ 的概率被隨機地停用（Dropout），即輸出置為0，如右圖。
在訓練時，保持輸入輸出層不變，數據前向傳播后，對得到的損失結果進行反向傳播，更新神經網絡中的權值時，不更新被停用的單元。
在預測時，不進行隨機失活，但是神經元的輸出都要乘以超參數 $p$ ，調整其數值范圍。以 $p = 0.5$ 為例，在預測時神經元必須把它們的輸出減半，這是因為在訓練的時候它們的輸出只有一半。

""" 普通版隨機失活: 不推薦實現 """p = 0.5 # 激活神經元的概率. p值更高 = 隨機失活更弱def train_step(X):""" X中是輸入數據 """# 3層neural network的前向傳播H1 = np.maximum(0, np.dot(W1, X) + b1)U1 = np.random.rand(*H1.shape) < p # 第一個隨機失活遮罩H1 *= U1 # drop!H2 = np.maximum(0, np.dot(W2, H1) + b2)U2 = np.random.rand(*H2.shape) < p # 第二個隨機失活遮罩H2 *= U2 # drop!out = np.dot(W3, H2) + b3# 反向傳播:計算梯度... (略)# 進行參數更新... (略)def predict(X):# 前向傳播時模型集成H1 = np.maximum(0, np.dot(W1, X) + b1) * p # 注意：激活數據要乘以pH2 = np.maximum(0, np.dot(W2, H1) + b2) * p # 注意：激活數據要乘以pout = np.dot(W3, H2) + b3

反向隨機失活（inverted dropout）：

相對于上述的隨機失活，實際應用中更傾向使用反向隨機失活（inverted dropout），它是在訓練時就進行數值范圍調整，從而讓前向傳播在測試時保持不變。
這樣做還有一個好處，無論你決定是否使用隨機失活，預測方法的代碼可以保持不變。反向隨機失活的代碼如下：

""" 反向隨機失活: 推薦實現方式. 在訓練的時候drop和調整數值范圍，測試時不做任何事. """p = 0.5 # 激活神經元的概率. p值更高 = 隨機失活更弱def train_step(X):# 3層neural network的前向傳播H1 = np.maximum(0, np.dot(W1, X) + b1)U1 = (np.random.rand(*H1.shape) < p) / p # 第一個隨機失活遮罩. 注意/p!H1 *= U1 # drop!H2 = np.maximum(0, np.dot(W2, H1) + b2)U2 = (np.random.rand(*H2.shape) < p) / p # 第二個隨機失活遮罩. 注意/p!H2 *= U2 # drop!out = np.dot(W3, H2) + b3# 反向傳播:計算梯度... (略)# 進行參數更新... (略)def predict(X):# 前向傳播時模型集成H1 = np.maximum(0, np.dot(W1, X) + b1) # 不用數值范圍調整了H2 = np.maximum(0, np.dot(W2, H1) + b2)out = np.dot(W3, H2) + b3

Dropout 對過擬合的解決：

取平均的作用：

用相同的訓練數據去訓練 n 個不同的神經網絡，一般會得到 n 個不同的結果，此時我們可以采用 n 個結果取均值去決定最終結果。

取均值策略通常可以有效防止過擬合問題。因為不同的網絡可能產生不同的過擬合，取均值則有可能讓一些 “相反的” 擬合互相抵消。

dropout 隨機停用不同的隱層神經元，導致在每次迭代時都使用了不同的網絡結構，就類似在訓練不同的網絡，整個 dropout 過程就相當于對很多個不同的神經網絡取平均。
減少神經元之間復雜的共適應關系：

因為 dropout 程序導致兩個神經元不一定每次都在一個 dropout 網絡中出現。這樣權值的更新不再依賴于有固定關系的隱含節點的共同作用，阻止了某些特征僅僅在其它特定特征下才有效果的情況，迫使網絡去學習更加魯棒的特征。

總結

以上是生活随笔為你收集整理的正则化方法：数据增强、regularization、dropout的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：梯度下降 gradient descen
下一篇：数据集划分