深度神经网络(DNN)的正则化
和普通的機(jī)器學(xué)習(xí)算法一樣,DNN也會(huì)遇到過(guò)擬合的問(wèn)題,需要考慮泛化,這里我們就對(duì)DNN的正則化方法做一個(gè)總結(jié)。
1. DNN的L1&L2正則化
想到正則化,我們首先想到的就是L1正則化和L2正則化。L1正則化和L2正則化原理類(lèi)似,這里重點(diǎn)講述DNN的L2正則化。
而DNN的L2正則化通常的做法是只針對(duì)與線性系數(shù)矩陣WW,而不針對(duì)偏倚系數(shù)bb。利用我們之前的機(jī)器學(xué)習(xí)的知識(shí),我們很容易可以寫(xiě)出DNN的L2正則化的損失函數(shù)。
假如我們的每個(gè)樣本的損失函數(shù)是均方差損失函數(shù),則所有的m個(gè)樣本的損失函數(shù)為:
J(W,b)=12m∑i=1m||aL?y||22J(W,b)=12m∑i=1m||aL?y||22
則加上了L2正則化后的損失函數(shù)是:
J(W,b)=12m∑i=1m||aL?y||22+λ2m∑l=2L||w||22J(W,b)=12m∑i=1m||aL?y||22+λ2m∑l=2L||w||22
其中,λλ即我們的正則化超參數(shù),實(shí)際使用時(shí)需要調(diào)參。而ww為所有權(quán)重矩陣WW的所有列向量。
如果使用上式的損失函數(shù),進(jìn)行反向傳播算法時(shí),流程和沒(méi)有正則化的反向傳播算法完全一樣,區(qū)別僅僅在于進(jìn)行梯度下降法時(shí),WW的更新公式。
回想我們?cè)谏疃壬窠?jīng)網(wǎng)絡(luò)(DNN)反向傳播算法(BP)中,WW的梯度下降更新公式為:
Wl=Wl?α∑i=1mδi,l(ax,
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專(zhuān)家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的深度神经网络(DNN)的正则化的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 深度神经网络(DNN)损失函数和激活函数
- 下一篇: 卷积神经网络(CNN)模型结构