L2正则没有想象那么好?可能是“权重尺度偏移”惹的祸
?PaperWeekly 原創 · 作者|蘇劍林
單位|追一科技
研究方向|NLP、神經網絡
L2 正則是機器學習常用的一種防止過擬合的方法(應該也是一道經常遇到的面試題)。簡單來說,它就是希望權重的模長盡可能小一點,從而能抵御的擾動多一點,最終提高模型的泛化性能。但是讀者可能也會發現,L2 正則的表現通常沒有理論上說的那么好,很多時候加了可能還有負作用。
最近的一篇文章 Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations 從“權重尺度偏移”這個角度分析了 L2 正則的弊端,并提出了新的?WEISSI 正則項。整個分析過程頗有意思,在這里與大家分享一下。
論文標題:Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations
論文鏈接:https://arxiv.org/abs/2008.02965
相關內容
這一節中我們先簡單回顧一下 L2 正則,然后介紹它與權重衰減的聯系以及與之相關的 AdamW 優化器 [1]?。
1.1 L2正則的理解
為什么要添加 L2 正則?這個問題可能有多個答案。有從 Ridge 回歸角度回答的,有從貝葉斯推斷角度回答的,這里給出從擾動敏感性的角度的理解。
對于兩個(列)向量 ,我們有柯西不等式 。根據這個結果,我們就可以證明:
這里的 等于矩陣 的所有元素的平方和。證明并不困難,有興趣的讀者自行完成。
這個結果告訴我們: 的變化量,可以被 和 控制住,因此如果我們希望 很小時 的變化量也盡可能小,那么我們可以降低 ,這時候就可以加入正則項 。
不難發現,這其實就是 L2 正則。這個角度的相關討論還可以參考深度學習中的Lipschitz約束:泛化與生成模型(不過要注意兩篇文章的記號略有不同)。
1.2 AdamW優化器
在使用 SGD 進行優化時,假設原來的迭代為 ,那么不難證明加入 L2 正則 后變成了:
由于 ,所以這會使得整個優化過程中參數 有“收縮”到 0 的傾向,這樣的改動稱為“權重衰減(Weight Decay)”。
不過,L2 正則與權重衰減的等價性僅僅是在 SGD 優化器下成立,如果用了自適應學習率優化器如 Adagrad、Adam 等,那么兩者不等價。在自適應學習率優化器中,L2 正則的作用約等于往優化過程里邊加入 而不是 。
也就是說每個元素的懲罰都很均勻,而不是絕對值更大的元素懲罰更大,這部分抵消了 L2 正則的作用。論文 Decoupled Weight Decay Regularization [1] 首次強調了這個問題,并且提出了改進的 AdamW 優化器。
新的正則
在這一節中,我們將指出常見的深度學習模型中往往存在“權重尺度偏移(Weight Scale Shif)”現象,這個現象可能會導致了 L2 正則的作用沒那么明顯。進一步地,我們可以構建一個新的正則項,它具有跟 L2 類似的作用,但是與權重尺度偏移現象更加協調,理論上來說會更加有效。
2.1 權重尺度偏移
我們知道深度學習模型的基本結構就是“線性變換+非線性激活函數”,而現在最常用的激活函數之一是 。有意思的是,這兩者都滿足“正齊次性”,也就是對于 ,我們有 恒成立。
對于其他的激活函數如 SoftPlus、GELU、Swish 等,其實它們都是 的光滑近似,因此可以認為它們是近似滿足“正齊次性”。
“正齊次性”使得深度學習模型對于權重尺度偏移具有一定的不變性。具體來說,假設一個L層的模型:
假設每個參數引入偏移 ,那么根據正齊次性可得:
如果 ,那么參數為 就跟參數為 的模型完全等價了。
換句話說,模型對于 的權重尺度偏移具有不變性(WEIght-Scale-Shift-Invariance,WEISSI)。
2.2 與L2正則不協調
剛才我們說只要尺度偏移滿足 ,那么兩組參數對應的模型就等價了,但問題是它們對應的 L2 正則卻不等價:
并且可以證明,如果固定 ,并且保持約束 ,那么 的最小值在:
事實上,這就體現了 L2 正則的低效性。試想一下,假如我們已經訓練得到一組參數 ,這組參數泛化性能可能不大好,于是我們希望 L2 正則能幫助優化器找到一組更好參數(犧牲一點 ,降低一點 )。
但是,上述結果告訴我們,由于權重尺度偏移不變性的存在,模型完全可以找到一組新的參數 ,它跟原來參數的模型完全等價(沒有提升泛化性能),但是 L2 正則還更小(L2 正則起作用了)。說白了,就是 L2 正則確實起作用了,但沒有提升模型泛化性能,沒有達到使用 L2 正則的初衷。
2.3 WEISSI正則
上述問題的根源在于,模型對權重尺度偏移具有不變性,但是 L2 正則對權重尺度偏移沒有不變性。如果我們能找到一個新的正則項,它有類似的作用,同時還對權重尺度偏移不變,那么就能解決這個問題了。個人感覺原論文對這部分的講解并不夠清晰,下面的推導以筆者的個人理解為主。
我們考慮如下的一般形式的正則項:
對于 L2 正則來說,,只要 是關于 x 在 上的單調遞增函數,那么就能保證優化但目標是縮小。要注意我們希望正則項具有尺度偏移不變性,并不需要 ,而只需要:
因為優化過程只需要用到它的梯度。可能有的讀者都能直接看出它的一個解了,其實就是對數函數 。所以新提出來的正則項就是:
除此之外,原論文可能擔心上述正則項懲罰力度還不夠,還對參數方向加了個 L1 的懲罰,總的形式為:
2.4 實驗效果簡述
按慣例展示一下原論文的是實驗結果,當然既然作者都整理成文了,顯然說明是有正面結果的:
▲原論文對WEISSI正則的實驗結果之一對于我們來說,無非就是知道有這么個新的選擇,煉丹的時候多一種嘗試罷了。畢竟正則項這種東西,沒有什么理論能保證它一定能起作用,還是用了才能知道結果,別人說得再漂亮也沒用。
文章小結
本文介紹了神經網絡模型中的權重尺度偏移不變性的現象,并指出它與 L2 正則的不協調性,繼而提出了作用類似但能夠解決不協調性的正則項。
參考文獻
[1] https://arxiv.org/abs/1711.05101
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的L2正则没有想象那么好?可能是“权重尺度偏移”惹的祸的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 长安汽车 2024 年 9 月销量 21
- 下一篇: 英特尔退出5G芯片市场 基带芯片领域又