【深度学习】NetAug(网络增强)—Dropout的反面
很久沒看到這么精彩的提升小模型精度的文章了,細細品味。
Large Model vs Tiny Model
本文明確指出大模型過擬合,需要通過dropout等正則化技術和數據增強來提升精度;而小模型是欠擬合的,需要增強網絡技術,正則化技術對小網絡是有害的。
如上圖所示ResNet50(大模型)正則化后,精度都有所提升,NetAug會掉點;而MobileNetV2-Tiny(小模型)正則化會掉點,NetAug會提升精度。
Formulation
標準的隨機梯度下降公式為:
因為小模型的容量受限,比起大模型更容易陷入局部最優,最終導致不能得到最佳性能。為了提升小模型的精度,就需要引入額外的監督信號(比如KD和multi-task learning方法)。dropout方法鼓勵模型的子集進行預測,而本文提出的NetAug則鼓勵小模型作為一組大模型的子模型進行預測(這組大模型通過增強小模型的width構建的)。總的loss函數可以寫成:
??表示一個增強的大模型(包含需要的小模型??,參數共享),??是縮放系數。
Constructing Augmented Models
如左圖所示,構建一個最大的增強模型(包含需要的小模型,參數共享),其他增強模型從最大增強模型中采樣。這種參數共享構建supernet的方式,之前在one-shot NAS中非常流行,詳細可以看我之前的文章:https://zhuanlan.zhihu.com/p/74985066。
如右圖所示,NetAug通過調整width構建其他增強模型,比起通過調整depth構建增強模型,訓練開銷更小。構建增強模型引入augmentation factor r和diversity factor s兩個超參數,假設我們需要的小模型其中一個卷積寬度是w,最大增強模型的卷積寬度就是rxw,s表示從w到rw寬度之間等間距采樣s個增強模型卷積寬度。比如r=3,s=2,那么widths=[w, 2w, 3w]。
訓練階段,NetAug在每個step采樣一個增強模型進行輔助訓練。NetAug訓練額外開銷相比baseline增加了16.7%,推理額外開銷為0。
Experiments
1.Effectiveness of NetAug for Tiny Deep Learning
可以看到,NetAug和KD是正交的,可以在KD基礎上繼續提升性能。
在流行的小模型和NAS模型基礎上,NetAug可以繼續提升性能,但是對于大模型(ResNet50)來說,NetAug是有害的。
2.Comparison with Regularization Methods
正則化技術對于小模型來說是有害的。
3.Combined with Network Pruning
在Pruning的基礎上,NetAug也能提升性能。
4.Large Model vs Tiny Model
上圖清晰的揭示了本文提出的結論,小模型欠擬合,NetAug可以提升性能;大模型過擬合,NetAug是有害的。
5.The Number of Augmented Model
實驗表明,每個step采樣一個augmented model是最有的,r和s超參數都設置為3最優。
總結
NetAug vs OFA
NetAug和之前的OFA非常相似,OFA先構建一個大模型,然后訓練這個大模型,最后通過搜索的方式得到小模型。
從上表可以看到,在OFA搜索得到模型的基礎上,NetAug還可以繼續提升性能,也驗證了NetAug可以進行網絡增強的作用。
OFA和NetAug其實是一體兩面:一個是自上而下通過supernet搜索最好的子網絡,另一個是自下而上通過supernet輔助訓練小網絡。一個是終點未知,找最優終點(類似搜索);另一個是終點已知,增強終點性能(類似動態規劃)。
OFA的問題在于,大量的時間資源花費在可能跟最終目的無關的子模型上,而NetAug的優勢在于,已知想要的小模型,通過supernet來提升小模型的精度。
小模型欠擬合,需要增加而外的監督信息(NetAug、KD、multi-task learning);大模型過擬合,需要正則化。
NetAug和KD的差別在于,KD是通過outer network來輔助訓練(提供信息),而NetAug是通過inner network來輔助訓練(共享參數)。
正如標題所言,NetAug(網絡增強)是Dropout的反面。
Reference
1.https://zhuanlan.zhihu.com/p/74985066
2.ONCE-FOR-ALL: TRAIN ONE NETWORK AND SPE- CIALIZE IT FOR EFFICIENT DEPLOYMENT
3.NETWORK AUGMENTATION FOR TINY DEEP LEARNING
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載黃海廣老師《機器學習課程》視頻課黃海廣老師《機器學習課程》711頁完整版課件本站qq群554839127,加入微信群請掃碼:
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的【深度学习】NetAug(网络增强)—Dropout的反面的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 优酷视频手机上能发现投屏设备,但投屏失败
- 下一篇: 腾讯视频vip会员_腾讯视频如何查看版本