DEEPNORM:千层transformer...
生活随笔
收集整理的這篇文章主要介紹了
DEEPNORM:千层transformer...
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
見過幾層的mlp,也見過幾十層的GoogleNet,還見過上百層的Resnet,上千層的transformer見過沒!這篇論文<DeepNet: Scaling Transformers to 1000 Layers>它來了。它提出了一個簡單有效的方法來訓練"極深"的transformer。這篇論文提出了一個新的標準化方程(DEEPNORM)去修改transformer中的殘差鏈接。該論文有著非常深入的理論分析模型在訓練過程中參數更新是非常穩定的,使得1000層的transformer誕生,并且在各項指標上吊打其他模型。
基于Post-LN的transfomer,該文實現了DEEPNORM(如下圖偽代碼所示)。與Post-LN相比,DEEPNORM在進行layer-norm之前會擴大殘差連接。除此以外,在初始化過程中降低了參數的比例。需要注意的是,該方法只會擴大前饋網絡的權值的規模,以及attention層的投影值。
DEEPNET基于transformer架構,不同的就是用了deepnorm替換每層的post-LN,如下式所示,Gl是第l層attention和feed-forward網絡:
下圖中我們發現對比Post-LN,DeepNet更新更加穩定。
總結
以上是生活随笔為你收集整理的DEEPNORM:千层transformer...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021年炼丹笔记最受欢迎的10篇技术文
- 下一篇: 神经网络调参技巧:warmup策略