ubuntu之路——day8.4 Adam自适应矩估计算法
基本上講,Adam就是將day8.2提到的momentum動量梯度下降法和day8.3提到的RMSprop算法相結合的優化算法
首先初始化 SdW = 0 Sdb = 0 VdW = 0 Vdb = 0
On iteration t:
compute dw,db using current Mini-batch
VdW =?β1vdW? +? (1-β1)dW Vdb? =?β1vdb +? (1-β1)db ?? 先做momentum
SdW =?β2SdW? +? (1-β2)dW2 Sdb? =?β2Sdb +? (1-β2)db2 再做RMSprop
? ? ?? 偏差修正:Vdwcorrected =?vdW / (1 -?β1t),Vdbcorrected =?vdb / (1 -?β1t)
? ? Sdwcorrected = SdW / (1 -?β2t),Sdbcorrected = Sdb / (1 -?β2t)
? ? ? ?W = W -?α(Vdwcorrected / sqrt.Sdwcorrected+ε),b = b -?α(Vdbcorrected / sqrt.Sdbcorrected+ε)
超參數的設定:
α:learning rate,需要一系列的嘗試
β1:0.9 (為了計算dw) one moment一階矩
β2:0.999 (為了計算dw2) second moment二階矩
ε:10-8
注意除α需要設定外,Adam算法的β1、β2、ε三個參數都不必去設定,根據Andrew Ng的解釋來看很少有業內人士改變Adam算法原文的這三個參數
Adam = adaptive moment estimation
轉載于:https://www.cnblogs.com/NWNU-LHY/p/11195798.html
總結
以上是生活随笔為你收集整理的ubuntu之路——day8.4 Adam自适应矩估计算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 由注释引起的问题
- 下一篇: Linux文件系统属性权限chattr与