batch size 越大,学习率也要越大
生活随笔
收集整理的這篇文章主要介紹了
batch size 越大,学习率也要越大
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
在論文當中 Reducing BERT Pre-training Time from 3 Days to 76 Minutes中提到:如圖所示:
結論:batchsize變大,學習率也要相應變大;本質(zhì)是為了梯度的方差保持不變;?
1、為什么要保證梯度的方差不變呢?
? ?
? ? 個人猜想,是為了解決陷入局部最優(yōu)和一個sharp 最小值(類似于一個很尖的V底)的問題,增強泛化能力;增加了學習率,就增大了步長;
總結
以上是生活随笔為你收集整理的batch size 越大,学习率也要越大的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AutoML之图数据与表数据
- 下一篇: Nominal data 与Ordina