當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习优化器 optimizer 的选择

發(fā)布時間：2024/1/17 pytorch 31 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习优化器 optimizer 的选择小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在很多機器學(xué)習(xí)和深度學(xué)習(xí)的應(yīng)用中，我們發(fā)現(xiàn)用的最多的優(yōu)化器是 Adam，為什么呢？

下面是 TensorFlow 中的優(yōu)化器，?
https://www.tensorflow.org/api_guides/python/train?

在 keras 中也有 SGD，RMSprop，Adagrad，Adadelta，Adam 等：?
https://keras.io/optimizers/

我們可以發(fā)現(xiàn)除了常見的梯度下降，還有 Adadelta，Adagrad，RMSProp 等幾種優(yōu)化器，都是什么呢，又該怎么選擇呢？

在 Sebastian Ruder 的這篇論文中給出了常用優(yōu)化器的比較，今天來學(xué)習(xí)一下：?
https://arxiv.org/pdf/1609.04747.pdf

本文將梳理：

每個算法的梯度更新規(guī)則和缺點
為了應(yīng)對這個不足而提出的下一個算法
超參數(shù)的一般設(shè)定值
幾種算法的效果比較
選擇哪種算法

優(yōu)化器算法簡述?

首先來看一下梯度下降最常見的三種變形 BGD，SGD，MBGD，?
這三種形式的區(qū)別就是取決于我們用多少數(shù)據(jù)來計算目標函數(shù)的梯度，?
這樣的話自然就涉及到一個 trade－off，即參數(shù)更新的準確率和運行時間。

1. Batch gradient descent

梯度更新規(guī)則:?
BGD 采用整個訓(xùn)練集的數(shù)據(jù)來計算 cost function 對參數(shù)的梯度：?

θ=θ?α?θJ(θ)θ=θ?α?θJ(θ)

缺點:?
由于這種方法是在一次更新中，就對整個數(shù)據(jù)集計算梯度，所以計算起來非常慢，遇到很大量的數(shù)據(jù)集也會非常棘手，而且不能投入新數(shù)據(jù)實時更新模型

我們會事先定義一個迭代次數(shù) epoch，首先計算梯度向量 params_grad，然后沿著梯度的方向更新參數(shù) params，learning rate 決定了我們每一步邁多大。

Batch gradient descent 對于凸函數(shù)可以收斂到全局極小值，對于非凸函數(shù)可以收斂到局部極小值。

2. Stochastic gradient descent

梯度更新規(guī)則:?
和 BGD 的一次用所有數(shù)據(jù)計算梯度相比，SGD 每次更新時對每個樣本進行梯度更新，對于很大的數(shù)據(jù)集來說，可能會有相似的樣本，這樣 BGD 在計算梯度時會出現(xiàn)冗余，而 SGD 一次只進行一次更新，就沒有冗余，而且比較快，并且可以新增樣本。

缺點:?
SGD 因為更新比較頻繁，會造成 cost function 有嚴重的震蕩，此外SGD對噪聲比較敏感。

BGD 可以收斂到局部極小值，當然 SGD 的震蕩可能會跳到更好的局部極小值處。

當我們稍微減小 learning rate，SGD 和 BGD 的收斂性是一樣的。

3. Mini-batch gradient descent

梯度更新規(guī)則:?
MBGD 每一次利用一小批樣本，即 n 個樣本進行計算，這樣它可以降低參數(shù)更新時的方差，收斂更穩(wěn)定，另一方面可以充分地利用深度學(xué)習(xí)庫中高度優(yōu)化的矩陣操作來進行更有效的梯度計算。?
和 SGD 的區(qū)別是每一次循環(huán)不是作用于每個樣本，而是具有 n 個樣本的Batch。

超參數(shù)設(shè)定值:?
n 一般取值在 50～200

缺點:?
Mini-batch gradient descent 不能保證很好的收斂性，

①learning rate 如果選擇的太小，收斂速度會很慢，如果太大，loss function 就會在極小值處不停地震蕩甚至偏離。

②有一種措施是先設(shè)定大一點的學(xué)習(xí)率，當兩次迭代之間的變化低于某個閾值后，就減小 learning rate，不過這個閾值的設(shè)定需要提前寫好，這樣的話就不能夠適應(yīng)數(shù)據(jù)集的特點。此外，這種方法是對所有參數(shù)更新時應(yīng)用同樣的 learning rate，如果我們的數(shù)據(jù)是稀疏的，我們更希望對出現(xiàn)頻率低的特征進行大一點的更新。

③另外，對于非凸函數(shù)，還要避免陷于局部極小值處，或者鞍點處，因為鞍點周圍的error 是一樣的，所有維度的梯度都接近于0，SGD 很容易被困在這里。

鞍點：一個光滑函數(shù)的鞍點鄰域的曲線，曲面，或超曲面，都位于這點的切線的不同邊。?
例如這個二維圖形，像個馬鞍：在x-軸方向往上曲，在y-軸方向往下曲，鞍點就是（0，0）

為了應(yīng)對上面的三點挑戰(zhàn)就有了下面這些算法。

［應(yīng)對挑戰(zhàn) 1］

4. Momentum（動量法）

SGD 在?ravines?的情況下容易被困住，?ravines就是曲面的一個方向比另一個方向更陡，這時 SGD 會發(fā)生震蕩而遲遲不能接近極小值：

梯度更新規(guī)則:?
Momentum 通過加入?γvt?1?，可以加速 SGD，并且抑制震蕩?

vt=γvt?1+α?θJ(θ)vt=γvt?1+α?θJ(θ)
θ=θ?vtθ=θ?vt
當我們將一個小球從山上滾下來時，沒有阻力的話，它的動量會越來越大，但是如果遇到了阻力，速度就會變小。?
加入的這一項，可以使得梯度方向不變的維度上速度變快，梯度方向有所改變的維度上的更新速度變慢，這樣就可以加快收斂并減小震蕩。

超參數(shù)設(shè)定值:?
一般?γ取值 0.9 左右。

缺點:?
這種情況相當于小球從山上滾下來時是在盲目地沿著坡滾，如果它能具備一些先知，例如快要上坡時，就知道需要減速了的話，適應(yīng)性會更好。

5. Nesterov accelerated gradient(NAG)

梯度更新規(guī)則:?
用?θ?γvt?1來近似當做參數(shù)下一步會變成的值，則在計算梯度時，不是在當前位置，而是未來的位置上?

vt=γvt?1+α?θJ(θ?γvt?1)vt=γvt?1+α?θJ(θ?γvt?1)
θ=θ?vtθ=θ?vt
超參數(shù)設(shè)定值: ?
γγ 仍然取值 0.9 左右。

效果比較:?

藍色是 Momentum 的過程，會先計算當前的梯度，然后在更新后的累積梯度后會有一個大的跳躍。?
而 NAG 會先在前一步的累積梯度上(brown vector)有一個大的跳躍，然后衡量一下梯度做一下修正(red vector)，這種預(yù)期的更新可以避免我們走的太快。

NAG 可以使 RNN 在很多任務(wù)上有更好的表現(xiàn)。

目前為止，我們可以做到，在更新梯度時順應(yīng) loss function 的梯度來調(diào)整速度，并且對 SGD 進行加速。

我們還希望可以根據(jù)參數(shù)的重要性而對不同的參數(shù)進行不同程度的更新。

［應(yīng)對挑戰(zhàn) 2］

6. Adagrad

這個算法就可以對低頻的參數(shù)做較大的更新，對高頻的做較小的更新，也因此，對于稀疏的數(shù)據(jù)它的表現(xiàn)很好，很好地提高了 SGD 的魯棒性，例如識別 Youtube 視頻里面的貓，訓(xùn)練 GloVe word embeddings，因為它們都是需要在低頻的特征上有更大的更新。

梯度更新規(guī)則:?

θt+1,i=θt,i?αGt,ii+???????√gt,iθt+1,i=θt,i?αGt,ii+?gt,i

其中gt,i為：t 時刻參數(shù)?θi的梯度；Gt是個對角矩陣， (i,i) 元素就是 t 時刻參數(shù)?θi?的梯度gt,i的平方和。

Adagrad 的優(yōu)點是減少了學(xué)習(xí)率的手動調(diào)節(jié)

超參數(shù)設(shè)定值:?
一般 η 就取 0.01。

缺點:?
它的缺點是分母會不斷積累，這樣學(xué)習(xí)率就會收縮并最終會變得非常小。

7. Adadelta

這個算法是對 Adagrad 的改進，?

Δθt=?αE[g2]t+?????????√gtΔθt=?αE[g2]t+?gt
和 Adagrad 相比，就是分母的 GG 換成了過去的梯度平方 E[g2]tE[g2]t 的衰減平均值。

這個分母相當于梯度的均方根?root mean squared (RMS) ，所以可以用 RMS 簡寫：?

Δθt=?αRMS[g]tgtΔθt=?αRMS[g]tgt

其中 E 的計算公式如下，t 時刻的依賴于前一時刻的平均和當前的梯度：

E[g2]t=γE[g2]t?1+(1?γ)g2tE[g2]t=γE[g2]t?1+(1?γ)gt2

梯度更新規(guī)則:

此外，還將學(xué)習(xí)率?α換成了?RMS[Δθ]，這樣的話，我們甚至都不需要提前設(shè)定學(xué)習(xí)率了：?

超參數(shù)設(shè)定值:?
γ 一般設(shè)定為 0.9，

7. RMSprop

RMSprop 是 Geoff Hinton 提出的一種自適應(yīng)學(xué)習(xí)率方法。

RMSprop 和 Adadelta 都是為了解決 Adagrad 學(xué)習(xí)率急劇下降問題的。

梯度更新規(guī)則:?
RMSprop 與 Adadelta 的第一種形式相同：?

E[g2]t=0.9E[g2]t?1+0.1g2tE[g2]t=0.9E[g2]t?1+0.1gt2
θt+1=θt?αE[g2]t+?????????√gtθt+1=θt?αE[g2]t+?gt

超參數(shù)設(shè)定值:?
Hinton 建議設(shè)定?γ為 0.9, 學(xué)習(xí)率?α為 0.001。

8. Adam

這個算法是另一種計算每個參數(shù)的自適應(yīng)學(xué)習(xí)率的方法。目前在DL領(lǐng)域，是最常見的優(yōu)化器。

除了像 Adadelta 和 RMSprop 一樣存儲了過去梯度的平方?vt?的指數(shù)衰減平均值，也像 momentum 一樣保持了過去梯度?mt的指數(shù)衰減平均值：?

如果?mt和?vt?被初始化為 0 向量，那它們就會向 0 偏置，所以做了偏差校正，?
通過計算偏差校正后的 mt 和 vt 來抵消這些偏差：?

梯度更新規(guī)則:?

θt+1=θt?αvt+??????√mtθt+1=θt?αvt+?mt

超參數(shù)設(shè)定值:?
建議 β1 ＝ 0.9，β2 ＝ 0.999，? ＝ 10e?8

實踐表明，Adam 比其他適應(yīng)性學(xué)習(xí)方法效果要好。

效果比較?

下面看一下幾種算法在鞍點和等高線上的表現(xiàn)：?
?
?
上面兩種情況都可以看出，Adagrad, Adadelta, RMSprop 幾乎很快就找到了正確的方向并前進，收斂速度也相當快，而其它方法要么很慢，要么走了很多彎路才找到。

由圖可知自適應(yīng)學(xué)習(xí)率方法即 Adagrad, Adadelta, RMSprop, Adam 在這種情景下會更合適而且收斂性更好。

如何選擇？

如果數(shù)據(jù)是稀疏的，就用自適應(yīng)方法，即 Adagrad, Adadelta, RMSprop, Adam。

RMSprop, Adadelta, Adam 在很多情況下的效果是相似的。

Adam 就是在 RMSprop 的基礎(chǔ)上加了 bias-correction 和 momentum。

隨著梯度變的稀疏，Adam 比 RMSprop 效果會好。

整體來講，Adam 是最好的選擇。

很多論文里都會用 SGD，沒有 momentum 等。SGD 雖然能達到極小值，但是比其它算法用的時間長，而且可能會被困在鞍點。

如果需要更快的收斂，或者是訓(xùn)練更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)，需要用一種自適應(yīng)的算法。

參考：

http://sebastianruder.com/optimizing-gradient-descent/index.html#fn:24?
http://www.redcedartech.com/pdfs/Select_Optimization_Method.pdf?
https://stats.stackexchange.com/questions/55247/how-to-choose-the-right-optimization-algorithm

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的深度学习优化器 optimizer 的选择的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： JavaWeb学习总结(三)：Tomca
下一篇： BFS——广度优先算法（Breadth