當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数学与算法】步长一维搜索、梯度下降法、最速下降法、牛顿法

發布時間：2025/3/21 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了【数学与算法】步长一维搜索、梯度下降法、最速下降法、牛顿法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

更詳細的推導，可以參考這篇博客：一維搜索、最速下降（梯度下降）與牛頓法（擬牛頓法）

1.求解最優步長的方法：

$f (x)$ 可以理解為目標函數，損失函數。我們的目標是最小化這個損失函數，最小化大多通過迭代得到，那么每一步迭代更新的步長也很重要，知道每一點的函數值下降最快的方向后(負梯度方向)，還需要選取最優的步長，可以使得損失函數每一步迭代下降更快。
如果我們不想求解最優步長，那么就只需要設定固定步長即可，但是這樣做的話，迭代更新較慢，也有可能取不到(全局或局部)最優解，而是在最優解附近。后面的例子，我們會討論固定步長的劣勢。

每一步的最優步長 $λk\lambda{_k}$ 由求解式 $λk=argminf(xk+λdk)\color{red}\lambda{_k}=arg min f(x_k+λd_k)$ 得到，是一種精確步長的搜索方式。
即，由 $x_0$ 到 $x_1$ 的更新步長為 $λ0\lambda{_0}$ ，由 $x_1$ 到 $x_2$ 的更新步長為 $λ1\lambda{_1}$ ，… ，由 $x_{k-1}$ 到 $x_k$ 的更新步長為 $λk?1\lambda{_{k-1}}$ 。

$d_k$ 是在 $x_k$ 點時的搜索方向，如果是梯度下降法時，我們的方向就變成了 $d_k =??f(x_k)$ ，(梯度方向是函數值增長最快的方向，梯度下降就是負梯度方向，即函數值減小最快的方向)。
求解這個式子，就需要把 $f(x_k+λd_k)$ 看做是 $λ\lambda$ 的函數，令： $g(λ)=f(xk+λdk)\color{red}g(\lambda)=f(x_k+λd_k)$
那么 $f(x_k+λd_k)$ 取極小值，就是 $g′(λ)=0\color{red}g'(\lambda)=0$ 時，求解 $λ\lambda$ 。
由于 $f(x),x_k，?f(x_k)$ 已知，所以 $f'(x_k+λd_k)$ 中只有 $λ\lambda$ 一個未知數，那么
$g′(λ)=f′(xk+λdk)=0\color{red}g'(\lambda)=f'(x_k+λd_k)=0$
可以求解出 $λ\lambda$ 。

例子：

一維度函數 $f(x)=(x+1)2\color{red}f(x)=(x+1)^2$ ,在初始值 $x_0=0$ 時，梯度即一階導
$?f(x0)=2x0+2=2\nabla{f(x_0)}=2x_0+2=2$
$d0=??f(x0)=?2d_0=-\nabla{f(x_0)}=-2$
$f(x1)=f(x0+λd0)=(x0+λd0+1)2=(1?2λ)2\begin {aligned} f(x_{1})&=f(x_0+\lambda{d_0})\\ &=(x_0+\lambda{d_0}+1)^2 \\ &=(1-2{\lambda})^2\\ \end {aligned}$

$f′(x0+λd0)=2(1?2λ)?(?2)=0f'(x_0+\lambda{d_0})=2(1-2{\lambda})*(-2)=0$
解得： $λ=0.5\color{red}\lambda =0.5$ ，從而得到了 $x_0$ 到 $x_1$ 的最優步長。
那么就可以求得 $x_1=x_0+λd_0=0+0.5*(-2)=-1$
這就是迭代。
繼續下一次迭代：
$x1=?1,?f(x1)=0,d1=0x_1=-1,\nabla{f(x_1)}=0,d_1=0$ ，那么
$x1=x0+λ?d1=x0+λ?0=x0x_1=x_0+\lambda *d_1=x_0+\lambda*0=x_0$
我們看到， $x1=x0\color{red}x_1=x_0$ ，就是說，下一次更新的點還在 $x_0$ 就是沒更新了，在看前面在 $x_1$ 處的梯度 $?f(x1)=0\color{red}\nabla{f(x_1)}=0$ ，就是不會再更新了，已經找到了最優點，就是 $x_1=-1$ 。到這里，僅僅做了一次迭代就達到了最優點，是因為我這里設置的函數比較簡單，取初值也恰好合適，實際情況中不會這么一次就迭代完成。

我們驗證一下， $x = ? 1$ 是不是 $f(x)=(x+1)^2$ 的最小值點呢？
對 $f (x)$ 求導 $f^{'} (x) = 0$ ，解得 $x = ? 1$ 。所以前面的迭代法求得的結果是準確的。

最優步長對比固定步長：

那么，如果我們在每個點 $x_k$ 處都設置固定步長為 $λ=0.1\lambda=0.1$ 的話，那么:
$x1=x0+λ?d0=0+0.1?(?2)=?0.2x_1=x_0+\lambda*d_0=0+0.1*(-2)=-0.2$
$f(x_1)=(-0.2+1)^2=0.64$
比最優步長得到的函數值0還大很多，需要繼續迭代：
$d_2=-1.6$
$x2=x1+λ?d2=?0.2+0.1?(?1.6)=?0.36x_2=x_1+\lambda*d_2=-0.2+0.1*(-1.6)=-0.36$
$f(x_2)=(-0.36+1)^2=0.64^2=0.4096$
$x_2=-0.36$ 處的損失函數值變成了0.4096進一步縮小，再往后迭代幾次可能也得不到最優解 $x^*=-1$ ，而是在-1附近徘徊，我這里不再向后推算，明白原理即可，感興趣的自己往后推算。

下面這個是最速下降法的性質，即前后兩次迭代的梯度向量方向正交，并不是求解步長 $λ\lambda$ 。

根據求導公式， $y = f (a + b ? x)$ 對 $x$ 求導，得到 $y^{'} = f^{'} (a + b ? x) ? (b ? x)^{'}$ ，
即 $y^{'} = f^{'} (a + b ? x) ? b$
那么 $g′(λ)=f′(xk+λdk)=0\color{red}g'(\lambda)=f'(x_k+λd_k)=0$ 是對 $λ\lambda$ 求導，則：
$g′(λ)=?f(xk+λkdk)T?dk=0g'(\lambda)=\nabla f(x_k+λ_kd_k)^T*d_k=0$
可得：
$??f(xk+1)T?f(xk)=0\color{red}-\nabla f(x_{k+1})^T\nabla f(x_k)=0$

2.梯度下降法和最速下降法：

相同點：都是讓迭代點沿著負梯度方向前進，保證函數的“最速”下降；

不同點：在于步長 $λ\lambda$ 的取值：

梯度下降法的步長 $λ\lambda$ 是定值,由工程師指定；
最速下降法的步長 $λ\lambda$ 是通過求解得到最優步長，它能使迭代更快收斂。

因此梯度下降法只是最速下降法中的一種特殊形式。

使用最速下降法得到的迭代路線往往是呈現一個之字形的走勢。而當迭代點越靠近極小點，其移動的步長較小，嚴重影響到了收斂的速度。雖然從局部來看，每次選擇的方向都是函數值下降最快的方向，但是從全局來看，鋸齒現象導致當距離極小點較近時需要繞不少彎路才能收斂，反而收斂較慢。
因此，在計算的前中期使用梯度下降，而在接近極小點時使用其他算法進行迭代，會是更理想的方案。

3.牛頓法迭代法:

牛頓法迭代法：基本思想是利用二階泰勒展開在極小點附近來近似目標函數，最終解出極小點的一個近似值。

4.梯度下降法或牛頓法進行最優化的步驟：

要最小化目標函數 $f(x?)f(\vec{x})$ ,也就是要找到某個點 $xk?\vec{x_k}$ 使得 $f(x?)f(\vec{x})$ 最小，即 $f(\vec{x})$ 。

這里 $xk?\vec{x_k}$ 頭上打箭頭表示 $x$ 是多維點，就是向量。因為實際問題中很少會是一維點的。

一般都是使用迭代法更新求最優值 $x??\vec{x^*}$ ：

4.1.方法1：使用梯度下降法進行更新迭代：

步驟1：給一個初始值 $x0?\vec{x_0}$ ，和精度閾值 $?\epsilon$ ，并令 $k = 0$ ;
步驟2：更新迭代計算：
如果步長 $λ\lambda$ 需要計算，就在這里進行計算，得到這一步迭代的最優步長；
計算梯度 $?f(xk)\nabla f(x_k)$ 后，按照下式進行迭代更新 $x?\vec{x}$ ：
$xk+1=xk?λ?f(xk)x_{k+1}=x_{k}-\lambda\nabla f(x_k)$
步驟3：判斷迭代停止條件：
若梯度模 $∣∣?f(xk)∣∣<?||\nabla f(x_k)||< \epsilon$ ，(梯度特別小的點基本就是局部或者全局最優點)，則停止迭代。
梯度模是類似下面這樣計算:

zhz:這里迭代停止條件也可以使用：1.連續10次更新得到的 $f(x_k)$ 差值 $∣∣f(xk+1)?f(xk)∣∣<?||f(x_{k+1})-f(x_k)||< \epsilon$ ；2.達到多少次迭代后。
步驟4：另 $k = k + 1$ ，轉至步驟2；

4.2.方法2：使用牛頓法即二階泰勒展開式更新迭代：

步驟1：給一個初始值 $x0?\vec{x_0}$ ，和精度閾值 $?\epsilon$ ，并令 $k = 0$ ;
步驟2：更新迭代計算：
計算牛頓方向: - $?2f(xk)?1?f(xk){\nabla}^2 f(x_k)^{-1} \nabla f(x_k)$ 后，按照下式進行迭代更新 $x?\vec{x}$ ：
$xk+1=xk??2f(xk)?1?f(xk)x_{k+1}=x_{k}- {\nabla}^2 f(x_k)^{-1} \nabla f(x_k)$
或者也加上步長 $λ\lambda$ ,就變成了阻尼牛頓法，這里需要使用求解最優步長 $λ\lambda$ 的方法：
$xk+1=xk?λ?2f(xk)?1?f(xk)x_{k+1}=x_{k}- \lambda{\nabla}^2 f(x_k)^{-1} \nabla f(x_k)$
步驟3：判斷迭代停止條件：
梯度模是類似下面這樣計算:

若梯度模 $∣∣?f(xk)∣∣<?||\nabla f(x_k)||< \epsilon$ ，(梯度特別小的點基本就是局部或者全局最優點)，則停止迭代。
zhz:這里迭代停止條件也可以使用：1.連續10次更新得到的 $f(x_k)$ 差值 $∣∣f(xk+1)?f(xk)∣∣<?||f(x_{k+1})-f(x_k)||< \epsilon$ ；2.達到多少次迭代后
步驟4：另 $k = k + 1$ ，轉至步驟2；

這里貼上阻尼牛頓法的更新步驟：

4.3.比較兩種方法的異同

比較上面兩種方法，步驟2開始使用不同方法來迭代更新。對于兩種方法的迭代公式，可以看出，方法2牛頓法迭代公式中黑塞矩陣的逆 $?2f(xk)?1\nabla^2f(x^k)^{-1}$ 相當于方法1梯度下降法迭代公式的步長 $λ\lambda$ ，這樣兩個公式就一樣了。當然，我們也可以在方法2牛頓法中也加上步長 $λ\lambda$ ，這樣，其實是由黑塞矩陣的逆 $?2f(xk)?1\nabla^2f(x^k)^{-1}$ 和 $λ\lambda$ 共同決定。

對于方法1梯度下降的步長 $λ\lambda$ ，可以人為設定一個定值，也可以使用最速下降法中的一維搜索尋求最優步長，讓算法迭代快速收斂。使用一維搜索的話，就可以參考前面的 $argminf(xk+λdk)\color{red}arg min f(x_k+λd_k)$ 求解步長 $λ\lambda$ 。

一般認為方法2牛頓法可以利用到曲線本身的信息，比方法1梯度下降法更容易收斂（迭代更少次數）。

如下圖，是一個最小化一個目標方程的例子，紅色曲線是利用牛頓法迭代求解，綠色曲線是利用梯度下降法求解:

4.4.疑問：實際工程中，什么時候使用梯度下降法呢？什么時候用到牛頓法呢？

如果需要訓練神經網絡模型，那么可以使用梯度下降法。如果需要實時計算得到最優解的話，梯度下降法需要迭代，那么每一幀數據都迭代的話，如果耗時比較久，就不合適了，如果耗時很短，可以試試。

實際工程中，什么時候用到牛頓法呢？它能保證實時嗎？它能用在神經網絡嗎？還有，特征維度特別大的時候，計算黑塞矩陣就會有維度災難，計算的代價特別大，可以考慮使用PCA降維？或者不直接計算黑塞矩陣(見阻尼牛頓法的藍色字體的介紹)？

總結

以上是生活随笔為你收集整理的【数学与算法】步长一维搜索、梯度下降法、最速下降法、牛顿法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【数学与算法】PCA主成分分析(降维)的
下一篇：【数学与算法】牛顿法的两种应用：求根和最