當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

2.9 Logistic 回归的梯度下降法-深度学习-Stanford吴恩达教授

發布時間：2025/4/5 pytorch 18 豆豆

生活随笔收集整理的這篇文章主要介紹了 2.9 Logistic 回归的梯度下降法-深度学习-Stanford吴恩达教授小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2.8 計算圖的導數計算

回到目錄

2.10 m 個樣本的梯度下降

Logistic 回歸的梯度下降法 (Logistic Regression Gradient Descent)

本節我們討論怎樣通過計算偏導數來實現邏輯回歸的梯度下降算法。它的關鍵點是幾個重要公式，其作用是用來實現邏輯回歸中梯度下降算法。但是在本節視頻中，我將使用計算圖對梯度下降算法進行計算。我必須要承認的是，使用計算圖來計算邏輯回歸的梯度下降算法有點大材小用了。但是，我認為以這個例子作為開始來講解，可以使你更好的理解背后的思想。從而在討論神經網絡時，你可以更深刻而全面地理解神經網絡。接下來讓我們開始學習邏輯回歸的梯度下降算法。

假設樣本只有兩個特征 $x_1$ 和 $x_2$ ，為了計算 $z$ ，我們需要輸入參數 $w_1$ 、 $w_2$ 和 $b$ ，除此之外還有特征值 $x_1$ 和 $x_2$ 。因此 $z$ 的計算公式為： $z=w_1x_1+w_2x_2+b$ 回想一下邏輯回歸的公式定義如下： $y^=a=σ(z)\hat{y}=a=\sigma(z)$ 其中 $z=wT+b,σ(z)=11+e?zz=w^T+b,\ \sigma(z)=\frac{1}{1+e^{-z}}$ 損失函數： $L(y^(i),y(i))=?y(i)log?y^(i)?(1?y(i))log?(1?y^(i))L(\hat{y}^{(i)},y^{(i)})=-y^{(i)}\log\hat{y}^{(i)}-(1-y^{(i)})\log(1-\hat{y}^{(i)})$ 代價函數： $J(w,b)=1m∑imL(y^(i),y(i))J(w,b)=\frac1m\sum_i^mL(\hat{y}^{(i)},y^{(i)})$ 假設現在只考慮單個樣本的情況，單個樣本的代價函數定義如下： $L(a,y)=?(ylog?(a)+(1?y)log?(1?a))L(a,y)=-(y\log(a)+(1-y)\log(1-a))$ 其中 $a$ 是邏輯回歸的輸出， $y$ 是樣本的標簽值。現在讓我們畫出表示這個計算的計算圖。這里先復習下梯度下降法， $w$ 和 $b$ 的修正量可以表達如下：

$w:=w?α?J(w,b)?w,b:=b?α?J(w,b)?bw:=w-\alpha \frac{\partial J(w,b)}{\partial w},\quad b:=b-\alpha \frac{\partial J(w,b)}{\partial b}$

如圖：在這個公式的外側畫上長方形。然后計算： $y^=a=σ(z)\hat{y}=a=\sigma(z)$ 也就是計算圖的下一步。最后計算損失函數 $L (a, y)$ 。有了計算圖，我就不需要再寫出公式了。因此，為了使得邏輯回歸中最小化代價函數 $L (a, y)$ ，我們需要做的僅僅是修改參數 $w$ 和 $b$ 的值。前面我們已經講解了如何在單個訓練樣本上計算代價函數的前向步驟。現在讓我們來討論通過反向計算出導數。因為我們想要計算出的代價函數 $L (a, y)$ 的導數，首先我們需要反向計算出代價函數 $L (a, y)$ 關于 $a$ 的導數，在編寫代碼時，你只需要用 $d a$ 來表示 $dL(a,y)da\frac{dL(a,y)}{da}$ 。通過微積分得到： $dL(a,y)da=?y/a+(1?y)/(1?a)\frac{dL(a,y)}{da}=-y/a+(1-y)/(1-a)$ 如果你不熟悉微積分，也不必太擔心，我們會列出本課程涉及的所有求導公式。那么如果你非常熟悉微積分，我們鼓勵你主動推導前面介紹的代價函數的求導公式，使用微積分直接求出 $L (a, y)$ 關于變量 $a$ 的導數。如果你不太了解微積分，也不用太擔心。現在我們已經計算出 $d a$ ，也就是最終輸出結果的導數。現在可以再反向一步，在編寫Python代碼時，你只需要用 $d z$ 來表示代價函數 $L$ 關于 $z$ 的導數 $dLdz\frac{dL}{dz}$ ，也可以寫成 $dL(a,y)dz\frac{dL(a,y)}{dz}$ ，這兩種寫法都是正確的。 $dLdz=a?y\frac{dL}{dz}=a-y$ 。因為 $dL(a,y)dz=dLdz=(dLda)?(dadz)\frac{dL(a,y)}{dz}=\frac{dL}{dz}=(\frac{dL}{da})\cdot(\frac{da}{dz})$ ，并且 $dadz=a(˙1?a)\frac{da}{dz}=a\dot(1-a)$ ，而 $dLda=(?ya+(1?y)(1?a))\frac{dL}{da}=(-\frac ya+\frac{(1-y)}{(1-a)})$ ，因此將這兩項相乘，得到：

$dz=dL(a,y)dz=dLdz=(dLda)?(dadz)=(?ya+(1?y)(1?a))?a(1?a)=a?ydz=\frac{dL(a,y)}{dz}=\frac{dL}{dz}=(\frac{dL}{da})\cdot(\frac{da}{dz})=(-\frac ya+\frac{(1-y)}{(1-a)})\cdot a(1-a)=a-y$

視頻中為了簡化推導過程，假設 $n_x$ 這個推導的過程就是我之前提到過的鏈式法則。如果你對微積分熟悉，放心地去推導整個求導過程，如果不熟悉微積分，你只需要知道 $d z = (a ? y)$ 已經計算好了。

現在進行最后一步反向推導，也就是計算 $w$ 和 $b$ 變化對代價函數 $L$ 的影響，特別地，可以用: $dw1=1m∑imx1(i)(a(i)?y(i))dw_1=\frac1m\sum_i^mx_1^{(i)}(a^{(i)}-y^{(i)})$ $dw2=1m∑imx2(i)(a(i)?y(i))dw_2=\frac1m\sum_i^mx_2^{(i)}(a^{(i)}-y^{(i)})$ $db=1m∑im(a(i)?y(i))db=\frac1m\sum_i^m(a^{(i)}-y^{(i)})$ 視頻中， $dw_1$ 表示 $?L?w1=x1?dz\frac{\partial L}{\partial w_1}=x_1\cdot dz$ ， $dw_2$ 表示 $?L?w2=x2?dz\frac{\partial L}{\partial w_2}=x_2\cdot dz$ ， $d b = d z$ 。因此，關于單個樣本的梯度下降算法，你所需要做的就是如下的事情：使用公式 $d z = (a ? y)$ 計算 $d z$ ，使用 $dw1=x1?dzdw_1=x_1 \cdot dz$ 計算 $dw_1$ ，計算 $dw2=x2?dzdw_2=x_2 \cdot dz$ 計算 $dw_2$ ， $d b = d z$ 計算 $d b$ ，然后: 更新 $w1=w1?αdw1w_1=w_1-\alpha\ dw_1$ ，更新 $w2=w2?αdw2w_2=w_2-\alpha\ dw_2$ ，更新 $b=b?αdbb=b-\alpha\ db$ 。這就是關于單個樣本實例的梯度下降算法中參數更新一次的步驟。

現在你已經知道了怎樣計算導數，并且實現針對單個訓練樣本的邏輯回歸的梯度下降算法。但是，訓練邏輯回歸模型不僅僅只有一個訓練樣本，而是有 $m$ 個訓練樣本的整個訓練集。因此在下一節視頻中，我們將這些思想應用到整個訓練樣本集中，而不僅僅只是單個樣本上。

課程PPT