2.3 Logistic 回归损失函数-深度学习-Stanford吴恩达教授
| 2.2 Logistic 回歸 | 回到目錄 | 2.4 梯度下降法 |
Logistic 回歸損失函數 (Logistic Regression Cost Function)
在上個視頻中,我們講了邏輯回歸模型,這個視頻里,我們講邏輯回歸的代價函數(也翻譯作成本函數)。
為什么需要代價函數:
為了訓練邏輯回歸模型的參數 www 和參數 bbb ,我們需要一個代價函數,通過訓練代價函數來得到參數 www 和參數 bbb。先看一下邏輯回歸的輸出函數:
為了讓模型通過學習調整參數,你需要給予一個 mmm 樣本的訓練集,這會讓你在訓練集上找到參數 www 和參數 bbb,來得到你的輸出。
對訓練集的預測值,我們將它寫成 y^\hat{y}y^?,我們更希望它會接近于訓練集中的 yyy 值,為了對上面的公式更詳細的介紹,我們需要說明上面的定義是對一個訓練樣本來說的,這種形式也使用于每個訓練樣本,我們使用這些帶有圓括號的上標來區分索引和樣本,訓練樣本 iii 所對應的預測值是 y(i)y^{(i)}y(i),是用訓練樣本的 wTx(i)+bw^Tx^{(i)}+bwTx(i)+b 然后通過sigmoid函數來得到,也可以把 zzz 定義為 z(i)=wTx(i)+bz^{(i)}=w^Tx^{(i)}+bz(i)=wTx(i)+b,我們將使用這個符號 (i)(i)(i) 注解,上標 (i)(i)(i) 來指明數據表示 xxx 或者 yyy 或者 zzz 或者其他數據的第 iii 個訓練樣本,這就是上標 (i)(i)(i) 的含義。
損失函數:
損失函數又叫做誤差函數,用來衡量算法的運行情況,Loss function: L(y^,y)L(\hat{y},y)L(y^?,y).
我們通過這個稱為 LLL 的損失函數,來衡量預測輸出值和實際值有多接近。一般我們用預測值和實際值的平方差或者它們平方差的一半,但是通常在邏輯回歸中我們不這么做,因為當我們在學習邏輯回歸參數的時候,會發現我們的優化目標不是凸優化,只能找到多個局部最優值,梯度下降法很可能找不到全局最優值,雖然平方差是一個不錯的損失函數,但是我們在邏輯回歸模型中會定義另外一個損失函數。
我們在邏輯回歸中用到的損失函數是:
L(y^,y)=?ylog?(y^)?(1?y)log?(1?y^)L(\hat{y},y)=-y\log(\hat{y})-(1-y)\log(1-\hat{y})L(y^?,y)=?ylog(y^?)?(1?y)log(1?y^?)
為什么要用這個函數作為邏輯損失函數?當我們使用平方誤差作為損失函數的時候,你會想要讓這個誤差盡可能地小,對于這個邏輯回歸損失函數,我們也想讓它盡可能地小,為了更好地理解這個損失函數怎么起作用,我們舉兩個例子:
當 y=1y=1y=1 時損失函數 L=?log?(y^)L=-\log(\hat{y})L=?log(y^?),如果想要損失函數 LLL 盡可能得小,那么 y^\hat{y}y^? 就要盡可能大,因為sigmoid函數取值 [0,1][0,1][0,1],所以 y^\hat{y}y^? 會無限接近于1。
當 y=0y=0y=0 時損失函數 L=?log?(1?y^)L=-\log(1-\hat{y})L=?log(1?y^?),如果想要損失函數 LLL 盡可能得小,那么 y^\hat{y}y^? 就要盡可能小,因為sigmoid函數取值 [0,1][0,1][0,1],所以 y^\hat{y}y^? 會無限接近于0。
在這門課中有很多的函數效果和現在這個類似,就是如果 yyy 等于1,我們就盡可能讓 y^\hat{y}y^? 變大,如果等 yyy 于0,我們就盡可能讓 y^\hat{y}y^? 變小。 損失函數是在單個訓練樣本中定義的,它衡量的是算法在單個訓練樣本中表現如何,為了衡量算法在全部訓練樣本上的表現如何,我們需要定義一個算法的代價函數,算法的代價函數是對 mmm 個樣本的損失函數求和然后除以 mmm :
J(w,b)=1m∑i=1mL(y^(i),y(i))=1m∑i=1m(?y(i)log?y^(i)?(1?y(i))log?(1?y^(i)))J(w,b)=\frac1m\sum_{i=1}^mL(\hat{y}^{(i)},y^{(i)})=\frac1m\sum_{i=1}^m(-y^{(i)}\log\hat{y}^{(i)}-(1-y^{(i)})\log(1-\hat{y}^{(i)}))J(w,b)=m1?i=1∑m?L(y^?(i),y(i))=m1?i=1∑m?(?y(i)logy^?(i)?(1?y(i))log(1?y^?(i)))
損失函數只適用于像這樣的單個訓練樣本,而代價函數是參數的總代價,所以在訓練邏輯回歸模型時候,我們需要找到合適的 www 和 bbb ,來讓代價函數 JJJ 的總代價降到最低。 根據我們對邏輯回歸算法的推導及對單個樣本的損失函數的推導和針對算法所選用參數的總代價函數的推導,結果表明邏輯回歸可以看做是一個非常小的神經網絡,在下一個視頻中,我們會看到神經網絡會做什么。
課程PPT
| 2.2 Logistic 回歸 | 回到目錄 | 2.4 梯度下降法 |
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀
總結
以上是生活随笔為你收集整理的2.3 Logistic 回归损失函数-深度学习-Stanford吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2.2 Logistic 回归-深度学习
- 下一篇: 2.4 梯度下降法-深度学习-Stanf