1.9 可避免误差-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授
| 1.8 為什么是人的表現 | 回到目錄 | 1.10 理解人的表現 |
可避免誤差 (Avoidable Error)
我們討論過,你希望你的學習算法能在訓練集上表現良好,但有時你實際上并不想做得太好。你得知道人類水平的表現是怎樣的,可以確切告訴你算法在訓練集上的表現到底應該有多好,或者有多不好,讓我告訴你是什么意思吧。
我們經常使用貓分類器來做例子,比如人類具有近乎完美的準確度,所以人類水平的錯誤是1%。在這種情況下,如果您的學習算法達到8%的訓練錯誤率和10%的開發錯誤率,那么你也許想在訓練集上得到更好的結果。所以事實上,你的算法在訓練集上的表現和人類水平的表現有很大差距的話,說明你的算法對訓練集的擬合并不好。所以從減少偏差和方差的工具這個角度看,在這種情況下,我會把重點放在減少偏差上。你需要做的是,比如說訓練更大的神經網絡,或者跑久一點梯度下降,就試試能不能在訓練集上做得更好。
但現在我們看看同樣的訓練錯誤率和開發錯誤率,假設人類的表現不是1%,我們就把它抄寫過來。但你知道,在不同的應用或者說用在不同的數據集上,假設人類水平錯誤實際上是7.5%,也許你的數據集中的圖像非常模糊,即使人類都無法判斷這張照片中有沒有貓。這個例子可能稍微更復雜一些,因為人類其實很擅長看照片,分辨出照片里有沒有貓。但就為了舉這個例子,比如說你的數據集中的圖像非常模糊,分辨率很低,即使人類錯誤率也達到7.5%。在這種情況下,即使你的訓練錯誤率和開發錯誤率和其他例子里一樣,你就知道,也許你的系統在訓練集上的表現還好,它只是比人類的表現差一點點。在第二個例子中,你可能希望專注減少這個分量,減少學習算法的方差,也許你可以試試正則化,讓你的開發錯誤率更接近你的訓練錯誤率。
所以在之前的課程關于偏差和方差的討論中,我們主要假設有一些任務的貝葉斯錯誤率幾乎為0。所以要解釋這里發生的事情,看看這個貓分類器,用人類水平的錯誤率估計或代替貝葉斯錯誤率或貝葉斯最優錯誤率,對于計算機視覺任務而言,這樣替代相當合理,因為人類實際上是非常擅長計算機視覺任務的,所以人類能做到的水平和貝葉斯錯誤率相差不遠。根據定義,人類水平錯誤率比貝葉斯錯誤率高一點,因為貝葉斯錯誤率是理論上限,但人類水平錯誤率離貝葉斯錯誤率不會太遠。所以這里比較意外的是取決于人類水平錯誤率有多少,或者這真的就很接近貝葉斯錯誤率,所以我們假設它就是,但取決于我們認為什么樣的水平是可以實現的。
在這兩種情況下,具有同樣的訓練錯誤率和開發錯誤率,我們決定專注于減少偏差的策略或者減少方差的策略。那么左邊的例子發生了什么? 8%的訓練錯誤率真的很高,你認為你可以把它降到1%,那么減少偏差的手段可能有效。而在右邊的例子中,如果你認為貝葉斯錯誤率是7.5%,這里我們使用人類水平錯誤率來替代貝葉斯錯誤率,但是你認為貝葉斯錯誤率接近7.5%,你就知道沒有太多改善的空間了,不能繼續減少你的訓練錯誤率了,你也不會希望它比7.5%好得多,因為這種目標只能通過可能需要提供更進一步的訓練。而這邊,就還(訓練誤差和開發誤差之間)有更多的改進空間,可以將這個2%的差距縮小一點,使用減少方差的手段應該可行,比如正則化,或者收集更多的訓練數據。
所以要給這些概念命名一下,這不是廣泛使用的術語,但我覺得這么說思考起來比較流暢。就是把這個差值,貝葉斯錯誤率或者對貝葉斯錯誤率的估計和訓練錯誤率之間的差值稱為可避免偏差,你可能希望一直提高訓練集表現,直到你接近貝葉斯錯誤率,但實際上你也不希望做到比貝葉斯錯誤率更好,這理論上是不可能超過貝葉斯錯誤率的,除非過擬合。而這個訓練錯誤率和開發錯誤率之前的差值,就大概說明你的算法在方差問題上還有多少改善空間。
可避免偏差這個詞說明了有一些別的偏差,或者錯誤率有個無法超越的最低水平,那就是說如果貝葉斯錯誤率是7.5%。你實際上并不想得到低于該級別的錯誤率,所以你不會說你的訓練錯誤率是8%,然后8%就衡量了例子中的偏差大小。你應該說,可避免偏差可能在0.5%左右,或者0.5%是可避免偏差的指標。而這個2%是方差的指標,所以要減少這個2%比減少這個0.5%空間要大得多。而在左邊的例子中,這7%衡量了可避免偏差大小,而2%衡量了方差大小。所以在左邊這個例子里,專注減少可避免偏差可能潛力更大。
所以在這個例子中,當你理解人類水平錯誤率,理解你對貝葉斯錯誤率的估計,你就可以在不同的場景中專注于不同的策略,使用避免偏差策略還是避免方差策略。在訓練時如何考慮人類水平表現來決定工作著力點,具體怎么做還有更多微妙的細節,所以在下一個視頻中,我們會深入了解人類水平表現的真正意義。
課程板書
| 1.8 為什么是人的表現 | 回到目錄 | 1.10 理解人的表現 |
總結
以上是生活随笔為你收集整理的1.9 可避免误差-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 1.8 为什么是人的表现-深度学习第三课
- 下一篇: 1.10 理解人的表现-深度学习第三课《