3.1.3 训练/开发/测试集的问题以及注意事项
生活随笔
收集整理的這篇文章主要介紹了
3.1.3 训练/开发/测试集的问题以及注意事项
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
訓練/開發/測試集劃分
開發集我們稱之為development set,有時候也稱之為保留交叉驗證集。機器學習的流程是,你嘗試很多的思想,然后用訓練集訓練不同的模型,使用開發集來評估不同的思路,選擇一個,之后不斷迭代去改善開發集的性能,直到最后你可以得到一個令你滿意的成本,之后用測試集去評估。
數據集和測試集的劃分一個非常非常重要的原則就是一定滿足同一分布。
如圖所示,如果我們要8個不同國家,最好不要四個國家劃分為一組,而是把數據全部打散,均勻的劃分。
不要花很多時間來瞄準一個目標,針對靶心不斷優化,然后等到測試的時候說,我們用其他靶來測試。
開發集和測試集的大小
什么時候該改變開發/測試集和指標
注意這個公式里面的L表示的是一個函數,而不是邏輯回歸或者別的。
這個函數寫成類似于
1∑w(i)1∑w(i)
這種形式是為了歸一化處理,這樣能夠保證最終的誤差值在0和之間。
如果你對于算法的舊誤差指標不滿的話,比如說像上面出現色情圖片,那么就需要重新設計新的指標。比如說,上面那個5%的誤差率在實際情況中就會更好。
吳教主深度學習和神經網絡課程總綱
總結
以上是生活随笔為你收集整理的3.1.3 训练/开发/测试集的问题以及注意事项的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 3.1.2 单一数字评估指标以及多个不同
- 下一篇: 3.1.4 如何使深度学习模型达到人类水