机器学习的一些注意事项
Single number evaluation metric
建一個評估指標。可以是準確率、召回率、F1 score。
Satisficing and Optimizing metric
很多時候我們需要協(xié)調(diào)多個因素,達到自己的目的。例如貓分類器,我們想要準確率,又想要運行時間快。這個時候我們可以設(shè)立一個目標score=accuracy-0.5*runtime。我們非常在意,想要非常非常高的那個指標稱為Optimizing metric,這里準確率就是。那些我們認為達到一定值就可以的指標,稱為Satisficing metric。例如運行時間,只要在100ms之內(nèi),至于是80ms還是90ms都可以。
關(guān)于訓(xùn)練集
數(shù)據(jù)集分為訓(xùn)練集、交叉驗證集、測試集。每個數(shù)據(jù)集的數(shù)據(jù)分布應(yīng)該是相同的。
在數(shù)據(jù)量百萬以下,訓(xùn)練集/測試集=7/3,訓(xùn)練集/交叉驗證集/測試集=6/2/2。
如果數(shù)據(jù)量非常大,大于百萬,則可以訓(xùn)練集/交叉驗證集/測試集=98/1/1。
交叉驗證集(dev set):目的是用來調(diào)整模型參數(shù)。
測試集的目的是:在模型訓(xùn)練完成,應(yīng)用在實際系統(tǒng)前,評估一下模型的優(yōu)劣,給自己增加自信心。一般來講10,000訓(xùn)練樣本或者100,000訓(xùn)練樣本足以。如果你對這個值非常非常看重,可以增加測試集的樣本量。
參考文獻:
1 文章內(nèi)容來源于Structuring Machine Learning Projects.
總結(jié)
以上是生活随笔為你收集整理的机器学习的一些注意事项的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python抓取网站URL小工具
- 下一篇: 远程服务器虚拟显示器(Ubuntu 20