数据集划分
使用數(shù)據(jù)集時,一般將其分為三段:訓練集、驗證集、測試集。
-
測試集
決不能使用測試集來進行調(diào)優(yōu),會造成算法對測試集過擬合。應該把測試集看做非常珍貴的資源,不到最后一步,絕不使用它。
-
驗證集
由于測試數(shù)據(jù)集只使用一次,所以,從訓練集中取出一部分數(shù)據(jù)作為驗證集(validation set)。驗證集其實就是作為假的測試集來調(diào)優(yōu)。
-
交叉驗證
有時候,訓練集數(shù)量較小(因此驗證集的數(shù)量更小),人們會使用一種被稱為交叉驗證的方法,這種方法更加復雜些。
可以將訓練集平均分成 5 份,然后我們循環(huán)著取其中4份來訓練,其中1份來驗證,最后取所有5次驗證結(jié)果的平均值作為算法驗證結(jié)果。
總結(jié)
- 上一篇: 正则化方法:数据增强、regulariz
- 下一篇: 逻辑回归 logistic regres