【ML】 李宏毅机器学习一:error
機器學習:error
Error反映的是整個模型的準確度,Bias反映的是模型在樣本上的輸出與真實值之間的誤差,即模型本身的精準度。Variance反映的是模型每一次輸出結(jié)果與模型輸出期望值之間的誤差,即模型的穩(wěn)定性
1.Where does the error come from?
error有兩種來源,分別是bias和variance,診斷error的來源,可以挑選適當?shù)姆椒╥mprove model。
以進化前的寶可夢為輸入,以進化后的真實CP值為輸出,真實的函數(shù)記為f^\hat{f}f^?。(在上帝視角才能知道f^\hat{f}f^?)
從訓練數(shù)據(jù),我們找到 f?f^{*}f?,f?f^{*}f? 是對f^\hat{f}f^?的一個估計。
2.有哪些特性?
簡單模型,variance小。復雜模型,variance大
簡單模型,bias大。復雜模型,bias小
在underfitting的情況下,error大部分來自bias。
在overfitting的情況下,error大部分來自variance。
如果model連訓練樣本都fit得不好,那就是underfitting, bias大
如果model可以fit訓練樣本,但是testing error大,那就是overfitting, variance大
3.解決方法?
- For bias, redesign your model:
- Add more features as input(如考慮CP,HP,物種)
- A more complex model(考慮二次,三次)
- What to do with large variance?
- More data(增加examples)
- Regularization(正規(guī)化):regularization希望曲線平滑,但它可能傷害bias
4.Model Selection
不應該這樣做:
因為這樣做,在public testing set上的error rate,并不代表在private testing set上的error rate。
應該這樣做:
將training set分成training set 和 validation set,在training set上訓練model 1-3,選擇在validation set 上error rate最小的model。如果嫌training set中data少的話,可以在確定model后在全部training data上再train一遍該model。
這樣做,在public testing set上的error rate才會代表在private testing set上的error rate。不能用public testing set去調(diào)整model。
將training set分成N折,每次只有一折作為validation set,其它折作為training set,在各model中選擇N次訓練得到的N個validation error rate的均值最小的model。
總結(jié)
以上是生活随笔為你收集整理的【ML】 李宏毅机器学习一:error的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 李宏毅机器学习作业1:预测PM2.5(含
- 下一篇: Error: Could not fin