机器学习笔记:过拟合和欠拟合
1 過擬合介紹
如果模型設計的太復雜,可能會過擬合
下圖的1~5分別代表最高項為1~5次冪的線性回歸問題:
?當模型太復雜的時候,雖然訓練集上我們得到較小的誤差,但是在測試集上,誤差就奇大無比
?????????復雜模型的model space涵蓋了簡單模型的model space,因此復雜模型在training data上的錯誤率更小,但并不意味著在testing data 上錯誤率更小。模型太復雜會出現overfitting。
1.1 高維小樣本問題
2 處理過擬合的方法
機器學習筆記:誤差的來源(bias & variance)_UQI-LIUWJ的博客-CSDN博客
處理過擬合主要有幾種方法:
- 增加數據量(數據量大了之后,根據某種規則去掉一些特征,來實現降維)
- 特征提取(eg,主成分分析PCA,作用也是實現降維)
- 正則化(通過給損失函數增加懲罰項來避免過擬合)
- 減低模型的復雜度
2.1 正則化
這是一種解決過擬合的辦法——>使曲線平滑一點(這樣如果測試集的輸入有一點噪聲的話,擾動也不會太大)
?注:正則項里面不包括偏差表示,只包括影響梯度的那些函數
?
- ?λ越大,表示越平滑,訓練集上的error越大(因為我們越傾向于考慮w的數值大小,而不是我們預測值和實際值之間的error)
- 【λ太小可能過擬合,λ太大可能欠擬合】
2.1.1 L1正則化(Lasso)
?L1正則化每次更新的數值是恒定的(等值更新)
?2.1.2 L2正則化(ridge)
機器學習筆記:嶺回歸(L2正則化)_UQI-LIUWJ的博客-CSDN博客
L2正則化每次w更新的比例是恒定的(等比例更新)
L2正則化在w值很大的情況下,下降速度很快;在w很小的情況下,下降速度很慢
3 欠擬合和過擬合
?欠擬合:
1)模型不足以表達數據所有的特點
2)沒有充分學習觀測數據的特點
過擬合:
1)模型不僅表達了數據所有的特點,還把數據特定的噪聲也表達了出來
2)在訓練集和驗證集/測試集 上的表現差異巨大
3.1 處理欠擬合的方法
繼續訓練模型,如果效果提升不顯著的話,修改模型,讓模型更復雜一些
總結
以上是生活随笔為你收集整理的机器学习笔记:过拟合和欠拟合的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 文巾解题 56. 合并区间
- 下一篇: 机器学习笔记:误差的来源(bias v
