【机器学习基础】说模型过拟合的时候,说的是什么?
前言
機器學習中,模型的擬合效果意味著對新數據的預測能力的強弱(泛化能力)。而程序員評價模型擬合效果時,常說“過擬合”及“欠擬合”,那究竟什么是過/欠擬合呢?什么指標可以判斷擬合效果?以及如何優化?
欠擬合&過擬合的概念
注:在機器學習或人工神經網絡中,過擬合與欠擬合有時也被稱為“過訓練”和“欠訓練”,本文不做術語差異上的專業區分。
欠擬合是指相較于數據而言,模型參數過少或者模型結構過于簡單,以至于無法學習到數據中的規律。
過擬合是指模型只過分地匹配特定數據集,以至于對其他數據無良好地擬合及預測。其本質是模型從訓練數據中學習到了統計噪聲,由此分析影響因素有:
訓練數據過于局部片面,模型學習到與真實數據不相符的噪音;
訓練數據的噪音數據干擾過大,大到模型過分記住了噪音特征,反而忽略了真實的輸入輸出間的關系;
過于復雜的參數或結構模型(相較于數據而言),在可以“完美地”適應數據的同時,也學習更多的噪聲;如上圖以虛線的區分效果來形象表示模型的擬合效果。Underfitting代表欠擬合模型,Overfitting代表過擬合模型,Good代表擬合良好的模型。
擬合效果的評估方式
現實中通常由訓練誤差及測試誤差(泛化誤差)評估模型的學習程度及泛化能力。
欠擬合時訓練誤差和測試誤差在均較高,隨著訓練時間及模型復雜度的增加而下降。在到達一個擬合最優的臨界點之后,訓練誤差下降,測試誤差上升,這個時候就進入了過擬合區域。它們的誤差情況差異如下表所示:
擬合效果的深入分析
對于擬合效果除了通過訓練、測試的誤差估計其泛化誤差及判斷擬合程度之外,我們往往還希望了解它為什么具有這樣的泛化性能。統計學常用“偏差-方差分解”(bias-variance decomposition)來分析模型的泛化性能:其泛化誤差為偏差、方差與噪聲之和。
噪聲(ε) 表達了在當前任務上任何學習算法所能達到的泛化誤差的下界,即刻畫了學習問題本身(客觀存在)的難度。
偏差(Bias) 是指用所有可能的訓練數據集訓練出的所有模型的輸出值與真實值之間的差異,刻畫了模型的擬合能力。偏差較小即模型預測準確度越高,表示模型擬合程度越高。
方差(Variance) 是指不同的訓練數據集訓練出的模型對同預測樣本輸出值之間的差異,刻畫了訓練數據擾動所造成的影響。方差較大即模型預測值越不穩定,表示模型(過)擬合程度越高,受訓練集擾動影響越大。如下用靶心圖形象表示不同方差及偏差下模型預測的差異:
偏差越小,模型預測值與目標值差異越小,預測值越準確;
方差越小,不同的訓練數據集訓練出的模型對同預測樣本預測值差異越小,預測值越集中;
“偏差-方差分解” 說明,模型擬合過程的泛化性能是由學習算法的能力、數據的充分性以及學習任務本身的難度所共同決定的。
當模型欠擬合時:模型準確度不高(高偏差),受訓練數據的擾動影響較小(低方差),其泛化誤差大主要由高的偏差導致。
當模型過擬合時:模型準確度較高(低偏差),模型容易學習到訓練數據擾動的噪音(高方差),其泛化誤差大由高的方差導致。
擬合效果的優化方法
可結合交叉驗證評估模型的表現,可較準確判斷擬合程度。在優化欠/過擬合現象上,主要有如下方法:
模型欠擬合
增加特征維度:如增加新業務層面特征,特征衍生來增大特征假設空間,以增加特征的表達能力;
增加模型復雜度:如增加模型訓練時間、結構復雜度,嘗試復雜非線性模型等,以增加模型的學習能力;
模型過擬合
增加數據: 如尋找更多訓練數據樣本,數據增強等,以減少對局部數據的依賴;
特征選擇:通過篩選掉冗余特征,減少冗余特征產生噪聲干擾;
降低模型復雜度:
簡化模型結構:如減少神經網絡深度,決策樹的數目等。
L1/L2正則化:通過在代價函數加入正則項(權重整體的值)作為懲罰項,以限制模型學習的權重。
(拓展:通過在神經網絡的網絡層引入隨機的噪聲,也有類似L2正則化的效果)
提前停止(Early stopping):通過迭代次數截斷的方法,以限制模型學習的權重。
結合多個模型:
集成學習:如隨機森林(bagging法)通過訓練樣本有放回抽樣和隨機特征選擇訓練多個模型,綜合決策,可以減少對部分數據/模型的依賴,減少方差及誤差;
Dropout:神經網絡的前向傳播過程中每次按一定的概率(比如50%)隨機地“暫停”一部分神經元的作用。這類似于多種網絡結構模型bagging取平均決策,且模型不會依賴某些局部的特征,從而有更好泛化性能。
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯 本站qq群704220115,加入微信群請掃碼:
總結
以上是生活随笔為你收集整理的【机器学习基础】说模型过拟合的时候,说的是什么?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 猎豹浏览器网页声音怎么关闭 2步关闭网页
- 下一篇: 怎么将小部件图标添加回Windows11