偏差、方差、欠拟合、过拟合、学习曲线
文章目錄
- 欠擬合 under fitting
- 過擬合 over fitting
- 偏差與方差
- 偏差 - 方差窘境 bias-variance dilemma
- 學(xué)習(xí)曲線 learning curve
欠擬合 under fitting
欠擬合(under fitting),這個問題的另一個術(shù)語叫做 高偏差(High bias)。這兩種說法大致相似,意思是它沒有很好地擬合訓(xùn)練數(shù)據(jù)。
過擬合 over fitting
-
過度擬合(over fitting),另一個描述該問題的術(shù)語是 高方差(High variance)。
-
過擬合的問題經(jīng)常會在模型過度復(fù)雜或訓(xùn)練數(shù)據(jù)較少時發(fā)生,導(dǎo)致模型無法泛化到新的數(shù)據(jù)樣本中。
-
泛化 (generalize) 指的是一個假設(shè)模型能夠應(yīng)用到新樣本的能力。
-
正則化技術(shù)是保證算法泛化能力的有效工具,參見: 正則化方法:數(shù)據(jù)增強(qiáng)、regularization、dropout
偏差與方差
學(xué)習(xí)算法的預(yù)測誤差,或者說泛化誤差 (generalization error) 可以分解為三個部分: 偏差(bias)、方差(variance) 和噪聲(noise)。在估計(jì)學(xué)習(xí)算法性能的過程中, 我們主要關(guān)注偏差與方差。因?yàn)樵肼晫儆诓豢杉s減的誤差 (irreducible error)。
-
偏差(bias):這里的偏指的是偏離,描述的是預(yù)測值與標(biāo)準(zhǔn)值之間的差距。偏差越大,越偏離真實(shí)數(shù)據(jù)。 “標(biāo)準(zhǔn)” 也就是真實(shí)情況 (ground truth),在分類任務(wù)中, 這個 “標(biāo)準(zhǔn)” 就是真實(shí)標(biāo)簽 (label).
-
方差(variance):描述的是預(yù)測值的變化范圍,離散程度,也就是預(yù)測值在標(biāo)準(zhǔn)值附近的波動程度。方差越大,數(shù)據(jù)的分布越分散。
-
假設(shè)紅色的靶心區(qū)域是學(xué)習(xí)算法的正確預(yù)測值,藍(lán)色點(diǎn)為訓(xùn)練過程中模型對樣本的預(yù)測值,藍(lán)色點(diǎn)距離靶心越遠(yuǎn),預(yù)測效果越差。
-
藍(lán)色點(diǎn)比較集中時,方差比較小,比較分散時,方差比較大。
-
藍(lán)色點(diǎn)比較靠近紅色靶心時,偏差較小;遠(yuǎn)離靶心時,偏差較大。
偏差 - 方差窘境 bias-variance dilemma
-
給定一個學(xué)習(xí)任務(wù),在訓(xùn)練初期由于訓(xùn)練不足,學(xué)習(xí)器的擬合能力不夠強(qiáng),偏差比較大,也是由于擬合能力不強(qiáng),數(shù)據(jù)集的擾動也無法使學(xué)習(xí)器產(chǎn)生顯著變化,也就是欠擬合的情況。
-
隨著訓(xùn)練程度的加深,學(xué)習(xí)器的擬合能力逐漸增強(qiáng),訓(xùn)練數(shù)據(jù)的擾動也能夠漸漸被學(xué)習(xí)器學(xué)到。
-
充分訓(xùn)練后,學(xué)習(xí)器的擬合能力已非常強(qiáng),訓(xùn)練數(shù)據(jù)的輕微擾動都會導(dǎo)致學(xué)習(xí)器發(fā)生顯著變化,當(dāng)訓(xùn)練數(shù)據(jù)自身的、非全局的特性被學(xué)習(xí)器學(xué)到了,則將發(fā)生過擬合。
學(xué)習(xí)曲線 learning curve
通過繪制學(xué)習(xí)曲線(learning curve),可以容易看出模型是否存在高偏差或高方差,以及判斷否能夠通過增加樣本數(shù)目解決這些問題。
高偏差的情況:
高偏差、欠擬合:訓(xùn)練集和交叉驗(yàn)證集的預(yù)測結(jié)果將會非常接近,但準(zhǔn)確率都很低。對于高偏差的情況,即使增加更多的訓(xùn)練樣本,模型的準(zhǔn)確率也無法得到改善,可以選擇的方法是:
-
選用更多的樣本特征
-
增加模型復(fù)雜度,增加網(wǎng)絡(luò)層數(shù)
-
減小正則化系數(shù) λλλ
高方差的情況:
高方差、過擬合:訓(xùn)練集誤差和交叉驗(yàn)證集誤差之間以一段很大的差距。對于高方差的情況,可以選擇的方法是:
-
使用更多的訓(xùn)練樣本
-
嘗試選用更少的樣本特征
-
增大正則化系數(shù) λλλ
-
更多的正則化方法: 正則化方法:數(shù)據(jù)增強(qiáng)、regularization、dropout
總結(jié)
以上是生活随笔為你收集整理的偏差、方差、欠拟合、过拟合、学习曲线的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 逻辑回归 logistic regres
- 下一篇: 分类评分函数 score functio