偏差-方差权衡的理解
1、概念:
Bias:描述的是預測值與真實值之間的差距。用來衡量模型對特定樣本實例預測的一致性(或說變化)。
Variance:描述的是預測值的變化范圍,離散程度,也就是離其真實值的距離。用來從總體上衡量預測值與實際值之間的差異。
對于一個非線性分類問題而言(如XOR),簡單的線性分類器(無維度空間映射)由于自身特性并不能較好地進行類別劃分,model會出現較大的偏差;而決策樹模型作為非線性分類器,能較好的擬合訓練樣本,偏差值較小,但若模型過于擬合訓練樣本,測試樣本出現了訓練樣本考慮不周的情況,則容易出現預測誤差,即方差值較高。對于一個model而言,泛化誤差越小越好,可以通過一些方法來減小上述的偏差和方差。例如,常見的random forest通過采樣和融合多棵決策樹來減小泛化誤差。
2、例子:
想象你開著一架黑鷹直升機,得到命令攻擊地面上一只敵軍部隊,于是你連打數十梭子,結果有一下幾種情況:
1.子彈基本上都打在隊伍經過的一棵樹上了,連在那棵樹旁邊等兔子的人都毫發無損,這就是方差小(子彈打得很集中),偏差大(跟目的相距甚遠)。
2.子彈打在了樹上,石頭上,樹旁邊等兔子的人身上,花花草草也都中彈,但是敵軍安然無恙,這就是方差大(子彈到處都是),偏差大(同1)。
3.子彈打死了一部分敵軍,但是也打偏了些打到花花草草了,這就是方差大(子彈不集中),偏差小(已經在目標周圍了)。
4.子彈一顆沒浪費,每一顆都打死一個敵軍,跟抗戰劇里的八路軍一樣,這就是方差小(子彈全部都集中在一個位置),偏差小(子彈集中的位置正是它應該射向的位置)。
方差,是形容數據分散程度的,算是“無監督的”,客觀的指標,偏差,形容數據跟我們期望的中心差得有多遠,算是“有監督的”,有人的知識參與的指標。
3、數學: 引自:http://scott.fortmann-roe.com/docs/BiasVariance.html偏差-方差權衡對理解正則化也有指導意義。
總結
以上是生活随笔為你收集整理的偏差-方差权衡的理解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【正一专栏】齐达内能熬过2018年的春天
- 下一篇: 【Python-ML】SKlearn库感