Blending and Bagging
生活随笔
收集整理的這篇文章主要介紹了
Blending and Bagging
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
Blending and Bagging
目錄(?)[+]
第七講:Blending and Bagging
1、Motivation of Aggregation(融合的動機)
恰當?shù)娜诤峡梢缘玫礁玫谋憩F(xiàn)
2、Uniform Blending(平均融合)
分類回歸
理論分析: ? ??所有誤差g的平均 ?>= ?平均的誤差G ? ??但是最好的誤差g是否比平均的誤差G不知道。
演算法的平均表現(xiàn) = 個別與共識的差距(variance) + 共識的表現(xiàn)(bias) 平均的過程:消除個別與共識的差距,從而得到更穩(wěn)定的表現(xiàn)
3、Linear Blending(線性融合)
線性融合 ?= 線性模型 + g當作轉(zhuǎn)換 +條件(a>=0)條件(a>=0)這一項可以去除,當a<=0時表示這一項起反效果。
Linear Blending在Selection時候: 應(yīng)該通過?Eval而不是Ein; 相應(yīng)的在Dval上驗證的模型應(yīng)該是g-而不是g。(若是選擇g,因為這些model在Ddata上訓(xùn)練,Ddata=Dtrain+Dval,所以相當于見過Dval,可能會過擬合)
linear Blending 和?any Blending?OR Stacking(non-linear): 通過在Dtrain上訓(xùn)練一批模型g-,然后在Dval上驗證找出最好的alpha,但是最后返回的模型是alpha和g。
例舉了臺大在2011 KDDCup通過Blending拿到冠軍的故事,說明Blending確實很有效如果不惜計算量的話。
4、Bagging(Bootstrap Aggregation)
blending:在得到g后融合。 learning:一邊學(xué)到g一邊融合起來 g是如何得到的呢? 模型的不同、參數(shù)的不同、算法隨機性的不同、數(shù)據(jù)隨機性的不同
很多g的共識比單一g好,但是手上沒有大量的數(shù)據(jù)產(chǎn)生不同的g。 boostrapping的思想:從手上有限的數(shù)據(jù)模擬出不同的數(shù)據(jù)。
boostrapping:從N個數(shù)據(jù)中有放回隨機采樣N(或少于N)次,每次采樣1個樣本。意味著同一個數(shù)據(jù)可能被采樣多次。
boostrap aggregation(BAGging):建立在base算法上的meta算法。
例子:由25條Bagging?Pocket產(chǎn)生的線融合得到的一個效果還可以的分類線。 如果base算法對數(shù)據(jù)隨機性敏感的話,Bagging 會得到不錯的效果。
練習(xí):boostrap過程有NN情形產(chǎn)生,里面有N!種會是原來數(shù)據(jù)的排列組合
總結(jié)
以上是生活随笔為你收集整理的Blending and Bagging的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: XGBoost Plotting API
- 下一篇: 机器学习竞赛技巧