GBDT和随机森林的区别
1背景?
以前把這兩個(gè)搞混了
2隨機(jī)森林?
說(shuō)道隨機(jī)森林就要提bagging集成方法。bagging才用有放回的抽樣。下圖時(shí)bagging的示意圖。?
?
隨機(jī)森林是bagging的一種擴(kuò)展,在k個(gè)數(shù)據(jù)集選擇的時(shí)候后,引入了隨機(jī)屬性選擇。加入所有屬性個(gè)數(shù)為d,k是隨機(jī)選擇的屬性個(gè)數(shù)。那么k=d的時(shí)候,就沒(méi)有改變。那么k=1的時(shí)候后,隨機(jī)選擇一個(gè)屬性用于計(jì)算。推薦的k=log2d.?
隨機(jī)森林的基學(xué)習(xí)器一般是決策樹(shù)算法-主要,也有神經(jīng)網(wǎng)絡(luò)。?
隨機(jī)森林是對(duì)bagging算法的一點(diǎn)改動(dòng),但是根能提現(xiàn)樣本集之間的差異性。會(huì)提高最終預(yù)測(cè)結(jié)果的泛化能力。
3gbdt?
gbdt是一種boosting算法。boosting工作機(jī)制:先從初始訓(xùn)練集訓(xùn)練處一個(gè)基學(xué)習(xí)器,然后在根據(jù)基學(xué)習(xí)器的表現(xiàn)對(duì)訓(xùn)練樣本分布進(jìn)行調(diào)整,使得先前的基學(xué)習(xí)器做錯(cuò)的訓(xùn)練樣本在后續(xù)獲得更多關(guān)注(增加錯(cuò)誤樣本權(quán)重),然后基于調(diào)整后的樣本分布訓(xùn)練下一個(gè)基學(xué)習(xí)器,如此重復(fù),直到基學(xué)習(xí)器達(dá)到指定的T時(shí),最終將T個(gè)基學(xué)習(xí)器進(jìn)行加權(quán)結(jié)合,得出預(yù)測(cè)。?
gbdt是在boosting上做的改進(jìn),在boosting中調(diào)整權(quán)重的方式為基學(xué)習(xí)器預(yù)測(cè)錯(cuò)誤加權(quán)重而gbdt的每一次迭代是為了減少殘差,即在殘差減少的梯度上建立一個(gè)新的模型。新的模型是為了使得之前模型的殘差往梯度方向減少,與傳統(tǒng)boosting對(duì)正確、錯(cuò)誤的樣本進(jìn)行加權(quán)有著很大的區(qū)別。?
新的模型是為了使得之前模型的殘差往梯度方向減少,這句話有一點(diǎn)拗口,損失函數(shù)(loss function)描述的是模型的不靠譜程度,損失函數(shù)越大,則說(shuō)明模型越容易出錯(cuò)(其實(shí)這里有一個(gè)方差、偏差均衡的問(wèn)題,但是這里就假設(shè)損失函數(shù)越大,模型越容易出錯(cuò))。如果我們的模型能夠讓損失函數(shù)持續(xù)的下降,則說(shuō)明我們的模型在不停的改進(jìn),而最好的方式就是讓損失函數(shù)在其梯度(Gradient)的方向上下降。這個(gè)是不是有點(diǎn)像線性回歸的最小二乘法,其中的梯度下降哈。?
以后詳細(xì)分析其中的概念和公式
總結(jié)
以上是生活随笔為你收集整理的GBDT和随机森林的区别的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: GBDT 入门教程之原理、所解决的问题、
- 下一篇: 深度学习在美团点评推荐平台排序中的应用