當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

GBDT和随机森林的区别

發(fā)布時(shí)間：2024/1/17 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 GBDT和随机森林的区别小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1背景?
以前把這兩個(gè)搞混了

2隨機(jī)森林?
說(shuō)道隨機(jī)森林就要提bagging集成方法。bagging才用有放回的抽樣。下圖時(shí)bagging的示意圖。?
?
隨機(jī)森林是bagging的一種擴(kuò)展，在k個(gè)數(shù)據(jù)集選擇的時(shí)候后，引入了隨機(jī)屬性選擇。加入所有屬性個(gè)數(shù)為d，k是隨機(jī)選擇的屬性個(gè)數(shù)。那么k=d的時(shí)候，就沒(méi)有改變。那么k=1的時(shí)候后，隨機(jī)選擇一個(gè)屬性用于計(jì)算。推薦的k=log2d.?
隨機(jī)森林的基學(xué)習(xí)器一般是決策樹(shù)算法-主要，也有神經(jīng)網(wǎng)絡(luò)。?
隨機(jī)森林是對(duì)bagging算法的一點(diǎn)改動(dòng)，但是根能提現(xiàn)樣本集之間的差異性。會(huì)提高最終預(yù)測(cè)結(jié)果的泛化能力。

3gbdt?
gbdt是一種boosting算法。boosting工作機(jī)制：先從初始訓(xùn)練集訓(xùn)練處一個(gè)基學(xué)習(xí)器，然后在根據(jù)基學(xué)習(xí)器的表現(xiàn)對(duì)訓(xùn)練樣本分布進(jìn)行調(diào)整，使得先前的基學(xué)習(xí)器做錯(cuò)的訓(xùn)練樣本在后續(xù)獲得更多關(guān)注（增加錯(cuò)誤樣本權(quán)重），然后基于調(diào)整后的樣本分布訓(xùn)練下一個(gè)基學(xué)習(xí)器，如此重復(fù)，直到基學(xué)習(xí)器達(dá)到指定的T時(shí)，最終將T個(gè)基學(xué)習(xí)器進(jìn)行加權(quán)結(jié)合，得出預(yù)測(cè)。?
gbdt是在boosting上做的改進(jìn)，在boosting中調(diào)整權(quán)重的方式為基學(xué)習(xí)器預(yù)測(cè)錯(cuò)誤加權(quán)重而gbdt的每一次迭代是為了減少殘差，即在殘差減少的梯度上建立一個(gè)新的模型。新的模型是為了使得之前模型的殘差往梯度方向減少，與傳統(tǒng)boosting對(duì)正確、錯(cuò)誤的樣本進(jìn)行加權(quán)有著很大的區(qū)別。?
新的模型是為了使得之前模型的殘差往梯度方向減少，這句話有一點(diǎn)拗口，損失函數(shù)(loss function)描述的是模型的不靠譜程度，損失函數(shù)越大，則說(shuō)明模型越容易出錯(cuò)（其實(shí)這里有一個(gè)方差、偏差均衡的問(wèn)題，但是這里就假設(shè)損失函數(shù)越大，模型越容易出錯(cuò)）。如果我們的模型能夠讓損失函數(shù)持續(xù)的下降，則說(shuō)明我們的模型在不停的改進(jìn)，而最好的方式就是讓損失函數(shù)在其梯度（Gradient)的方向上下降。這個(gè)是不是有點(diǎn)像線性回歸的最小二乘法，其中的梯度下降哈。?
以后詳細(xì)分析其中的概念和公式

總結(jié)

以上是生活随笔為你收集整理的GBDT和随机森林的区别的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： GBDT 入门教程之原理、所解决的问题、
下一篇：深度学习在美团点评推荐平台排序中的应用

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

GBDT和随机森林的区别

總結(jié)