机器学习:随机森林RF-OOB袋外错误率
??????? 文章講解比較詳細(xì),且有Python代碼,可以作為有用的參考。轉(zhuǎn)載博客時(shí)候,竟然抄錯(cuò)成OBB了,也是悲劇................
??????? 有篇神文評測了17個(gè)分類器族-192個(gè)非神經(jīng)網(wǎng)絡(luò)分類器,其中Rfs綜合評價(jià)效果最好:https://dl.acm.org/doi/10.5555/2627435.2697065 ; Do we need hundreds of classifiers to solve real world ...
?????? 原文鏈接:https://www.cnblogs.com/maybe2030/p/4585705.html
?????? 不過我還是覺得CSDN排版比較花哨一些:http://blog.csdn.net/zhufenglonglove/article/details/51785220
?
?參數(shù):OOB-袋外錯(cuò)誤率
???? ? ? 構(gòu)建隨機(jī)森林的另一個(gè)關(guān)鍵問題就是如何選擇最優(yōu)的m(特征個(gè)數(shù)),要解決這個(gè)問題主要依據(jù)計(jì)算袋外錯(cuò)誤率oob error(out-of-bag error)。
? 隨機(jī)森林有一個(gè)重要的優(yōu)點(diǎn)就是,沒有必要對它進(jìn)行交叉驗(yàn)證或者用一個(gè)獨(dú)立的測試集來獲得誤差的一個(gè)無偏估計(jì)。它可以在內(nèi)部進(jìn)行評估,也就是說在生成的過程中就可以對誤差建立一個(gè)無偏估計(jì)。
? 我們知道,在構(gòu)建每棵樹時(shí),我們對訓(xùn)練集使用了不同的bootstrap sample(隨機(jī)且有放回地抽取)。所以對于每棵樹而言(假設(shè)對于第k棵樹),大約有1/3的訓(xùn)練實(shí)例沒有參與第k棵樹的生成,它們稱為第k棵樹的oob樣本。
而這樣的采樣特點(diǎn)就允許我們進(jìn)行oob估計(jì),它的計(jì)算方式如下:
(note:以樣本為單位)
1)對每個(gè)樣本,計(jì)算它作為oob樣本的樹對它的分類情況(約1/3的樹);
2)然后以簡單多數(shù)投票作為該樣本的分類結(jié)果;
3)最后用誤分個(gè)數(shù)占樣本總數(shù)的比率作為隨機(jī)森林的oob誤分率。
(文獻(xiàn)原文:Put each case left out in the construction of the kth tree down the kth tree to get a classification. In this way, a test set classification is obtained for each case in about one-third of the trees. At the end of the run, take j to be the class that got most of the votes every time case n was oob. The proportion of times that j is not equal to the true class of n averaged over all cases is the oob error estimate. This has proven to be unbiased in many tests.)
oob誤分率是隨機(jī)森林泛化誤差的一個(gè)無偏估計(jì),它的結(jié)果近似于需要大量計(jì)算的k折交叉驗(yàn)證。
?
后記:
?
?????? 一般的方法是,特征的維數(shù)是先確定的。更多的是對隨機(jī)森林本身參數(shù)的選擇,比如隨機(jī)深林的層數(shù),和樹木的個(gè)數(shù)。
?
總結(jié)
以上是生活随笔為你收集整理的机器学习:随机森林RF-OOB袋外错误率的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Win11 Build 23506 预览
- 下一篇: 旺影速转如何压缩视频?旺影速转压缩视频的