在envi做随机森林_随机森林原理
隨機森林由Leo Breiman(2001)提出的一種分類算法,它通過自助法(bootstrap)重采樣技術,從原始訓練樣本集N中有放回地重復隨機抽取n個樣本生成新的訓練樣本集合訓練決策樹,然后按以上步驟生成m棵決策樹組成隨機森林,新數據的分類結果按分類樹投票多少形成的分數而定。
其實質是對決策樹算法的一種改進,將多個決策樹合并在一起,每棵樹的建立依賴于獨立抽取的樣本。
單棵樹的分類能力可能很小,但在隨機產生大量的決策樹后,一個測試樣本可以通過每一棵樹的分類結果經統計后選擇最可能的分類。
一、隨機森林大致過程如下:
1.從樣本集中有放回隨機采樣選出n個樣本;
2.從所有特征中隨機選擇k個特征,對選出的樣本利用這些特征建立決策樹(一般是CART,也可是別的或混合);
3.重復以上兩步m次,即生成m棵決策樹,形成隨機森林;
4.對于新數據,經過每棵樹決策,最后投票確認分到哪一類。
二、隨機森林特點: 隨機森林有很多優點:
1) 每棵樹都選擇部分樣本及部分特征,一定程度避免過擬合;
2) 每棵樹隨機選擇樣本并隨機選擇特征,使得具有很好的抗噪能力,性能穩定;
3) 能處理很高維度的數據,并且不用做特征選擇;
4) 適合并行計算;
5) 實現比較簡單;
缺點:
1) 參數較復雜;
2) 模型訓練和預測都比較慢。
三、使用:
隨機森林算法在大部分數據處理軟件中都有實現,使用時可以直接調用,只需指定所需參數。 隨機森林模型訓練前要設置的參數較多,按PAI平臺的實現有如下幾個:
o 算法類型:(可選)可供選擇的算法類型有id3算法、cart算法、c4.5算法以及默認情況下的將上述三種算法均分的混合算法 o 樹的數目:森林中樹的個數, 范圍(0, 1000] o 隨機屬性個數:(可選)單顆樹在生成時,每次選擇最優特征,隨機的特征個數。
可供選擇的類型有logN,N/3,sqrtN,N四種類型,其中N為屬性總數 o 樹最大深度:(可選)單顆樹的最大深度,范圍[1, ∞),-1表示完全生長。
o 葉子節點最少記錄數:(可選)葉節點數據的最小個數。最小個數為2 o 葉子節點最少記錄百分比:(可選)葉節點數據個數占父節點的最小比例,范圍[0,100],-1表示無限制。默認-1 o 每棵樹最大記錄數:(可選)森林中單顆樹輸入的隨機數據的個數。范圍為(1000, 1000000]
四、模型評估:
算法模型建立后需要進行評估,以判斷模型的優劣。
一般使用訓練集 (training set) 建立模型,使用測試集 (test set) 來評估模型。
對于分類算法評估指標有分類準確度、召回率、虛警率和精確度等。
而這些指標都是基于混淆矩陣 (confusion matrix) 進行計算的。 混淆矩陣用來評價監督式學習模型的精確性,矩陣的每一列代表一個類的實例預測,而每一行表示一個實際的類的實例。
總結
以上是生活随笔為你收集整理的在envi做随机森林_随机森林原理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ansys参数化编程与命令手册_查看Ba
- 下一篇: flutter 图片转base64_京东