xgboost和随机森林特征重要性计算方法
隨機森林中特征重要性和xgboost不同:
隨機森林中的特征重要性主要是基于不純度(也可以叫做Gini importance):
計算某一個節點不純度為
其中,ωk\omega_kωk?,ωleft\omega_{left}ωleft?,ωright\omega_{right}ωright?分別為節點 k以及其左右子節點中訓練樣本個數與總訓練樣本數目的比例,GkG_kGk?,GleftG_{left}Gleft?,GrightG_{right}Gright?分為為節點 k 以及其左右子節點的不純度。
節點不純度計算完成后,計算某個Feature的不純度為
另外,為了使所有feature的重要性加起來等于1,需要每一feature的重要性進行normalization:
對于分類問題的話,就是gini不純度
對于回歸問題的話,MSE(Mean Square error)或者MAE(Mean absolute error)
sklearn中的解釋
sklearn源碼
參考文章:
https://blog.csdn.net/gracejpw/article/details/102611273
https://zhuanlan.zhihu.com/p/52052903
https://mljar.com/blog/feature-importance-in-random-forest/
總結
以上是生活随笔為你收集整理的xgboost和随机森林特征重要性计算方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java开发工程师面试自我介绍_Java
- 下一篇: python智能图片识别系统(图片切割、