决策树 C4.5 理解要点
生活随笔
收集整理的這篇文章主要介紹了
决策树 C4.5 理解要点
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
決策樹的主要過程首先用根節(jié)點代表一個給定的數據集;然后從根節(jié)點開始(包括根節(jié)點)在每個節(jié)點上選擇一個屬性,使結點數據集劃分(一棵樹分裂為幾棵樹)為更小的子集(子樹);直到使用某個屬性,其子集中所有樣本都屬于一個類別,才停止分裂。
這里面需要注意的是如何尋找分裂點,C4.5區(qū)別于ID3算法之一在于分裂點選擇信息增益率最大的方式。 為什么選擇信息增益率而不是信息增益?因為如果僅僅用信息增益,則一個屬性具有較多不同值往往容易有較大的信息增益,因此比較容易成為分裂點特征。舉個例子比如客戶ID,這個特征幾乎每行都有不同值,如果將其作為分裂點顯然會有overfit的問題
C4.5是可以支持特征是離散變量或者連續(xù)變量,
對于離散變量A,如果選擇屬性A劃分數據集S, 其在S上的信息熵計算為
?
?對于連續(xù)型數據A,則按屬性A的取值遞增排序,將每對相鄰值的中點看作可能的分裂點,對每個可能的分裂點,計算:
?
最后計算信息增益率,選擇增益率最大的節(jié)點作為分裂點,信息增益率將分裂信息作為分母,屬性取值數目越大,分裂信息值越大,從而部分抵消了屬性取值數目所帶來的影響
?
?
??
?
轉載于:https://www.cnblogs.com/datawang/p/6362521.html
超強干貨來襲 云風專訪:近40年碼齡,通宵達旦的技術人生總結
以上是生活随笔為你收集整理的决策树 C4.5 理解要点的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《软件构架实践》阅读笔记03
- 下一篇: CSS实现导航条Tab切换的三种方法