决策树ID3和C4.5算法Python实现源码
生活随笔
收集整理的這篇文章主要介紹了
决策树ID3和C4.5算法Python实现源码
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
決策樹的概念其實不難理解,下面一張圖是某女生相親時用到的決策樹:
基本上可以理解為:一堆數據,附帶若干屬性,每一條記錄最后都有一個分類(見或者不見),然后根據每種屬性可以進行劃分(比如年齡是>30還是<=30),這樣構造出來的一棵樹就是我們所謂的決策樹了,決策的規則都在節點上,通俗易懂,分類效果好。
那為什么跟節點要用年齡,而不是長相?這里我們在實現決策樹的時候采用的是ID3算法,在選擇哪個屬性作為節點的時候采用信息論原理,所謂的信息增益。信息增益指原有數據集的熵-按某個屬性分類后數據集的熵。信息增益越大越好(說明按某個屬性分類后比較純),我們會選擇使得信息增益最大的那個屬性作為當層節點的標記,再進行遞歸構造決策樹。
首先我們構造數據集:
總結
以上是生活随笔為你收集整理的决策树ID3和C4.5算法Python实现源码的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习笔记——皮尔逊相关系数
- 下一篇: 大数据之“用户行为分析”