C4.5-Release8中Ross Quinlan对缺失值的处理
案例來自Ross Quinlan的書籍《C4.5:programs for machine learning》
數(shù)據(jù)集如下
為了模仿缺失值的情況,現(xiàn)在把上面?處的地方改為缺失值。
那么根據(jù)現(xiàn)有13條明確的數(shù)據(jù)集(不再是14條)
此時
?=sunny的概率是:513\frac{5}{13}135?
?=overcast的概率是:313\frac{3}{13}133?
?=rain的概率是:513\frac{5}{13}135?
書中的決策樹如下
上面這個結果是根據(jù)下面的源代碼跑出來的。
http://www.rulequest.com/Personal/c4.5r8.tar.gz
對應的決策樹結果是:
繪制上圖對應的代碼是:
test.dot
運行方法
dot -Tpng -o decision.png ./test.dot對于上面的小數(shù)解釋如下:
當?=sunny:
該條缺失數(shù)據(jù)滿足
Outlook=sunny
Humidity>75
也就是說到達了Don’t Play這個葉子節(jié)點,但是該數(shù)據(jù)是屬于Play這個類別的
所以加上原來的3條數(shù)據(jù),總共是35133\frac{5}{13}3135?條數(shù)據(jù),由于類別與該類別不一致,所以該葉子節(jié)點的誤判條數(shù)為513\frac{5}{13}135?條
所以該葉子節(jié)點的最終結果是:(35133\frac{5}{13}3135?|513\frac{5}{13}135?)=(3.4|0.4)
表示到達該葉子節(jié)點的有35133\frac{5}{13}3135?條,其中不滿足的有513\frac{5}{13}135?條
當?=overcast:由于13條數(shù)據(jù)中有3條數(shù)據(jù)是overcast,所以概率是313\frac{3}{13}133?
由于滿足Outlook=overcast的數(shù)據(jù)全部屬于Play,而該缺失數(shù)據(jù)也屬于Play,
所以不存在誤判
該葉子節(jié)點最終到達數(shù)據(jù)共計33133\frac{3}{13}3133?條,誤判0.0條
所以該葉子節(jié)點的最終結果是:(33133\frac{3}{13}3133?|0.0)=(3.2|0)
總結
以上是生活随笔為你收集整理的C4.5-Release8中Ross Quinlan对缺失值的处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 標準化,歸一化和的概念与适用范围整理
- 下一篇: History of pruning a