weka决策树实验
首先舉出打網球的例子。
數據集中包含14個樣本,其中9個正樣本(yes),5個負樣本(no)。則這些元組的期望信息(即熵)為:
Info(D) = - 9/14 * log2(9/14) - 5/14 * log2(5/14) = 0.940
現在觀察每個屬性的期望信息需求。在屬性Outlook中,對于sunny,正樣本數為2,負樣本數為3;對于overcast,正樣本數為4,負樣本數為0;對與rain,正樣本數為3,負樣本數為2。
按照Outlook劃分樣例得到的期望信息為:
5/14 * ( - 2/5log22/5 – 3/5log23/5) + 4/15 * ( - 4/4log24/4) + 5/14 * ( - 3/5log23/5 – 2/5log22/5)=0.694
即其信息增益為:
Gain(outlook) = 0.940 – 0.694 = 0.246
Gain(Temperature) = 0.029
Gain(Humidity) = 0.151
Gain(Wind) = 0.048
繼續信息增益的計算,最終得到如下的決策樹:
總結
- 上一篇: weka源码编译步骤
- 下一篇: 隐马尔可夫模型中的Viterbi算法zz