通俗理解决策树算法中信息增益的
轉載自? ?通俗理解決策樹算法中信息增益的
通俗理解決策樹算法中的信息增益
在決策樹算法的學習過程中,信息增益是特征選擇的一個重要指標,它定義為一個特征能夠為分類系統帶來多少信息,帶來的信息越多,說明該特征越重要,相應的信息增益也就越大。
1、概念
我們前面說了,信息熵是代表隨機變量的復雜度(不確定度)通俗理解信息熵,條件熵代表在某一個條件下,隨機變量的復雜度(不確定度)通俗理解條件熵
而我們的信息增益恰好是:信息熵-條件熵。
換句話說,信息增益代表了在一個條件下,信息復雜度(不確定性)減少的程度。
那么我們現在也很好理解了,在決策樹算法中,我們的關鍵就是每次選擇一個特征,特征有多個,那么到底按照什么標準來選擇哪一個特征。
這個問題就可以用信息增益來度量。如果選擇一個特征后,信息增益最大(信息不確定性減少的程度最大),那么我們就選取這個特征。
?
2、例子
我們有如下數據:
可以求得隨機變量X(嫁與不嫁)的信息熵為:
嫁的個數為6個,占1/2,那么信息熵為-1/2log1/2-1/2log1/2 = -log1/2=0.301
現在假如我知道了一個男生的身高信息。
身高有三個可能的取值{矮,中,高}
矮包括{1,2,3,5,6,11,12},嫁的個數為1個,不嫁的個數為6個
中包括{8,9} ,嫁的個數為2個,不嫁的個數為0個
高包括{4,7,10},嫁的個數為3個,不嫁的個數為0個
先回憶一下條件熵的公式如下:
我們先求出公式對應的:
H(Y|X = 矮) = -1/7log1/7-6/7log6/7=0.178
H(Y|X=中) = -1log1-0 = 0
H(Y|X=高) = -1log1-0=0
p(X = 矮) = 7/12,p(X =中) = 2/12,p(X=高) = 3/12
則可以得出條件熵為:
7/12*0.178+2/12*0+3/12*0 = 0.103
那么我們知道信息熵與條件熵相減就是我們的信息增益,為
0.301-0.103=0.198
所以我們可以得出我們在知道了身高這個信息之后,信息增益是0.198
?
3、結論
我們可以知道,本來如果我對一個男生什么都不知道的話,作為他的女朋友決定是否嫁給他的不確定性有0.301這么大。
當我們知道男朋友的身高信息后,不確定度減少了0.198,不確定度只有0.103這么大了,(如果不確定是0就最好了,我肯定嫁給他,因為他好的沒有懸念,哈哈).也就是說,身高這個特征對于我們廣大女生同學來說,決定嫁不嫁給自己的男朋友是很重要的。
至少我們知道了身高特征后,我們原來沒有底的心里(0.301)已經明朗一半多了,減少0.198了(大于原來的一半了)。
那么這就類似于非誠勿擾節目里面的橋段了,請問女嘉賓,你只能知道男生的一個特征。請問你想知道哪個特征。
假如其它特征我也全算了,信息增益是身高這個特征最大。那么我就可以說,孟非哥哥,我想知道男嘉賓的一個特征是身高特征。因為它在這些特征中,對于我挑夫君是最重要的,信息增益是最大的,知道了這個特征,嫁與不嫁的不確定度減少的是最多的。
?
哈哈,希望能對理解信息增益有所幫助。
總結
以上是生活随笔為你收集整理的通俗理解决策树算法中信息增益的的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 如何快速搭建一个免费的,无限流量的Blo
- 下一篇: 威联通发布首款雷电 4 NAS,搭载 1
