熵 互信息 Gini指数 和 不纯度
在學習決策樹類的算法時,總是繞不開 信息熵、Gini指數和它們相關聯的概念,概念不清楚,就很難理解決策樹的構造過程,現在把這些概念捋一捋。
信息熵
信息熵,簡稱熵,用來衡量隨機變量的不確定性大小,熵越大,說明隨機變量的不確定性越大。計算公式如下:
考慮二元分布的情況,當取2為對數底時,可以得到如下的函數曲線。可以看到,當p=0.5時,不確定性最大,熵的值是1,也最大,當p=0或1時,沒有不確定性,熵的值最小,是0。
條件熵
我們在分析某個特征對隨機變量的影響時,需要計算條件熵,即隨機變量Y的信息熵相對特征X的條件期望,公式如下:
互信息
互信息,也叫信息增益,是熵和條件熵的差值,g(Y,X) = H(Y) - H(Y|X)。
信息增益的含義是,某一個特征會使得隨機變量的不確定性下降多少。下降的越多,說明這個特征與標簽的相關性越強,分類效果自然越好。在構造決策樹時,常用的做法是選擇信息增益更大的特征構造分支。
另外,在構造決策樹時,信息增益有兩種算法,一是差值(ID3),二是比值(C4.5),比值是差值與特征的信息熵的比例,公式如下所示:
比值比差值能更準確的反應不確定性變化的程度,原因是,如果按差值選取節點,那些取值數量更多的特征總是會排在前面,在比值的計算公式中,分母可以度量特征的取值數量,相當于對各個特征做了歸一化,所以不會出現,特征取值數量多,信息增益一定更大的情況。
Gini指數
Gini指數和熵類似,都是衡量隨機變量不確定程度的,計算公式是:
Gini指數有一個比較直觀的解釋:從樣本中任意挑選兩個,兩個樣本屬于不同類別的概率就是Gini指數。從Gini指數的定義和解釋就可以發現,它和熵和類似,不確定性越大,Gini指數和熵也越大。不同點在于Gini指數的最大值是0.5,不是1。把Gini指數公式和信息熵公式都變換成求和的形式,可以發現二者只相差一個乘積項,Gini指數是 1-p,信息熵是-log(p),就是這么一點點差別。
Gini指數的另一種說法是不純度(impurity),Gini指數越大,不確定性越大,數據越混亂,不純度越高。
筆者沒研究過信息熵和Gini指數的發跡史,但可以猜測,Gini指數和信息熵很可能是不同領域的研究者分別建立的評價不確定性的指標,從含義上看,二者殊途同歸。在實際使用時,往往用Gini指數來構造CART。
總結
以上是生活随笔為你收集整理的熵 互信息 Gini指数 和 不纯度的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 李念老公多大(李念个人资料老公多大)
- 下一篇: 晚上吃姜赛砒霜(晚上喝生姜结果丧命了)