科学计算法(机器学习)----决策树定义以相关概念
一..決策樹
1.決策樹是機器學習中一類非常常見的算法,它是一種分類與回歸算法,但以分類為主。它的決策思維非常符合人類正常的決策方式。
2.舉一個簡單的例子, 比如我們要挑選一件衣服,我們就需要做出以下決策:我需要一件男裝還是女裝?女裝。我需要一件正裝還是休閑裝?休閑裝。我需要一件連衣裙還是普通外衣?連衣裙。我需要一件白色的還是其他顏色的?白色。以上幾個選擇做完,我就可以將具有{女裝、休閑裝、連衣裙、白色}這一屬性組的包做一個“可以買”的標記。如果我認為衣服可以不是白色的,也可以是藍色的,那么{女裝、休閑裝、連衣裙、藍色}這樣一個屬性組也可以標記為“可以買”。其實,針對{性別、類型1、類型2、顏色}這樣一組特征來說,會有很多個不同組合的屬性組合。我們可以一一考慮,并分布給每一個分支一個標記,“可以買”或“不會買”。這就是一個簡單的決策樹決策過程。
3.在決策過程中,對于特征的選擇還是比較重要的。比如一件衣服,其實不僅僅只有上面幾個特征,可能還有千千萬萬的特征,然而我們對特征的分類就顯得比較棘手,因此我們需要了解信息熵。
二.信息熵
信息熵這一概念由克勞德·香農于1948 年提出。香農是美國著名的數學家、信息論創始人,他提出的“信息熵”的概念,為信息論和數字通信奠定了基礎。公式如下:(可以不用了解)
?一般而言,當一種信息出現概率更高的時候,表明它被傳播得更廣泛,或者說,被引用的程度更高。我們可以認為,從信息傳播的角度來看,信息熵可以表示信息的價值。這樣子我們就有一個衡量信息價值高低的標準,可以做出關于知識流通問題的更多推論。
?
三.ID3算法(決策樹的發展)
ID3算法是一種貪心算法,用來構造決策樹。ID3算法起源于概念學習系統(CLS),以信息熵的下降速度為選取測試屬性的標準,即在每個節點選取還尚未被用來劃分的具有最高信息增益的屬性作為劃分標準,然后繼續這個過程,直到生成的決策樹能完美分類訓練樣例。
該算法是以信息論為基礎,以信息熵和信息增益度為衡量標準,從而實現對數據的歸納分類。
四.決策樹的組成(結構)
決策樹由決策結點、分支和葉子組成。決策樹中最上面的結點為根結點,每個分支是一個新的決策結點,或者是樹的葉子。每個決策結點代表一個問題或決策,通常對應于待分類對象的屬性。每一個葉子結點代表一種可能的分類結果。沿決策樹從上到下遍歷的過程中,在每個結點都會遇到一個測試,對每個結點上問題的不同的測試輸出導致不同的分支,最后會到達一個葉子結點,這個過程就是利用決策樹進行分類的過程,利用若干個變量來判斷所屬的類別。
學號:202113430110
姓名:羅媛
總結
以上是生活随笔為你收集整理的科学计算法(机器学习)----决策树定义以相关概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java闹钟_JAVA 闹钟程序
- 下一篇: ChatGpt会替代码农可行性分析