當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

EduCoder 机器学习决策树

發布時間：2024/5/17 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 EduCoder 机器学习决策树小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

決策樹說通俗點就是一棵能夠替我們做決策的樹，或者說是我們人類在要做決策時腦回路的一種表現形式。

本實訓項目的主要內容是基于 python 語言搭建出決策樹模型對數據分類，并使用 sklearn 的決策時模型對鳶尾花數據進行分類。

第1關：什么是決策樹

任務描述
相關知識
- 引例
- 決策樹的相關概念
編程要求
測試說明

任務描述

本關任務：根據本節課所學知識完成本關所設置的選擇題。

編程要求

根據本關所學習到的知識，完成所有選擇題。

測試說明

平臺會對你的選項進行判斷，如果實際輸出結果與預期結果相同，則通關；反之，則 GameOver。

開始你的任務吧，祝你成功！

1、下列說法正確的是？（AB）
A、
訓練決策樹的過程就是構建決策樹的過程
B、
ID3算法是根據信息增益來構建決策樹
C、
C4.5算法是根據基尼系數來構建決策樹
D、
決策樹模型的可理解性不高
2、下列說法錯誤的是？（B）
A、
從樹的根節點開始，根據特征的值一步一步走到葉子節點的過程是決策樹做決策的過程
B、
決策樹只能是一棵二叉樹
C、
根節點所代表的特征是最優特征

第2關：信息熵與信息增益

任務描述
相關知識
- 信息熵
- 條件熵
- 信息增益
編程要求
測試說明

任務描述

本關任務：掌握什么是信息增益，完成計算信息增益的程序設計。

編程要求

根據提示，在右側編輯器補充代碼，完成calcInfoGain函數實現計算信息增益。

calcInfoGain函數中的參數:

feature：測試用例中字典里的feature，類型為ndarray；
label：測試用例中字典里的label，類型為ndarray；
index：測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益。

測試說明

平臺會對你編寫的代碼進行測試，期望您的代碼根據輸入來輸出正確的信息增益，以下為其中一個測試用例：

測試輸入： {'feature':[[0, 1], [1, 0], [1, 2], [0, 0], [1, 1]], 'label':[0, 1, 0, 0, 1], 'index': 0}

預期輸出： 0.419973

提示：計算log可以使用NumPy中的log2函數

開始你的任務吧，祝你成功！

import numpy as npdef calcInfoGain(feature, label, index):'''計算信息增益:param feature:測試用例中字典里的feature，類型為ndarray:param label:測試用例中字典里的label，類型為ndarray:param index:測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益。:return:信息增益，類型float'''#*********** Begin ***********## 計算熵def calcInfoEntropy(feature, label):'''計算信息熵:param feature:數據集中的特征，類型為ndarray:param label:數據集中的標簽，類型為ndarray:return:信息熵，類型float'''label_set = set(label)result = 0for l in label_set:count = 0for j in range(len(label)):if label[j] == l:count += 1# 計算標簽在數據集中出現的概率p = count / len(label)# 計算熵result -= p * np.log2(p)return result# 計算條件熵def calcHDA(feature, label, index, value):'''計算信息熵:param feature:數據集中的特征，類型為ndarray:param label:數據集中的標簽，類型為ndarray:param index:需要使用的特征列索引，類型為int:param value:index所表示的特征列中需要考察的特征值，類型為int:return:信息熵，類型float'''count = 0# sub_feature和sub_label表示根據特征列和特征值分割出的子數據集中的特征和標簽sub_feature = []sub_label = []for i in range(len(feature)):if feature[i][index] == value:count += 1sub_feature.append(feature[i])sub_label.append(label[i])pHA = count / len(feature)e = calcInfoEntropy(sub_feature, sub_label)return pHA * ebase_e = calcInfoEntropy(feature, label)f = np.array(feature)# 得到指定特征列的值的集合f_set = set(f[:, index])sum_HDA = 0# 計算條件熵for value in f_set:sum_HDA += calcHDA(feature, label, index, value)# 計算信息增益return base_e - sum_HDA#*********** End *************#

第3關：使用ID3算法構建決策樹

任務描述
相關知識
- ID3算法
- 使用決策樹進行預測
編程要求
測試說明

任務描述

本關任務：補充python代碼，完成DecisionTree類中的fit和predict函數。

編程要求

填寫fit(self, feature, label)函數，實現ID3算法，要求決策樹保存在self.tree中。其中：

feature：訓練集數據，類型為ndarray，數值全為整數；
label：訓練集標簽，類型為ndarray，數值全為整數。

填寫predict(self, feature)函數，實現預測功能，并將標簽返回，其中：

feature：測試集數據，類型為ndarray，數值全為整數。（PS：feature中有多條數據）

測試說明

只需完成fit與predict函數即可，程序內部會調用您所完成的fit函數構建模型并調用predict函數來對數據進行預測。預測的準確率高于0.92視為過關。(PS:若self.tree is None則會打印決策樹構建失敗)

開始你的任務吧，祝你成功！

import numpy as np class DecisionTree(object):def __init__(self):#決策樹模型self.tree = {}def calcInfoGain(self, feature, label, index):'''計算信息增益:param feature:測試用例中字典里的feature，類型為ndarray:param label:測試用例中字典里的label，類型為ndarray:param index:測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益。:return:信息增益，類型float'''# 計算熵def calcInfoEntropy(label):'''計算信息熵:param label:數據集中的標簽，類型為ndarray:return:信息熵，類型float'''label_set = set(label)result = 0for l in label_set:count = 0for j in range(len(label)):if label[j] == l:count += 1# 計算標簽在數據集中出現的概率p = count / len(label)# 計算熵result -= p * np.log2(p)return result# 計算條件熵def calcHDA(feature, label, index, value):'''計算信息熵:param feature:數據集中的特征，類型為ndarray:param label:數據集中的標簽，類型為ndarray:param index:需要使用的特征列索引，類型為int:param value:index所表示的特征列中需要考察的特征值，類型為int:return:信息熵，類型float'''count = 0# sub_feature和sub_label表示根據特征列和特征值分割出的子數據集中的特征和標簽sub_feature = []sub_label = []for i in range(len(feature)):if feature[i][index] == value:count += 1sub_feature.append(feature[i])sub_label.append(label[i])pHA = count / len(feature)e = calcInfoEntropy(sub_label)return pHA * ebase_e = calcInfoEntropy(label)f = np.array(feature)# 得到指定特征列的值的集合f_set = set(f[:, index])sum_HDA = 0# 計算條件熵for value in f_set:sum_HDA += calcHDA(feature, label, index, value)# 計算信息增益return base_e - sum_HDA# 獲得信息增益最高的特征def getBestFeature(self, feature, label):max_infogain = 0best_feature = 0for i in range(len(feature[0])):infogain = self.calcInfoGain(feature, label, i)if infogain > max_infogain:max_infogain = infogainbest_feature = ireturn best_featuredef createTree(self, feature, label):# 樣本里都是同一個label沒必要繼續分叉了if len(set(label)) == 1:return label[0]# 樣本中只有一個特征或者所有樣本的特征都一樣的話就看哪個label的票數高if len(feature[0]) == 1 or len(np.unique(feature, axis=0)) == 1:vote = {}for l in label:if l in vote.keys():vote[l] += 1else:vote[l] = 1max_count = 0vote_label = Nonefor k, v in vote.items():if v > max_count:max_count = vvote_label = kreturn vote_label# 根據信息增益拿到特征的索引best_feature = self.getBestFeature(feature, label)tree = {best_feature: {}}f = np.array(feature)# 拿到bestfeature的所有特征值f_set = set(f[:, best_feature])# 構建對應特征值的子樣本集sub_feature, sub_labelfor v in f_set:sub_feature = []sub_label = []for i in range(len(feature)):if feature[i][best_feature] == v:sub_feature.append(feature[i])sub_label.append(label[i])# 遞歸構建決策樹tree[best_feature][v] = self.createTree(sub_feature, sub_label)return treedef fit(self, feature, label):''':param feature: 訓練集數據，類型為ndarray:param label:訓練集標簽，類型為ndarray:return: None'''#************* Begin ************#self.tree = self.createTree(feature, label)#************* End **************#def predict(self, feature):''':param feature:測試集數據，類型為ndarray:return:預測結果，如np.array([0, 1, 2, 2, 1, 0])'''#************* Begin ************#result = []def classify(tree, feature):if not isinstance(tree, dict):return treet_index, t_value = list(tree.items())[0]f_value = feature[t_index]if isinstance(t_value, dict):classLabel = classify(tree[t_index][f_value], feature)return classLabelelse:return t_valuefor f in feature:result.append(classify(self.tree, f))return np.array(result)#************* End **************#

第4關：信息增益率

任務描述
相關知識
- 信息增益率
編程要求
測試說明

任務描述

本關任務：根據本關所學知識，完成calcInfoGainRatio函數。

編程要求

根據提示，在右側編輯器補充代碼，完成calcInfoGainRatio函數實現計算信息增益。

calcInfoGainRatio函數中的參數:

feature：測試用例中字典里的feature，類型為ndarray；
label：測試用例中字典里的label，類型為ndarray；
index：測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益率。

測試說明

平臺會對你編寫的代碼進行測試，期望您的代碼根據輸入來輸出正確的信息增益，以下為其中一個測試用例：

測試輸入： {'feature':[[0, 1], [1, 0], [1, 2], [0, 0], [1, 1]], 'label':[0, 1, 0, 0, 1], 'index': 0}

預期輸出： 0.432538

提示：計算log可以使用NumPy中的log2函數

開始你的任務吧，祝你成功！

import numpy as npdef calcInfoGain(feature, label, index):'''計算信息增益:param feature:測試用例中字典里的feature，類型為ndarray:param label:測試用例中字典里的label，類型為ndarray:param index:測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益。:return:信息增益，類型float'''# 計算熵def calcInfoEntropy(label):'''計算信息熵:param label:數據集中的標簽，類型為ndarray:return:信息熵，類型float'''label_set = set(label)result = 0for l in label_set:count = 0for j in range(len(label)):if label[j] == l:count += 1# 計算標簽在數據集中出現的概率p = count / len(label)# 計算熵result -= p * np.log2(p)return result# 計算條件熵def calcHDA(feature, label, index, value):'''計算信息熵:param feature:數據集中的特征，類型為ndarray:param label:數據集中的標簽，類型為ndarray:param index:需要使用的特征列索引，類型為int:param value:index所表示的特征列中需要考察的特征值，類型為int:return:信息熵，類型float'''count = 0# sub_feature和sub_label表示根據特征列和特征值分割出的子數據集中的特征和標簽sub_feature = []sub_label = []for i in range(len(feature)):if feature[i][index] == value:count += 1sub_feature.append(feature[i])sub_label.append(label[i])pHA = count / len(feature)e = calcInfoEntropy(sub_label)return pHA * ebase_e = calcInfoEntropy(label)f = np.array(feature)# 得到指定特征列的值的集合f_set = set(f[:, index])sum_HDA = 0# 計算條件熵for value in f_set:sum_HDA += calcHDA(feature, label, index, value)# 計算信息增益return base_e - sum_HDAdef calcInfoGainRatio(feature, label, index):'''計算信息增益率:param feature:測試用例中字典里的feature，類型為ndarray:param label:測試用例中字典里的label，類型為ndarray:param index:測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益。:return:信息增益率，類型float'''#********* Begin *********#info_gain = calcInfoGain(feature, label, index)unique_value = list(set(feature[:, index]))IV = 0for value in unique_value:len_v = np.sum(feature[:, index] == value)IV -= (len_v/len(feature))*np.log2((len_v/len(feature)))return info_gain/IV#********* End *********#

第5關：基尼系數

任務描述
相關知識
- 基尼系數
編程要求
測試說明

任務描述

本關任務：根據本關所學知識，完成calcGini函數。

編程要求

根據提示，在右側編輯器補充代碼，完成calcGini函數實現計算信息增益。

calcGini函數中的參數:

feature：測試用例中字典里的feature，類型為ndarray；
label：測試用例中字典里的label，類型為ndarray；
index：測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算基尼系數。

測試說明

平臺會對你編寫的代碼進行測試，期望您的代碼根據輸入來輸出正確的信息增益，以下為其中一個測試用例：

測試輸入： {'feature':[[0, 1], [1, 0], [1, 2], [0, 0], [1, 1]], 'label':[0, 1, 0, 0, 1], 'index': 0}

預期輸出： 0.266667

開始你的任務吧，祝你成功！

import numpy as np def calcGini(feature, label, index):'''計算基尼系數:param feature:測試用例中字典里的feature，類型為ndarray:param label:測試用例中字典里的label，類型為ndarray:param index:測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益。:return:基尼系數，類型float'''#********* Begin *********#def _gini(label):unique_label = list(set(label))gini = 1for l in unique_label:p = np.sum(label == l)/len(label)gini -= p**2return giniunique_value = list(set(feature[:, index]))gini = 0for value in unique_value:len_v = np.sum(feature[:, index] == value)gini += (len_v/len(feature))*_gini(label[feature[:, index] == value])return gini#********* End *********#

第6關：預剪枝與后剪枝

任務描述
相關知識
- 為什么需要剪枝
- 預剪枝
- 后剪枝
編程要求
測試說明

任務描述

本關任務：補充python代碼，完成DecisionTree類中的fit和predict函數。

編程要求

填寫fit(self, train_feature, train_label, val_featrue, val_label)函數，實現帶后剪枝的ID3算法，要求決策樹保存在self.tree中。其中：

train_feature：訓練集數據，類型為ndarray，數值全為整數；
train_label：訓練集標簽，類型為ndarray，數值全為整數；
val_feature：驗證集數據，類型為ndarray，數值全為整數；
val_label：驗證集標簽，類型為ndarray，數值全為整數。

填寫predict(self, feature)函數，實現預測功能，并將標簽返回，其中：

feature：測試集數據，類型為ndarray，數值全為整數。（PS：feature中有多條數據）

測試說明

只需完成fit與predict函數即可，程序內部會調用您所完成的fit函數構建模型并調用predict函數來對數據進行預測。預測的準確率高于0.935視為過關。(PS:若self.tree is None則會打印決策樹構建失敗)

import numpy as np from copy import deepcopyclass DecisionTree(object):def __init__(self):#決策樹模型self.tree = {}def calcInfoGain(self, feature, label, index):'''計算信息增益:param feature:測試用例中字典里的feature，類型為ndarray:param label:測試用例中字典里的label，類型為ndarray:param index:測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益。:return:信息增益，類型float'''# 計算熵def calcInfoEntropy(feature, label):'''計算信息熵:param feature:數據集中的特征，類型為ndarray:param label:數據集中的標簽，類型為ndarray:return:信息熵，類型float'''label_set = set(label)result = 0for l in label_set:count = 0for j in range(len(label)):if label[j] == l:count += 1# 計算標簽在數據集中出現的概率p = count / len(label)# 計算熵result -= p * np.log2(p)return result# 計算條件熵def calcHDA(feature, label, index, value):'''計算信息熵:param feature:數據集中的特征，類型為ndarray:param label:數據集中的標簽，類型為ndarray:param index:需要使用的特征列索引，類型為int:param value:index所表示的特征列中需要考察的特征值，類型為int:return:信息熵，類型float'''count = 0# sub_feature和sub_label表示根據特征列和特征值分割出的子數據集中的特征和標簽sub_feature = []sub_label = []for i in range(len(feature)):if feature[i][index] == value:count += 1sub_feature.append(feature[i])sub_label.append(label[i])pHA = count / len(feature)e = calcInfoEntropy(sub_feature, sub_label)return pHA * ebase_e = calcInfoEntropy(feature, label)f = np.array(feature)# 得到指定特征列的值的集合f_set = set(f[:, index])sum_HDA = 0# 計算條件熵for value in f_set:sum_HDA += calcHDA(feature, label, index, value)# 計算信息增益return base_e - sum_HDA# 獲得信息增益最高的特征def getBestFeature(self, feature, label):max_infogain = 0best_feature = 0for i in range(len(feature[0])):infogain = self.calcInfoGain(feature, label, i)if infogain > max_infogain:max_infogain = infogainbest_feature = ireturn best_feature# 計算驗證集準確率def calc_acc_val(self, the_tree, val_feature, val_label):result = []def classify(tree, feature):if not isinstance(tree, dict):return treet_index, t_value = list(tree.items())[0]f_value = feature[t_index]if isinstance(t_value, dict):classLabel = classify(tree[t_index][f_value], feature)return classLabelelse:return t_valuefor f in val_feature:result.append(classify(the_tree, f))result = np.array(result)return np.mean(result == val_label)def createTree(self, train_feature, train_label):# 樣本里都是同一個label沒必要繼續分叉了if len(set(train_label)) == 1:return train_label[0]# 樣本中只有一個特征或者所有樣本的特征都一樣的話就看哪個label的票數高if len(train_feature[0]) == 1 or len(np.unique(train_feature, axis=0)) == 1:vote = {}for l in train_label:if l in vote.keys():vote[l] += 1else:vote[l] = 1max_count = 0vote_label = Nonefor k, v in vote.items():if v > max_count:max_count = vvote_label = kreturn vote_label# 根據信息增益拿到特征的索引best_feature = self.getBestFeature(train_feature, train_label)tree = {best_feature: {}}f = np.array(train_feature)# 拿到bestfeature的所有特征值f_set = set(f[:, best_feature])# 構建對應特征值的子樣本集sub_feature, sub_labelfor v in f_set:sub_feature = []sub_label = []for i in range(len(train_feature)):if train_feature[i][best_feature] == v:sub_feature.append(train_feature[i])sub_label.append(train_label[i])# 遞歸構建決策樹tree[best_feature][v] = self.createTree(sub_feature, sub_label)return tree# 后剪枝def post_cut(self, val_feature, val_label):# 拿到非葉子節點的數量def get_non_leaf_node_count(tree):non_leaf_node_path = []def dfs(tree, path, all_path):for k in tree.keys():if isinstance(tree[k], dict):path.append(k)dfs(tree[k], path, all_path)if len(path) > 0:path.pop()else:all_path.append(path[:])dfs(tree, [], non_leaf_node_path)unique_non_leaf_node = []for path in non_leaf_node_path:isFind = Falsefor p in unique_non_leaf_node:if path == p:isFind = Truebreakif not isFind:unique_non_leaf_node.append(path)return len(unique_non_leaf_node)# 拿到樹中深度最深的從根節點到非葉子節點的路徑def get_the_most_deep_path(tree):non_leaf_node_path = []def dfs(tree, path, all_path):for k in tree.keys():if isinstance(tree[k], dict):path.append(k)dfs(tree[k], path, all_path)if len(path) > 0:path.pop()else:all_path.append(path[:])dfs(tree, [], non_leaf_node_path)max_depth = 0result = Nonefor path in non_leaf_node_path:if len(path) > max_depth:max_depth = len(path)result = pathreturn result# 剪枝def set_vote_label(tree, path, label):for i in range(len(path)-1):tree = tree[path[i]]tree[path[len(path)-1]] = vote_labelacc_before_cut = self.calc_acc_val(self.tree, val_feature, val_label)# 遍歷所有非葉子節點for _ in range(get_non_leaf_node_count(self.tree)):path = get_the_most_deep_path(self.tree)# 備份樹tree = deepcopy(self.tree)step = deepcopy(tree)# 跟著路徑走for k in path:step = step[k]# 葉子節點中票數最多的標簽vote_label = sorted(step.items(), key=lambda item: item[1], reverse=True)[0][0]# 在備份的樹上剪枝set_vote_label(tree, path, vote_label)acc_after_cut = self.calc_acc_val(tree, val_feature, val_label)# 驗證集準確率高于0.9才剪枝if acc_after_cut > acc_before_cut:set_vote_label(self.tree, path, vote_label)acc_before_cut = acc_after_cutdef fit(self, train_feature, train_label, val_feature, val_label):''':param train_feature:訓練集數據，類型為ndarray:param train_label:訓練集標簽，類型為ndarray:param val_feature:驗證集數據，類型為ndarray:param val_label:驗證集標簽，類型為ndarray:return: None'''#************* Begin ************#self.tree = self.createTree(train_feature, train_label)# 后剪枝self.post_cut(val_feature, val_label)#************* End **************#def predict(self, feature):''':param feature:測試集數據，類型為ndarray:return:預測結果，如np.array([0, 1, 2, 2, 1, 0])'''#************* Begin ************#result = []# 單個樣本分類def classify(tree, feature):if not isinstance(tree, dict):return treet_index, t_value = list(tree.items())[0]f_value = feature[t_index]if isinstance(t_value, dict):classLabel = classify(tree[t_index][f_value], feature)return classLabelelse:return t_valuefor f in feature:result.append(classify(self.tree, f))return np.array(result)#************* End **************#

第7關：鳶尾花識別

任務描述
相關知識
- 數據簡介
- DecisionTreeClassifier
編程要求
測試說明

任務描述

本關任務：使用sklearn完成鳶尾花分類任務。

編程要求

補充python代碼，實現鳶尾花數據的分類任務，其中訓練集數據保存在./step7/train_data.csv中，訓練集標簽保存在。./step7/train_label.csv中，測試集數據保存在。./step7/test_data.csv中。請將對測試集的預測結果保存至。./step7/predict.csv中。這些csv文件可以使用pandas讀取與寫入。

注意：當使用pandas讀取完csv文件后，請將讀取到的DataFrame轉換成ndarray類型。這樣才能正常的使用fit和predict。

示例代碼：

import pandas as pd

# as_matrix()可以將DataFrame轉換成ndarray

# 此時train_df的類型為ndarray而不是DataFrame

train_df = pd.read_csv('train_data.csv').as_matrix()

數據文件格式如下圖所示:

標簽文件格式如下圖所示:

PS：predict.csv文件的格式必須與標簽文件格式一致。

測試說明

只需將結果保存至./step7/predict.csv即可，程序內部會檢測您的代碼，預測準確率高于0.95視為過關。

開始你的任務吧，祝你成功！

#********* Begin *********# import pandas as pd from sklearn.tree import DecisionTreeClassifiertrain_df = pd.read_csv('./step7/train_data.csv').as_matrix() train_label = pd.read_csv('./step7/train_label.csv').as_matrix() test_df = pd.read_csv('./step7/test_data.csv').as_matrix()dt = DecisionTreeClassifier() dt.fit(train_df, train_label) result = dt.predict(test_df)result = pd.DataFrame({'target':result}) result.to_csv('./step7/predict.csv', index=False)#********* End *********#

總結

以上是生活随笔為你收集整理的EduCoder 机器学习决策树的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： EduCoder 机器学习逻辑回归
下一篇：查看Hive SQL执行日志

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	是	否	是	否
2	是	是	否	是
3	否	是	是	否

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

EduCoder 机器学习 决策树

第1關：什么是決策樹

任務描述

相關知識

引例

決策樹的相關概念

編程要求

測試說明

第2關：信息熵與信息增益

任務描述

相關知識

信息熵

條件熵

信息增益

編程要求

測試說明

第3關：使用ID3算法構建決策樹

任務描述

相關知識

ID3算法

使用決策樹進行預測

編程要求

測試說明

第4關：信息增益率

任務描述

相關知識

信息增益率

編程要求

測試說明

第5關：基尼系數

任務描述

相關知識

基尼系數

編程要求

測試說明

第6關：預剪枝與后剪枝

任務描述

相關知識

為什么需要剪枝

預剪枝

后剪枝

編程要求

測試說明

第7關：鳶尾花識別

任務描述

相關知識

數據簡介

DecisionTreeClassifier

編程要求

測試說明

總結

EduCoder 机器学习决策树

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0