数据挖掘导论读书笔记3--分类
1.分類的基本概念
分類任務就是通過學習得到一個目標函數f,把每個屬性集x映射到一個預先定義的類標號y
目標函數也稱為分類模型。
2. 解決分類問題的一般方法:
決策樹分類法
基于規則的分類法
神經網絡
支持向量機
樸素貝葉斯分類法
3.決策樹歸納
通常采用貪心策略,在選擇劃分數據的屬性時,采用一系列局部最優決策來構造決策樹,hunt算法就是一種這樣的算法。
Hunt算法是許多決策樹算法的基礎,包括ID3,C4.5,CART等
決策樹歸納的設計問題
? ?如何分裂訓練記錄?選擇最佳劃分的度量,增益是一種可以用來確定劃分效果的標準。信息增益--信息熵的差
? ?如何停止分裂過程
4.模型的過分擬合
分類模型的誤差大致分為兩種:訓練誤差和泛化誤差。
訓練誤差也稱為再代入誤差或表現誤差,是在訓練記錄上誤分類樣本比例
泛化誤差是模型在未知記錄上的期望誤差
模型擬合不足:當決策樹很少時,訓練和檢驗誤差都很大。出現擬合不足的原因是模型尚未學習到數據的真實結構,因此模型在訓練集和檢驗集上的性能都很差。
模型過分擬合:隨著決策樹中節點數的增加,模型的訓練誤差和檢驗誤差都隨之降低,然而,一旦樹的規模變的很大,即使訓練誤差還在繼續降低,但是檢驗誤差開始增大。
造成模型過分擬合的因素
? ?噪聲導致的過分擬合
? ?缺乏代表性樣本導致的過分擬合
泛化誤差估計
? ?使用再代入估計
? ?結合模型復雜度 :歐卡姆剃刀
? ?估計統計上界
? ?使用確認集
5.評估分類器的性能
? ? 保持方法
? ? 隨機二次抽樣
? ?交叉驗證
? ?自助法bootstrap
6.比較分類器的方法
? ?估計準確度的置信區間
? 比較兩個模型的性能
? 比較兩種分類法的性能
?
轉載于:https://www.cnblogs.com/davidwang456/p/9667573.html
總結
以上是生活随笔為你收集整理的数据挖掘导论读书笔记3--分类的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一张图看懂新一代人工智能知识体系
- 下一篇: 数据挖掘导论读书笔记6关联分析的高级概念