数据挖掘导论读书笔记9聚类分析
生活随笔
收集整理的這篇文章主要介紹了
数据挖掘导论读书笔记9聚类分析
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1. 聚類分析僅根據在數據中發現的描述對象及其關系的信息,將數據對象分組。
其目標是組內的對象相互之間是相似的或者相關的,而不同組中的對象是不同的或者不相關的。
2.聚類分析的重要技術
? ?K均值:K均值是基于原型的、劃分的聚類技術。它試圖發現用戶指定個數k的簇(由質心代表)
| 鄰近度函數 | 質心 | 目標函數 |
| 曼哈頓距離L1 | 中位數 | 最小化對象到其簇質心的L1距離和 |
| 平方歐幾里得距離L2平方 | 均值 | 最小化對象到其簇質心的L2距離的平方和 |
| 余弦 | 均值 | 最大化對象與其簇質心的余弦相似度和 |
| Bregman散度 | 均值 | 最小化對象到其簇質心的Bregman散度和 |
SSE(Sum of Squared Error)誤差的平方和
? 凝聚的層次聚類:
層次聚類常常使用樹狀圖dendrogram,對于二維點的聚合,層次聚類也可以使用嵌套簇圖。
? ? ? ?單璉:MIN??全璉:MAX? 組平均:GROUP AVERAGE
Ward方法:兩個簇的鄰近度定義為兩個簇合并時導致的平方誤差的增量。
? ? ? ?簇鄰近度的LANCE-WILLIAMS公式
? DBSCAN:是一種簡單、有效的基于密度的聚類算法。
核心點
邊界點
噪聲點
3.簇評估
非監督簇評估
簇的凝聚性(緊湊性,緊致性)度量確定簇中對象如何密切相關
簇的分離線度量確定某個簇中不同于其他簇的地方。?
非監督簇評估:使用臨近度矩陣
轉載于:https://www.cnblogs.com/davidwang456/p/9698118.html
總結
以上是生活随笔為你收集整理的数据挖掘导论读书笔记9聚类分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 肖仰华:基于知识图谱的用户理解
- 下一篇: 今日头条算法原理