生活随笔
收集整理的這篇文章主要介紹了
聚类算法篇章总结
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
主要的距離計算方法包括:
最短距離法(通過樣本數值之間的距離計算,然后將距離值最小的樣本進行合并的過程)最長距離法中間距離法重心法(重心聚類法:將兩個聚類中心點的距離定義為兩個類的重心距離,而類的重心為屬于該類的樣本的平均值)離差平方和法類平均距離法(動態聚類法:利用類平均值法對數據進行聚類的方法屬于動態聚類的方法,也稱逐步聚類法)
常見的聚類算法:
K-Means算法:初始選擇K個點作為中心聚類點,將N個點分別于K個點計算距離,選擇自己最近的點作為自己的中心點,不斷地更新中心聚集法,不足:在K-Means算法執行過程中,通過隨機的方式初始質心,也只有初始時通過隨機方式產生的質心才是實際需要聚簇集合中心的點,而后面通過不斷迭代產生的新的質心很可能并不是在聚簇中的點。K-Means++算法:在K_Means算法的基礎上,為了改進初始點的選擇,而K-Means++算法則是在選擇初始中心之前,對所有數據進行一次計算,使得選擇的初始化聚類中心之間的聚類盡可能的遠。K-Medoids(中心點)聚類算法:實質是對K-Means算法的優化和改進。ISODATA聚類算法:和K-Means類似,但是屬于無監督的聚類分析方法。基于密度的DBSCAN算法:是一種基于密度的聚類算法,思想是以某點為核心點的基礎上,若在指定半徑范圍內擁有超過指定的點的數量,則形成一個聚簇。基于BIRCH算法的聚類分析:它可以在任何給定的內存下運行,主要用于處理超大規模的數據集,它是一個基于距離的層次聚類,綜合了層次凝聚和迭代的重定位方法。算法的過程是將待分類的數據插入到一棵樹中,并且原始數據都在葉子結點上,它的主要思想是通過掃描數據庫,建立一個初始存放于內存中的聚類特征樹,然后對聚類特征樹的葉節點加以聚類。算法的核心是聚類特征(CF)和聚類特征樹(CFT)。
?
層次聚類:https://blog.csdn.net/sinat_29957455/article/details/80146093
距離的定義方法:
1. 歐氏距離
2. 曼哈頓距離
3. 切比雪夫距離
4. 閔可夫斯基距離
5. 標準化歐氏距離
6. 馬氏距離
7. 夾角余弦
8. 漢明距離
9. 杰卡德距離 & 杰卡德相似系數
10. 相關系數 & 相關距離
11. 信息熵
距離計算:https://www.cnblogs.com/soyo/p/6893551.html
總結
以上是生活随笔為你收集整理的聚类算法篇章总结的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。