谱聚类算法入门教程(一)——Introduction
該教程記錄了我從一個聚類算法小白學習譜聚類算法的過程,在開始學習之前,請確保你了解下面的知識:
- 線性代數矩陣的相關性質
- 導數的相關知識
- 歐式距離
- 圖的基本知識
如果你學過上面的知識但是忘記了也沒關系,在后面使用該知識點的過程中會簡要講解一下,你只要確保你看完了能回憶起來就好。
1. 什么聚類算法?
聚類就是對大量未知標注的數據集,按數據的內在相似性將數據集劃分為多個類別,使類別內的數據相似度較大而類別間的數據相似度較小,是無監督學習1的一種。說白點,就是給一群點,然后叫你把相似的點分為同一類。下圖就是一個簡單的例子,被分為同一類的數據點用同一種顏色被標識出來。
2. 譜聚類算法
常用的聚類方法有很多,比如說k-means算法,基于密度聚類算法,基于網格聚類算法,譜聚類算法等,本教程將介紹譜聚類算法。傳統的聚類方法,如k-means算法,基于密度聚類算法,基于網格聚類算法等,在對凸形樣本聚類效果較好,但是對于任意形狀的聚類算法精度不高;而譜聚類算法,不僅能夠在任意樣本空間進行聚類,而且能夠收斂于全局最優,很好地解決了非塊狀和非凸數據的聚類問題。
等等,非塊狀和非凸數據是什么意思?我們以下面的圖為例子,上圖是譜聚類算法的一種實現,下圖是k-means算法的實現。k-means算法是計算兩個數據點之間的距離,距離近的就會被分配到同一個聚類中。可以看到,同一個圓環兩端的數據點因為距離比較遠,所以在k-means算法中不會被分配到同一個聚類中,而譜聚類算法卻能將同一個圓環內的數據點分配到一起。以我們的經驗來說,譜聚類算法的分配更合理。
哈!由此我們可以看出譜聚類算法是多么優秀的一想技術了吧,在教程的第二部分,我們將給出譜聚類算法的目標函數表示,求解這個目標函數,將得到我們的聚類分析結果。
無監督學習是機器學習的一種(共四種)。無監督學習中使用的數據是沒有標記過的,即不知道輸入數據對應的輸出結果是什么。我們的目的就是讓機器來讀取數據然后進行分析尋找數據的模型和規律最后生成輸出。 ??
總結
以上是生活随笔為你收集整理的谱聚类算法入门教程(一)——Introduction的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 手写Spring-第六章-让我访问!实现
- 下一篇: 区块链技术模型