K-Means算法理论及Python实现
生活随笔
收集整理的這篇文章主要介紹了
K-Means算法理论及Python实现
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
簡述
K-means Algorithm(s)
- Assumes Euclidean space/distance 假設是在歐式空間下的。因為means本身是需要在歐式空間下才可以計算。但K-means有很多的推廣版本,將歐式空間中所提到的Centroid轉成Clustroid,是一種比較常見的推廣方式。
- 算法先取k個類: Initialization 的時候需要避免ill-initialization 這里考慮到病態的初始化。最為經典的是使用 Rival penalized competitive learning1
總之,通過一定的方式,可以實現初始化的K個類中心的選取。
算法流程
- For each point, place it in the cluster whose current centroid it is nearest.對于每個點,將其放在那個類中心離它最近的那個類中。
- After all points are assigned, update the locations of centroids of the K clusters. 每個點都被分配完之后,更新每個類的中心位置。
- Reassign all points to their closet centroid. 再分配每個點(方法類似)直到整個分配沒什么變化。(直到收斂)
收斂性證明
這里我只給出不是很嚴謹的證明~ 至于詳細的可以看60年前的那篇論文。
我們認為K-means一定會收斂。
下面使用反證法:
假設該算法不收斂。
那么根據假設就存在有這樣的一個點。在添加它之后,即類中心發生移動后,就該刪除掉它。
而這是不合理的。添加上該點之后,該類中心會向該點的發生移動。即距離比之前更近了。而根據算法,我們知道這樣的點是不會被拋棄的。所以,這樣的點不存在。即該算法會收斂。
證明不是很嚴謹,但是卻可以拿來做對于算法收斂的直觀認知~
歡迎大家在評論區補充~
Python實現
- 注意,這里采用的是完全隨機初始化,這樣的效果不是很好。因為可能會存在有病態的初始化結果。
- 直接用PCA截取部分特征,主要是為了畫圖
原圖:
K-means:
- 直接選用前兩個特征
原圖:
K-means:
https://ieeexplore.ieee.org/abstract/document/238318) ??
總結
以上是生活随笔為你收集整理的K-Means算法理论及Python实现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ipv6host更新
- 下一篇: 简单探索MNIST(Softmax回归和