當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Kmeans聚类时K值选择的方法

發布時間：2023/12/20 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 Kmeans聚类时K值选择的方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.K-means算法

（1）簡單介紹

聚類屬于非監督學習，K均值聚類是最基礎常用的聚類算法。它的基本思想是，通過迭代尋找K個簇（Cluster）的一種劃分方案，使得聚類結果對應的損失函數最小。其中，損失函數可以定義為各個樣本距離所屬簇中心點的誤差平方和：

其中代表第個樣本，是所屬的簇，代表簇對應的中心點，是樣本總數。

（2）具體步驟

KMeans的核心目標是將給定的數據集劃分成K個簇（K是超參），并給出每個樣本數據對應的中心點。具體步驟非常簡單，可以分為4步：

（1）數據預處理。主要是標準化、異常點過濾。

（2）隨機選取K個中心，記為

（3）定義損失函數：

（4）令t=0,1,2,… 為迭代步數，重復如下過程直到收斂：

（4.1）對于每一個樣本，將其分配到距離最近的中心

（4.2）對于每一個類中心k，重新計算該類的中心

KMeans最核心的部分就是先固定中心點，調整每個樣本所屬的類別來減少 J；再固定每個樣本的類別，調整中心點繼續減小J 。兩個過程交替循環， J單調遞減直到最（極）小值，中心點和樣本劃分的類別同時收斂。

2.K值的選取方法

（1）手肘法

手肘法將簇間誤差平方和看成是類簇數量k的函數。隨著k的增加，每個類簇內的離散程度越小，總距離平方和也就在不斷減小，并且減小的程度越來越不明顯。極限情況是當k=N時，每個類簇只有一個點，這時總的誤差平方和為0。手肘法認為我們應該選擇這樣的k：當k繼續增大時，總誤差平方和減少的趨勢不再明顯，也就是“拐點”處。具體過程如下：

選擇一個聚類算法（例如K-means），計算不同k時的聚類結果，例如k可以取為0～10。

對每個k，計算總的簇間距離平方和。

畫出總簇間距離平方和隨k值增加的變化趨勢。

圖中彎曲的“拐點”處對應的k就是最合適的類簇數量

# 手肘法調研了一下基本是畫出圖片以后，采取目測的方式選擇合適的K, # 這里我自己寫了一個獲取K的方法，好像有點不準 import matplotlib.pyplot as plt from sklearn.cluster import KMeansdef get_k_value(distortions, start_class_num = 1):"""通過手肘法計算最優的k值Args:border_entity_info: Returns:k: 最優的k值"""k = 0for i in range(len(distortions) - 1):if distortions[i] - distortions[i+1] < 1:k = i + start_class_numbreakreturn kdef elbow_method_K(data, range_K, pro_num):K = range(1, range_K + 1)meandistortions = []for k in K:kmeans = KMeans(n_clusters=k)kmeans.fit(data)meandistortions.append(kmeans.inertia_)best_k = get_k_value(meandistortions)plt.plot(K, meandistortions, 'bx-')plt.xlabel('k')plt.ylabel('Average Dispersion')plt.title('Selecting k with the Elbow Method')plt.savefig(f'/Users/cecilia/Desktop/K_圖片/{pro_num}_elbow_K.jpg')plt.cla()return best_k # 這個函數是我自己使用的時候封裝的 # data是需要進行聚類的數據，可以是多維矩陣 # range_K是類別的可選擇范圍 # pro_num是名稱，沒有實際意義是為了將圖片保存下來，不想保存圖片可以直接使用plt.show()

（2）Gap Statistic

是斯坦福大學的三位教授在2001年的一篇論文中(R. Tibshirani, G. Walther, and T. Hastie, 2001)提出來的，可用于任何的聚類方法。Gap Statistic的主要思想是比較不同k時原始數據的簇內偏差總和與數據在均勻分布推斷下的簇內偏差總和。使Gap Statistic這個統計量達到最大值意味著此時的聚類結果結構與隨機均勻分布產生的數據的聚類結果差別最大，此時的k就是最優的k。算法如下：

將原始的觀測數據進行聚類，k=0,…, k_max，計算不同k值對應的簇內偏離和W_k。

通過隨機的均勻分布產生B個推斷數據，對這些推斷數據進行聚類，k=0,…, k_max。計算不同k值對應的在B個推斷數據上的平均簇內偏離和W_kb。

計算gap statistic：W_k與W_kb的log偏差Gap(k)。同時計算這個偏差的標準差sd_k，然后令s_k = sprt(1+1/B*sd_k)。

選擇一個最小的k，這樣的k滿足Gap(k) > Gap(k+1) - s_k+1。
流行的做法是直接選擇最大的Gap(k)所對應的k作為最優k，也就是忽略上述的第四步。需要注意的是當B=500時，W_kb是非常精確的，在下一次迭代中基本保持不變。
注意??：使用這個需要安裝一個庫，具體信息可以看Gap Statistic

from gap_statistic import OptimalKef gap_statistic_K(data, range_K, pro_num):K = np.arange(1, range_K)optimalK = OptimalK(n_jobs=1, parallel_backend='joblib')n_clusters = optimalK(data, cluster_array=K)# Gap values plotplt.plot(optimalK.gap_df.n_clusters, optimalK.gap_df.gap_value, linewidth=3)plt.scatter(optimalK.gap_df[optimalK.gap_df.n_clusters == n_clusters].n_clusters,optimalK.gap_df[optimalK.gap_df.n_clusters == n_clusters].gap_value, s=250, c='r')plt.grid(True)plt.xlabel('Cluster Count')plt.ylabel('Gap Value')plt.title('Gap Values by Cluster Count')plt.savefig(f'/Users/cecilia/Desktop/K_圖片/{pro_num}_gap_values_K.jpg')plt.cla()# plt.show()# # diff plot# plt.plot(optimalK.gap_df.n_clusters, optimalK.gap_df["diff"], linewidth=3)# plt.grid(True)# plt.xlabel("Cluster Count")# plt.ylabel("Diff Value")# plt.title("Diff Values by Cluster Count")# # plt.show()# plt.savefig(f'/Users/cecilia/Desktop/K_圖片/{pro_num}_diff_2.jpg')# plt.cla()# Gap* plot# max_ix = optimalK.gap_df[optimalK.gap_df["gap*"] == optimalK.gap_df["gap*"].max()].index[0]# plt.plot(optimalK.gap_df.n_clusters, optimalK.gap_df["gap*"], linewidth=3)# plt.scatter(# optimalK.gap_df.loc[max_ix]["n_clusters"],# optimalK.gap_df.loc[max_ix]["gap*"],# s=250,# c="r",# )# plt.grid(True)# plt.xlabel("Cluster Count")# plt.ylabel("Gap* Value")# plt.title("Gap* Values by Cluster Count")# plt.savefig(f'/Users/cecilia/Desktop/K_圖片/{pro_num}_Gap*_3.jpg')# plt.cla()# plt.show()# # diff* plot# plt.plot(optimalK.gap_df.n_clusters, optimalK.gap_df["diff*"], linewidth=3)# plt.grid(True)# plt.xlabel("Cluster Count")# plt.ylabel("Diff* Value")# plt.title("Diff* Values by Cluster Count")# plt.savefig(f'/Users/cecilia/Desktop/K_圖片/{pro_num}_diff*_4.jpg')# plt.cla()# plt.show()return n_clusters

（3）平均輪廓系數法

平均輪廓系數方法衡量了聚類結果的質量，即衡量每個點被放到當前類簇有多合適，平均輪廓系數很高意味著聚類的結果很好。這種方法計算不同k值下，所有點的平均輪廓系數，能夠使平均輪廓系數最大的k就是最優的類簇數量（Kaufman and Rousseeuw 1990）。
具體的過程與手肘法是相似的：

選擇一個聚類算法（例如K-means），計算不同k時的聚類結果，例如k可以取為0～10。

對于每個k，計算所有觀測點的平均輪廓系數。

畫出這個指標隨著k變化的曲線。

曲線中最高點對應的k就是最優聚類數量。

from sklearn.metrics import silhouette_score from sklearn.cluster import KMeansdef get_silhouette_K(data, range_K, pro_num):K = range(2, range_K)Scores = [] for k in K:kmeans = KMeans(n_clusters=k)kmeans.fit(data)Scores.append(silhouette_score(data, kmeans.labels_, metric='euclidean'))max_idx = Scores.index(max(Scores))best_k = K[max_idx]plt.plot(K, Scores, 'bx-')plt.xlabel('k')plt.ylabel('silhouette')plt.title('Selecting k with the silhouette Method')plt.savefig(f'/Users/cecilia/Desktop/K_圖片/{pro_num}_silhouette_K.jpg')plt.cla()return best_k # 這個函數是我自己使用的時候封裝的 # data是需要進行聚類的數據，可以是多維矩陣 # range_K是類別的可選擇范圍 # pro_num是名稱，沒有實際意義是為了將圖片保存下來，不想保存圖片可以直接使用plt.show()

注意??：在使用輪廓系數法時，遇到一個問題就是K值的選擇必須從2開始，最多只能選擇n_samples -1(最大K候選就是樣本數量-1)，不然會報錯的，具體沒有細細研究。

總結

以上是生活随笔為你收集整理的Kmeans聚类时K值选择的方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：新生儿小名大全：农历三月出生的女孩小名
下一篇： MQTT编译，及环境配置等