當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分析 | KNN模型

發(fā)布時間：2024/1/18 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了数据分析 | KNN模型小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

KNN模型的應用

一、模型思想
二、k值的選擇
- 01 設置權(quán)重
- 02 交叉驗證
三、距離度量
- 01 歐式距離
- 02 曼哈頓距離
- 03 余弦相似度
四、代碼實現(xiàn)

一、模型思想

鄰近算法，或者說K最鄰近（KNN，K-NearestNeighbor）分類算法是數(shù)據(jù)挖掘分類技術中最簡單的方法之一。

如上圖所示，模型的本質(zhì)就是尋找k個最近的樣本，然后基于最近樣本做“預測”。對于離散型因變量來說，從k個最近的已知類別樣本中挑選出頻率最高的類別用于未知樣本的判斷；對于連續(xù)變量來說，則是將k個最近的已知樣本均值作為未知樣本的預測。

模型的執(zhí)行步驟如下：

確定未知樣本近鄰的個數(shù)k值

根據(jù)某種度量樣本間相似度的指標，將每一個未知類別樣本的最近k個已知樣本搜尋出來，形成簇

對搜尋出來的已知樣本進行投票，將各簇下類別最多的分類用作未知樣本點的預測

二、k值的選擇

不同的k值對模型的預測準確性會有較大的影響，若k值過于偏小，可能會導致模型的過擬合；若k值偏大，又可能會使模型欠擬合。

01 設置權(quán)重

若k值設置的比較大時，擔心模型發(fā)生欠擬合的現(xiàn)象時，可以設置近鄰樣本的投票權(quán)重，若已知樣本距離未知樣本比較遠時，則對應的權(quán)重就設置得小一點，否則權(quán)重就大一點，通常可以將權(quán)重設置為距離的倒數(shù)。

02 交叉驗證

采用多重交叉驗證法，就是將k取不同的值，然后在每種值下執(zhí)行m重交叉驗證，最后選出平均誤差最小的k值

三、距離度量

01 歐式距離

在n維空間中，對于兩點 $A(x_1,x_2,\cdots,x_n)$ 和 $B(x_1,x_2,\cdots,x_n)$ 間距離為：
$d_{A,B}=\sqrt{(y_1-x_1)^2+(y_2-x_2)^2+\cdots+(y_n-x_n)^2}$

02 曼哈頓距離

我們可以定義曼哈頓距離的正式意義為L1-距離或城市區(qū)塊距離，也就是在歐幾里德空間的固定直角坐標系上兩點所形成的線段對軸產(chǎn)生的投影的距離總和。

在平面上，坐標(x1,y1)的i點與坐標(x2,y2)的j點的曼哈頓距離為：
$d_{ij}=|x_1-x_2|+|y_1-y_2|$
以此延伸，在n維空間中，對于兩點 $A(x_1,x_2,\cdots,x_n)$ 和 $B(x_1,x_2,\cdots,x_n)$ 間的曼哈頓距離為：
$d_{A,B}=|y_1-x_1|+|y_2-x_2|+\cdots+|y_n-x_n|$
要注意的是，曼哈頓距離依賴坐標系統(tǒng)的轉(zhuǎn)度，而非系統(tǒng)在坐標軸上的平移或映射。

03 余弦相似度

余弦相似度，又稱為余弦相似性，是通過計算兩個向量的夾角余弦值來評估他們的相似度。余弦相似度將向量根據(jù)坐標值，繪制到向量空間中，如最常見的二維空間。

此時，二維空間AB兩點的余弦相似度為：
$Similarity_{A,B}=Cos\theta=\frac{x_1x_2+y_1y_2}{\sqrt{x_1^2+y_1^2}\sqrt{x_2^2+y_2^2}}$
同理，在n為空間的AB兩點，其余弦相似度為:
$Similarity_{A,B}=Cos\theta=\frac{\overrightarrow{A}\ · \overrightarrow{B}}{|\overrightarrow{A}| \ |\overrightarrow{B}|}$

四、代碼實現(xiàn)

neighbors.KNeighborsClassfier(n_neighbors=5, weights='uniform', p=2, metric='minkowski')

n_neighbors：指定臨近樣本個數(shù)k，默認為5個
weights：指定臨近樣本的投票權(quán)重，默認為uniform，表示所權(quán)重一樣；若為“distance”，則表示投票權(quán)重與距離成反比。
metric：指定距離的度量指標，默認為閔可夫斯基距離
p：當參數(shù)metric為閔可夫斯基距離時，p=1，表示計算點之間的曼哈頓距離；p=2，表示計算點之間的歐氏距離；默認為2

# 導入第三方包 import pandas as pd # 導入數(shù)據(jù) Knowledge = pd.read_excel(r'Knowledge.xlsx') # 返回前5行數(shù)據(jù) Knowledge.head() STG SCG STR LPR PEG UNS 0 0.00 0.00 0.00 0.00 0.00 Very Low 1 0.08 0.08 0.10 0.24 0.90 High 2 0.06 0.06 0.05 0.25 0.33 Low 3 0.10 0.10 0.15 0.65 0.30 Middle 4 0.08 0.08 0.08 0.98 0.24 Low # 構(gòu)造訓練集和測試集 # 導入第三方模塊 from sklearn import model_selection # 將數(shù)據(jù)集拆分為訓練集和測試集 predictors = Knowledge.columns[:-1] X_train, X_test, y_train, y_test = model_selection.train_test_split(Knowledge[predictors], Knowledge.UNS, test_size = 0.25, random_state = 1234) # 導入第三方模塊 import numpy as np from sklearn import neighbors import matplotlib.pyplot as plt# 設置待測試的不同k值 K = np.arange(1,np.ceil(np.log2(Knowledge.shape[0]))).astype(int) # 構(gòu)建空的列表，用于存儲平均準確率 accuracy = [] for k in K:# 使用10重交叉驗證的方法，比對每一個k值下KNN模型的預測準確率cv_result = model_selection.cross_val_score(neighbors.KNeighborsClassifier(n_neighbors = k, weights = 'distance'), X_train, y_train, cv = 10, scoring='accuracy')accuracy.append(cv_result.mean())# 從k個平均準確率中挑選出最大值所對應的下標 arg_max = np.array(accuracy).argmax() # 中文和負號的正常顯示 plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] plt.rcParams['axes.unicode_minus'] = False # 繪制不同K值與平均預測準確率之間的折線圖 plt.plot(K, accuracy) # 添加點圖 plt.scatter(K, accuracy) # 添加文字說明 plt.text(K[arg_max], accuracy[arg_max], '最佳k值為%s' %int(K[arg_max])) # 顯示圖形 plt.show()

此時，通過圖像得到最佳k值

# 導入第三方模塊 from sklearn import metrics# 重新構(gòu)建模型，并將最佳的近鄰個數(shù)設置為6 knn_class = neighbors.KNeighborsClassifier(n_neighbors = 6, weights = 'distance') # 模型擬合 knn_class.fit(X_train, y_train) # 模型在測試數(shù)據(jù)集上的預測 predict = knn_class.predict(X_test) # 構(gòu)建混淆矩陣 cm = pd.crosstab(predict,y_test) cm 獲得混淆矩陣 UNS High Low Middle Very Low row_0 High 29 0 0 0 Low 0 34 3 5 Middle 1 0 23 0 Very Low 0 0 0 6 # 分類模型的評估報告 print(metrics.classification_report(y_test, predict)) precision recall f1-score supportHigh 1.00 0.97 0.98 30Low 0.81 1.00 0.89 34Middle 0.96 0.88 0.92 26Very Low 1.00 0.55 0.71 11avg / total 0.93 0.91 0.91 101

總結(jié)

以上是生活随笔為你收集整理的数据分析 | KNN模型的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。