机器学习算法基础——k近邻算法
生活随笔
收集整理的這篇文章主要介紹了
机器学习算法基础——k近邻算法
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
23.k-近鄰算法以及案例預測入住位置
24.K-近鄰算法案例
分類算法-k近鄰算法(KNN)
定義:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別。?
sklearn k-近鄰算法API
sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')
- n_neighbors:int,可選(默認= 5),k_neighbors查詢默認使用的鄰居數
- algorithm:{‘auto’,‘ball_tree’,‘kd_tree’,‘brute’},可選用于計算最近鄰居的算法:‘ball_tree’將會使用 BallTree,‘kd_tree’將使用 KDTree。‘auto’將嘗試根據傳遞給fit方法的值來決定最合適的算法。 (不同實現方式影響效率)
k近鄰算法實例-預測入住位置
from sklearn.neighbors import KNeighborsClassifier import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler def knncls():#讀取收據data = pd.read_csv("/Users/zhucan/Downloads/facebook-v-predicting-check-ins/train.csv")#處理數據data.query("x > 1.0 & x < 1.25 & y > 2.5 & y < 2.75")time_value = pd.to_datetime(data["time"],unit="s")#把日期格式轉換成字典格式time_value = pd.DatetimeIndex(time_value)#構造一些特征data["day"] = time_value.daydata["hour"] = time_value.hourdata["weekday"] = time_value.weekdaydata = data.drop(["time"],axis = 1)#把簽到數量少于n個目標位置刪除place_count = data.groupby('place_id').count()tf = place_count[place_count.row_id > 3].reset_index()data = data[data['place_id'].isin(tf.place_id)]#取出數據當中的特征值和目標值y = data["place_id"]x = data.drop(["place_id"] , axis=1)#進行數據的分割訓練集和測試集x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.25)#特征工程(標準化)std=StandardScaler()#對特征值進行標準化x_train = std.fit_transform(x_train)x_test = std.transform(x_test)#算法流程knn = KNeighborsClassifier(n_neighbors=5)knn.fit(x_train,y_train)y_predict = knn.predict(x_test)print("預測的目標簽到位置為:", y_predict)print("預測的準確率",knn.score(x_test,y_test))knncls()25.k-近鄰算法總結
k值取多大?有什么影響?
- k值取很小:容易受異常點影響
- k值取很大:容易受最近數據太多導致比例變化
k-近鄰算法優缺點
- 優點: 簡單,易于理解,易于實現,無需估計參數,無需訓練
- 缺點: 懶惰算法,對測試樣本分類時的計算量大,內存開銷大 必須指定K值,K值選擇不當則分類精度不能保證
- 使用場景:小數據場景,幾千~幾萬樣本,具體場景具體業務去測試
總結
以上是生活随笔為你收集整理的机器学习算法基础——k近邻算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习算法基础——机器学习概述
- 下一篇: 机器学习算法基础——朴素贝叶斯算法