***K近邻Survey-Distance总结
(一):漫談knn:原文鏈接:http://www.kankanews.com/ICkengine/archives/103938.shtml?? 看引擎...有點對不起作者,不過沒有辦法,聯系不到啊....
????? 什么是KNN算法呢?顧名思義,就是K-Nearest neighbors Algorithms的簡稱。我們可能都知道最近鄰算法,它就是KNN算法在k=1時的特例,也就是尋找最近的鄰居。
關于分類問題:KNN為空間類別判別提供了最終的原型...
? ? ? 首先我要說的是為什么我們要尋找鄰居啊,古話說的好,人以類聚,物以群分,要想知道一個人怎么樣,去看看他的朋友就知道了,其實這個過程就蘊含了KNN的算法核心思想,我們如果要判斷一個樣本點的類別,去看看和它相似的樣本點的類別就行了,If it walks like a duck, quacks like a duck, then it is probably a duck,如圖1所示:
? 好了,在深入了解KNN之前有必要了解一下分類算法的大致情況以及其完整定義。圖2所示的是一般的分類模型建立的步驟,分類一般分為兩種:
? 積極學習法 (決策樹歸納):先根據訓練集構造出分類模型,根據分類模型對測試集分類。
? 消極學習法 (基于實例的學習法):推遲建模, 當給定訓練元組時,簡單地存儲訓練數據 (或稍加處理),一直等到給定一個測試元組。
?? 消極學習法在提供訓練元組時只做少量工作,而在分類或預測時做更多的工作。KNN就是一種簡單的消極學習分類方法,它開始并不建立模型,而只是對于給定的訓練實例點和輸入實例點,基于給定的鄰居度量方式以及結合經驗選取合適的k值,計算并且查找出給定輸入實例點的k個最近鄰訓練實例點,然后基于某種給定的策略,利用這k個訓練實例點的類來預測輸入實例點的類別。算法的過程如圖3所示:
?? 了解了KNN的主體思想以后,接下來我們就來逐一的探討和回答我在第一章所提出的四個問題,第一個就是如何度量鄰居之間的相識度,也就是如何選取鄰居的問題,我們知道相似性的度量方式在很大程度上決定了選取鄰居的準確性,也決定了分類的效果,因為判定一個樣本點的類別是要利用到它的鄰居的,如果鄰居都沒選好,準確性就無從談起。因此我們需要用一個量來定量的描述鄰居之間的距離,也可以形象的表述為鄰居之間的相似度,具體的距離度量方式有很多,不同的場合使用哪種需要根據不同問題具體探討,具體的我就不羅嗦,在這篇博文http://www.cnblogs.com/v-July-v/archive/2012/11/20/3125419.html中有詳細的闡述。以下給出了使用三種距離(歐式距離,曼哈頓距離,還有切比雪夫距離)的對glass數據集測試的例子,測試結果如圖4所示:紅線指的是實驗使用的距離度量方式,黃線指的是實驗的結果,可以看出使用曼哈頓距離分類效果明顯好于其他兩種。
?? 在給定了度量方式以后,我們自然而然會遇到一個問題就是到底要找多少個鄰居才合適了,如圖5所示 ,X是待分類樣本,‘,’和‘-’是樣本類別屬性,如果K選大了的話,可能求出來的k最近鄰集合可能包含了太多隸屬于其它類別的樣本點,最極端的就是k取訓練集的大小,此時無論輸入實例是什么,都只是簡單的預測它屬于在訓練實例中最多的累,模型過于簡單,忽略了訓練實例中大量有用信息。如果K選小了的話,結果對噪音樣本點很敏感。那么到底如何選取K值,其實我在前面也說了,其實完全靠經驗或者交叉驗證(一部分樣本做訓練
集,一部分做測試集)的方法,就是是K值初始取一個比較小的數值,之后不段來調整K值的大小來時的分類最優,得到的K值就是我們要的,但是這個K值也只是對這個樣本集是最優的。一般采用k為奇數,跟投票表決一樣,避免因兩種票數相等而難以決策。下面我們可以通過交叉驗證的方式求出最合適的K值,對iris數據(UCI Machine Learning Repository下載)用kNN算法進行分類,通過交叉驗證(10次)的方式,對k取不同值時進行了實驗,實驗結果如圖5所示,其中紅線指的是實驗選用的K值,黃線指的是實驗的結果,我們發現在我所選取的k值中,當k=17時效果最好,在k=1時,即用最近鄰來進行分類的效果也不錯,實驗結果呈現一個拋物線,與我們之前分析的結果相吻合。
??? 好了,到這一步工作已經做了一半了,接下來就是如何去尋找這k個鄰居了,因為對每一個待測樣本點來說,我們都要對整個樣本集逐一的計算其與待測點的距離,計算并存儲好以后,接下來就是查找K近鄰,這是最簡單,也是最笨的方法,計算量太大了。因此KNN的一大缺點需要存儲全部訓練樣本,以及繁重的距離計算量,有沒有簡單的一點的方法可以避免這種重復的運算啊,改進的方案有兩個,一個是對樣本集進行組織與整理,分群分層,盡可能將計算壓縮到在接近測試樣本鄰域的小范圍內,避免盲目地與訓練樣本集中每個樣本進行距離計算。另一個就是在原有樣本集中挑選出對分類計算有效的樣說本,使樣本總數合理地減少,以同時達到既減少計算量,又減少存儲量的雙重效果。KD樹方法采用的就是第一個思路,關于KD樹及其擴展可以參看博文http://www.cnblogs.com/v-July-v/archive/2012/11/20/3125419.html,它對其進行了詳細的闡述,我就不啰嗦了。我想補充的是壓縮近鄰算法,它采用的思路是第二種方案,利用現有樣本集,逐漸生成一個新的樣本集,使該樣本集在保留最少量樣本的條件下,仍能對原有樣本的全部用最近鄰法正確分類,那么該樣本集也就能對待識別樣本進行分類,并保持正常識別率。它的步驟如下:
?? 首先定義兩個存儲器,一個用來存放即將生成的樣本集,稱為Store;另一存儲器則存放原樣本集,稱為Grabbag。其算法是:
1.?? 初始化。Store是空集,原樣本集存入Grabbag;從Grabbag中任意選擇一樣本放入Store中作為新樣本集的第一個樣本。
2.?? 樣本集生成。在Grabbag中取出第i個樣本用Store中的當前樣本集按最近鄰法分類。若分類錯誤,則將該樣本從Grabbag轉入Store中,若分類正確,則將該樣本放回Grabbag中。
3.?? 結束過程。若Grabbag中所有樣本在執行第二步時沒有發生轉入Store的現象,或Grabbag已成空集,則算法終止,否則轉入第二步。?
?? 當然解決的方案很多,還有比如剪輯近鄰法,快速搜索近鄰法等等很多,就不一一介紹了。下面測試了一下不同最近鄰搜索算法(線性掃描,kd樹,Ball樹,Cover樹)所花費的時間,如表1所示:
??? 到這一步基本上是萬事俱備,只欠東風啦。K近鄰(通俗的來說就是某人的k個最要好的朋友都找出來啦)都求出來啦,接下來就是要朋友們利用手中的投票器為其投票啦。一般的做法就是一人一票制,少數服從多數的選舉原則,但是當和我測試對象離的近的數量少,而離得遠的數量多時,這種方法可能就要出錯啦,那咋辦呢,看過歌唱選秀節目的人應該清楚,評審分為兩種,一種是大眾評審一人一票,一種是專家評審,一人可能有很多票,我們也可以借鑒這個思想,為每個鄰居賦予一定的投票權重,通過它們與測試對象距離的遠近來相應的分配投票的權重,最簡單的就是取兩者距離之間的倒數,距離越小,越相似,權重越大,將權重累加,最后選擇累加值最高類別屬性作為該待測樣本點的類別。我用不同的權重方式對UCI中的glass數據集進行測試,圖7顯示的是直接不采用權重的實驗結果,圖8顯示的是權重為距離的倒數,圖9顯示的是權重為1減去歸一化后的距離,紅線指的是實驗使用的權重賦值方式,“0”指的是不采用權重,“0 -I”指的是取距離倒數,“0-F”指的是1減去歸一化后的距離,深紅線指的是實驗的結果,我們可以看出采用了權重的總體上來說比不使用權重要好。
??? 至此關于KNN算法的描述就到此結束了。可以看出算法的思想是十分簡單的,我們自然而然的就會想這個算法的準確率到底是多少,有沒有啥科學的證明,其實最初的近鄰法是由Cover和Hart于1968年提出的,隨后得到理論上深入的分析與研究,是非參數法中最重要的方法之一,它在論文Nearest Neighbor Pattern Classification中給出了算法準確率的相信描述。最近鄰法的錯誤率是高于貝葉斯錯誤率的, ?其中代表的是貝葉斯誤差率,由于一般情況下P*很小,因此又可粗略表示成:,對于kNN來說,當樣本數量N→∞的條件下,k-近鄰法的錯誤率要低于最近鄰法,具體如圖10所示:
1.2 K值對訓練的影響:
一個選擇多少個鄰居,即K值定義為多大的問題。不要小看了這個K值選擇問題,因為它對K近鄰算法的結果會產生重大影響。如李航博士的一書「統計學習方法」上所說:
(二):從K近鄰算法、距離度量談到KD樹、SIFT+BBF算法?
原文鏈接:http://blog.csdn.net/v_july_v/article/details/8203674/
1.1一個人堅持自己的興趣是比較難的,因為太多的人太容易為外界所動了,而尤其當你無法從中得到多少實際性的回報時,所幸,我能一直堅持下來。畢達哥拉斯學派有句名言:“萬物皆數”,最近讀完「微積分概念發展史」后也感受到了這一點。同時,從算法到數據挖掘、機器學習,再到數學,其中每一個領域任何一個細節都值得探索終生,或許,這就是“終生為學”的意思。
本文各部分內容分布如下:
? ? 同時,你將看到,K近鄰算法同本系列的前兩篇文章所講的決策樹分類貝葉斯分類,及支持向量機SVM一樣,也是用于解決分類問題的算法,
??
? ? 而本數據挖掘十大算法系列也會按照分類,聚類,關聯分析,預測回歸等問題依次展開闡述。
1.2、近鄰的距離度量表示法
? ? 上文第一節,我們看到,K近鄰算法的核心在于找到實例點的鄰居,這個時候,問題就接踵而至了,如何找到鄰居,鄰居的判定標準是什么,用什么來度量。這一系列問題便是下面要講的距離度量表示法。但有的讀者可能就有疑問了,我是要找鄰居,找相似性,怎么又跟距離扯上關系了?
? ? 這是因為特征空間中兩個實例點的距離和反應出兩個實例點之間的相似性程度。K近鄰模型的特征空間一般是n維實數向量空間,使用的距離可以使歐式距離,也是可以是其它距離,既然扯到了距離,下面就來具體闡述下都有哪些距離度量的表示法,權當擴展。
- 1. 歐氏距離,最常見的兩點之間或多點之間的距離表示法,又稱之為歐幾里得度量,它定義于歐幾里得空間中,如點 x = (x1,...,xn) 和 y = (y1,...,yn) 之間的距離為:
(1)二維平面上兩點a(x1,y1)與b(x2,y2)間的歐氏距離:
(2)三維空間兩點a(x1,y1,z1)與b(x2,y2,z2)間的歐氏距離:
(3)兩個n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的歐氏距離:
也可以用表示成向量運算的形式:
其上,二維平面上兩點歐式距離,代碼可以如下編寫:
//unixfy:計算歐氏距離 double euclideanDistance(const vector<double>& v1, const vector<double>& v2) {assert(v1.size() == v2.size());double ret = 0.0;for (vector<double>::size_type i = 0; i != v1.size(); ++i){ret += (v1[i] - v2[i]) * (v1[i] - v2[i]);}return sqrt(ret);}- 2. 曼哈頓距離,我們可以定義曼哈頓距離的正式意義為L1-距離或城市區塊距離,也就是在歐幾里得空間的固定直角坐標系上兩點所形成的線段對軸產生的投影的距離總和。例如在平面上,坐標(x1,?y1)的點P1與坐標(x2,?y2)的點P2的曼哈頓距離為:,要注意的是,曼哈頓距離依賴座標系統的轉度,而非系統在座標軸上的平移或映射。?
? ? ? ? ? ? ? ? ? ? ? ? ??
- 3. 切比雪夫距離,若二個向量或二個點p?、and?q,其座標分別為及,則兩者之間的切比雪夫距離定義如下:,
以數學的觀點來看,切比雪夫距離是由一致范數(uniform?norm)(或稱為上確界范數)所衍生的度量,也是超凸度量(injective?metric?space)的一種。 在平面幾何中,若二點p及q的直角坐標系坐標為及,則切比雪夫距離為:。
玩過國際象棋的朋友或許知道,國王走一步能夠移動到相鄰的8個方格中的任意一個。那么國王從格子(x1,y1)走到格子(x2,y2)最少需要多少步?。你會發現最少步數總是max(?|?x2-x1?|?,?|?y2-y1?|?)?步?。有一種類似的一種距離度量方法叫切比雪夫距離。 (1)二維平面兩點a(x1,y1)與b(x2,y2)間的切比雪夫距離? (2)兩個n維向量a(x11,x12,…,x1n)與?b(x21,x22,…,x2n)間的切比雪夫距離? 這個公式的另一種等價形式是?
- 4.?閔可夫斯基距離(Minkowski?Distance),閔氏距離不是一種距離,而是一組距離的定義。
- 5.?標準化歐氏距離?(Standardized?Euclidean?distance?)
- 標準化歐氏距離是針對簡單歐氏距離的缺點而作的一種改進方案。標準歐氏距離的思路:既然數據各維分量的分布不一樣,那先將各個分量都“標準化”到均值、方差相等。至于均值和方差標準化到多少,先復習點統計學知識。
假設樣本集X的數學期望或均值(mean)為m,標準差(standard?deviation,方差開根)為s,那么X的“標準化變量”X*表示為:(X-m)/s,而且標準化變量的數學期望為0,方差為1。
即,樣本集的標準化過程(standardization)用公式描述就是:
標準化后的值?=??(?標準化前的值??-?分量的均值?)?/分量的標準差
經過簡單的推導就可以得到兩個n維向量a(x11,x12,…,x1n)與?b(x21,x22,…,x2n)間的標準化歐氏距離的公式:
如果將方差的倒數看成是一個權重,這個公式可以看成是一種加權歐氏距離(Weighted?Euclidean?distance)。? - 6.?馬氏距離(Mahalanobis?Distance) (1)馬氏距離定義 ? ? ??
有M個樣本向量X1~Xm,協方差矩陣記為S,均值記為向量μ,則其中樣本向量X到u的馬氏距離表示為:?
(協方差矩陣中每個元素是各個矢量元素之間的協方差Cov(X,Y),Cov(X,Y) =?E{ [X-E(X)] [Y-E(Y)]},其中E為數學期望) 而其中向量Xi與Xj之間的馬氏距離定義為:? ??
若協方差矩陣是單位矩陣(各個樣本向量之間獨立同分布),則公式就成了:? ? ? ?
也就是歐氏距離了。
若協方差矩陣是對角矩陣,公式變成了標準化歐氏距離。
(2)馬氏距離的優缺點:量綱無關,排除變量之間的相關性的干擾。? 「微博上的seafood高清版點評道:原來馬氏距離是根據協方差矩陣演變,一直被老師誤導了,怪不得看Killian在05年NIPS發表的LMNN論文時候老是看到協方差矩陣和半正定,原來是這回事」 - 7、巴氏距離(Bhattacharyya?Distance)
- 在統計中,Bhattacharyya距離測量兩個離散或連續概率分布的相似性。它與衡量兩個統計樣品或種群之間的重疊量的Bhattacharyya系數密切相關。Bhattacharyya距離和Bhattacharyya系數以20世紀30年代曾在印度統計研究所工作的一個統計學家A. Bhattacharya命名。同時,Bhattacharyya系數可以被用來確定兩個樣本被認為相對接近的,它是用來測量中的類分類的可分離性。
和是手段和協方差的分布。 需要注意的是,在這種情況下,第一項中的Bhattacharyya距離與馬氏距離有關聯。? (2)Bhattacharyya系數 Bhattacharyya系數是兩個統計樣本之間的重疊量的近似測量,可以被用于確定被考慮的兩個樣本的相對接近。 計算Bhattacharyya系數涉及集成的基本形式的兩個樣本的重疊的時間間隔的值的兩個樣本被分裂成一個選定的分區數,并且在每個分區中的每個樣品的成員的數量,在下面的公式中使用 考慮樣品a?和?b?,n是的分區數,并且,被一個?和?b?i的日分區中的樣本數量的成員。更多介紹請參看:http://en.wikipedia.org/wiki/Bhattacharyya_coefficient。
- 8. 漢明距離(Hamming distance), 兩個等長字符串s1與s2之間的漢明距離定義為將其中一個變為另外一個所需要作的最小替換次數。例如字符串“1111”與“1001”之間的漢明距離為2。應用:信息編碼(為了增強容錯性,應使得編碼間的最小漢明距離盡可能大)。
- 9.?夾角余弦(Cosine) ,幾何中夾角余弦可用來衡量兩個向量方向的差異,機器學習中借用這一概念來衡量樣本向量之間的差異。
(1)在二維空間中向量A(x1,y1)與向量B(x2,y2)的夾角余弦公式:
(2)?兩個n維樣本點a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夾角余弦
?? ? ??
類似的,對于兩個n維樣本點a(x11,x12,…,x1n)和b(x21,x22,…,x2n),可以使用類似于夾角余弦的概念來衡量它們間的相似程度,即:? ? ? ?
夾角余弦取值范圍為[-1,1]。夾角余弦越大表示兩個向量的夾角越小,夾角余弦越小表示兩向量的夾角越大。當兩個向量的方向重合時夾角余弦取最大值1,當兩個向量的方向完全相反夾角余弦取最小值-1。?
- 10.?杰卡德相似系數(Jaccard?similarity?coefficient)
舉例:樣本A與樣本B是兩個n維向量,而且所有維度的取值都是0或1,例如:A(0111)和B(1011)。我們將樣本看成是一個集合,1表示集合包含該元素,0表示集合不包含該元素。 M11 :樣本A與B都是1的維度的個數 M01:樣本A是0,樣本B是1的維度的個數 M10:樣本A是1,樣本B是0 的維度的個數 M00:樣本A與B都是0的維度的個數 依據上文給的杰卡德相似系數及杰卡德距離的相關定義,樣本A與B的杰卡德相似系數J可以表示為: 這里M11+M01+M10可理解為A與B的并集的元素個數,而M11是A與B的交集的元素個數。而樣本A與B的杰卡德距離表示為J':
- 11.皮爾遜系數(Pearson Correlation Coefficient)
OK,接下來,咱們來重點了解下皮爾遜相關系數。 在統計學中,皮爾遜積矩相關系數(英語:Pearson product-moment correlation coefficient,又稱作 PPMCC或PCCs, 用r表示)用于度量兩個變量X和Y之間的相關(線性相關),其值介于-1與1之間。
通常情況下通過以下取值范圍判斷變量的相關強度:
相關系數???? 0.8-1.0?????極強相關
???????????????? 0.6-0.8???? 強相關
???????????????? 0.4-0.6???? 中等程度相關
???????????????? 0.2-0.4???? 弱相關
???????????????? 0.0-0.2???? 極弱相關或無相關
(1)皮爾遜系數的定義: 兩個變量之間的皮爾遜相關系數定義為兩個變量之間的協方差和標準差的商: 以上方程定義了總體相關系數, 一般表示成希臘字母ρ(rho)。基于樣本對協方差和方差進行估計,可以得到樣本標準差, 一般表示成r: 一種等價表達式的是表示成標準分的均值。基于(Xi, Yi)的樣本點,樣本皮爾遜系數是
? ? ? ? ? ? ? ?其中、?及?,分別是標準分、樣本平均值和樣本標準差。
或許上面的講解令你頭腦混亂不堪,沒關系,我換一種方式講解,如下:
假設有兩個變量X、Y,那么兩變量間的皮爾遜相關系數可通過以下公式計算:
- 公式一:
- 公式二:
- 公式三:
- 公式四:
以上列出的四個公式等價,其中E是數學期望,cov表示協方差,N表示變量取值的個數。
(2)皮爾遜相關系數的適用范圍當兩個變量的標準差都不為零時,相關系數才有定義,皮爾遜相關系數適用于:
rubyist:皮爾遜相關系數理解有兩個角度
其一, 按照高中數學水平來理解, 它很簡單, 可以看做將兩組數據首先做Z分數處理之后, 然后兩組數據的乘積和除以樣本數,Z分數一般代表正態分布中, 數據偏離中心點的距離.等于變量減掉平均數再除以標準差.(就是高考的標準分類似的處理)
樣本標準差則等于變量減掉平均數的平方和,再除以樣本數,最后再開方,也就是說,方差開方即為標準差,樣本標準差計算公式為:
所以, 根據這個最樸素的理解,我們可以將公式依次精簡為:
其二, 按照大學的線性數學水平來理解, 它比較復雜一點,可以看做是兩組數據的向量夾角的余弦。下面是關于此皮爾遜系數的幾何學的解釋,先來看一幅圖,如下所示:
如上圖,對于沒有中心化的數據, 相關系數與兩條可能的回歸線y=gx(x) 和 x=gy(y) 夾角的余弦值一致。
對于沒有中心化的數據 (也就是說, 數據移動一個樣本平均值以使其均值為0), 相關系數也可以被視作由兩個隨機變量 向量 夾角 的 余弦值(見下方)。
舉個例子,例如,有5個國家的國民生產總值分別為 10, 20, 30, 50 和 80 億美元。 假設這5個國家 (順序相同) 的貧困百分比分別為 11%, 12%, 13%, 15%, and 18% 。 令 x 和 y 分別為包含上述5個數據的向量: x = (1, 2, 3, 5, 8) 和 y = (0.11, 0.12, 0.13, 0.15, 0.18)。
利用通常的方法計算兩個向量之間的夾角 ?(參見 數量積), 未中心化 的相關系數是:
我們發現以上的數據特意選定為完全相關: y = 0.10 + 0.01 x。 于是,皮爾遜相關系數應該等于1。將數據中心化 (通過E(x) = 3.8移動 x 和通過 E(y) = 0.138 移動 y ) 得到 x = (?2.8, ?1.8, ?0.8, 1.2, 4.2) 和 y = (?0.028, ?0.018, ?0.008, 0.012, 0.042), 從中
(4)皮爾遜相關的約束條件
從以上解釋, 也可以理解皮爾遜相關的約束條件:
- 1 兩個變量間有線性關系
- 2 變量是連續變量
- 3 變量均符合正態分布,且二元分布也符合正態分布
- 4 兩變量獨立
在實踐統計中,一般只輸出兩個系數,一個是相關系數,也就是計算出來的相關系數大小,在-1到1之間;另一個是獨立樣本檢驗系數,用來檢驗樣本一致性。
簡單說來,各種“距離”的應用場景簡單概括為,空間:歐氏距離,路徑:曼哈頓距離,國際象棋國王:切比雪夫距離,以上三種的統一形式:閔可夫斯基距離,加權:標準化歐氏距離,排除量綱和依存:馬氏距離,向量差距:夾角余弦,編碼差別:漢明距離,集合近似度:杰卡德類似系數與距離,相關:相關系數與相關距離。
總結
以上是生活随笔為你收集整理的***K近邻Survey-Distance总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 股票什么时候开盘
- 下一篇: 决策树:特征分布空间划分方法