空间金字塔匹配Spatial Pyramid Matching 小结
稀疏編碼系列:
- (一)----Spatial Pyramid 小結
- (二)----圖像的稀疏表示——ScSPM和LLC的總結
- (三)----理解sparse coding
- (四)----稀疏模型與結構性稀疏模型
---------------------------------------------------------------------------
????
????? SPM?[1]全稱是Spatial Pyramid Matching,出現的背景是bag of visual words模型被大量地用在了Image representation中,但是BOVW模型完全缺失了特征點的位置信息。文章被引用了3400多次。文章的貢獻,看完以后覺得其實挺簡單的,和分塊直方圖其實是一個道理------將圖像分成若干塊(sub-regions),分別統計每一子塊的特征,最后將所有塊的特征拼接起來,形成完整的特征。這就是SPM中的Spatial。在分塊的細節上,作者采用了一種多尺度的分塊方法,即分塊的粒度越大越細(increasingly fine),呈現出一種層次金字塔的結構,這就是SPM中的Pyramid。M就是Matching,沒什么可說的。
????? 具體地介紹Pyramid Matching:
????? -------假設存在兩個點集X和Y( 每個點都是D維的,以下將它們所在的空間稱作特征空間)。將特征空間劃分為不同的尺度,在尺度l下特征空間的每一維劃出個cells,那么d維的特征空間就能劃出個bins;
????? -------兩個點集中的點落入同一個bin就稱這兩個點Match。在一個bin中match的總數定義為 min(Xi, Yi),其中Xi和Yi分別是兩個點集中落入第i個bin的點的數目;
????? -------統計各個尺度下match的總數(就等于直方圖相交)。由于細粒度的bin被大粒度的bin所包含,為了不重復計算,每個尺度的有效Match定義為match的增量;
???? ?-------不同的尺度下的match應賦予不同權重,顯然大尺度的權重小,而小尺度的權重大,因此定義權重為;
????? -------最終,兩點集匹配的程度定義為:
??????? (1)
? ? ? ?在作者提出的SPM中,作者實際采用了圖像的空間坐標來代替第三段假設中提到的特征空間。因此就有作者的SPM:
?????? -------將圖像空間用構造金字塔的方法分解為多個scale的bins(通俗地說就是切分成不同尺度的方形);
?????? -------像BOW一樣構造一本大小為M的dictionary,這樣每個特征都能投影到dictionary中的一個word上。其中字典的訓練過程是在特征空間中完成。論文中的特征利用的dense SIFT。
?????? -------統計每個bin中各個words的數目,最終兩幅圖像的匹配程度定義為:
????????????????????????????? ?? (2)
??????? 注意,當L=0時,模型就退化成為BOW了。
????????SPM介紹了兩幅圖像匹配的方法。如要用于場景分類,注意(2)式就等于M(L+1)個直方圖相交運算的和,其實也就等于一個更大的向量直接進行直方圖相交運算而已。而這個向量,就等于每個被劃分的圖像子區域上的visual words直方圖連在一起。這個特征,就是用來分類的特征。
???????? 作者在實驗中表明,不同L下,M從200取到400對分類性能影響不大,也就是降低了碼書的大小對分類效果的影響。
????????? 在本文最開始也提到了,這個方法可以作為一個模板,每個sub-region中統計的直方圖可以多種多樣,簡單的如顏色直方圖,也可以用HOG,這就形成了PHOG。SPM的matlab代碼也可以從作者的主頁上下載到(here)。只不過這種空間分類信息仍然有局限性-----一幅相同的圖像旋轉90度,匹配的結果就不會太高了。所以模型隱含的假設就是圖像都是正著存儲的(人都是站立的,樹都是站立的.......)。Spatial BOW?[2]好像可以解決這個問題。另外空間Pyramid的分塊方法也沒有考慮圖像中object的信息(僅僅是利用SIFT特征來描述了Object),這也是作者在文中承認的缺點。
update @2014.5.29
? ? ? ? 最近有幾位網友提問,說SPM解決了圖像匹配的時候如何計算相似度。但是很多時候我們要解決分類問題,怎么聯系在一起。我就在這一段談談我的理解。當然可能有不正確的地方,大家可以留言與我討論。
? ? ? ? 匹配的過程中,我們通過(2)式計算相似度,相似度衡量了兩組特征之間的匹配程度。而分類問題和匹配是緊密相連的。我們以最經典的SVM分類器為例子,SVM最終的分類決策函數可以寫成:
? ? ? ? ? ? ? ? ??? ? ? ? ? ? ?(3)
? ? ? ? 其中xi是所有的訓練樣本,x是待分類的樣本,α只有對應的支持向量才會大于0(非支持向量都等于0)。(3)式的截圖是從pluskid博客上偷來的,如果大家已經忘了SVM的推導可以看看他的博客(點這里),一個非常好的介紹SVM的系列。相似的公式也可以在李航的《統計學習方法》P106-107找到。
? ? ? ?我們可以再把(3)式稍微改寫一下,把訓練樣本分成正負樣本兩類:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ?(4)
? ? ? ?好了,(4)式的結果就比較直觀了。等式右邊第一項其實就是待分類的樣本與所有正樣本的內積(也就是(2)式所描述的相似度,SVM可以用核函數代替內積,在(2)式中也是用了直方圖相交的核函數代替內積,而內積是歐式距離對應的核函數。SPM原文中所提到用在分類問題中,就是用Chi-squre Kernel的SVM,這與直方圖相交一樣都是L1距離對應的核函數),第二項是與所有負樣本的內積。中間是減號,表明與所有負樣本的內積大,f(x)就偏負,而與正樣本的內極大,f(x)就偏正。因此,SVM無非就是正負訓練樣本之間的一場拔河,誰力氣大(和哪一類最像),x就歸誰(屬于那一類)。而SVM的學習過程,無非就是學習α和b這些參數的過程。這些參數對各個訓練樣本進行加權,權重大的訓練樣本決定性就強。因而,分類問題本質上就是一個測試樣本與訓練樣本一一匹配的問題了。
? ? ? ? 我覺得說到這,分類和匹配的關系就講明白了吧。
?
Reference:
????? [1] ??Lazebnik S, Schmid C, Ponce J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories[C]//Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on. IEEE, 2006, 2: 2169-2178. ? ? [2] ?Cao Y, Wang C, Li Z, et al. Spatial-bag-of-features[C]//Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010: 3352-3359.?
--------------
作者:jiang1st2010
原文地址:http://blog.csdn.net/jwh_bupt/article/details/9625469
總結
以上是生活随笔為你收集整理的空间金字塔匹配Spatial Pyramid Matching 小结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 局部特征(6)——局部特征描述汇总
- 下一篇: 图像的稀疏表示——ScSPM和LLC的总