武大上交发布首篇「图像匹配」大领域综述!涵盖 8 个子领域,汇总近 20年经典方法
原文鏈接:https://bbs.cvmart.net/topics/3176
專注計算機視覺前沿資訊和技術(shù)干貨
微信公眾號:極市平臺
官網(wǎng):https://www.cvmart.net/
武漢大學(xué)和上海交通大學(xué)近日聯(lián)合發(fā)布了首篇圖像匹配大領(lǐng)域綜述:《Image Matching from Handcrafted to Deep Features: A Survey》,引用文獻500+,涵蓋特征匹配、圖匹配、點集配準等8個子領(lǐng)域,是一篇非常全面的大框架圖像匹配綜述。論文現(xiàn)已被IJCV2020接收。
論文鏈接:
https://link.springer.com/article/10.1007/s11263-020-01359-2
本文涵蓋特征提取(feature detection)、特征描述(feature description)、特征匹配(feature matching)、圖像配準(image registration)、立體匹配(stereo matching)、點集或點云配準(point set or point cloud registration)、圖匹配(graph matching)、誤配剔除與魯棒估計(mismatch removal,如RANSAC系列)等相關(guān)子領(lǐng)域。該綜述著重介紹了近二十年來圖像匹配領(lǐng)域較為經(jīng)典的方法,以及近年來基于深度學(xué)習(xí)的方法。同時在圖像匹配大框架下分析了各子領(lǐng)域扮演的角色以及他們之間的聯(lián)系,這亦是該綜述的主要特色。此外,相關(guān)典型應(yīng)用和實驗對比在文中也有所涉及。
下面就圖像匹配中應(yīng)用極為廣泛的特征匹配進行簡單介紹,包括問題定義分類、研究背景與意義、研究現(xiàn)狀及發(fā)展趨勢。更多細節(jié)可查看原論文。
內(nèi)容整理自作者的知乎專欄:
https://zhuanlan.zhihu.com/p/112071397
https://zhuanlan.zhihu.com/p/112082541
綜述整體框架
一、問題定義及分類
圖像匹配 [1–6](Image Matching)旨在將兩幅圖像中具有相同/相似屬性的內(nèi)容或結(jié)構(gòu)進行像素上的識別與對齊。一般而言,待匹配的圖像通常取自相同或相似的場景或目標,或者具有相同形狀或語義信息的其他類型圖像對,從而具有一定的可匹配性。
從定義出發(fā),圖像匹配主要包含匹配目標和匹配準則兩個部分,即以什么信息為目標載體和以何種規(guī)則或策略進行匹配。最直接的匹配目標便是整張圖像或以截取的圖像塊(Image Patch),一般被稱為基于區(qū)域 (Area-Based)的方法,其主要分為兩種:i)直接根據(jù)圖像或圖像塊灰度信息進行像素上的對齊,該方法主要思想是直接最小化圖像信息差異,一般包括交叉相關(guān)法(或互 相關(guān)法),相關(guān)系數(shù)度量法,互信息法等 [5,7–9];ii)基于圖像域變換的圖像匹配,其先將圖像信息進行域變換,然后在變換域中對圖像進行相似性匹配,包括傅里葉變換法, 相位相關(guān)法,沃爾什變換法等 [10–12]。基于區(qū)域的圖像匹配方法對成像條件、圖像形變(特別是要求圖像對具有極高的重疊度)以及噪聲極其敏感,同時具有較高的計算復(fù)雜度,從而限制了其應(yīng)用能力。
為解決上述問題,基于特征(Feature-Based)的圖像匹配方法得到了廣泛研究 [5,13]。其首先從圖像中提取的具有物理意義的顯著結(jié)構(gòu)特征,包括特征點、特征線或邊緣以及具有顯著性的形態(tài)區(qū)域 [14–18],然后對所提取的特征結(jié)構(gòu)進行匹配并估計變換函數(shù)將其他圖像內(nèi)容進行對齊。盡管特征的提取需要額外的算力消耗,但針對整個基于特征的匹配框架而言,由于特征可以看做整張圖像的精簡表達,減少了許多不必要的計算,同時能夠減少噪聲、畸變及其他因素對匹配性能的影響,是目前實現(xiàn)圖像匹配的主要形式,也是本文研究重點。
對于特征而言,點特征通常表示圖像中具有顯著特性的關(guān)鍵點(Key Point)或興趣點(Interest Point) [19],因而最為簡單且穩(wěn)定,同時其他特征的匹配均可轉(zhuǎn)化為基 于點特征來進行,如線的端點、中點、或離散采樣形式,形態(tài)區(qū)域中心等 [18,20–22]。因 此,特征點匹配在圖像匹配中是一個最為基本的問題,而我們所說的特征匹配(Feature Matching)通常意義上指基于特征點的匹配問題,待匹配的點一般由圖像像素空間的坐標點表示,而相應(yīng)的圖像匹配則轉(zhuǎn)化為從兩幅圖像中提取對應(yīng)的點集并配對的問題。本文主要研究內(nèi)容便是從特征匹配問題的本質(zhì)特性出發(fā),結(jié)合其他領(lǐng)域技術(shù)手段,圍繞基于特征點的圖像匹配方法展開深入研究,克服圖像匹配問題目前面臨的諸多挑戰(zhàn)。
二、研究背景及意義
近年來,科技水平日益提高,形成了全球自動化的格局,隨之而來的人工智能技術(shù)蓬勃發(fā)展,其主要目的是令機器聯(lián)合計算機像人類一樣感知、理解與行動。視覺感知作為最主要的感知技術(shù)之一,在此次人工智能熱潮下占據(jù)著舉足輕重的地位,因而推動著計算機視覺技術(shù)迅猛發(fā)展。同時,如何理解多個視覺目標之間的區(qū)別與聯(lián)系,并根據(jù)特定的需求對感知的信息作相應(yīng)的處理已然成為整個計算機視覺領(lǐng)域的研究熱點之一,而特征匹配作為其中的一個基礎(chǔ)而關(guān)鍵的過程,連接著具有相同或相似屬性的兩個圖像目標,是低層視覺通往高層視覺的紐帶,是實現(xiàn)信息識別與整合 [23–25] 以及從低維圖像恢復(fù)高維結(jié)構(gòu) [26,27] 的有效途徑。
圖像特征匹配相關(guān)應(yīng)用
特征匹配的定義和任務(wù)目標極為簡單且明確,它是一項底層視覺處理技術(shù),直接對圖像本身進行特征提取與配對,是許多具體大型視覺任務(wù)的首要步驟。據(jù)美國自動 成像協(xié)會(Automated Imaging Association)統(tǒng)計,40% 以上的視覺感知應(yīng)用依賴于圖像匹配的精度與效率,包括計算機視覺、模式識別、遙感、軍事安防以及醫(yī)學(xué)診斷等各領(lǐng)域。具體來講,根據(jù)數(shù)據(jù)獲取條件或者成像條件的差異,特征匹配問題可以劃分 為不同時間、不同視角以及不同傳感器,或者進行模板圖像的匹配 [3,5],并且每一類 型的圖像獲取形式都有著對應(yīng)的應(yīng)用目的:1)基于不同成像時間的特征匹配。主要是對同一場景或目標在不同時間拍攝的圖像進行匹配,一般用于場景的變化檢測,安防監(jiān)控與目標跟蹤,以及醫(yī)學(xué)診斷治療中病情跟蹤等。2)基于不同視角的特征匹配。其主要目的是匹配從不同視角拍攝的同一目標或場景的序列圖像進行匹配,旨在從低維的圖像內(nèi)容恢復(fù)高維結(jié)構(gòu),如恢復(fù)相機姿態(tài)并建立相機移動軌跡,目標或場景的三維 重建,以及遙感全景影像拼接等。3)基于不同傳感器的特征匹配。鑒于不同傳感器所獲取的圖像有著各自的優(yōu)勢且包含不同的感知信息,因而對不同的圖像信息進行整合并得到更全面的場景或目標表示是十分必要的,而特征匹配便是將包含多源信息的圖像進行關(guān)鍵點配對并估計變換函數(shù)從而將圖像進行逐像素對齊,便于后續(xù)的信息融合,因而又稱為多源圖像特征匹配。這類匹配常用于醫(yī)學(xué)圖像分析中多模圖像匹配,安防及軍事領(lǐng)域中如紅外可見光配準,遙感圖像處理中不同分辨率且包含不同光譜信息的 影像配準與融合等。4)基于模板的特征匹配。這類匹配一般給定圖像模板,然后將獲取的圖像與模板進行比較與匹配,常用于模板識別、差異檢測或內(nèi)容檢索,如基于視覺的模式識別(字符識別,車牌識別)、圖像檢索,醫(yī)學(xué)圖像分析中病情診斷,標本分類以及遙感圖像中航空或衛(wèi)星圖像在已知的其他地理信息地圖中的匹配與定位等。
由此可見,特征匹配作為一項基礎(chǔ)而關(guān)鍵的技術(shù)在諸多領(lǐng)域有著重要地位,因而對其展開深入研究有著重要實際應(yīng)用價值。此外,作為許多高層視覺任務(wù)的底層輸入,基于特征點的圖像匹配問題也面臨著多方面的挑戰(zhàn),其中包括準確性、魯棒性(普適性)和高效性。
首先,特征匹配精度在許多基于匹配的精準估計應(yīng)用上有著極高的要求,匹配誤差會保留在后續(xù)處理環(huán)節(jié)中并逐漸累積從而嚴重制約最終視覺任務(wù)的有效實施。例如 根據(jù)特征點匹配結(jié)果求解相機運動參數(shù)從而恢復(fù)高維結(jié)構(gòu)(Structure From Motion, SFM)的任務(wù), 錯誤的匹配將產(chǎn)生相機姿態(tài)的錯誤估計,使得類似于三維重建 [27] 和同 步定位與建圖 [28,29](Simultaneous Localization and Mapping,SLAM)等任務(wù)的結(jié)果 嚴重偏離于真實情形,同時圖像融合、圖像拼接和變化檢測等 [23,25,30] 任務(wù)同樣嚴重依賴于圖像配準的結(jié)果。精度問題通常來自于兩個方面——特征提取精度和特征匹配精度。特征點匹配一般需要對從圖像中提取出來的關(guān)鍵點進行定位,即以像素坐標的形式表示,通常該坐標要精確到亞像素級且兩個待匹配點集應(yīng)具有較高的重復(fù)率,保 證所檢測的特征點是真正意義上可匹配的 [13];特征匹配精度則表現(xiàn)為所配對的兩個特征點在真實空間中應(yīng)當屬于精確的同名位置,或者具有相同的語義特征,同時匹配結(jié)果中需要保證盡可能多的正確匹配以及盡可能少的錯誤匹配。其次,設(shè)計一種魯棒的特征匹配方法以滿足多方面的需求是十分必要的。待匹配圖像通常來自不同時間、不同視角和不同傳感器,成像條件多樣性不可避免地造成了圖像的匹配難度,況且圖像本身的局部形變或畸變,以及圖像之間的復(fù)雜變換等因素同樣對特征匹配問題造成了嚴重阻礙。除此之外,如何減少因噪聲、畸變、重復(fù)圖像內(nèi)容以及遮擋等問題造成的錯誤匹配也是特征匹配中亟需解決的問題。另一方面,為了滿足大規(guī)模以及具有實時性要求的視覺任務(wù),特征匹配方法應(yīng)當滿足較少的時間和空間消耗。然而特征點的匹 配問題本質(zhì)上是一個復(fù)雜組合優(yōu)化難題 [31],為了將 N 個特征點與另外 N 個特征點對齊,盡管這兩組點是完全可匹配的,同樣也需要 N! 種排列組合,況且離群點和噪聲的引入將大大增加問題的求解難度,因而在建模求解過程中,如何減少解的搜索空間,降低問題的計算復(fù)雜度也是特征匹配的重要難題。
綜上所述,基于特征的圖像匹配技術(shù)存在多方面的難題,有待進一步深入的研究,以滿足眾多視覺任務(wù)的應(yīng)用需求,因而開展特征匹配相關(guān)的課題具有重要的理論研究與實際應(yīng)用價值。
三、特征匹配研究現(xiàn)狀
在進行特征匹配之前,我們首先需要從兩幅圖像中提取顯著并且具有可區(qū)分性和可匹配性的點結(jié)構(gòu)。常見的點結(jié)構(gòu)一般為圖像內(nèi)容中的角點、交叉點、閉合區(qū)域中心點等具有一定物理結(jié)構(gòu)的點,而提取點結(jié)構(gòu)的一般思想為構(gòu)建能夠區(qū)分其他圖像結(jié)構(gòu)的響應(yīng)函數(shù) [15,32](Response Function)或者從特征線或輪廓中進行稀疏采樣 [21]。為此,Morevec [19]于 1977 年首次提出了“興趣點”的概念,并介紹了一種基于局部像素灰度差異的特征點檢測方法。然而該方法存在方向、尺度、仿射和噪聲上的敏感性,以及較大的時間需求。為此,大量研究者針對該問題提出了一系列的改進措施,其中著名 的 Harris [14] 角點檢測器便是運用二階矩或自相關(guān)矩陣來加速局部極值搜索并且保證方向的不變性,為了進一步減少導(dǎo)數(shù)的計算,一種基于局部區(qū)域像素灰度比較的快速特征提取方法被廣泛應(yīng)用于具有實時要求的視覺任務(wù)中,其中包括 SUSAN 算子 [32], 以及采取不同像素比較方法和比較范圍的 FAST [16] 及其改進形式如:FAST-ER [33]、 AGAST[34] 等,同時還包括在實時視覺任務(wù)中應(yīng)用極為廣泛的 ORB 特征 [28,35]。基于像素比較的特征提取方法也稱為二值特征,通常具有極高的提取效率并具有一定的方向不變性以及所提取的特征點具有較高的重復(fù)率,對后續(xù)的匹配具有重要意義,然而這類方法受尺度和仿射變換的影響較大。
針對上述問題,帶有尺度信息的斑點特征成為特征提取的另一種形式,其最早是由Lindeberg 等人[36] 提出的高斯拉普拉斯(Laplace of Gaussian,LoG)函數(shù)響應(yīng)來實現(xiàn),并從中提出了尺度空間理論,其利用高斯響應(yīng)函數(shù)的圓對稱性和對局部團結(jié)構(gòu)的極值響應(yīng)特性以及對噪聲抑制能力,通過不同高斯標準差實現(xiàn)在尺度空間上的極值搜索,從而提取對尺度、方向和噪聲魯棒的特征點并得到相應(yīng)的尺度信息。為了避免大量的計算,D.Lowe 等人 [37,38] 介紹了一種高斯差分(Difference-of-Gaussian,DoG) 法來近似 LoG 的計算,并提出了著名的 SIFT 特征描述子。基于相同的思想,Bay 等 人 [39] 在 Hessian 矩陣的基礎(chǔ)上結(jié)合箱式濾波以及圖像積分對梯度進行快速計算,提出了SURF 算子,極大程度地提升了斑點特征的檢測速度。此外,許多基于 SIFT 和 SURF 的改進方法也相繼被提出,其中包括減少計算量、提升仿射魯棒性等 [40–43]。為滿足精確的匹配要求,所提取的特征通常需要精確的位置信息并保證兩個點集具有較高的可重復(fù)性和可匹配性。因此,大多特征提取方法中均會采用非極大值抑制(NMS)來提升局部特征點的顯著性和穩(wěn)定性,并且通過像素空間的插值方法估計特征點在亞像素空間的精確極值位置,具體的特征提取相關(guān)綜述請參考 [5,13,44–47]。
一旦兩個可匹配的點集提取完成,圖像匹配任務(wù)便轉(zhuǎn)化為對兩個特征點集進行配對。對此,目前已涌現(xiàn)出了許多開創(chuàng)性的工作及其后續(xù)的改進方案,主要從特征匹配的本質(zhì)屬性入手,從不同角度對特征匹配進行定義與假設(shè),并結(jié)合相關(guān)技術(shù)手段對問題建模與求解。根據(jù)現(xiàn)有文獻以及相關(guān)研究成果,特征匹配問題主要從直接和間接求解兩個思路進行。**直接匹配的思想主要是將特征匹配問題抽離為兩個點集對應(yīng)的問題,直接從中估計正確的點點對應(yīng)關(guān)系,而間接匹配一般先通過特征點的局部描述子的相 似程度建立初步的對應(yīng)關(guān)系,然后根據(jù)幾何約束剔除誤匹配。**此外,由于深度學(xué)習(xí) [48] (Deep Learning,DL)技術(shù)在深層特征層面強大的學(xué)習(xí)與表達能力,基于深度卷積網(wǎng) 絡(luò)的特征匹配技術(shù)也得到了廣泛關(guān)注 [4,49,50],為解決圖像匹配問題提供了一個新的方向。本文將對上述解決特征匹配的技術(shù)路線中主要方法進行分析總結(jié)。
- 3.1 直接匹配策略
前面我們提到,直接匹配主要是將特征匹配問題抽離為兩個點集的對應(yīng)問題,也 稱為純點集匹配問題。首先我們假設(shè)待匹配的兩個特征點集為 X={x_i:i∈N_M}\mathcal{X}=\{\pmb{x}\_i:i \in \mathbb{N}\_M\}X={xxx_i:i∈N_M} 和 Y={y_j:j∈N_N}\mathcal{Y}=\{\pmb{y}\_j:j \in \mathbb{N}\_N\}Y={y?y??y_j:j∈N_N} , 這里 N_M,N_N\mathbb{N}\_M,\mathbb{N}\_NN_M,N_N 分別表示不超過 M和N的自然數(shù),點集 X,Y\mathcal{X},\mathcal{Y}X,Y 分別稱為模板點集 和目標點集。匹配的目的即是求解一個指派矩陣 P={p_ij}\mathbf{P}=\{p\_{ij}\}P={p_ij} , 其中 p_ijp\_{ij}p_ij 代表 x_i\pmb{x}\_ixxx_i 和 y_j\pmb{y}\_jy?y??y_j 的對應(yīng)關(guān)系,并通過一定的約束條件以及目標函數(shù)構(gòu)建,優(yōu)化求解得到指派矩陣。一般而言,以 p_ij={0,1}p\_{ij}=\{0,1\}p_ij={0,1} 來表示 x_i\pmb{x}\_ixxx_i 與 y_j\pmb{y}\_jy?y??y_j 匹配與否,即 p_ij=1p\_{ij}=1p_ij=1 代表兩者屬于匹配關(guān)系, 反之則不匹配;較為松弛的方法便是令 p_ij∈[0,1]p\_{ij}\in [0,1]p_ij∈[0,1] ,即指派變量屬于 0 到 1 之間的連續(xù)概率值,用以表征x_i\pmb{x}\_ixxx_i和y_j\pmb{y}\_jy?y??y_j之間的匹配程度。基于這一策略的特征匹配方法主要有基于對應(yīng)矩陣估計和基于圖模型的特征匹配兩種。
i) 基于對應(yīng)矩陣估計的特征匹配算法。對應(yīng)矩陣的估計需要結(jié)合變換函數(shù)的建模和參數(shù)估計而同時進行,一般用于點集配準問題。這類算法的目標通常是通過變換模型與對應(yīng)矩陣的估計,將目標點集變換并映射到模板點集中,使得變換后兩個點集中屬于配對的點能夠盡可能重合,因此其最小化目標函數(shù)一般包含目標點集變換后與模板點集的空間距離和指派矩陣的組合形式構(gòu)成經(jīng)驗誤差項,并且對應(yīng)矩陣的相關(guān)約束條件和變換函數(shù)的平滑性、復(fù)雜性等將構(gòu)成額外的懲罰項。為了實現(xiàn)目標函數(shù)的優(yōu)化與求解,常用的方法是兩個待求解變量在反復(fù)迭代更新中逐漸逼近其最優(yōu)形式。因此,變換模型的選擇也成為了基于對應(yīng)矩陣估計的特征匹配方法的重點。對于靜態(tài)場景圖像而言,圖像對或待匹配的兩個點集一般滿足多視圖幾何變換,即極線幾何或單應(yīng)等約束條件,其通常由一個 3×3 的矩陣表示,矩陣中不同元素結(jié)構(gòu)和矩陣的自由度代表 著平移、尺度、旋轉(zhuǎn)、仿射等基礎(chǔ)變換,結(jié)合點集的齊坐標形式,可以反映點集間的這種靜態(tài)幾何變換的度量與建模。然而圖像中一般存在局部形變、成像畸變或者動態(tài)目標等非剛性變換,此時靜態(tài)場景中的全局幾何形變模型將無法適用,常用的策略則是 采用插值理論中的幾何形變模型,如徑向基函數(shù)(Radial Basis Function, RBF),其中薄板樣條(Thin-PlateSplines,TPS)和高斯徑向基函數(shù)在非剛性點集配準中得到了廣 泛應(yīng)用 [51,52]。例如,Chui[53] 等人提出了一種基于 TPS 估計的魯棒點集匹配(Robust PointMatching,RPM)框架,并且為了提升對數(shù)據(jù)退化的魯棒性,Myronenko 等人 [54] 基于高斯徑向基函數(shù)提出了一致性點漂移算法(Coherent Point Drift,CPD)。基于對應(yīng)矩陣估計的特征匹配算法框架能夠在剛性和非剛性匹配中均取得不錯效果,但是當點集中存在大量離群點或數(shù)據(jù)退化嚴重時,算法性能將大大降低,甚至失效。此外,該模型框架本身屬于一個復(fù)雜組合優(yōu)化問題,其求解空間極其復(fù)雜,在迭代估計的過程中需要大量的時間消耗。
**ii) 基于圖模型的特征匹配算法。**圖模型的構(gòu)建為特征匹配問題提供了一個新穎的思路,將待匹配特征點看作圖的頂點,點點之間連接成邊,便可以通過圖論的相關(guān)理 論對特征點匹配問題建模與求解,因此也稱為圖匹配(Graph Matching)[55,56]。圖匹配方法主要分為精確圖匹配和非精確圖匹配,精確方法主要將圖匹配看作一個子圖同構(gòu)問題,嚴格要求圖結(jié)構(gòu)的相似性,從而導(dǎo)致其求解難度以及解決實際問題的不適用性,而非精準匹配弱化了圖結(jié)構(gòu)的相似度量,在實際問題中更加靈活,目前圖匹配的研究重點主要圍繞非精確匹配進行。另一方面,圖匹配的本質(zhì)目標是從兩個點集中搜索具有相似圖結(jié)構(gòu)的最大子集,其關(guān)鍵步驟主要有圖的構(gòu)建和圖模型優(yōu)化求解。圖的構(gòu)建主要在于邊的定義以及鄰接矩陣(Adjacent Matrix)和關(guān)聯(lián)矩陣(Affinity Matrix)的構(gòu)建,低階邊的定義通常只包含兩點之間的直接距離,而高階邊則由三個或三個以 上的頂點來定義,同時鄰接矩陣有全連接形式以及 ?? 近鄰、K-近鄰和三角連接等稀疏形式兩種類型,關(guān)聯(lián)矩陣則用以表征圖結(jié)構(gòu)之間的親和性,主要包含頂點親和(一階親和性)和邊親和(二階親和性),不同構(gòu)圖形式將影響模型的求解效率和精度。另外基于圖理論的特征匹配模型的研究重點一般是優(yōu)化方法的探索 [57,58],主要將圖匹配問題看做一個二次分配的問題 [56,59](Quadratic Assignment Problem,QAP),現(xiàn)有的求解形式通常是將模型轉(zhuǎn)化為一個能量最小化問題,主要分為基于梯度(Gradient Based)的優(yōu)化方式以及通過拉普拉斯矩陣(Graph Laplacians)在主特征的基礎(chǔ)上進行譜方法(Spectral Based)的求解,例如譜匹配(Spectral Matching,SM) [60] 和移動圖匹配 [61](Graph Shift,GS)、蒙特卡羅法 [62](Monte Carlo)、隨機行走法 [63] (Random Walk)以及基于聚類的匹配方法 [64] 等。總而言之,基于圖理論的特征點匹配方法能夠從全局結(jié)合局部結(jié)構(gòu)的相似性對特征點集進行結(jié)構(gòu)劃分并配對,是實現(xiàn)特征匹配的一個具有較強理論研究意義的途徑,然而由于其 QAP 和 NPC 屬性,因而具有較高的計算復(fù)雜度,同時噪聲和離群點的影響會直接制約圖匹配算法的有效性。因此,研究圖匹配算法的快速優(yōu)化求解以及針對噪聲和離群點的魯棒建模來提高匹配精度與效率是目前圖匹配的研究重點。
- 3.2 間接匹配策略
間接匹配策略一般分為兩個階段,第一個階段先根據(jù)待匹配的特征點構(gòu)建具有特定屬性的描述子(Feature Descriptor),從而為每個特征點賦予各自的特征向量,然后根據(jù)描述子的相似程度建立粗略的對應(yīng)關(guān)系。常用的特征描述方法主要分為基于局部圖像梯度統(tǒng)計的浮點型描述子和基于像素灰度比較的二值型描述子,前者極具代表性的便是 SIFT 描述子 [37,38],其通過對局部像素進行網(wǎng)格劃分并統(tǒng)計 8 個方向上的梯度 同時確定梯度主方向,隨后將其排列為一個能夠描述該特征點的高維向量。SIFT 能夠取得較為滿意的匹配效果,并且對光照、方向、尺度以及圖像質(zhì)量具有一定的魯棒性。 為了進一步提升 SIFT 的實現(xiàn)速度以及準確性,SURF 中引入了 Haar 響應(yīng)策略,并以高斯函數(shù)進行局部加權(quán),統(tǒng)計扇形區(qū)域?qū)?shù)方向進行特征描述。Yan 等人 [42] 提出了 一種基于特征降維的改進形式 PCA-SIFT,以及其他改進如:C-SIFT [41]、ASIFT [40]、 DSP-SIFT [65] 等。基于像素比較的二值特征描述方法,主要包含不同的采樣策略和采樣范圍,比如:Michael 等人 [66] 于 2010 年在特征點局部矩形區(qū)域內(nèi)針對不同的采樣形式進行了對比測試,提出了一種 BRIEF 二值描述方法;次年,Stefan 等人 [67] 提出了一種基于變尺度同心圓采樣形式的特征描述方法 BRISK,并且隨后的 Alexandre 等人 [68] 提出了一種基于視網(wǎng)膜采樣的二進制特征描述子 FREAk。不同特征提取和不同描述方法的相互組合可以得到不同的初始匹配構(gòu)建效果,如 ORB 特征在FAST的基礎(chǔ)上根據(jù) Harris 響應(yīng)進行前 N 個可靠特征挑選,隨后采取灰度質(zhì)心法確定其主方向, 并利用 BRIEF 特征描述方法,結(jié)合學(xué)習(xí)的策略確定二進制編碼方式,是目前最為快速的建立初始匹配方法之一。總之,二值型描述子最終通過漢明距離對描述子的相似度進行度量,相對而言具有較高的實現(xiàn)速度,而浮點型描述子則一般采用歐式距離進行相似度度量,具有較高穩(wěn)定性。針對特征描述的相關(guān)綜述及其特征提取描述和匹配性能對比,同樣可以參考 [13,44–47]。
此外,對于已經(jīng)存在的兩個具有物理形狀的待匹配的點集而言,比如從二維形狀中離散而來的特征點集,該點集一般會脫離圖像本身,因而基于圖像信息的描述方法將不再適用,此時可以通過形狀上下文 [21](ShapeContext,SC)來構(gòu)建描述子,或者三維情況則通過自旋圖 [69]、以及二維描述子的三維改進形式 [38,70](MeshDOG/MeshHOG)進行特征描述并建立初始匹配。不管怎樣,這種粗略的對應(yīng)由于僅利用了局部信息,同時噪聲、離群點、遮擋和重復(fù)內(nèi)容等原因,造成初始匹配中會存在大量的錯誤匹配關(guān)系,比如現(xiàn)有的基于描述子的特征匹配方法一般錯誤匹配比率高達 50% 以上 [17,45], 而如果設(shè)定更嚴格的閾值條件,正確比率會有很大提升,但同時也會犧牲大量的正確匹配。因此,在下一步中,則需要根據(jù)所建立的初始匹配的空間幾何約束將誤匹配剔除,同時保留盡可能多的正確匹配。
間接匹配策略將特征匹配問題轉(zhuǎn)化為一個從初始匹配集 S={(x_i,y_i)_i=1N\mathcal{S}=\{(\mathbf{x}\_i,\mathbf{y}\_i)\_{i=1}^NS={(x_i,y_i)_i=1N 剔除誤匹配的問題,其中 N 表示具有 N 對已建立好初始對應(yīng)關(guān)系的匹配對。一類經(jīng)典的剔除 \誤匹配同時估計參數(shù)模型的方法便是隨機采樣一致性 [71](RANdom SAmple Consensus,RANSAC),以及后續(xù)的改進形式如 MLESAC [72]、PROSAC [73]、SCRAMSAC [74]、USAC [75] 等,統(tǒng)稱為基于重采樣的方法。這類方法旨在初始匹配中通過反復(fù)地采樣估計匹配點集間預(yù)定義的變換模型,來尋找滿足其估計的模型的最大內(nèi)點集作為正確的匹配對。該方法嚴重依賴于采樣的準確性,顯然當初始匹配中存在大量離群點時,所需采樣次數(shù)顯著提升,從而使得該方法的效率大大降低,同時變換模型一般無法預(yù)先定義,甚至一些非剛性情況無法建模,從而導(dǎo)致這類方法不再適用。另一類用于解決非剛性變換圖像匹配的方法則是基于非參數(shù)插值或擬合的方法,其主要基于先驗條件插值或回歸學(xué)習(xí)出定義的非參數(shù)函數(shù),將一幅圖像中的特征點映射到另一幅圖像中,然后通過核查初始點匹配集中每個匹配對是否與估計出的對應(yīng)函數(shù)一致來剔除 錯誤匹配。例如通過魯棒估計對應(yīng)函數(shù)用于離群點剔除的 ICF 算法 [76],以及利用非剛性變換模型在再生核希爾伯特空間 (Reproducing kernel Hilbert spaces, RKHS) 中的 泛函表達形式及其稀疏近似形式,結(jié)合高斯混合模型 (Gaussian mixed model, GMM) 與正則化理論在這一匹配框架中取得了卓越的成效 [77–86],較為代表性的算法有基于向量場一致性點集匹配算法 VFC[81]、基于流形正則化點集匹配算法 MR-RPM [87]、基于局部線性遷移匹配算法 LLT[88] 等。該類方法在離群點較多或者點集中存在獨立的運動結(jié)構(gòu)以及其他具有極為復(fù)雜的變換時匹配精度會急劇下降。此外,一些松弛的方法,例如在建立初始匹配后利用圖匹配相關(guān)的約束條件,通過局部結(jié)構(gòu)一致性以及分段一 致性的假設(shè),對正確匹配進行魯棒估計。比如基于局部保留的特征匹配方法 LPM [89]、 GLPM [90],基于網(wǎng)格劃分運動一致性算法 [91](GMS),基于分層運動一致性的特征匹配方法 [92,93] 等。由于建立初始匹配通過描述子的相似度量構(gòu)建,然后根據(jù)幾何約束剔除誤匹配,相比于直接匹配策略,這類方法能夠使特征匹配問題得到高效解決。然而,如何快速建立包含正確對應(yīng)的初始匹配,對匹配問題定義以及挖掘正誤匹配之間的分布差異和特點,設(shè)計一種快速精確的誤配剔除策略也是許多學(xué)者關(guān)注的重點。
- 3.3深度學(xué)習(xí)策略
目前,深度學(xué)習(xí)方法因其對深層特征有著優(yōu)越的學(xué)習(xí)和表達能力,以火爆的方式應(yīng)用于計算機視覺的各個領(lǐng)域,其同樣在圖像匹配問題上嶄露頭角并取得了初步成效。深度學(xué)習(xí)在圖像匹配中最合理的應(yīng)用便是直接從包含相同或相似結(jié)構(gòu)內(nèi)容的圖像對中學(xué)習(xí)到像素級別的匹配關(guān)系,其主要形式有以下幾種:1)以深度學(xué)習(xí)方法解決傳統(tǒng)類似于 SIFT [37,38] 建立初始匹配中的一個或多個環(huán)節(jié),又或者直接設(shè)計一個端到端的匹配網(wǎng)絡(luò),例如學(xué)習(xí)從圖像中檢測更精確可靠的特征點集、學(xué)習(xí)每個特征點的主要 方向或主要尺度及其更具有區(qū)分性和可匹配能力的特征描述子 [94–96],一些代表方法如 LIFT [17]、NCN [50]、LF-Net [97]、SuperPoint [98] 等;又或者學(xué)習(xí)描述子之間更可靠的相似性度量準則等 [99,100]。這一系列的策略在某些方面已經(jīng)證明了其相對于傳統(tǒng)方 法的優(yōu)越性 [101,102],然而其中同樣存在大量的錯誤匹配,依舊需要誤匹配剔除策略進 行后處理。2)在雙目立體匹配(Stereo Matching)中,直接從圖像對中學(xué)習(xí)得到深度 圖 [103,104],這種方法已在公共數(shù)據(jù)集 KITTI [105] 和 Middlebury [106] 中取得了統(tǒng)治性的結(jié)果,然而其一般依賴于兩張圖像具有較高的重合度并且經(jīng)過校正與對齊,因而具有 一定的局限性。3)基于深度學(xué)習(xí)的圖像塊匹配 [99,107,108](Patch Matching)涌現(xiàn)出了大量的研究成果,其主要通過深度學(xué)習(xí)方法獲取圖像塊之間的深層特征,并度量特征之間相似性來建立對應(yīng)關(guān)系,這類方法一般用于提取好的特征點的描述子構(gòu)建、圖像 檢索、寬基線立體匹配 [103](Wide-Baseline Stereo Matching)以及圖像配準 [99,109,110] 等方面。
深度學(xué)習(xí)在匹配中的另外的一種應(yīng)用便是從兩個點集中學(xué)習(xí)其局部和全局特征并建立可靠的點對應(yīng)關(guān)系。由于三維點云數(shù)據(jù)的稠密特性是的其具有類似于圖像的紋理細節(jié)信息,可以方便地通過深度卷積方式進行學(xué)習(xí),因而應(yīng)用較廣 [111,112]。然而三維點云中的深度學(xué)習(xí)策略,并不適用于稀疏的特征點集匹配任務(wù),為了解決這一問題,通過深度學(xué)習(xí)方法學(xué)習(xí)點集之間的幾何拓撲結(jié)構(gòu)也成為當前研究熱點之一。其主要目的是學(xué)習(xí)兩個圖結(jié)構(gòu)之間的相似性,或者通過局部鄰域結(jié)構(gòu)一致性學(xué)習(xí)來建立點集之間的配對關(guān)系 [49,50],又或者通過點集間的幾何變換模型進行約束,即在建立匹配的過程中同時學(xué)習(xí)變換模型的參數(shù) [113,114],如基于學(xué)習(xí)的可靠匹配搜索 [113](Learning to Find Good Correspondences,LFGC),其旨在從稀疏初始匹配集結(jié)合相機本征矩陣學(xué)習(xí)一個多層深度感知機,結(jié)合參數(shù)幾何變換模型構(gòu)建損失函數(shù),實現(xiàn)模型估計同時剔除誤 匹配,或者基于局部結(jié)構(gòu)一致性的圖學(xué)習(xí)網(wǎng)絡(luò)來挖掘潛在的正確對應(yīng)關(guān)系 [50,115]。
除此之外,國內(nèi)學(xué)者針對特征匹配問題也進行了較為系統(tǒng)的研究,例如國防科學(xué)技術(shù)大學(xué)趙鍵 [116] 和復(fù)旦大學(xué)宋智禮[2] 在他們各自的博士課題中分別針對點模式的匹配問題和圖像配準技術(shù)及其應(yīng)用進行了專門研究,華中科技大學(xué)馬佳義 [3] 的博士課題研究了基于非參數(shù)模型的點集匹配模型框架,并提出了一系列的基于正則化理論的非參數(shù)建模和快速求解形式,哈爾濱工業(yè)大學(xué)于偉 [4] 的博士課題則研究了基于深度神經(jīng)網(wǎng)絡(luò)特征的圖像匹配方法,主要解決深度學(xué)習(xí)框架下的深層特征表達與語義匹配問題,此外華中科技大學(xué)柳成蔭 [117] 在其博士課題中,針對不同領(lǐng)域的應(yīng)用需求,從多模與多視角非剛性圖像配準問題展開了專門的研究。
綜上所述,特征匹配方法的研究根據(jù)問題的定義以及求解策略有著大量的研究成果,然而由于應(yīng)用場景的復(fù)雜性,造成目前的特征匹配方法存在多方面的局限,主要包括處理速度,匹配精度以及針對噪聲和非剛性形變的魯棒性。因此,本文的主旨便是對特征匹配問題進行系統(tǒng)與深入的研究,從不同的角度定義特征匹配問題,并采用有效的技術(shù)解決當前匹配算法的應(yīng)用局限性。
四、特征匹配發(fā)展趨勢
特征匹配問題由來已久,理論上的突破使得現(xiàn)有的方法具有一定的實際應(yīng)用能力,然而面對諸多方面的應(yīng)用需求,以及特征匹配問題本身的復(fù)雜特性,其依然是一個具有理論研究意義和實際應(yīng)用價值的開放性話題,因此需要進一步地深入研究,同時深度學(xué)習(xí)技術(shù)的強大能力也使得特征匹配問題面臨著進一步的突破。接下來,綜合當前研究現(xiàn)狀以及相關(guān)難題,特征匹配技術(shù)的發(fā)展趨勢主要涉及以下幾個方面:
- 傳統(tǒng)方法的進一步推進
根據(jù)圖像匹配的概念可知,圖像匹配技術(shù)可以應(yīng)用于任何含有對相似或相同結(jié)構(gòu)及內(nèi)容信息的識別、檢測、整合與應(yīng)用的視覺任務(wù)中,盡管現(xiàn)階段深度學(xué)習(xí)方法在許多視覺任務(wù)中逐漸取代了傳統(tǒng)的基于圖像匹配的思路,并取得了突出的成果,但圖像匹配因其高魯棒性、可擴展性、可解釋性依舊是眾多領(lǐng)域的主流方法。前面提到,匹配誤差會保留在后續(xù)處理環(huán)節(jié)中并逐漸累積從而嚴重制約最終視覺任務(wù)的有效實施,錯誤的匹配將產(chǎn)生某些精確估計的錯誤計算會使得一些視覺任務(wù)結(jié)果嚴重偏離于真實情形。因而設(shè)計一種高精度和高效率的匹配方法,以滿足當前具有實性或大規(guī)模的實際應(yīng)用需求,是特征匹配后續(xù)發(fā)展的主要趨勢。另外,一定程度上提升特征點的提取與描述能力,如提取更精確更具有重復(fù)性和可匹配能力的特征,更顯著和可區(qū)分性的特征描述子,獲取具有高內(nèi)點比率和內(nèi)點數(shù)量的初始匹配對,實現(xiàn)實時性的特征提取與匹配方法,以及研究更高效魯棒的特征點匹配模型及其求解形式都會為特征匹配技術(shù)在實際應(yīng)用中帶來實質(zhì)性的突破。
- 深度學(xué)習(xí)方法的引入
實現(xiàn)圖像匹配方法的多樣性,脫離傳統(tǒng)的匹配方法,基于深度學(xué)習(xí)方法的圖像匹配將會成為今后研究熱點之一。通過深度學(xué)習(xí)方法解決圖像匹配中特征檢測、主方向或主尺度檢測、特征描述、相似性度量與配對、誤匹配剔除、變換模型估計等傳統(tǒng)匹配步驟中的一個或多個環(huán)節(jié),又或者直接設(shè)計一個端到端的匹配網(wǎng)絡(luò),從而進一步改善傳統(tǒng)圖像特征提取、特征描述以及特征匹配中存在的缺陷,比如:提取出更具有表現(xiàn)力和可精確匹配的特征結(jié)構(gòu),或者傳統(tǒng)的特征描述方法僅基于直觀的圖像梯度或灰度信息統(tǒng)計而得到,因而需要學(xué)習(xí)一種更為深層且更具有區(qū)分力的特征描述方法,又或者基于歐氏距離的浮點型描述子和基于漢明距離的二值型描述子相似度度量形式存在一定的局限,從而需要學(xué)習(xí)得到一種更合理的度量形式得到更準確的匹配結(jié)果。
從圖像匹配抽象出來的點集匹配和圖匹配問題,會進一步啟發(fā)基于圖理論的深度網(wǎng)絡(luò)的相關(guān)研究。基于稀疏點集的深度學(xué)習(xí)方法目前存在著兩個方面的挑戰(zhàn),首先是 如何將幾何數(shù)據(jù)(稀疏點集)建立成圖,此圖為 image 而非 graph,或者構(gòu)建能夠處理 幾何數(shù)據(jù)的網(wǎng)絡(luò)結(jié)構(gòu)。原因在于現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)主要依托于 image 而進行,改變圖像內(nèi)容順序?qū)⒑艽蟪潭雀淖冋麖垐D像的結(jié)構(gòu)信息,對網(wǎng)絡(luò)輸出結(jié)果造成極大影響,而幾何數(shù)據(jù)本身具有無序性,即改變幾何數(shù)據(jù)的排列順序(如端點順序),不會影響幾何問題本身的任何屬性。同時更高維的幾何數(shù)據(jù)是幾何問題中常見的數(shù)據(jù)類型,從高維數(shù)據(jù)到低維建圖也存在嚴峻挑戰(zhàn)。其次,現(xiàn)有深度理論在模式識別中具有顯著成效。如何去尋找?guī)缀螖?shù)據(jù)的或者空間點的近鄰關(guān)系,判斷其相對位置,識別多點之間的邊、角等幾何信息,是聯(lián)合深度卷積理論解決傳統(tǒng)幾何問題的重要挑戰(zhàn)。
- 協(xié)同匹配與增量匹配
近年來,多圖像協(xié)同匹配和增量匹配相關(guān)成果初露鋒芒 [118–120]。這類匹配在聯(lián)合多張圖像匹配信息,互相監(jiān)督引導(dǎo)的概念上一定程度地提高了匹配的精度,為了滿足這一特性,傳統(tǒng)的匹配優(yōu)化模型需要進一步地擴展,極大程度地增加了求解復(fù)雜度。盡管協(xié)同匹配與增量匹配在匹配精度和效率上難以取得合理的權(quán)衡,然而這一概念在解決多序列圖像匹配應(yīng)用方面依舊具有較大的研究價值。
首先如何對協(xié)同匹配問題進行有效建模和高效求解本身是一個極具有理論研究意義的問題,其次,這一理念契合人類視覺對多目標信息的聯(lián)合挖掘與利用這一特性,同時多圖像協(xié)同檢測、分割、超分等視覺任務(wù)目前已取得了不錯成效,證明這一理念是可行且有意義的。另外,以多序列圖像和增量式為基礎(chǔ)的視覺任務(wù),如三維重建、SLAM、機器人導(dǎo)航定位等,目前依舊依賴于傳統(tǒng)的兩兩圖像對之間的單一匹配,協(xié)同匹配的引入可以簡化這些任務(wù)中的匹配環(huán)節(jié),同時提高匹配精度。同時,多圖像的協(xié)同匹配保證了充足的數(shù)據(jù)量以及引入了更豐富的圖像間的協(xié)同信息,而傳統(tǒng)的手工方法難以挖掘其中深層且復(fù)雜的匹配信息,基于這一特性,運用深度學(xué)習(xí)方法解決多圖像協(xié)同匹配與增量匹配則具有極為廣闊的前景。
參考文獻
[1] 馬頌德. 計算機視覺: 計算理論與算法基礎(chǔ). 北京: 科學(xué)出版社 [M]. 1998.
[2] 宋智禮. 圖像配準技術(shù)及其應(yīng)用的研究 [D]. 復(fù)旦大學(xué), 2010.
[3] 馬佳義. 基于非參數(shù)模型的點集匹配算法研究 [D]. 華中科技大學(xué), 2014.
[4] 于偉. 基于卷積神經(jīng)網(wǎng)絡(luò)特征的圖像匹配研究 [D]. 哈爾濱工業(yè)大學(xué), 2017.
[5] Zitova B, Flusser J. Image registration methods: a survey[J]. Image and vision computing, 2003, 21(11): 977–1000.
[6] Dawn S, Saxena V, Sharma B. Remote sensing image registration techniques: A survey[C]. International Conference on Image and Signal Processing. 2010: 103– 112.
[7] Pratt W K. Digital image processing john wiley & sons[J]. Inc., New York, 1991.
[8] Viola P, Wells iii W M. Alignment by maximization of mutual information[J]. International journal of computer vision, 1997, 24(2): 137–154.
[9] Barnea D I, Silverman H F. A class of algorithms for fast digital image registration[J]. IEEE transactions on Computers, 1972, 100(2): 179–186.
[10] Bracewell R N, Bracewell R N. The Fourier transform and its applications: Vol 31999[M]. [S.l.]: McGraw-Hill New York, 1986.
[11] De castro E, Morandi C. Registration of translated and rotated images using finite Fourier transforms[J]. IEEE Transactions on pattern analysis and machine intelligence, 1987(5): 700–703.
[12] Chen Q-S, Defrise M, Deconinck F. Symmetric phase-only matched filtering of Fourier-Mellin transforms for image registration and recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1994(12): 1156–1168.
[13] Tuytelaars T, Mikolajczyk K, others. Local invariant feature detectors: a survey[J]. Foundations and trends? in computer graphics and vision, 2008, 3(3): 177–280.
[14] Harris C G, Stephens M, others. A combined corner and edge detector.[C]. Alvey vision conference: Vol 15. 1988: 10–5244.
[15] BeaudetPR.Rotationallyinvariantimageoperators[C].Proc.4thInt.JointConf. Pattern Recog, Tokyo, Japan, 1978. 1978.
[16] Rosten E, Drummond T. Machine learning for high-speed corner detection[C]. European conference on computer vision. 2006: 430–443.
[17] Yi K M, Trulls E, Lepetit V, et al. Lift: Learned invariant feature transform[C]. European Conference on Computer Vision. 2016: 467–483.
[18] Matas J, Chum O, Urban M, et al. Robust wide-baseline stereo from maximally stable extremal regions[J]. Image and vision computing, 2004, 22(10): 761–767.
[19] Moravec H P. Techniques towards automatic visual obstacle avoidance[J], 1977.
[20] Brogefors G. Hierarchical chamfer matching: A parametric edge matching algorithm[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,1988(6): 849–865.
[21] Belongie S, Malik J, Puzicha J. Shape matching and object recognition using shapecontexts[J].IEEETransactionsonPatternAnalysis&MachineIntelligence, 2002(4): 509–522.
[22] Mikolajczyk K, Schmid C. Indexing based on scale invariant interest points[C]. null. 2001: 525.
[23] Radke R J, Andra S, Al-kofahi O, et al. Image change detection algorithms: a systematic survey[J]. IEEE transactions on image processing, 2005, 14(3): 294– 307.
[24] Zheng L, Yang Y, Tian Q. SIFT meets CNN: A decade survey of instance retrieval[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 40(5): 1224–1244.
[25] Ma J, Ma Y, Li C. Infrared and visible image fusion methods and applications: A survey[J]. Information Fusion, 2019, 45: 153–178.
[26] Fuentes-pacheco J, Ruiz-ascencio J, Rendón-mancha J M. Visual simultaneous localization and mapping: a survey[J]. Artificial Intelligence Review, 2015, 43(1):
[27] Fan B, Kong Q, Wang X, et al. A Performance Evaluation of Local Features for Image Based 3D Reconstruction[J]. arXiv preprint arXiv:1712.05271, 2017.
[28] Mur-artal R, Montiel J M M, Tardos J D. ORB-SLAM: a versatile and accurate monocular SLAM system[J]. IEEE transactions on robotics, 2015, 31(5): 1147– 1163.
[29] Mur-artalR, TardósJD.Orb-slam2: Anopen-sourceslamsystemformonocular, stereo, andrgb-dcameras[J].IEEETransactionsonRobotics, 2017, 33(5): 1255– 1262.
[30] Hua Z, Li Y, Li J. Image stitch algorithm based on SIFT and MVSC[C]. 2010 Seventh International Conference on Fuzzy Systems and Knowledge Discovery: Vol 6. 2010: 2628–2632.
[31] Wang C, Wang L, Liu L. Progressive mode-seeking on graphs for sparse feature matching[C]. European Conference on Computer Vision. 2014: 788–802.
[32] SmithSM,BradyJM.SUSAN—anewapproachtolowlevelimageprocessing[J]. International journal of computer vision, 1997, 23(1): 45–78.
[33] Rosten E, Porter R, Drummond T. Faster and better: A machine learning approach to corner detection[J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(1): 105–119.
[34] MairE,HagerGD,BurschkaD,etal.Adaptiveandgenericcornerdetectionbased on the accelerated segment test[C]. European conference on Computer vision. 2010: 183–196.
[35] Rublee E, Rabaud V, Konolige K, et al. ORB: An efficient alternative to SIFT or SURF.[C]. ICCV: Vol 11. 2011: 2.
[36] Lindeberg T. Feature detection with automatic scale selection[J]. International journal of computer vision, 1998, 30(2): 79–116.
[37] LoweDG, others.Objectrecognitionfromlocalscale-invariantfeatures.[C].iccv: Vol 99. 1999: 1150–1157.
[38] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision, 2004, 60(2): 91–110.
[39] Bay H, Tuytelaars T, Van gool L. Surf: Speeded up robust features[C]. European conference on computer vision. 2006: 404–417.
[40] Morel J-M, Yu G. ASIFT: A new framework for fully affine invariant image comparison[J]. SIAM journal on imaging sciences, 2009, 2(2): 438–469.
[41] Abdel-hakim A E, Farag A A. CSIFT: A SIFT descriptor with color invariant characteristics[C]. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06): Vol 2. 2006: 1978–1983.
[42] Ke Y, Sukthankar R, others. PCA-SIFT: A more distinctive representation for local image descriptors[J]. CVPR (2), 2004, 4: 506–513.
[43] Agrawal M, Konolige K, Blas M R. Censure: Center surround extremas for realtime feature detection and matching[C]. European Conference on Computer Vision. 2008: 102–115.
[44] Schmid C, Mohr R, Bauckhage C. Evaluation of interest point detectors[J]. International Journal of computer vision, 2000, 37(2): 151–172.
[45] Mukherjee D, Wu Q J, Wang G. A comparative experimental study of image feature detectors and descriptors[J]. Machine Vision and Applications, 2015, 26(4): 443–466.
[46] Uchida Y. Local feature detectors, descriptors, and image representations: A survey[J]. arXiv preprint arXiv:1607.08368, 2016.
[47] Krig S. Interest point detector and feature descriptor survey[G]. Computer vision metrics. [S.l.]: Springer, 2016: 187–246.
[48] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. nature, 2015, 521(7553): 436.
[49] Choy C B, Gwak J, Savarese S, et al. Universal correspondence network[C]. Advances in Neural Information Processing Systems. 2016: 2414–2422.
[50] Rocco I, Cimpoi M, Arandjelovi? R, et al. Neighbourhood consensus networks[C]. Advances in Neural Information Processing Systems. 2018: 1658–1669.
[51] Bookstein F L. Principal warps: Thin-plate splines and the decomposition of deformations[J]. IEEE Transactions on pattern analysis and machine intelligence,1989, 11(6): 567–585.
[52] AradN, DynN, ReisfeldD,etal.Imagewarpingbyradialbasisfunctions: Application to facial expressions[J]. CVGIP: Graphical models and image processing, 1994, 56(2): 161–172.
[53] Chui H, Rangarajan A. A new point matching algorithm for non-rigid registration[J]. Comput. Vis. Image Understand., 2003, 89: 114–141.
[54] Myronenko A, Song X. Point Set Registration: Coherent Point Drift[J]. IEEE Trans. Pattern Anal. Mach. Intell., 2010, 32(12): 2262–2275.
[55] Cook D J, Holder L B. Mining graph data[M]. [S.l.]: John Wiley & Sons, 2006.
[56] BabaiL.Groups,Graphs,Algorithms: TheGraphIsomorphismProblem[J].Proc. Internat. Congr. of Mathematicians 2018, 2018.
[57] Yan J, Cho M, Zha H, et al. Multi-graph matching via affinity optimization with graduated consistency regularization[J]. IEEE Trans. Pattern Anal. Mach. Intell., 2016, 38(6): 1228–1242.
[58] Yan J, Wang J, Zha H, et al. Consistency-driven alternating optimization for multigraph matching: a unified approach.[J]. IEEE Trans. Image Process., 2015, 24(3): 994–1009.
[59] Umeyama S. An eigendecomposition approach to weighted graph matching problems[J]. IEEE transactions on pattern analysis and machine intelligence, 1988, 10(5): 695–703.
[60] Leordeanu M, Hebert M. A Spectral Technique for Correspondence Problems Using Pairwise Constraints[C]. Proc. IEEE Int. Conf. Comput. Vis… 2005: 1482– 1489.
[61] Liu H, Yan S. Common Visual Pattern Discovery via Spatially Coherent Correspondence[C]. Proc. IEEE Conf. Comput. Vis. Pattern Recognit… 2010: 1609– 1616.
[62] SuhY,ChoM,LeeKM.Graphmatchingviasequentialmontecarlo[C].European Conference on Computer Vision. 2012: 624–637.
[63] Cho M, Lee J, Lee K M. Reweighted random walks for graph matching[C]. European conference on Computer vision. 2010: 492–505.
[64] CaelliT,KosinovS.Aneigenspaceprojectionclusteringmethodforinexactgraph matching[J]. IEEE transactions on pattern analysis and machine intelligence, 2004, 26(4): 515–519.
[65] Dong J, Soatto S. Domain-size pooling in local descriptors: DSP-SIFT[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 5097–5106.
[66] Calonder M, Lepetit V, Strecha C, et al. Brief: Binary robust independent elementary features[C]. European conference on computer vision. 2010: 778–792.
[67] Leutenegger S, Chli M, Siegwart R Y. BRISK: Binary robust invariant scalable keypoints[M]. [S.l.]: IEEE, 2011.
[68] Alahi A, Ortiz R, Vandergheynst P. Freak: Fast retina keypoint[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition. 2012: 510–517.
[69] Johnson A E, Hebert M. Using spin images for efficient object recognition in cluttered 3D scenes[J]. IEEE Transactions on pattern analysis and machine intelligence, 1999, 21(5): 433–449.
[70] ZaharescuA,BoyerE,VaranasiK,etal.Surfacefeaturedetectionanddescription with applications to mesh matching[C]. Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2009. 2009: 373–380.
[71] FischlerMA,BollesRC.Randomsampleconsensus: aparadigmformodelfitting with applications to image analysis and automated cartography[J]. Communications of the ACM, 1981, 6(6): 381–395.
[72] Torr P H, Zisserman A. MLESAC: A New Robust Estimator with Application to Estimating Image Geometry[J]. Comput. Vis. Image Understand., 2000, 78(1): 138–156.
[73] Chum O, Matas J. Matching with PROSAC - Progressive Sample Consensus[C]. CVPR. 2005: 220–226.
[74] Sattler T, Leibe B, Kobbelt L. SCRAMSAC: Improving RANSAC’s efficiency with a spatial consistency filter[C]. Proc. IEEE Int. Conf. Comput. Vis… 2009:2090–2097.
[75] Raguram R, Chum O, Pollefeys M, et al. USAC: a universal framework for random sample consensus[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8): 2022–2038.
[76] LiX,HuZ.RejectingMismatchesbyCorrespondenceFunction[J].Int.J.Comput. Vis., 2010, 89(1): 1–17.
[77] TikhonovAN, ArseninVI.Solutionsofill-posedproblems: Vol14[M].[S.l.]: Vh Winston, 1977.
[78] Boyd S, Vandenberghe L. Convex optimization[M]. [S.l.]: Cambridge university press, 2004.
[79] Ma J, Zhao J, Tian J, et al. Robust Estimation of Nonrigid Transformation for Point Set Registration[C]. CVPR. 2013: 2147–2154.
[80] Ma J, Zhao J, Tian J, et al. Regularized vector field learning with sparse approximation for mismatch removal[J]. Pattern Recognit., 2013, 46(12): 3519–3532.
[81] MaJ,ZhaoJ,TianJ,etal.RobustPointMatchingviaVectorFieldConsensus[J]. IEEE Trans. Image Process., 2014, 23(4): 1706–1721.
[82] Ma J, Zhao J, Ma Y, et al. Non-rigid visible and infrared face registration via regularized Gaussian fields criterion[J]. Pattern Recognit., 2015, 48(3): 772–784.
[83] Ma J, Qiu W, Zhao J, et al. Robust L2E Estimation of Transformation for NonRigid Registration[J]. IEEE Trans. Signal Process., 2015, 63(5): 1115–1129.
[84] WangG, WangZ, ChenY,etal.Arobustnon-rigidpointsetregistrationmethod basedonasymmetricgaussianrepresentation[J].Comput.Vis.ImageUnderstand., 2015, 141: 67–80.
[85] Wang G, Wang Z, Chen Y, et al. Context-Aware Gaussian Fields for Non-rigid Point Set Registration[C]. CVPR. 2016: 5811–5819.
[86] Wang G, Zhou Q, Chen Y. Robust Non-Rigid Point Set Registration Using Spatially Constrained Gaussian Fields[J]. IEEE Trans. Image Process., 2017, 26(4): 1759–1769.
[87] Ma J, Zhao J, Jiang J, et al. Non-Rigid Point Set Registration with Robust Transformation Estimation under Manifold Regularization[C]. Proc. AAAI Conf. Artificial Intelligence. 2017: 4218–4224.
[88] Ma J, Zhou H, Zhao J, et al. Robust Feature Matching for Remote Sensing Image Registration via Locally Linear Transforming[J]. IEEE Trans. Geosci. Remote Sens., 2015, 53(12): 6469–6481.
[89] Ma J, Zhao J, Guo H, et al. Locality preserving matching[C]. Proc. Int. Joint Conf. Artif. Intell… 2017: 4492–4498.
[90] Ma J, Jiang J, Zhou H, et al. Guided locality preserving feature matching for remote sensing image registration[J]. IEEE Trans. Geosci. Remote Sens., 2018.
[91] BianJ, LinW-Y, MatsushitaY,etal.Gms: Grid-basedmotionstatisticsforfast, ultra-robust feature correspondence[C]. Proc. IEEE Conf. Comput. Vis. Pattern Recognit… 2017: 2828–2837.
[92] Lin W-Y, Wang F, Cheng M-M, et al. CODE: Coherence based decision boundariesforfeaturecorrespondence[J].IEEETrans.PatternAnal.Mach.Intell.,2018, 40(1): 34–47.
[93] Lin W-Y, Cheng M-M, Lu J, et al. Bilateral functions for global motion modeling[C]. Proc. Eur. Conf. Comput. Vis… 2014: 341–356.
[94] Simo-serra E, Trulls E, Ferraz L, et al. Discriminative learning of deep convolutionalfeaturepointdescriptors[C].ProceedingsoftheIEEEInternationalConference on Computer Vision. 2015: 118–126.
[95] Mishchuk A, Mishkin D, Radenovic F, et al. Working hard to know your neighbor’s margins: Local descriptor learning loss[C]. Advances in Neural Information Processing Systems. 2017: 4826–4837.
[96] Wei X, Zhang Y, Gong Y, et al. Kernelized subspace pooling for deep local descriptors[C].ProceedingsoftheIEEEConferenceonComputerVisionandPattern Recognition. 2018: 1867–1875.
[97] Ono Y, Trulls E, Fua P, et al. LF-Net: learning local features from images[C]. Advances in Neural Information Processing Systems. 2018: 6237–6247.
[98] DetoneD,MalisiewiczT,RabinovichA.Superpoint: Self-supervised interest point detection and description[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2018: 224–236.
[99] Han X, Leung T, Jia Y, et al. Matchnet: Unifying feature and metric learning for patch-based matching[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 3279–3286.
[100] WangJ,ZhouF,WenS,etal.Deep metric learning with angularl oss[C].ProceedingsoftheIEEEInternationalConferenceonComputerVision.2017: 2593–2601.
[101] Sch?nberger J L, Hardmeier H, Sattler T, et al. Comparative evaluation of handcrafted and learned local features[C]. Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on. 2017: 6959–6968.
[102] Tian Y, Fan B, Wu F, et al. L2-Net: Deep Learning of Discriminative Patch Descriptor in Euclidean Space.[C]. Cvpr: Vol 1. 2017: 6.
[103] Zbontar J, Lecun Y. Stereo matching by training a convolutional neural network to compare image patches[J]. Journal of Machine Learning Research, 2016, 17(132): 2.
[104] Revaud J, Weinzaepfel P, Harchaoui Z, et al. Deepmatching: Hierarchical deformable dense matching[J]. International Journal of Computer Vision, 2016, 120(3): 300–323.
[105] Menze M, Heipke C, Geiger A. Object Scene Flow[J]. ISPRS Journal of Photogrammetry and Remote Sensing (JPRS), 2018.
[106] ScharsteinD,SzeliskiR.ATaxonomyandEvaluationofDenseTwo-FrameStereo Correspondence Algorithms[J]. International Journal of Computer Vision, 2002, 47(1-3): 7–42.
[107] ZagoruykoS,KomodakisN.Learning to compare image patches via convolutional neural networks[C].ProceedingsoftheIEEEConferenceonComputerVisionand Pattern Recognition. 2015: 4353–4361.
[108] AltwaijryH,TrullsE,HaysJ,etal.Learning to match aerial images with deep attentive architectures[C].ProceedingsoftheIEEEConferenceonComputerVision and Pattern Recognition. 2016: 3539–3547.
[109] Balakrishnan G, Zhao A, Sabuncu M R, et al. An Unsupervised Learning Model for Deformable Medical Image Registration[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 9252–9260.
[110] Jiang P, Shackleford J A. CNN Driven Sparse Multi-Level B-Spline Image Registration[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 9281–9289.
[111] Qi C R, Su H, Mo K, et al. Pointnet: Deep learning on point sets for 3d classification and segmentation[J]. Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2017, 1(2): 4.
[112] Deng H, Birdal T, Ilic S. Ppfnet: Global context aware local features for robust 3d point matching[J]. Computer Vision and Pattern Recognition (CVPR). IEEE, 2018, 1.
[113] YiKM,TrullsE,OnoY,etal.LearningtoFindGoodCorrespondences[C].Proc. IEEE Conf. Comput. Vis. Pattern Recognit… 2018: 1–9.
[114] Luo Z, Shen T, Zhou L, et al. Geodesc: Learning local descriptors by integrating geometry constraints[C]. Proceedings of the European Conference on Computer Vision (ECCV). 2018: 168–183.
[115] Zhao C, Cao Z, Li C, et al. NM-Net: Mining Reliable Neighbors for Robust Feature Correspondences[J]. arXiv preprint arXiv:1904.00320, 2019.
[116] 趙鍵. 點模式匹配算法研究 [D]. 國防科學(xué)技術(shù)大學(xué), 2012.
[117] 柳成蔭. 基于點特征的多模與多視角圖像非剛性配準算法研究 [D]. 華中科技大 學(xué), 2018.
[118] Tron R, Zhou X, Esteves C, et al. Fast multi-image matching via density-based clustering[C]. Proceedings of the IEEE International Conference on Computer Vision. 2017: 4057–4066.
[119] Maset E, Arrigoni F, Fusiello A. Practical and efficient multi-view matching[C]. Proceedings of the IEEE International Conference on Computer Vision. 2017: 4568–4576.
[120] Hu N, Huang Q, Thibert B, et al. Distributable consistent multi-object matching[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2463–2471.
關(guān)注極市平臺公眾號(ID:extrememart),獲取計算機視覺前沿資訊/技術(shù)干貨/招聘面經(jīng)等
總結(jié)
以上是生活随笔為你收集整理的武大上交发布首篇「图像匹配」大领域综述!涵盖 8 个子领域,汇总近 20年经典方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 显著改善分割预测,ETH开源基于情景图储
- 下一篇: 50种Matplotlib科研论文绘图合