目标检测简要综述
目標檢測簡要綜述
目標檢測(Object Detection)是計算機視覺領域中一個基礎性的研究課題,主要包含兩類不同的檢測任務:目標實例檢測(Instance Object Detection)和目標類別檢測(Generic Object Detection).
研究和實際意義
第一類檢測任務的目標是識別并定位輸入圖像中已知特定的某個或多個物體,例如一輛特定的汽車.這類任務可認為是特定物體的樣本集和待檢測輸入圖像中特定物體間的匹配問題,樣本集和待檢測輸入圖像中的目標的差異主要源自成像條件的變化.第二類檢測任務關注分類并定位預定義類別涵蓋的所有可能個體,例如車輛檢測、行人檢測.與目標實例檢測任務相比,目標類別檢測更具挑戰性.因為真實世界中很多不同類別間物體的視覺差異是很小的,而且同一類物體間的差異不僅受成像條件變化的影響,還受物體物理屬性變化的影響,例如,在生物學上花是極為多樣的,個體間的顏色、紋理和形狀是千變萬化的.在真實場景中目標通常只占據整個場景的小部分而且可能被其它物體遮擋,或者場景中伴隨出現視覺上相似的背景結構,這些情形的出現也對目標檢測任務構成極大的挑戰.
總之,目標檢測任務可分為兩個關鍵的子任務:目標分類和目標定位.目標分類任務負責判斷輸入圖像中是否有感興趣類別的物體出現,輸出一系列帶分數的標簽表明感興趣類別的物體出現在輸入圖像的可能性.目標定位任務負責確定輸入圖像中感興趣類別的物體的位置和范圍,輸出物體的包圍盒,或物體中心,或物體的閉合邊界等,通常方形包圍盒是最常用的選擇.
目標檢測是大量高級視覺任務的必備前提,包括活動或事件識別、場景內容理解等.而且目標檢測也被應用到很多實際任務,例如智能視頻監控[1],基于內容的圖像檢索[2],機器人導航[3]和增強現實[4]等.目標檢測對計算機視覺領域和實際應用具有重要意義,在過去幾十年里激勵大批研究人員密切關注并投入研究.而且隨著強勁的機器學習理論和特征分析技術的發展,近十幾年目標檢測課題相關的研究活動有增無減,每年都有最新的研究成果和實際應用發表和公布.盡管如此,當前方法的檢測準確率仍然較低而不能應用于實際通用的檢測任務.因此,目標檢測還遠未被完美解決,仍舊是重要的挑戰性的研究課題.
研究工作綜述
目前不管是目標實例檢測還是目標類別檢測課題,都存在著大量研究工作.
目標實例檢測
對于目標實例檢測,根據物體實例表觀特征的判別性可以進一步細分為無紋理目標實例檢測和紋理目標實例檢測.真實世界中大量人造物體是無紋理或少紋理的,例如杯子,手機等.對于無紋理或少紋理的物體,視覺特征不能穩定可靠地被提取到,它們難以被識別和檢測.由于沒有穩定的判別力強的特征點,無紋理或少紋理目標的判別性主要由目標的輪廓和形狀決定.當目標紋理豐富時,目標實例上能夠提取穩定豐富的特征點和相應的特征描述子,紋理物體可以基于這些特征點和特征描述子被準確識別和檢測.SIFT[5]、其它判別性特征描述子PCA-SIFT[6]、SURF[7]等的發展對紋理物體的識別和檢測產生了重大影響.SIFT提取多尺度空間上高斯差分圖的極值點作為特征點,并在每個特征點的鄰域內計算梯度方向直方圖作為特征描述子.SIFT特征具有尺度不變性,并且對圖像旋轉和光照變化也有較強的魯棒性,應用于富紋理物體檢測有較好效果.由于無紋理物體上較難提取穩定的判別力強的特征點,上文描述的基于特征點的物體實例檢測方法并不適用于無紋理物體實例檢測.無紋理物體主要是由它的輪廓結構定義.大部分無紋理物體實例檢測是基于模板匹配方式的.早期的模板匹配方法[8]和它的擴展[9]使用Chamfer距離度量模板和輸入圖像輪廓之間的差異.距離通過距離變換有效地計算,但是這種方法對外點極為敏感.另一種二值圖像的距離度量方式是Hausdorff距離[10],它易受遮擋和復雜背景的影響.所有這些方法使用的二值圖像是通過邊緣提取算法[11]得到的, 因此它們對光照變化和噪聲極為敏感.Hinterstoisser a[12]Hinterstoisser b[13]為了避免上述算法的缺陷,提出使用圖像梯度而不是圖像輪廓作為匹配的特征.Hinterstoisser a[12]Hinterstoisser b[13]相繼提出了兩種基于圖像梯度方向作為特征的使用模板匹配技術的無紋理物體檢測算法,它們提出了新穎的圖像梯度方向特征的二進制表示方式,能夠在背景復雜環境下實時檢測多類無紋理物體.然而,這兩種方法并未顯式地考慮物體邊緣輪廓的連通性約束,在復雜背景下易與相似形狀的背景產生混淆,因此具有一定的誤檢率.后續工作Rios-Cabrera a[14]Rios-Cabrera b[15]通過機器學習改進模板上特征的判別性,來提高檢測準確率.為了強化邊緣連通性的約束,Hsiao c[16]提出一種新的形狀匹配算法,該算法通過在圖像梯度上構建一張圖模型,能夠顯式地獲得輪廓連通性約束.算法通過迭代優化,為每個像素計算匹配到目標形狀的概率.該方法能夠提高檢測準確率,但是不能實時處理視頻或圖像序列.文獻12-16逐步完善了基于圖像梯度的無紋理物體實例檢測算法,然而所有算法都沒能解決遮擋對檢測準確率造成衰減的問題.遮擋在計算機視覺領域各個課題中都是比較棘手的問題.Hsiao d[17]提出了針對任意視點情況下物體檢測的遮擋模型,它利用場景中物件尺寸的統計信息和目標物體自身的尺寸,為物體建立遮擋模型和遮擋條件模型.針對特定環境建立的遮擋模型能較好的建模遮擋,提高物體檢測準確率.然而,針對每個特殊場景建立遮擋模型較為繁瑣復雜,不具普適性.關于遮擋模型的建立是淺嘗輒止,建立新的更為普適的模型仍非常困難.另一方面,為了增加檢測的魯棒性,多模態的數據使用也越來越被關注, 18-19使用深度信息提取物體的表面法向用于匹配,增加了檢測算法的魯棒性.文獻20詳細分析了目標實例檢測中的各種亟待解決的問題,并提出了一定的解決方案.
目標類別檢測
對于目標類別檢測,相關研究工作一直是計算機視覺的研究熱點.特殊類別的目標檢測,例如人臉和行人,檢測技術已經較為成熟.Viola[21]提出基于AdaBoost算法框架,使用Haar-like小波特征分類,然后采用滑動窗口搜索策略實現準確有效地定位.它是第一種能實時處理并給出很好檢測率的物體類別檢測算法,主要應用于人臉檢測.Dalal[22] 提出使用圖像局部梯度方向直方圖(HOG)作為特征,利用支持向量機(SVM)作為分類器進行行人檢測.更為普遍的目標檢測工作關注自然圖像中一般類別的檢測.自然界的大部分物體具有運動能力,會發生非剛體形變,為此Felzenszwalb[23]提出了目標類別檢測最具影響力的方法之一多尺度形變部件模型(DPM),繼承了使用HOG特征和SVM分類器的優點.DPM目標檢測器由一個根濾波器和一些部件濾波器組成,組件間的形變通過隱變量進行推理.由于目標模板分辨率固定,算法采用滑動窗口策略在不同尺度和寬高比圖像上搜索目標.后續工作采用不同策略加速了DPM的窮盡搜索策略.Malisiewicz[24]提出一種簡單高效的集成學習算法用于目標類別檢測,該方法分別為每個正樣本訓練一個使用HOG特征的線性SVM,通過集成每個樣本的線性SVM結果達到優良的泛化性能.Ren[25]認為先前基于HOG特征的檢測方法中HOG特征是人為設計的,判別能力弱且不直觀,為此提出一種基于稀疏表達學習理論的稀疏編碼直方圖特征(HSC),并用HSC代替DPM目標檢測算法中HOG特征,檢測準確率高于原方法.Wang[26]為去除DPM模型需要人為指定組件個數及組件間關系和窮盡搜索的限制,提出了一種新的特征表達方式Regionlets,采用選擇性搜索策略對每個候選檢測包圍盒進行多種區域特征的集成級聯式分類.Regionlets保留了目標的空間結構關系,靈活地描述目標,包括發生形變的目標.2012年前,目標檢測中分類任務的框架就是使用人為設計的特征訓練淺層分類器完成分類任務,最佳算法是基于DPM框架的各種改進算法.2012年,Krizhevsky[27]提出基于深度學習理論的深度卷積神經網(DCNN)的圖像分類算法,使圖像分類的準確率大幅提升,同時也帶動了目標檢測準確率的提升.Szegedy[28]將目標檢測問題看做目標mask的回歸問題,使用DCNN作為回歸器預測輸入圖像中目標的mask.Erhan[29]使用DCNN對目標的包圍盒進行回歸預測,并給出每個包圍盒包含類別無關對象的置信度.Sermanet[30]提出一種DCNN框架OverFeat,集成了識別、定位和檢測任務,為分類訓練一個CNN,為每個類訓練一個定位用CNN.OverFeat對輸入圖像采用滑動窗口策略用分類模型確定每個窗口中目標的類別,然后使用對應類別的的定位模型預測目標的包圍盒,根據分類分數為每個類選出候選包圍盒進行合并,得到最終的檢測結果.與OverFeat不同,R-CNN[31]采用選擇性搜索策略而不是滑動窗口來提高檢測效率.R-CNN利用選擇性搜索方法在輸入圖像上選擇若干候選包圍盒,對每個包圍盒利用CNN提取特征,輸入到為每個類訓練好的SVM分類器,得到包圍盒屬于每個類的分數.最后,R-CNN使用非極大值抑制方法(NMS)舍棄部分包圍盒,得到檢測結果.上述方法使用的DCNN結構基本源自Krizhevsky的7層網絡結構設計,為了提高DCNN的分類和檢測準確率,Simonyan[32]和Szegedy[33]設計了層數22層的深度卷積神經網絡,采用的檢測框架都類似R-CNN.目前,深度卷積神經網絡是多個目標類別檢測數據集上的state of the art.
挑戰
不管是對目標實例檢測或者目標類別檢測,當前目標檢測仍存在著挑戰,總體來說,挑戰性主要體現在以下兩個方面:魯棒性和計算復雜性.
目標檢測的魯棒性主要由類內表觀差異和類間表觀差異影響,大的類內表觀差異和小的類間表觀差異通常會導致目標檢測方法的魯棒性降低.類內表觀差異是指同類不同個體間的變化,例如,馬的不同個體在顏色、紋理、形狀、姿態等方面存在差異.由于光照、背景、姿態、視點的變化和遮擋的影響,即使同一匹馬在不同的圖像中看起來也會非常不同,使得構建具備泛化能力的表觀模型極為困難.
目標檢測的計算復雜性主要源自待檢測目標類別的數量、類別表觀描述子的維度、大量有標簽數據的獲取.真實世界中物體類別數量成百上千并且表觀描述子是高維度的,大量充足的有標簽數據的獲取極為耗時耗力,因此目標檢測的計算機復雜性較高,設計高效的目標檢測算法至關重要.當前部分工作提出了新的特征匹配方法和定位策略.Dean[34]提出使用局部敏感哈希方法代替匹配中卷積核和圖像間的點乘操作,可以提速近20倍.另一類計算復雜性研究方向關注如何減少目標檢測時的搜索空間,這類方法統稱為選擇性搜索策略(Selective Search)或對象性估計(Objectess Estimation).它們的核心思想是一張圖像中并不是每個子窗口都包含有類別無關的對象,僅有少量候選窗口是目標檢測時有意義的候選窗口.選擇性搜索方法[35]和BING方法[36]是較為常用的候選窗口生成方法.
除此之外,人工標注大量目標類別檢測數據是極為耗時耗力的工作,現今最為常用的目標類別檢測數據集有ImageNet[37]、PASCAL VOC[38]、SUN[39]和Microsoft COCO[40]等.因此目標檢測面臨的兩大挑戰依沒變,高準確率高效率的目標檢測算法的設計依舊是有意義的開放性問題.
Reference
[1] Aggarwal J K, Ryoo M S. Human activity analysis: A review[J]. ACM Computing Surveys (CSUR), 2011, 43(3): 16.[2] Datta R, Joshi D, Li J, et al. Image retrieval: Ideas, influences, and trends of the new age[J]. ACM Computing Surveys (CSUR), 2008, 40(2): 5.
[3] Krüger V, Kragic D, Ude A, et al. The meaning of action: a review on action recognition and mapping[J]. Advanced Robotics, 2007, 21(13): 1473-1501.
[4] Palmese M, Trucco A. From 3-D sonar images to augmented reality models for objects buried on the seafloor[J]. Instrumentation and Measurement, IEEE Transactions on, 2008, 57(4): 820-828.
[5] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision, 2004, 60(2): 91-110.
[6] Ke Y, Sukthankar R. PCA-SIFT: A more distinctive representation for local image descriptors[C]//Computer Vision and Pattern Recognition, 2004. CVPR 2004.
Proceedings of the 2004 IEEE Computer Society Conference on. IEEE, 2004, 2: II-506-II-513 Vol. 2.
[7] Bay H, Tuytelaars T, Van Gool L. Surf: Speeded up robust features[M]//Computer Vision–ECCV 2006. Springer Berlin Heidelberg, 2006: 404-417.
[8] Olson C F, Huttenlocher D P. Automatic target recognition by matching oriented edge pixels[J]. Image Processing, IEEE Transactions on, 1997, 6(1): 103-113.
[9] Gavrila D M, Philomin V. Real-time object detection for “smart” vehicles[C]//Computer Vision, 1999. The Proceedings of the Seventh IEEE International Conference on. IEEE, 1999, 1: 87-93.
[10] Rucklidge W J. Efficiently locating objects using the Hausdorff distance[J]. International Journal of computer vision, 1997, 24(3): 251-270.
[11] Canny J. A computational approach to edge detection[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 1986 (6): 679-698.
[12] Hinterstoisser S, Lepetit V, Ilic S, et al. Dominant orientation templates for real-time detection of texture-less objects[C]//Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010: 2257-2264.
[13] Hinterstoisser S, Cagniart C, Ilic S, et al. Gradient response maps for real-time detection of textureless objects[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2012, 34(5): 876-888.
[14] Rios-Cabrera R, Tuytelaars T. Discriminatively Trained Templates for 3D Object Detection: A Real Time Scalable Approach[C]//Computer Vision (ICCV), 2013 IEEE International Conference on. IEEE, 2013: 2048-2055.
[15] Rios-Cabrera R, Tuytelaars T. Boosting masked dominant orientation templates for efficient object detection[J]. Computer Vision and Image Understanding, 2014, 120: 103-116.
[16] Hsiao E, Hebert M. Gradient Networks: Explicit Shape Matching Without Extracting Edges[C]//AAAI. 2013.
[17] Hsiao E, Hebert M. Occlusion reasoning for object detection under arbitrary viewpoint[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012: 3146-3153.
[18] Hinterstoisser S, Holzer S, Cagniart C, et al. Multimodal templates for real-time detection of texture-less objects in heavily cluttered scenes[C]//Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011: 858-865.
[19] Hinterstoisser S, Lepetit V, Ilic S, et al. Model based training, detection and pose estimation of texture-less 3D objects in heavily cluttered scenes[M]//Computer Vision–ACCV 2012. Springer Berlin Heidelberg, 2013: 548-562.
[20] Hsiao E. Addressing ambiguity in object instance detection. Doctoral dissertation, tech. report CMU-RI-TR-13-16, Carnegie Mellon University, 2013.
[21] Viola P, Jones M. Rapid object detection using a boosted cascade of simple features[C]//Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on. IEEE, 2001, 1: I-511-I-518 vol. 1.
[22] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on. IEEE, 2005, 1: 886-893.
[23] Felzenszwalb P F, Girshick R B, McAllester D, et al. Object detection with discriminatively trained part-based models[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2010, 32(9): 1627-1645.
[24] Malisiewicz T, Gupta A, Efros A A. Ensemble of exemplar-svms for object detection and beyond[C]//Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011: 89-96.
[25] Ren X, Ramanan D. Histograms of sparse codes for object detection[C]//Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on. IEEE, 2013: 3246-3253.
[26] Wang X, Yang M, Zhu S, et al. Regionlets for generic object detection[C]//Computer Vision (ICCV), 2013 IEEE International Conference on. IEEE, 2013: 17-24.
[27] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
[28] Szegedy C, Toshev A, Erhan D. Deep neural networks for object detection[C]//Advances in Neural Information Processing Systems. 2013: 2553-2561.
[29] Erhan D, Szegedy C, Toshev A, et al. Scalable Object Detection using Deep Neural Networks[J]. arXiv preprint arXiv:1312.2249, 2013.
[30] Sermanet P, Eigen D, Zhang X, et al. Overfeat: Integrated recognition, localization and detection using convolutional networks[J]. arXiv preprint arXiv:1312.6229, 2013.
[31] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[J]. arXiv preprint arXiv:1311.2524, 2013.
[32] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[33] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[J]. arXiv preprint arXiv:1409.4842, 2014.
[34] Dean T, Ruzon M A, Segal M, et al. Fast, accurate detection of 100,000 object classes on a single machine[C]//Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on. IEEE, 2013: 1814-1821.
[35] Van de Sande K E A, Uijlings J R R, Gevers T, et al. Segmentation as selective search for object recognition[C]//Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011: 1879-1886.
[36] Cheng M M, Zhang Z, Lin W Y, et al. BING: Binarized normed gradients for objectness estimation at 300fps[C]//IEEE CVPR. 2014.
[37] ImageNet. http://image-net.org/.
[38] PASCAL VOC. http://pascallin.ecs.soton.ac.uk/challenges/VOC/.
[39] SUN. http://groups.csail.mit.edu/vision/SUN/.
[40] Microsoft COCO. http://mscoco.org/. 《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀
總結
- 上一篇: 日均请求量百亿级数据处理平台的容器云实践
- 下一篇: 行人检测 读书笔记 综述