从2D到3D的目标检测综述
點(diǎn)云PCL免費(fèi)知識(shí)星球,點(diǎn)云論文速讀。
文章:An Overview Of 3D Object Detection
作者:Yilin Wang? Jiayi Ye
翻譯:分享者
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪除。歡迎各位加入免費(fèi)知識(shí)星球,獲取PDF論文,歡迎轉(zhuǎn)發(fā)朋友圈分享快樂(lè)。
論文閱讀模塊將分享點(diǎn)云處理,SLAM,三維視覺(jué),高精地圖相關(guān)的文章。公眾號(hào)致力于理解三維視覺(jué)領(lǐng)域相關(guān)內(nèi)容的干貨分享,歡迎各位加入我,我們一起每天一篇文章閱讀,開(kāi)啟分享之旅,有興趣的可聯(lián)系微信dianyunpcl@163.com。
●論文摘要
基于點(diǎn)云三維目標(biāo)檢測(cè)近年來(lái)逐漸成為三維計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)活躍的研究課題。然而,由于點(diǎn)云的復(fù)雜性,在激光雷達(dá)(LiDAR)中識(shí)別三維物體仍然是一個(gè)挑戰(zhàn)。行人、騎車(chē)或交通要素等目標(biāo)通常由非常稀疏的點(diǎn)云表示,這使得僅使用點(diǎn)云進(jìn)行檢測(cè)變得相當(dāng)復(fù)雜。在本綜述文章中,提出一個(gè)同時(shí)使用RGB和點(diǎn)云數(shù)據(jù)進(jìn)行多類(lèi)別物體識(shí)別的架構(gòu)。利用現(xiàn)有的二維檢測(cè)模型在RGB圖像上定位感興趣區(qū)域(ROI),然后在點(diǎn)云中采用像素映射策略,最后將初始的2D邊界框映射到3D空間。我們使用最近發(fā)布的nuScenes數(shù)據(jù)集-一個(gè)包含許多數(shù)據(jù)格式的大型數(shù)據(jù)集來(lái)訓(xùn)練和評(píng)估我們提出的體系結(jié)構(gòu)。
●?相關(guān)工作與介紹
目標(biāo)檢測(cè)的任務(wù)是找到圖像中的所有感興趣區(qū)域(ROI),并確定它們的位置和類(lèi)別。由于各種物體的外觀、形狀和姿態(tài)的不同,以及成像過(guò)程中光照、遮擋等因素的干擾,目標(biāo)檢測(cè)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)具有挑戰(zhàn)性的問(wèn)題。在這篇文獻(xiàn)綜述中,主要總結(jié)了一些最新的目標(biāo)檢測(cè)相關(guān)工作。
● 內(nèi)容精華
數(shù)據(jù)格式
A、 數(shù)據(jù)集
在計(jì)算機(jī)圖形學(xué)中,深度圖是一種包含場(chǎng)景中對(duì)象到視點(diǎn)的距離的信息的圖像。深度圖類(lèi)似于灰度圖像,只是每個(gè)像素都是傳感器和物體之間的距離信息。一般來(lái)說(shuō),RGB圖像和深度圖像像素之間存在一對(duì)一的對(duì)應(yīng)關(guān)系,RGB-D格式的數(shù)據(jù)集包括Pascal VOC、COCO、ImageNet等。
雷達(dá)數(shù)據(jù)在目標(biāo)檢測(cè)問(wèn)題中也很有用。雷達(dá)數(shù)據(jù)通過(guò)向目標(biāo)表面發(fā)射無(wú)線電波來(lái)采集距離,然后利用反射信息計(jì)算目標(biāo)的速度和與目標(biāo)的距離。然而,雷達(dá)本身并不能提供足夠的信息進(jìn)行檢測(cè)和分類(lèi),因此不同類(lèi)型的數(shù)據(jù)融合非常重要。
點(diǎn)云數(shù)據(jù)是指三維坐標(biāo)系中的一組向量。這些矢量通常用X、Y和Z三維坐標(biāo)表示,通常用來(lái)表示物體的外表面形狀。不僅如此,除了由(X,Y,Z)表示的幾何位置信息外,每個(gè)點(diǎn)云還可能包括RGB顏色像素、灰度值、深度和法線。大多數(shù)點(diǎn)云數(shù)據(jù)是由三維掃描設(shè)備生成的,如激光雷達(dá)(2D/3D)、立體相機(jī)和飛行時(shí)間相機(jī)。這些設(shè)備自動(dòng)測(cè)量物體表面上大量點(diǎn)的信息,然后通常以兩種標(biāo)準(zhǔn)文件格式輸出點(diǎn)云:LAS和.LAZ。這些點(diǎn)云數(shù)據(jù)由掃描設(shè)備采集。在用于訓(xùn)練的數(shù)據(jù)集中,除了點(diǎn)云數(shù)據(jù)外,還會(huì)有相應(yīng)的RGB圖像。此類(lèi)數(shù)據(jù)集包括KITTI、nuScenes、Waymo Open等。
文獻(xiàn)中使用nuScenes數(shù)據(jù)集來(lái)訓(xùn)練和評(píng)估模型。nuTonomy的nuScenes數(shù)據(jù)集是一個(gè)具有三維對(duì)象標(biāo)注的大型自動(dòng)駕駛數(shù)據(jù)集。與許多其他數(shù)據(jù)集相比,nuScenes數(shù)據(jù)集不僅具有更大的規(guī)模和更多的對(duì)象標(biāo)記,而且提供了包括LIDAR、雷達(dá)、GPS和IMU在內(nèi)的整個(gè)傳感器套件。圖1展示了nuScenes的激光雷達(dá)點(diǎn)云示例。
B、 預(yù)處理
雖然數(shù)據(jù)集中的圖像質(zhì)量較高,但在實(shí)際應(yīng)用中,天氣等因素會(huì)影響圖像質(zhì)量,從而降低檢測(cè)精度。最近提出的一些交通場(chǎng)景除霧算法可以解決這類(lèi)問(wèn)題。有論文提出了一種基于伽馬校正和引導(dǎo)濾波的除霧方法。該方法在除霧前對(duì)圖像進(jìn)行g(shù)amma校正,然后對(duì)gamma校正后的圖像進(jìn)行三種不同尺度的引導(dǎo)濾波處理。利用Retinex模型對(duì)濾波后的圖像進(jìn)行修正,最后進(jìn)行加權(quán)融合得到去霧效果。該方法得到的除霧圖像具有較高的對(duì)比度和顏色一致性。除了提高圖像質(zhì)量外,相機(jī)校準(zhǔn)通常用于確定圖像在三維空間中的位置。雖然相機(jī)標(biāo)定一直是一個(gè)被廣泛研究的問(wèn)題,但是大多數(shù)的標(biāo)定方法都是固定攝像機(jī)的位置并使用一些已知的標(biāo)定模式。Basu提出了一種利用場(chǎng)景中清晰的邊緣和移動(dòng)攝像機(jī)來(lái)自動(dòng)標(biāo)定攝像機(jī)的方法,而不需要預(yù)先定義模式。除上述問(wèn)題外,有些數(shù)據(jù)集還存在嚴(yán)重的類(lèi)不平衡問(wèn)題。有論文提出了一種有效處理這一問(wèn)題的方法,并在新的數(shù)據(jù)集中取得了良好的性能。首先采用數(shù)據(jù)擴(kuò)充策略,然后對(duì)三維特征提取網(wǎng)絡(luò)進(jìn)行改進(jìn),最后對(duì)訓(xùn)練過(guò)程和損失評(píng)估進(jìn)行全面改進(jìn)。
二維目標(biāo)檢測(cè)
A、 傳統(tǒng)方法
傳統(tǒng)的目標(biāo)檢測(cè)算法通常基于各種特征描述子。一個(gè)著名的描述符是定向梯度直方圖(HOG)。它統(tǒng)計(jì)圖像局部漸變方向的出現(xiàn)次數(shù)。Hog特征與SVM分類(lèi)器相結(jié)合在目標(biāo)檢測(cè)中得到了廣泛的應(yīng)用,特別是在行人檢測(cè)方面取得了很大的成功。特征檢測(cè)在傳統(tǒng)方法中占有重要地位。近年來(lái),人們對(duì)特征提取進(jìn)行了許多有趣的研究。Hough變換是圖像幾何形態(tài)識(shí)別的基本方法之一。例如,在人臉跟蹤問(wèn)題中利用基于梯度的Hough變換來(lái)定位眼睛的mask位置。然而,對(duì)于具有非單視點(diǎn)(SVP)準(zhǔn)則的圖像,這種變換不能直接用于特征識(shí)別。在地面空中交通場(chǎng)景中,[16]將Radon變換應(yīng)用于視覺(jué)手勢(shì)識(shí)別,獲得了很好的識(shí)別率。在前人的研究中,提出了一種新的鼻形研究方法。該方法采用面積增長(zhǎng)法確定機(jī)頭所在區(qū)域,并通過(guò)預(yù)先定義的模板分別提取機(jī)頭和機(jī)頭翼的形狀。最后,利用提取的特征來(lái)表示人臉跟蹤的效果。一旦檢測(cè)到感興趣的特征,就可以使用Kanade–Lucas–Tomasi特征跟蹤器(KLT)來(lái)跟蹤下一幀中的特征。作者在2005年[18]提出了一種利用拉普拉斯高斯(LoG)和高斯加權(quán)函數(shù)來(lái)提高KLT跟蹤性能的方法。將邊緣特征耦合到加權(quán)函數(shù)中,得到了選擇最優(yōu)加權(quán)函數(shù)的確定性公式。這樣,在提高跟蹤性能的同時(shí),增加了一點(diǎn)計(jì)算時(shí)間。有時(shí)除了特征提取外,還涉及圖像分割。[19] 介紹了一種利用梯度矢量流(GVF)snakes在三維切片上提取相關(guān)輪廓的方法。對(duì)原有的GVF-snake方法進(jìn)行了改進(jìn),利用氣道CT切片的先驗(yàn)知識(shí),增加了邊緣檢測(cè)和snake偏移技術(shù),取得了較好的效果。這種技術(shù)也可能有用。另一個(gè)問(wèn)題是攝像機(jī)運(yùn)動(dòng)引起的,隨著采集數(shù)據(jù)的設(shè)備類(lèi)型的增加,來(lái)自運(yùn)動(dòng)攝像機(jī)的數(shù)據(jù)越來(lái)越多。對(duì)于背景減法問(wèn)題,雖然許多方法對(duì)從靜止相機(jī)獲得的數(shù)據(jù)都很有效,例如,在先驗(yàn)知識(shí)下,前景和背景在每一幀中有很大的區(qū)別,聚類(lèi)可以在一次迭代中完成,只需要兩個(gè)簇,[20] 能夠?qū)崿F(xiàn)高精度的背景減法。然而,處理移動(dòng)攝像機(jī)更具挑戰(zhàn)性。該方法首先利用魯棒主成分分析(RPCA)提取背景運(yùn)動(dòng),假設(shè)背景場(chǎng)景運(yùn)動(dòng)可以描述為一個(gè)低秩矩陣,然后將幀分割成子像素,以提高將光流轉(zhuǎn)化為運(yùn)動(dòng)幅度和角度的精度,從而提高了結(jié)果。
B、 深度學(xué)習(xí)方法
目標(biāo)識(shí)別是指一組相關(guān)的任務(wù),用于識(shí)別圖像或視頻中的對(duì)象。目標(biāo)是找到圖像中所有感興趣的對(duì)象并確定它們的二維位置。感興趣的區(qū)域通常由邊界框定義。目前,目標(biāo)檢測(cè)領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類(lèi):一級(jí)目標(biāo)檢測(cè)算法和一級(jí)目標(biāo)檢測(cè)算法。前者是由算法生成的一系列候選框作為樣本,然后用卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本進(jìn)行分類(lèi)。后者可以直接將目標(biāo)邊界定位問(wèn)題轉(zhuǎn)化為回歸問(wèn)題,而無(wú)需生成候選框。由于兩種方法的不同,兩種方法的性能也不同。前者在檢測(cè)精度和定位精度上優(yōu)于后者,后者在算法速度上優(yōu)于后者。此外,泛型框架主要有兩種類(lèi)型。第一個(gè)是兩階段框架。在這種框架中,區(qū)域建議被生成并隨后被劃分為不同的對(duì)象類(lèi)別。因此也被稱為基于區(qū)域的方法。這類(lèi)模型主要包括R-CNN、Fast-RCNN、更快的R-CNN、基于區(qū)域的全卷積網(wǎng)絡(luò)(R-FCN)等。在單階段,模型將目標(biāo)檢測(cè)任務(wù)視為一個(gè)統(tǒng)一的、端到端的回歸問(wèn)題。在這種框架中,圖像被縮放到相同的大小,并被均勻地分成網(wǎng)格。如果目標(biāo)的中心落在網(wǎng)格單元中,則該網(wǎng)格單元負(fù)責(zé)預(yù)測(cè)目標(biāo)。這樣,模型只需對(duì)圖像進(jìn)行一次處理,就可以同時(shí)得到圖像的位置和分類(lèi)。一級(jí)框架主要包括MultiBox、YOLO、Single Shot MultiBox Detector(SSD)。與第一類(lèi)框架相比,這種框架通常具有更簡(jiǎn)單的結(jié)構(gòu)和更快的檢測(cè)速度。
三維目標(biāo)檢測(cè)
在這一部分中,我們簡(jiǎn)要地討論了一些現(xiàn)有的與三維物體檢測(cè)相關(guān)的工作。我們根據(jù)不同的數(shù)據(jù)信息將這些作品分為三大類(lèi)。
A、 利用RGB圖像進(jìn)行目標(biāo)檢測(cè)RGB圖像具有豐富的語(yǔ)義信息,在目標(biāo)檢測(cè)中具有重要的應(yīng)用價(jià)值。2是使用2D圖像的對(duì)象檢測(cè)示例。3D-GCK[29]等方法只使用單眼RGB圖像,可以實(shí)現(xiàn)實(shí)時(shí)車(chē)輛檢測(cè)。它首先預(yù)測(cè)二維邊界框,然后利用神經(jīng)網(wǎng)絡(luò)估計(jì)缺失的深度信息,將二維邊界框提升到三維空間。
B、 基于點(diǎn)云的目標(biāo)檢測(cè)
主要有兩種類(lèi)型的分類(lèi)網(wǎng)絡(luò)只使用點(diǎn)云數(shù)據(jù)。第一種方法直接使用三維點(diǎn)云數(shù)據(jù)。這種方法不會(huì)損失信息,但由于三維數(shù)據(jù)的復(fù)雜性,計(jì)算量往往很高。第二種方法通過(guò)將點(diǎn)云處理成二維數(shù)據(jù)來(lái)減少計(jì)算量,但不可避免地會(huì)丟失原始數(shù)據(jù)的某些特征。圖3顯示了三維激光雷達(dá)點(diǎn)云數(shù)據(jù)中的檢測(cè)示例。
基于yolo實(shí)現(xiàn)的3D點(diǎn)云的目標(biāo)檢測(cè)
有很多方法可以將點(diǎn)云處理為二維數(shù)據(jù)。詹森的方法是通過(guò)使用幾個(gè)二維透視圖來(lái)表示三維點(diǎn)云。在數(shù)據(jù)預(yù)處理階段,以圖像中心為原點(diǎn),以固定半徑旋轉(zhuǎn),從64個(gè)不同角度截取點(diǎn)云圖像。由于在分類(lèi)過(guò)程中加入了額外的旋轉(zhuǎn)和大量的實(shí)例,因此該方法在一定程度上減少了信息的丟失。盡可能多地把信息留給其他人。BirdNet+是BirdNet的一個(gè)改進(jìn),BirdNet是一個(gè)對(duì)象檢測(cè)框架。BirdNet+為激光雷達(dá)數(shù)據(jù)上的3D目標(biāo)檢測(cè)提供了端到端解決方案。它采用由LiDAR點(diǎn)云變換而成的具有三個(gè)通道的二維結(jié)構(gòu)的鳥(niǎo)瞰圖表示,采用兩級(jí)結(jié)構(gòu)來(lái)獲得面向三維的盒體。最近,論文提出了一種基于無(wú)監(jiān)督深度學(xué)習(xí)的計(jì)算效率高的端到端魯棒點(diǎn)云對(duì)齊和目標(biāo)識(shí)別方法,即deep point cloud Mapping Network(DPC-MN)。該模型無(wú)需標(biāo)注即可訓(xùn)練,有效地實(shí)現(xiàn)了從三維點(diǎn)云表示到二維視圖的映射功能。
C、 結(jié)合RGB圖像和點(diǎn)云
Frustum PointNets目標(biāo)檢測(cè)同時(shí)使用RGB圖像和激光雷達(dá)點(diǎn)云數(shù)據(jù)進(jìn)行三維目標(biāo)檢測(cè)。該算法充分利用了成熟的二維目標(biāo)檢測(cè)器,減少了搜索空間。該算法通過(guò)從圖像檢測(cè)器中擠出二維邊界盒,提取物體的三維包圍體,然后在被三維視錐分割的三維空間中進(jìn)行三維物體實(shí)例分割。
MV3D?實(shí)現(xiàn)的目標(biāo)檢測(cè)
MV3D還使用RGB圖像和激光雷達(dá)點(diǎn)云數(shù)據(jù)作為輸入。它將三維點(diǎn)云投影到鳥(niǎo)瞰視圖和前視圖。鳥(niǎo)瞰圖由高度、強(qiáng)度和密度編碼而成,而正視圖是通過(guò)將點(diǎn)云投影到圓柱面上而生成的。利用鳥(niǎo)瞰圖生成三維先驗(yàn)框,然后將三維先驗(yàn)框投影到正視圖和圖像上。所有三個(gè)輸入都生成一個(gè)特征映射。采用ROI池技術(shù)將三個(gè)特征映射集成到同一個(gè)維度上。融合后的數(shù)據(jù)通過(guò)網(wǎng)絡(luò)融合,輸出分類(lèi)結(jié)果和邊界盒。
資源
三維點(diǎn)云論文及相關(guān)應(yīng)用分享
【點(diǎn)云論文速讀】基于激光雷達(dá)的里程計(jì)及3D點(diǎn)云地圖中的定位方法
3D目標(biāo)檢測(cè):MV3D-Net
三維點(diǎn)云分割綜述(上)
3D-MiniNet: 從點(diǎn)云中學(xué)習(xí)2D表示以實(shí)現(xiàn)快速有效的3D LIDAR語(yǔ)義分割(2020)
win下使用QT添加VTK插件實(shí)現(xiàn)點(diǎn)云可視化GUI
JSNet:3D點(diǎn)云的聯(lián)合實(shí)例和語(yǔ)義分割
大場(chǎng)景三維點(diǎn)云的語(yǔ)義分割綜述
PCL中outofcore模塊---基于核外八叉樹(shù)的大規(guī)模點(diǎn)云的顯示
基于局部凹凸性進(jìn)行目標(biāo)分割
基于三維卷積神經(jīng)網(wǎng)絡(luò)的點(diǎn)云標(biāo)記
點(diǎn)云的超體素(SuperVoxel)
基于超點(diǎn)圖的大規(guī)模點(diǎn)云分割
更多文章可查看:點(diǎn)云學(xué)習(xí)歷史文章大匯總
SLAM及AR相關(guān)分享
【開(kāi)源方案共享】ORB-SLAM3開(kāi)源啦!
【論文速讀】AVP-SLAM:自動(dòng)泊車(chē)系統(tǒng)中的語(yǔ)義SLAM
【點(diǎn)云論文速讀】StructSLAM:結(jié)構(gòu)化線特征SLAM
SLAM和AR綜述
常用的3D深度相機(jī)
AR設(shè)備單目視覺(jué)慣導(dǎo)SLAM算法綜述與評(píng)價(jià)
SLAM綜述(4)激光與視覺(jué)融合SLAM
Kimera實(shí)時(shí)重建的語(yǔ)義SLAM系統(tǒng)
SLAM綜述(3)-視覺(jué)與慣導(dǎo),視覺(jué)與深度學(xué)習(xí)SLAM
易擴(kuò)展的SLAM框架-OpenVSLAM
高翔:非結(jié)構(gòu)化道路激光SLAM中的挑戰(zhàn)
SLAM綜述之Lidar SLAM
基于魚(yú)眼相機(jī)的SLAM方法介紹
往期線上分享錄播匯總
第一期B站錄播之三維模型檢索技術(shù)
第二期B站錄播之深度學(xué)習(xí)在3D場(chǎng)景中的應(yīng)用
第三期B站錄播之CMake進(jìn)階學(xué)習(xí)
第四期B站錄播之點(diǎn)云物體及六自由度姿態(tài)估計(jì)
第五期B站錄播之點(diǎn)云深度學(xué)習(xí)語(yǔ)義分割拓展
第六期B站錄播之Pointnetlk解讀
[線上分享錄播]點(diǎn)云配準(zhǔn)概述及其在激光SLAM中的應(yīng)用
[線上分享錄播]cloudcompare插件開(kāi)發(fā)
[線上分享錄播]基于點(diǎn)云數(shù)據(jù)的?Mesh重建與處理
[線上分享錄播]機(jī)器人力反饋遙操作技術(shù)及機(jī)器人視覺(jué)分享
[線上分享錄播]地面點(diǎn)云配準(zhǔn)與機(jī)載點(diǎn)云航帶平差
點(diǎn)云PCL更多活動(dòng)請(qǐng)查看:點(diǎn)云PCL活動(dòng)之應(yīng)屆生校招群
掃描下方微信視頻號(hào)二維碼可查看最新研究成果及相關(guān)開(kāi)源方案的演示:
如果你對(duì)本文感興趣,請(qǐng)點(diǎn)擊“原文閱讀”獲取知識(shí)星球二維碼,務(wù)必按照“姓名+學(xué)校/公司+研究方向”備注加入免費(fèi)知識(shí)星球,免費(fèi)下載pdf文檔,和更多熱愛(ài)分享的小伙伴一起交流吧!
掃描二維碼
? ? ? ? ? ? ? ? ? ?關(guān)注我們
讓我們一起分享一起學(xué)習(xí)吧!期待有想法,樂(lè)于分享的小伙伴加入免費(fèi)星球注入愛(ài)分享的新鮮活力。分享的主題包含但不限于三維視覺(jué),點(diǎn)云,高精地圖,自動(dòng)駕駛,以及機(jī)器人等相關(guān)的領(lǐng)域。
分享及合作:微信“920177957”(需要按要求備注)聯(lián)系郵箱:dianyunpcl@163.com,歡迎企業(yè)來(lái)聯(lián)系公眾號(hào)展開(kāi)合作。
點(diǎn)一下“在看”你會(huì)更好看耶
總結(jié)
以上是生活随笔為你收集整理的从2D到3D的目标检测综述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Open3d学习计划—高级篇 4(多视角
- 下一篇: DOT:视觉SLAM的动态目标物跟踪