3D点云完美匹配
3D點云完美匹配
The Perfect Match: 3D Point Cloud Matching
with Smoothed Densities
地址鏈接:
http://openaccess.thecvf.com/content_CVPR_2019/papers/Gojcic_The_Perfect_Match_3D_Point_Cloud_Matching_With_Smoothed_Densities_CVPR_2019_paper.pdf
代碼鏈接:https://github.com/zgojcic/3DSmoothNet
摘要
提出三維平滑網(wǎng),一個完整的工作流程來匹配三維點云與siamese深度學(xué)習(xí)架構(gòu)和全卷積層使用體素化平滑密度值(SDV)表示。后者按興趣點計算,并與局部參考坐標系(LRF)對齊,以實現(xiàn)旋轉(zhuǎn)不變性。緊湊、學(xué)習(xí)、旋轉(zhuǎn)不變的三維點云描述符在3DMatch基準數(shù)據(jù)集[49]上實現(xiàn)了94.9%的平均召回率,在僅32個輸出維度的情況下,其性能超過最新水平20%以上。這種非常低的輸出維度允許在標準PC上對每個特征點進行0.1毫秒的近實時對應(yīng)搜索。SDV、LRF和學(xué)習(xí)具有完全卷積層的高描述性特征,本文用傳感器和場景診斷。在建筑物的RGB-D室內(nèi)場景上訓(xùn)練的3d smoothnet在室外植被的激光掃描上達到79.0%的平均召回率,比最近的、以學(xué)習(xí)為基礎(chǔ)的競爭對手[49、17、5、4]的性能提高了一倍以上。
貢獻
提出了一種新的用于三維點云匹配的緊湊學(xué)習(xí)局部特征描述子,該描述子計算效率高,性能顯著優(yōu)于現(xiàn)有的所有方法。
一個主要技術(shù)創(chuàng)新是平滑密度值(SDV)體素化,是一種新的輸入數(shù)據(jù)表示方法,適用于標準深度學(xué)習(xí)庫的完全卷積層。SDV的增益是兩倍。一方面,它減少了稀疏性輸入體素網(wǎng)格,在反向傳播過程中有更好的梯度流動,同時減少邊界效應(yīng),以及平滑由于局部參考幀(LRF)估計錯誤而導(dǎo)致的小的未對準。另一方面,模擬了深層網(wǎng)絡(luò)通常在第一層學(xué)習(xí)的平滑,節(jié)省了學(xué)習(xí)高度描述性特征的網(wǎng)絡(luò)容量。
其次,提出了一個具有完全卷積層的暹羅網(wǎng)絡(luò)結(jié)構(gòu),學(xué)習(xí)一個非常緊湊的、旋轉(zhuǎn)不變的3D局部特征描述。這種方法生成低維、高度描述性的特征,這些特征概括了不同的傳感器模式以及從室內(nèi)到室外的場景。
此外,證明了低維特征描述符(只有16或32個輸出維)極大地加快了對應(yīng)搜索的速度,從而允許實時應(yīng)用。
工作流程如下(圖2和3):
(i)給定兩個原始點云。
(ii)計算隨機選擇的興趣點周圍球面鄰域的LRF。
(iii)將鄰域轉(zhuǎn)換為其規(guī)范表示。
(i v)借助高斯平滑對其進行體素化。
(v)推斷每個點的局部特征使用3DSmoothNet的描述符,例如,用作基于RANSAC的健壯點云注冊管道的輸入。
與手工制作的特征表示不同,SDV體素網(wǎng)格表示為輸入提供了幾何信息結(jié)構(gòu),能夠利用卷積層來捕獲點云的局部幾何特征(圖5)。
網(wǎng)絡(luò)架構(gòu)(圖3)受到L2Net[36]的啟發(fā),L2Net是一個最先進的學(xué)習(xí)型局部圖像描述符。3DSmoothNet由堆疊的卷積層組成,在一些卷積層中應(yīng)用2步(而不是最大池)來向下采樣輸入[33]。除最后一層外,所有卷積層后面都是批量標準化[14]并使用ReLU激活函數(shù)[22]。
在3DMatch數(shù)據(jù)集的點云碎片上訓(xùn)練3dsmouthNet(圖3)[49]。這是一個RGB-D數(shù)據(jù)集,由62個真實的室內(nèi)場景組成,從辦公室和酒店房間到桌面和衛(wèi)生間。從數(shù)據(jù)集池[41、32、19、39、3]獲得的點云被分成54個場景進行訓(xùn)練,8個場景進行測試。每一個場景被分割成若干部分重疊的片段,其地面真值轉(zhuǎn)換參數(shù)為T。
表中總結(jié)了與3DMatch數(shù)據(jù)集的最新實驗評估結(jié)果的比較。圖4所示為1(左)和2個hard數(shù)據(jù)集。
一般目標是以最低的輸出維度(即3dsmouthNet最后一個卷積層中的濾波器數(shù)目)實現(xiàn)最高的匹配性能,以減少運行時間并節(jié)省內(nèi)存。首先進行測試,以找到3dsmouthNet描述符匹配性能和效率之間的一個很好的折衷方案。隨著輸出尺寸的增加,3dsmouthNet的性能很快開始飽和(圖6)。當使用超過64個維度時,只有邊際改進(如果有的話)。決定只對16維和32維的3DSmoothNet進行進一步的實驗。
增大輸入比τ2=0.2顯著減少RANSAC迭代到≈850,大大加快處理速度。評估了與所有其他測試方法相比,逐漸增加的內(nèi)聯(lián)比如何改變3DSmoothNet的性能(圖7)。當τ2=0.2時,所有其他方法的平均召回率都低于30%,而(16)(藍色)和(32)(橙色)的召回率分別高達62%和72%。只要3dsmouthNet替換現(xiàn)有的描述符,任何基于描述符的點云注冊管道都可以變得更加高效。
由于內(nèi)存限制,3DMatch使用邊緣等于1.5 m的體素網(wǎng)格。ETH數(shù)據(jù)集的結(jié)果報告在表3中。3DSmoothNet的平均性能最好(右欄),本文平均召回率為79.0%,明顯優(yōu)于平均召回率為48.2%,因為它的輸出維度更大。(32人)以超過15%的分數(shù)擊敗亞軍(無監(jiān)督),而所有最先進的方法都顯著低于30%。事實上,(32)應(yīng)用于室外激光掃描仍然優(yōu)于所有在3DMatch數(shù)據(jù)集上接受訓(xùn)練和測試的競爭對手(參見表1,表3)。
將3DMatch測試片段上每個興趣點的方法平均運行時間與Tab4中的[49]進行比較(與Intel Xeon E5-1650、32 GB ram和NVIDIA GeForce GTX1080運行在同一臺PC上)。注意,輸入準備(input prep.)和[49]的推斷是在GPU上處理的,在CPU上以當前狀態(tài)進行輸入準備。
總結(jié)
- 上一篇: Geo-CNN的三维点云
- 下一篇: 多传感器融合(一)