CVPR 2022 | GeoTransformer:基于Transformer的点云配准网络
?作者?|?秦政
單位?|?國防科技大學
研究方向 |?三維視覺
本文提出了一種基于 Transformer 的點云配準網絡。通過引入點云中的全局結構信息,GeoTransformer 能夠顯著提高 correspondences 的 inlier ratio,從而實現了 RANSAC-free 的場景點云 registration,代碼已開源。
Motivation
在這篇工作中,我們關注基于 correspondences 的點云配準方法。這類方法首先建立兩個點云之間的 correspondences,再利用 correspondences 來估計 transformation。顯然,這類的方法的核心在于找到高質量的 correspondences。
為了建立 correspondences,之前大部分工作都采用了 detect-then-match 的方法 [1,2,3],即先檢測兩個點云中的 keypoint,再對 keypoint 進行匹配。但是,在兩個點云中找到重復的 keypoint 并不容易,當兩個點云重疊度很低的時候會變的尤其困難。受到最近在 stereo matching 的一些 keypoint-free 工作的啟發,CoFiNet [4] 也嘗試了在點云配準中使用 coarse-to-fine 的匹配策略來建立 dense correspondences,避免了 keypoint detection 這個步驟,取得了非常不錯的效果。
但是,如果仔細觀察可以發現,之前這些方法的 correspondences 的質量都還是比較差的。以 CoFiNet 為例,其在 3DMatch 上的 inlier ratio 都只有 50% 上下,而在 3DLoMatch 上 inlier ratio 更是只有 20%+,這無疑很大程度的影響了配準的精度。而這其中的關鍵因素,就在于 CoFiNet 的 superpoint correspondences 的質量并不夠好。
對于 superpoint 的匹配來說,因為整個場景點云中通常會存在很多類似的 local patch,因此對于全局結構的感知尤其重要。為了實現這一目標,之前的方法都使用了 transformer 來進行全局的特征特征。但是,transformer 本身是序列無關的,它不能夠區分不同位置的 superpoint。當然,一個簡單的方法是利用 NLP、ViT 和 Point Transformer 等工作中的方式,通過將 superpoint 的坐標進行映射作為 transformer 的位置編碼。但是,基于坐標的位置編碼是 transformation-variant 的,這對于點云配準任務來說并不合理。
針對這個問題,我們設計了 GeoTransformer,通過對 superpoint pair 之間的距離信息和 superpoint triplet 之間的角度信息進行編碼,嵌入到 transformer 中,實現了有效的全局結構信息學習。因為距離和角度信息都是 transformation-invariant 的,因此 GeoTransformer 在特征學習階段就能夠顯式的捕捉到兩個點云中的空間一致性,這在之前的方法中都是無法實現的。
這一優勢使得 GeoTransformer 可以提取到非常高質量的 correspondences,并實現了 RANSAC-free 的點云配準。在 3DLoMatch 基準數據集上,GeoTransformer 相比于之前的方法實現了 17%~31% 的 inlier ratio 提升和 7% 的 registration recall 提升。
論文標題:
Geometric Transformer for Fast and Robust Point Cloud Registration
收錄會議:
CVPR 2022
論文鏈接:
https://arxiv.org/abs/2202.06688
代碼鏈接:
https://github.com/qinzheng93/GeoTransformer
Pipeline
▲?算法pipeline
GeoTransformer 的整個算法分為四個部分。首先,對于輸入點云,GeoTransformer 通過一個 KPConv backbone 來提特征。我們把最后一個分辨率下的點云所謂 superpoint,并通過 point-to-node 劃分把每個點分配給最近的 superpoint,將 superpoint 擴展成 patch。
之后,我們通過 superpoint matching module 來提取 superpoint correspondences。在 superpoint matching module 中,我們使用了 self-attention 和 cross-attention 來進行點云內和點云間的特征學習。為了對點云的全局結構信息進行編碼,我們設計了一種 geometric structure embedding,將 superpoint 之間的距離和角度信息引入到 self-attention 的計算中,我們把它稱為 geometric self-attention:
這里 、 和 分別對應 attention 中的 query、key 和我們的 geometric structure embedding, 是特征維度。其中,geometric structure embedding 的計算如下圖所示,具體的計算請移步我們的 paper。
▲?geometric structure embedding
在得到 superpoint correspondences 之后,我們使用一個 point matching module 來對兩個 superpoint 對應的 patch 中的點進行匹配,從而得到 point correspondences。這里我們只使用了一個 sinkhorn layer 來進行匹配操作。
最后,我們設計了一種 local-to-global 的配準方法(LGR)來計算最終的 transformation。具體來說,對于每一對 superpoint correspondence,我們利用其內部的 point correspondences 配合 weighted SVD 直接計算一個 local transformation,再把所有的 local transformation 在全部 correspondences 上進行投票,選擇一個最好的,進行若干次的迭代優化。這個過程避免了 RANSAC 上萬次的隨機采樣迭代過程,在我們的測試中實現了相對于 RANSAC 接近 100 倍的加速,并且實現了相近甚至更好的配準精度。
Experiments
我們主要在 3DMatch、3DLoMatch 和 KITTI 上進行了對比實驗。首先 Tab. 1 可以看到,我們的方法在 inlier ratio 這個指標上相對于之前的方法有非常明顯的提升,高質量的 correspondences 保證了我們在配準時能夠獲得更好的精度。
▲?3DMatch/3DLoMatch, RANSAC-based
而在 Tab. 2 中,在不使用 RANSAC 或者 LGR,僅僅使用 weighted SVD 計算 transformation 的情況下,得益于我們的高質量 correspondences,我們的方法能夠得到與 PREDATOR 相近的精度;而在使用 LGR 得情況下,GeoTransformer 則能夠實現與 RANSAC 幾乎相互的配準精度。
▲?3DMatch/3DLoMatch, RANSAC-free
最后,我們還對我們的 geometric self-attention 的 attention score 進行了可視化,可以看到,即便是在 overlap 區域很小的情況下,對于匹配的super point/patch,我們的方法依然能夠學習到非常一致的 attention score,這也證明了我們的方法能夠有效的學習到兩個點云中的空間一致性信息,來幫助建立更好的 correspondences。?
▲?attention score
參考文獻
[1] Choy, C., Park, J., & Koltun, V. (2019). Fully convolutional geometric features. InProceedings of the IEEE/CVF International Conference on Computer Vision(pp. 8958-8966).
[2] Bai, X., Luo, Z., Zhou, L., Fu, H., Quan, L., & Tai, C. L. (2020). D3feat: Joint learning of dense detection and description of 3d local features. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(pp. 6359-6367).
[3] Huang, S., Gojcic, Z., Usvyatsov, M., Wieser, A., & Schindler, K. (2021). Predator: Registration of 3d point clouds with low overlap. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(pp. 4267-4276).
[4] Yu, H., Li, F., Saleh, M., Busam, B., & Ilic, S. (2021). CoFiNet: Reliable Coarse-to-fine Correspondences for Robust PointCloud Registration.Advances in Neural Information Processing Systems,34.
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的CVPR 2022 | GeoTransformer:基于Transformer的点云配准网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 买股票的技巧有哪些 要学会控制仓位
- 下一篇: 福布斯2021全球亿万富豪榜 疫情一年富