當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

基于深度学习的点云分割网络及点云分割数据集

發布時間：2023/12/8 pytorch 44 豆豆

生活随笔收集整理的這篇文章主要介紹了基于深度学习的点云分割网络及点云分割数据集小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者丨泡椒味的泡泡糖

來源丨深藍AI

引言

點云分割是根據空間、幾何和紋理等特征對點云進行劃分，使得同一劃分內的點云擁有相似的特征。點云的有效分割是許多應用的前提，例如在三維重建領域，需要對場景內的物體首先進行分類處理，然后才能進行后期的識別和重建。傳統的點云分割主要依賴聚類算法和基于隨機采樣一致性的分割算法，在很多技術上得到了廣泛應用，但當點云規模不斷增大時，傳統的分割算法已經很難滿足實際需要，這時就需要結合深度學習進行分割。本文將重點介紹5種前沿的點云分割網絡，包括PointNet/PointNet++、PCT、Cylinder以及JSNet網絡，最后介紹5中常用的點云分割數據集。

1. PointNet/PointNet++

說起點云分割網絡，就不得不介紹PointNet，它來源于CVPR的論文“Deep Learning on Point Sets for 3D Classification and Segmentation”。PointNet是首個輸入3D點云輸出分割結果的深度學習網絡，屬于開山之作，成為了后續很多工作的BaseLine，網絡的總體結構如圖1所示。

圖1 PointNet網絡

整體的PointNet網絡中，除了點云的感知以外，還有T-Net，即3D空間變換矩陣預測網絡，這主要是由于點云分類的旋轉不變性，當一個N×D在N的維度上隨意的打亂之后，其表述的其實是同一個物體，因此針對點云的置換不變性，其設計的網絡必須是一個對稱的函數。

在PointNet網絡中，對于每一個N×3的點云輸入，網絡先通過一個T-Net將其在空間上對齊(旋轉到正面)，再通過MLP將其映射到64維的空間上，再進行對齊，最后映射到1024維的空間上。這時對于每一個點，都有一個1024維的向量表征，而這樣的向量表征對于一個3維的點云明顯是冗余的，因此這個時候引入最大池化操作，將1024維所有通道上都只保留最大的那一個，這樣得到的1×1024的向量就是N個點云的全局特征。

PointNet網絡在ShapeNet數據集上的實驗效果如表1所示，可以看出，大多數分割都取得了SOAT效果。部分分割結果如圖2所示，可以看出分割結果相當平穩，并且具有很強的魯棒性。

表1 PointNet在ShapeNet上的分割效果對比

圖2 PointNet部分分割結果

PointNet++主要是為了克服PointNet自身的一些缺點，其中最大的缺點就是缺失局部特征。由于PointNet直接暴力地將所有的點最大池化為一個全局特征，因此局部點與點之間的聯系并沒有被網絡學習到。在分類和物體的Part Segmentation中，這樣的問題還可以通過中心化物體的坐標軸部分地解決，但在場景分割中，這就會導致效果變差。

為了克服PointNet的缺點，作者在PointNet++中主要借鑒了CNN的多層感受野的思想。CNN通過分層不斷地使用卷積核掃描圖像上的像素并做內積，使得越到后面的特征圖感受野越大，同時每個像素包含的信息也越多。而PointNet++就是仿照了這樣的結構，先通過在整個點云的局部采樣并劃一個范圍，將里面的點作為局部的特征，用PointNet進行一次特征的提取。因此，通過了多次這樣的操作以后，原本的點的個數變得越來越少，而每個點都是有上一層更多的點通過PointNet提取出來的局部特征，也就是每個點包含的信息變多了。

PointNet++的網絡結構如圖3所示，同時作者對比了PointNet和PointNet++的分割效果如圖4所示，可見PointNet++的效果全面優于PointNet。

圖3 PointNet++網絡結構

圖4 PointNet++分割結果

2. PCT網絡

近年來，NLP領域的Transformer大火，同時也有大量學者將其從NLP領域遷移到圖像和點云領域。清華大學將Transformer應用于3D點云分割技術，設計了全新的PCT(Point Cloud Transformer)網絡,其網絡結構如圖5所示。

圖5 PCT網絡結構

PCT應用Transformer進行點云分割的具體原理如圖6所示，其中星號代表Transformer的查詢向量，黃色到藍色代表注意力權重逐漸增加，最后一列代表分割結果。

圖6 PCT點云分割原理

為了更好地捕獲點云中的local context，作者在最遠點采樣和最近鄰居搜索的支持下增強了輸入嵌入，同時Transformer在點云分割領域的成功，也逐漸打通了NLP、圖像、點云等不同領域的壁壘，對于“模型大一統”具有重要意義。PCT點云分割與其他分割算法的對比如圖7所示，大量的實驗表明，PCT在形狀分類，part分割和法向量估算任務方面達到了最先進的性能。

圖6 PCT點云分割效果與其他算法對比

3. Cylinder網絡

Cylinder網絡來源于CVPR論文“Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation”，Cylinder網絡結構如圖7所示。Cylinder網絡由圓柱坐標體素劃分和非對稱3D卷積網絡組成，作者認為圓柱分割可以有效提高分割精度，此外作者還引入了一個point-wise模塊來改進體素塊輸出，提高辨識精度。

圖7 Cylinder網絡結構

作者認為基于柱坐標的voxel的劃分，可以與激光雷達掃描過程保持一致。進而有效地減少空voxel的比率。此外，作者將Cylinder網絡在兩個大型室外場景數據集（SemanticKITTI和nuScenes）上進行了評估，評估效果對比如表2和表3所示。評估顯示，在SemanticKITTI數據集上，Cylinder網絡排名第一。在nuScenes數據集上，新方法的表現也大大超過了之前的方法。

表2 Cylinder網絡在SemanticKITTI數據集上的對比效果

表3 Cylinder網絡在nuScenes數據集上的對比效果

4. JSNet網絡

JSNet來源于AAAI論文“JSNet: Joint Instance and Semantic Segmentation of 3D Point Clouds”，JSNet可以同時解決3D點云的實例和語義分割問題，其網絡結構如圖8所示。

圖8?JSNet網絡結構

JSNet首先建立有效的骨干網絡，以從原始點云數據中提取魯棒的特征。其次為了獲得更多的判別特征，提出了一種點云特征融合模塊來融合骨干網的不同層特征。此外，JSNet開發了聯合實例語義分割模塊以將語義特征轉換為實例嵌入空間，然后將轉換后的特征進一步與實例特征融合以促進實例分割。同時，該模塊還將實例特征聚合到語義特征空間中，以促進語義分割。最后，JSNet通過對實例嵌入應用簡單的均值漂移聚類來生成實例預測。

如表4和表5所示是JSNet網絡在大型3D室內點云數據集S3DIS上的評估結果，圖9是JSNet網絡的分割效果。實驗結果表明，JSNet網絡在3D實例分割中的性能優于最新方法，在3D語義預測方面有重大改進，同時有利于零件分割。

表4 JSNet網絡在S3DIS數據集上的實例分割結果

表5 JSNet網絡在S3DIS數據集上的語義分割結果

圖9 JSNet網絡的分割效果

5. 點云分割數據集

深度神經網絡的訓練往往需要大量的數據集，同時深度神經網絡性能的優劣也往往是在公開數據集上進行評估，因此選擇合適的數據集至關重要。常用的點云分割數據集主要有如下幾個：

5.1 Semantic3D

經典的大型室外場景點云分割數據集，由激光雷達掃描周圍場景得到。Semantic3D提供了一個帶有大標簽的自然場景的3D點云數據集，總計超過40億個點，8個類別標簽。

數據集包含了各種城市和鄉村場景，如農場，市政廳，運動場，城堡和廣場。該數據集包含15個訓練數據集和15個測試數據集，另外還包括4個縮減了的測試數據集。數據集中的點都含有RGB和深度信息，并被標記為8個語義類別，分別是1：人造地形；2：自然地形；3：高植被；4：低植被；5：建筑物；6：硬景觀；7：掃描人工制品，8：汽車，附加標簽0：未標記點，標記沒有地面真值的點。

數據集地址：http://www.semantic3d.net/

5.2 S3DIS

S3DIS數據集是斯坦福大學開發的帶有像素級語義標注的語義數據集，是常用的室內場景分割數據集，使用Matterport相機收集數據，包含6個Area，13個語義元素，11種場景。

其中13個語義元素分別包括：天花板ceiling、地板floor、墻壁wall、梁beam、柱column、窗window、門door、桌子table、椅子chair、沙發sofa、書柜bookcase、板board、混雜元素(其他)clutter；11種場景分別包括辦公室office、會議室conference room、走廊hallway、禮堂auditorium、開放空間open space、大堂lobby、休息室lounge、儲藏室pantry、復印室copy room、儲藏室storage和衛生間WC。

數據集地址：http://buildingparser.stanford.edu/dataset.html

5.3 SemanticKITTI

SemanticKITTI數據集是一個基于KITTI Vision Benchmark里程計數據集的大型戶外點云數據集，顯示了市中心的交通、住宅區，以及德國卡爾斯魯厄周圍的高速公路場景和鄉村道路。原始里程計數據集由22個序列組成，作者將序列00到10拆分為訓練集，將11到21拆分為測試集，并且為了與原始基準保持一致，作者對訓練和測試集采用相同的劃分，采用和KITTI數據集相同的標定方法，這使得該數據集和KITTI數據集等數據集可以通用。

SemanticKITTI數據集作者提供了精確的序列掃描注釋，并且在點注釋中顯示了前所未有的細節，包含28個類，確保了類與Mapillary Visiotas數據集和Cityscapes數據集有很大的重疊，并在必要時進行了修改，以考慮稀疏性和垂直視野。

數據集地址：http://www.semantic-kitti.org/index.html

5.4 ShapeNet

ShapeNet數據集是一個由對象的三維CAD模型表示的形狀存儲庫，注釋豐富，規模較大。ShapeNet包含來自多種語義類別的3D模型，并按照WordNet分類法組織，能夠完成部件分割任務，即不僅知道這個點云數據大的分割，還要將它的小部件進行分割。它總共包括十六個大的類別，每個大的類別有可以分成若干個小類別，十六個類別具體包括：飛機Airplane、包Bag、帽子Cap、汽車Car、椅子Chair、耳機Earphone、吉他Guitar、刀Knife、燈Lamp、電腦Laptop、摩托車Motorbike、杯子Mug、手槍Pistol、火箭Rocket、滑板Skateboard、桌子Table。

數據集地址：https://www.shapenet.org/

5.5 PartNet

PartNet數據集是用于細粒度和分層零件級3D對象理解的大規模基準。數據集包含573585個零件實例，涵蓋26671個3D模型，涵蓋24個對象類別。PartNet數據集啟用并充當許多任務的催化劑，例如形狀分析，動態3D場景建模和仿真，可負擔性分析等。數據集建立了用于評估3D零件識別的三個基準測試任務：細粒度語義分割，分層語義分割和實例分割。

數據集地址：https://shapenet.org/download/parts

6. 總結

近年來，隨著自動駕駛和三維重建技術的不斷發展，需要處理的點云規模越來越龐大，傳統的聚類算法和基于隨機采樣一致性的分割算法較難滿足實時性和精度要求。而基于深度學習的點云分割網絡較好地解決了上述問題，本文重點介紹了幾種前沿的點云分割網絡，包括PointNet/PointNet++、PCT、Cylinder以及JSNet網絡，并介紹了5種常用的點云分割數據集。讀者在應用深度學習進行點云分割或設計點云分割網絡時，要根據自身需求和實際工況，有針對地選擇合適的點云分割網絡和數據集。

本文僅做學術分享，如有侵權，請聯系刪文。

3D視覺工坊精品課程官網：3dcver.com

1.面向自動駕駛領域的多傳感器數據融合技術

2.面向自動駕駛領域的3D點云目標檢測全棧學習路線！(單模態+多模態/數據+代碼)
3.徹底搞透視覺三維重建：原理剖析、代碼講解、及優化改進
4.國內首個面向工業級實戰的點云處理課程
5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解
6.徹底搞懂視覺-慣性SLAM：基于VINS-Fusion正式開課啦
7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優化
8.徹底剖析室內、室外激光SLAM關鍵算法原理、代碼和實戰(cartographer+LOAM +LIO-SAM)

9.從零搭建一套結構光3D重建系統[理論+源碼+實踐]

10.單目深度估計方法：算法梳理與代碼實現

11.自動駕駛中的深度學習模型部署實戰

12.相機模型與標定(單目+雙目+魚眼）

13.重磅！四旋翼飛行器：算法與實戰

14.ROS2從入門到精通：理論與實戰

15.國內首個3D缺陷檢測教程：理論、源碼與實戰

重磅！3DCVer-學術論文寫作投稿?交流群已成立

掃碼添加小助手微信，可申請加入3D視覺工坊-學術論文寫作與投稿?微信交流群，旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。

同時也可申請加入我們的細分方向交流群，目前主要有3D視覺、CV&深度學習、SLAM、三維重建、點云后處理、自動駕駛、多傳感器融合、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、學術交流、求職交流、ORB-SLAM系列源碼交流、深度估計等微信群。

一定要備注：研究方向+學校/公司+昵稱，例如：”3D視覺?+ 上海交大 + 靜靜“。請按照格式備注，可快速被通過且邀請進群。原創投稿也請聯系。

▲長按加微信群或投稿

▲長按關注公眾號

3D視覺從入門到精通知識星球：針對3D視覺領域的視頻課程（三維重建系列、三維點云系列、結構光系列、手眼標定、相機標定、激光/視覺SLAM、自動駕駛等）、知識點匯總、入門進階學習路線、最新paper分享、疑問解答五個方面進行深耕，更有各類大廠的算法工程人員進行技術指導。與此同時，星球將聯合知名企業發布3D視覺相關算法開發崗位以及項目對接信息，打造成集技術與就業為一體的鐵桿粉絲聚集區，近4000星球成員為創造更好的AI世界共同進步，知識星球入口：

學習3D視覺核心技術，掃描查看介紹，3天內無條件退款

?圈里有高質量教程資料、答疑解惑、助你高效解決問題

覺得有用，麻煩給個贊和在看~??

總結

以上是生活随笔為你收集整理的基于深度学习的点云分割网络及点云分割数据集的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。