SemanticKITTI 数据集 - 3D 点云分割(ICCV 2019)
SemanticKITTI 數據集 - 3D 點云分割(ICCV 2019)
- 摘要
- 1. 導言
- 2. 相關工作
- 3. SemanticKITTI數據集
- 3.1. 標注過程
- 3.2. 數據集統計信息
- 4. 語義分割評價
- 4.1. 單掃描實驗
- 4.2. 多次掃描實驗
- 5. 語義場景補全評估
- 6. 結論與展望
- References
- A、 LiDAR序列的一致標簽
- B、 數據集的基礎
- C、 類別定義
- D、 基線設置
- E、 使用多次掃描的結果
- F、 語義場景補全
- G、 定性結果
- H、 數據集和基線訪問API
聲明:此翻譯僅為個人學習記錄
文章信息
- 標題:SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences (ICCV 2019)
- 作者:Jens Behley?, Martin Garbade?, Andres Milioto, Jan Quenzel, Sven Behnke, Cyrill Stachniss, Juergen Gall (? 表示同等貢獻)
- 文章鏈接:https://arxiv.org/pdf/1904.01416.pdf
數據集簡介
- 數據集官網:http://www.semantic-kitti.org/dataset.html#overview
- 數據集開發工具包:http://www.semantic-kitti.org/resources.html#devkit
(依靠數據集開發工具包,可以了解標簽的更多信息,并可以使用 Python 閱讀標簽,可視化點云) - 官方下載地址:http://www.semantic-kitti.org/dataset.html#overview
- 第三方下載地址:https://gas.graviti.com/dataset/graviti/SemanticKITTI
摘要
??語義場景理解對于各種應用都很重要。特別是,自動駕駛汽車需要對其附近的表面和物體進行精細的理解。光探測和測距(LiDAR)提供關于環境的精確幾何信息,因此是幾乎所有自動駕駛汽車的傳感器套件的一部分。盡管語義場景理解與該應用程序相關,但該任務缺乏基于汽車激光雷達的大型數據集。
??在本文中,我們引入了一個大數據集來推進基于激光的語義分割研究。我們標注了KITTI Vision Odometry Benchmark的所有序列,并為所使用的汽車激光雷達的完整360°視野提供了密集的逐點標注。我們基于該數據集提出了三個基準任務:(i)使用單個掃描對點云進行語義分割,(ii)使用多個過去掃描進行語義分割和(iii)語義場景補全,這需要預測未來的語義場景。我們提供了基線實驗,并表明需要更復雜的模型來有效地處理這些任務。我們的數據集為開發更先進的方法打開了大門,但也為研究新的研究方向提供了豐富的數據。
圖1:我們的數據集為KITTI Odometry Benchmark[19]中所有序列的每次掃描提供了密集標注。這里,我們展示了使用SLAM方法估計的姿態信息聚合的多個掃描。
1. 導言
??語義場景理解對于許多應用程序是必不可少的,也是自動駕駛汽車不可或缺的一部分。特別是,語義分割提供的細粒度理解對于區分可駕駛和不可駕駛表面以及推理功能特性(如停車區和人行道)是必要的。目前,在所謂的高清晰度地圖中表示的這種理解主要是使用測量車輛預先生成的。然而,自動駕駛汽車也應該能夠在未繪制地圖的區域行駛,并在環境發生變化時調整其行為。
??目前大多數自動駕駛汽車使用多個不同的傳感器來感知環境。補充傳感器模態能夠應對特定傳感器的缺陷或故障。除了相機,光探測和測距(LiDAR)傳感器也經常被使用,因為它們提供不受照明影響的精確距離測量。
??公開可用的數據集和基準對研究的實證評估至關重要。它們主要實現三個目的:(i)它們提供了衡量進展的基礎,因為它們能夠提供可復制和可比較的結果,(ii)它們揭示了現有技術的缺點,從而為新的方法和研究方向鋪平了道路,以及(iii)它們使開發方法成為可能,而無需首先費力地收集和標注數據。盡管存在用于基于圖像的語義分割的多個大型數據集[10,39],但具有三維點云逐點標注的公共可用數據集仍然相對較小,如表1所示。
表1:具有語義標注的其他點云數據集概述。我們的數據集是迄今為止最大的序列信息數據集。1 訓練和測試的掃描次數,2點數以百萬計,3 用于計算的類數和括號中標注的類數。
??為了彌補這一差距,我們提出了SemanticKITTI,這是一個大型數據集,在28個類的逐點標注中顯示了前所未有的細節,適用于各種任務。在本文中,我們主要關注基于激光的語義分割,但也關注語義場景的完成。該數據集與其他激光數據集不同,因為我們提供了序列的精確掃描標注。總體而言,我們標注了KITTI視覺基準[19]的里程計基準的所有22個序列,包括超過43000次掃描。此外,我們標注了完整的水平360°旋轉激光傳感器的視場。圖1顯示了所提供數據集的示例場景。總之,我們的主要貢獻是:
- 我們提供了一個點云序列的逐點標注數據集,每個掃描都具有前所未有的類別數量和前所未見的詳細程度。
- 我們還對點云語義分割的最先進方法進行了評估。
- 我們研究了使用多重掃描進行語義分割的序列信息的使用情況。
- 基于移動汽車序列的標注,我們進一步引入了用于語義場景補全的真實世界數據集,并提供了基線結果。
- 與基準網站一起,點云標注工具也可公開使用,使其他研究人員能夠在未來生成其他標注數據集。
??這個大數據集將刺激新算法的發展,使研究新的研究方向成為可能,并將這些新算法的評估和比較置于更堅實的基礎上。
2. 相關工作
??計算機視覺的進步一直是由基準和數據集驅動的[55],但特別大規模的數據集(如ImageNet[13])的可用性甚至是深度學習出現的關鍵先決條件。
??還提出了更多針對自動駕駛汽車的任務特定數據集。值得注意的是KITTI Vision Benchmark[19],因為它表明現成的解決方案并不總是適合自動駕駛。Cityscapes數據集[10]是自動駕駛汽車應用程序的第一個數據集,它提供了大量適合深度學習的像素標注圖像。與Cityscapes相比,Mapillary Vistas數據集[39]超過了標注數據的數量和多樣性。
??此外,在基于點云的解釋(例如,語義分割)中,基于RGB-D的數據集實現了巨大的進步。ShapeNet[8]對于顯示單個對象的點云尤其值得注意,但此類數據不能直接轉移到其他領域。具體而言,由于其較低的角度分辨率,特別是在垂直方向,LiDAR傳感器通常不會像RGB-D傳感器那樣密集地覆蓋物體。
??對于室內環境,有幾個數據集[48、46、24、3、11、35、32、12]可用,這些數據集主要使用RGB-D相機記錄或合成生成。然而,與室外環境相比,這些數據顯示出非常不同的特征,這也是由環境的大小造成的,因為由于掃描對象的范圍,室內捕獲的點云往往更密集。此外,傳感器在稀疏性和準確性方面具有不同的特性。雖然激光傳感器比RGB-D傳感器更精確,但與RGB-D相比,它們通常只捕獲稀疏的點云。
??對于室外環境,最近提出了使用地面激光掃描儀(TLS)記錄數據集,如Semantic3d數據集[23],或使用汽車激光雷達記錄數據集(如Paris-Lille-3D數據集[47])。然而,Paris-Lille-3D僅為50個類別提供了具有逐點標注的聚集掃描,從中選擇了9個類別進行評估。另一個最近用于自動駕駛的大型數據集[57],但種類較少,尚未公開。
??Virtual KITTI數據集[17]提供了具有深度信息和密集像素標注的合成生成的序列圖像。深度信息也可用于生成點云。然而,這些點云并沒有表現出與真實旋轉激光雷達相同的特征,包括反射和異常值等缺陷。
??與這些數據集相比,我們的數據集結合了大量標注點、大量類別和自動駕駛中常用傳感器生成的順序掃描,這與所有公開可用的數據集不同,如表1所示。
3. SemanticKITTI數據集
??我們的數據集基于KITTI Vision Benchmark[19]的里程數據集,該數據集顯示了德國卡爾斯魯厄附近的城市內部交通、居民區以及高速公路場景和鄉村道路。原始里程數據集由22個序列組成,將序列00至10作為訓練集,將序列11至21作為測試集。為了與原始基準保持一致,我們對訓練和測試集采用了相同的劃分。此外,我們只為訓練數據提供標簽,不會干擾原始的里程計基準。總體而言,我們為訓練提供了23201次全3D掃描,為測試提供了20351次全三維掃描,這使得它在很大程度上成為公開可用的最大數據集。
??我們決定使用KITTI數據集作為我們標注工作的基礎,因為它允許我們利用汽車捕獲的最大可用原始點云數據集之一。此外,我們預計,我們的標注和現有基準之間也存在潛在的協同作用,這將有助于調查和評估其他研究方向,例如使用語義進行基于激光的里程計估計。
??與其他數據集(參見表1)相比,我們為使用常用汽車激光雷達(即Velodyne HDL-64E)生成的連續點云提供了標簽。其他公開可用的數據集,如Paris-Lille-3D[47]或Wachtberg[6],也使用此類傳感器,但僅分別提供整個采集序列的聚集點云或整個序列的一些單獨掃描。由于我們提供了整個序列的單獨掃描,我們還可以研究聚合多個連續掃描如何影響語義分割的性能,并使用這些信息來識別移動對象。
??我們標注了28個類,其中我們確保了類與Mapillary Vistas數據集[39]和Cityscapes數據集[10]的大量重疊,并在必要時進行了修改,以說明稀疏性和垂直視野。更具體地說,我們不區分乘坐車輛的人和車輛,而是將車輛和人員標注為騎自行車的人或騎摩托車的人。
??我們進一步區分了移動和非移動的車輛和人類,即,如果車輛或人類在觀察它們的同時在某些掃描中移動,就會得到相應的移動類,如圖2的下部所示。所有標注類都在圖3中列出,不同類的更詳細討論和定義可以在補充材料中找到。總之,我們有28個類,其中6個類被指定為移動或非移動屬性,其中一個異常值類用于反射或其他影響導致的錯誤激光測量。
??數據集可通過基準網站公開獲取,我們只提供帶有真值標簽的訓練集,并在線執行測試集評估。此外,我們還將限制可能的測試集評估數量,以防止過度擬合測試集[55]。
圖2:單次掃描(頂部)和帶有標簽的多次疊加掃描(底部)。圖中還顯示了一輛在圖像中心移動的汽車,產生了一條點跡。
圖3:標簽分布。將顯示每個類的標注點數和類的根類別。對于可移動類,我們還顯示了非移動(實心條)和移動對象(陰影條)上的點數。
3.1. 標注過程
??為了使點云序列的標注實用,我們將多個掃描重疊在一起,這反過來允許我們一致地標注多個掃描。為此,我們首先使用現成的基于激光的SLAM系統注冊并循環閉合序列[5]。需要該步驟,因為慣性導航系統(INS)提供的信息經常導致地圖不一致,即,一段時間后重新訪問的街道具有不同的高度。對于三個序列,我們必須手動添加循環閉合約束以獲得正確的循環閉合軌跡,因為這對于獲得用于標注的一致點云至關重要。循環閉合姿勢允許我們加載特定位置的所有重疊點云,并將它們一起可視化,如圖2所示。
??我們將點云序列細分為100米乘100米的區塊。對于每個區塊,我們只加載與區塊重疊的掃描。這使我們能夠一致地標注所有掃描,即使當我們遇到時間上遙遠的循環關閉時也是如此。為了確保與多個區塊重疊的掃描的一致性,我們顯示每個區塊內的所有點以及與相鄰區塊重疊的小邊界。因此,可以從相鄰區塊繼續標簽。
??根據最佳實踐,我們編寫了一份標簽說明,并提供了如何為某些物體(如站在墻上的汽車和自行車)貼標簽的指導視頻。與基于圖像的標注相比,使用點云的標注過程更復雜,因為標注者經常需要更改視點。當標注與最復雜的風景相對應的住宅區時,標注者平均每個區塊需要4.5小時,而標注公路區塊平均需要1.5小時。
??我們明確地沒有為KITTI數據集使用邊界框或其他可用的標注,因為我們希望確保標簽一致,并且逐點標簽應僅包含對象本身。
??我們定期向標注器提供反饋,以提高標簽的質量和準確性。盡管如此,一個標注器也在第二遍中驗證了標簽,即糾正了不一致并添加了缺失的標簽。總之,整個數據集包括518個區塊,已投入超過1400小時的標注工作,每個區塊額外10-60分鐘的驗證和校正,總共超過1700小時。
3.2. 數據集統計信息
??圖3顯示了不同類的分布,其中我們還將根類別作為x軸上的標簽。地面類別、道路、人行道、建筑、植被和地形是最常見的類別。摩托車手這個級別很少出現,但仍有超過10個點云點被標注。
??在自然環境中捕獲的數據集中,類的數量不平衡是很常見的,因為有些類并不經常出現,所以它們總是表現不足。因此,不平衡的階級分布是一種方法必須掌握的問題的一部分。總體而言,類之間的分布和相對差異在其他數據集中非常相似,例如Cityscape[10]。
4. 語義分割評價
??在本節中,我們將評估幾種最先進的單掃描語義分割方法。我們還提供了利用多次掃描序列提供的信息的實驗。
4.1. 單掃描實驗
任務和指標。在點云的語義分割中,我們希望推斷每個三維點的標簽。因此,所有評估方法的輸入都是三維點的坐標列表及其反射強度,即反射激光束的強度,這取決于被擊中表面的性質。然后,每個方法都應該為掃描的每個點輸出一個標簽,即旋轉的LiDAR傳感器旋轉一整圈。為了評估標注性能,我們依賴于所有類別上常用的平均Jaccard指數或平均交合(mIoU)度量[15],由下式給出:
其中TPc、FPc和FNc對應于類c的真陽性、假陽性和假陰性預測的數量,c是類的數量。
??由于其他結構和其他對象的類要么只有幾個點,要么太多樣化,類內差異很大,因此我們決定不在評估中包含這些類。因此,我們使用25個而不是28個類,在訓練和推理過程中忽略了離群值、其他結構和其他對象。
??此外,我們不能指望用一次掃描就能區分運動物體和非運動物體,因為這種Velodyne LiDAR無法像利用多普勒效應的雷達那樣測量速度。因此,我們將移動類別與相應的非移動類別相結合,總共有19個類別用于訓練和評估。
最新技術。點云的語義分割或逐點分類是一個長期存在的話題[2],傳統上使用特征提取器(如Spin Images[29])結合傳統分類器(如支持向量機[1]甚至語義哈希[4])來解決。許多方法使用條件隨機場(CRF)來加強相鄰點的標簽一致性[56,37,36,38,63]。
??隨著深度學習方法在基于圖像的分類中的出現,整個特征提取和分類流程已經被端到端的深度神經網絡所取代。基于體素的方法將點云轉換為體素網格,然后將卷積神經網絡(CNN)與3D卷積應用于對象分類[34]和語義分割[26],是最早研究的模型之一,因為它們允許利用圖像已知的架構和見解。
??為了克服基于體素的表示的局限性,例如當體素網格的分辨率增加時內存消耗爆炸,最近的方法要么使用CRF對體素預測[53]進行上采樣,要么使用不同的表示,如更有效的空間細分[30、44、64、59、21]、渲染的2D圖像視圖[7]、圖形[31、54]、散點[51]、,或者甚至直接是點[41、40、25、22、43、28、14]。
基線方法。我們為數據集中的點云語義分割提供了六種最先進架構的結果:PointNet [40], PointNet++ [41], Tangent Convolutions [52], SPLATNet [51], Superpoint Graph [31], and SqueezeSeg (V1 and V2) [60, 61]。此外,我們研究了SqueezeSeg的兩個擴展:DarkNet21Seg和DarkNet53Seg。
??PointNet[40]和PointNet++[41]使用原始無序點云數據作為輸入。這些方法的核心是最大池化,以獲得一個順序不變的運算符,該運算符在形狀的語義分割和其他幾個基準測試中非常有效。然而,由于這種性質,PointNet無法捕捉特征之間的空間關系。為了緩解這一問題,PointNet++[41]將單獨的PointNets應用于局部臨近區域,并使用分層方法組合其輸出。這使它能夠構建復雜的分層特性,以捕獲局部細粒度和全局上下文信息。
??切線卷積[52]還通過直接在曲面上應用卷積神經網絡來處理非結構化點云。這是通過假設數據是從光滑表面采樣的,并將切線卷積定義為應用于局部表面在每個點到切平面的投影的卷積來實現的。
??SPLATNet[51]采用與上述體素化方法類似的方法,并在高維稀疏網格中表示點云。與基于體素的方法一樣,這種方法在計算和存儲成本方面的縮放都很差,因此它們通過使用雙邊卷積[27]來利用這種表示的稀疏性,這種卷積僅對占用的晶格部分進行操作。
??與PointNet類似,Superpoint Graph[31]通過將幾何上均勻的點組匯總為疊加點來捕捉局部關系,這些疊加點隨后被局部PointNet嵌入。結果是一個疊加點圖形表示,它比原始點云更緊湊和豐富,利用了疊加點之間的上下文關系。
??SquezeSeg[60,61]還以一種可以利用旋轉LiDAR的傳感器幾何結構對點云數據應用2D卷積的方式對點云進行離散化。在旋轉激光雷達的情況下,通過使用球面投影,可以將單圈的所有點投影到圖像上。應用完全卷積神經網絡,然后最后用CRF濾波以平滑結果。由于SquezeSeg的良好結果和快速訓練,我們研究了模型參數的數量如何影響標注性能。為此,我們使用了基于Darknet架構[42]的不同主干,分別具有21層和53層,以及2500萬和5000萬個參數。我們還消除了架構中使用的垂直下采樣。
??我們修改了可用的實現,以便可以在我們的大規模數據集上訓練和評估這些方法。注意,迄今為止,大多數這些方法僅在形狀[8]或RGB-D室內數據集上進行了評估[48]。然而,由于內存限制,一些方法[40,41]只能在相當大的下采樣到50000點的情況下運行。
結果和討論。表2顯示了直接使用點云信息[40、41、51、52、31]或點云投影[60]的各種方法的基線實驗結果。結果表明,當前點云語義分割的技術水平無法滿足數據集的大小和復雜性。
??我們認為,這主要是由于所用架構的容量有限(見表7),因為這些方法的參數數量遠遠低于領先的基于圖像的語義分割網絡中使用的參數數量。如上所述,我們添加了DarkNet21Seg和DarkNet53Seg來測試這一假設,結果表明,這種簡單的修改將精度從SquezeSeg的29.5%提高到了DarkNet 21Seg的47.4%和DarkNet 53Seg的49.9%。
表2:序列11至21(測試集)上所有基線的單次掃描結果(19類)。除了用作驗證集的序列08之外,所有方法都在序列00至10上進行了訓練。
圖4:IoU與傳感器的距離。
表3:方法統計。
??另一個原因是LiDAR生成的點云相對稀疏,特別是當距離傳感器的距離增加時。這在SquezeSeg中得到了部分解決,它利用旋轉掃描儀捕獲數據的方式來生成密集范圍圖像,其中每個像素大致對應于掃描中的一個點。
??這些影響在圖4中進一步分析,其中mIoU與到傳感器的距離相關。結果表明,所有方法的結果都會隨著距離的增加而變差。這進一步證實了我們的假設,即稀疏性是導致大距離結果更差的主要原因。然而,結果也表明,一些方法,如SPGraph,較少受距離相關稀疏性的影響,這可能是未來研究的一個有希望的方向,以結合兩種范式的優勢。
??尤其是像摩托車手和卡車這樣的樣本很少的類別,似乎對所有方法都更難。但是,在單個點云中只有少量點的類別,如自行車和桿,也是很難的類別。
??最后,具有49.9%mIoU的最佳性能方法(DarkNet53Seg)仍遠未達到與基于圖像的方法相當的結果,例如,Cityscapes基準的80%[10]。
4.2. 多次掃描實驗
任務和指標。在本任務中,我們允許方法利用來自多個過去掃描序列的信息來改進當前掃描的分割。此外,我們希望這些方法能夠區分移動類和非移動類,即,必須預測所有25個類,因為這些信息應該在多次過去掃描的時間信息中可見。該任務的評估度量仍然與單次掃描情況相同,即,無論使用多少次過去的掃描來計算結果,我們都評估當前掃描的平均IoU。
基線。我們通過將5次掃描組合成單個大點云來利用順序信息,即,時間戳t處的當前掃描和時間戳t之前的4次掃描t-1,…,t-4。我們評估了DarkNet53Seg和TangentConv,因為這些方法可以處理大量的點,而無需對點云進行下采樣,并且仍然可以在合理的時間內進行訓練。
結果和討論。表4顯示了可移動類的每類結果以及所有類的平均IoU(mIoU)。對于每種方法,我們在行的上部顯示非移動(無陰影)的IoU,在行的下部顯示移動對象的IoU(陰影)。其余靜態類的性能類似于單次掃描結果,我們參考了包含所有類的表的補充。
表4:使用多次過去掃描序列的IoU結果(%)。陰影單元格對應于移動類的IoU,而非陰影條目則是非移動類。
??投影方法比基于點的方法表現更好的總體趨勢仍然很明顯,這也可以歸因于在單掃描情況下更大量的參數。這兩種方法都顯示了分離移動和非移動對象的困難,這可能是由于我們的設計決定將多個掃描聚集到單個大型點云中所致。結果表明,尤其是騎自行車和騎摩托車的人永遠不會被正確地分配到非移動類,這很可能是由于物體點云通常更稀疏的結果。
??我們預計,新的方法可以通過使用架構的多個輸入流甚至遞歸神經網絡來解釋時間信息,從而明確地利用順序信息,這可能再次開辟一條新的研究路線。
5. 語義場景補全評估
??在利用一系列過去的掃描進行語義點云分割之后,我們現在展示了一個利用未來掃描的場景。由于其連續性,我們的數據集為3D語義場景補全任務提供了獨特的擴展機會。請注意,這是該任務的第一個真實室外基準。現有的點云數據集不能用于解決這一任務,因為它們不允許聚集在空間和時間上都足夠密集的標記點云。
??在語義場景補全中,一個基本問題是獲取真實世界數據集的真值標簽。在NYUv2[48]的情況下,使用Kinect傳感器捕獲的RGB-D圖像將CAD模型擬合到場景[45]中。新方法通常會在更大但合成的SUNCG數據集上證明其有效性[49]。然而,結合了非合成數據集的規模和真實世界數據的使用的數據集仍然缺失。
??在我們提出的數據集中,搭載LiDAR的汽車經過場景中的3D對象,從而記錄它們的背面,這些背面由于自遮擋而隱藏在初始掃描中。這正是語義場景補全所需的信息,因為它包含所有對象的完整3D幾何體,而它們的語義由我們的密集標注提供。
數據集生成。通過在汽車前面的預定義區域疊加大量未來激光掃描,我們可以生成與語義場景補全任務相對應的輸入和目標對。正如Song等人提出的[49],我們的場景補全任務數據集是3D場景的體素化表示。
??我們選擇了汽車前方51.2米、每邊25.6米、高度6.4米的體積,體素分辨率為0.2米,因此預測的體積為256×256×32體素。我們基于對體素內所有標記點的多數投票,為每個體素分配單個標簽。不包含任何點的體素標記為空。
??為了計算哪些體素屬于被遮擋空間,我們通過跟蹤光線來檢查汽車的每個姿勢,哪些體素對傳感器可見。一些體素(例如,物體內部或墻后的體素)永遠不可見,因此我們在訓練和評估期間忽略它們。
??總體而言,我們提取了19130對輸入和目標體素網格用于訓練,815對用于驗證,3992對用于測試。對于測試集,我們只提供未標記的輸入體素網格并保留目標體素網格。圖5顯示了輸入和目標對的示例。
任務和指標。在語義場景補全中,我們感興趣的是從單個初始掃描預測特定體積內的完整場景。更具體地說,我們使用體素網格作為輸入,其中每個體素被標記為空或被占用,這取決于它是否包含激光測量。對于語義場景補全,需要預測體素是否被占用以及其在補全的場景中的語義標簽。
??對于評估,我們遵循Song等人的評估協議[49],并計算場景補全任務的IoU,其僅將體素分類為被占用或空,即忽略語義標簽,以及mIoU(1)用于單掃描語義分割任務的相同19個類的語義場景補全任務(見第4節)。
最新技術。早期的方法解決了場景補全的任務,要么不預測語義[16],從而無法提供對場景的整體理解,要么嘗試將固定數量的網格模型與場景幾何體相匹配[20],這限制了該方法的表現力。
??Song等人[49]是第一個以端到端方式解決語義場景補全任務的人。他們的工作引發了對結合顏色和深度信息的使用[33,18]或通過引入子流形卷積解決稀疏3D特征圖問題[65]或通過部署多級粗到細訓練方案提高輸出分辨率[12]的領域產生模型的大量興趣。其他工作嘗試了新的編碼器-解碼器CNN架構,并通過添加對抗性損失組件來改善損失項[58]。
圖5:左圖:語義場景補全基準的不完整輸入的可視化。注意,我們顯示標簽只是為了更好地可視化,但實際輸入是沒有任何標簽的單個原始體素網格。右:對應的目標輸出,表示已補全且完全標記的3D場景。
表5:語義場景補全基線。
基線方法。我們報告了四種語義場景補全方法的結果。在第一種方法中,我們應用SSCNet[49],而不使用翻轉TSDF作為輸入特征。這對性能的影響最小,但由于預處理速度更快,大大加快了訓練時間[18]。然后,我們使用雙流(TS3D)方法[18],該方法利用來自與輸入激光掃描相對應的RGB圖像的附加信息。因此,RGB圖像首先由2D語義分割網絡處理,使用在Cityscapes上訓練的方法DeepLab v2(ResNet-101)[9]來生成語義分割。來自單個激光掃描的深度信息和從RGB圖像推斷的標簽在早期融合中被組合。此外,我們分兩個步驟修改了TS3D方法:首先,通過直接使用基于LiDAR的最佳語義分割方法(DarkNet53Seg)中的標簽,其次,通過SATNet交換3D-CNN主干[33]。
結果和討論。表5顯示了每個基線的結果,而補充中報告了各個類別的結果。TS3D網絡結合了RGB圖像的2D語義分割,其性能類似于僅使用深度信息的SSCNet。然而,直接在點云上工作的最佳語義分割的使用在語義場景補全方面稍微優于SSCNet(TS3D+DarkNet53Seg)。注意,前三種方法基于SSCNet的3D-CNN架構,該架構在前向通道中執行4倍下采樣,因此無法處理場景細節。在我們的最后一種方法中,我們將TS3D+DarkNet53Seg的SSCNet主干與SATNet交換[33],SATNet能夠處理所需的輸出分辨率。由于內存的限制,我們在訓練中使用隨機裁剪。在推理過程中,我們將每個卷分成六個相等的部分,分別對它們進行場景補全,然后將它們融合。這種方法比基于SSCNet的方法性能要好得多。
??除了處理目標分辨率外,當前模型的一個挑戰是遠場中激光輸入信號的稀疏性,如圖5所示。為了在遠場中獲得更高分辨率的輸入信號,方法必須更有效地利用與每次激光掃描一起提供的高分辨率RGB圖像中的信息。
6. 結論與展望
??在這項工作中,我們展示了一個大規模數據集,顯示了點云序列的逐點標注的空前規模。我們為三項任務提供了一系列不同的基線實驗:(i)使用單個掃描的語義分割,(ii)使用多個掃描的語義分割,以及(iii)語義場景補全。
??在未來的工作中,我們還計劃在整個序列上提供實例級標注,即,我們希望在掃描中區分不同的對象,但也要隨著時間的推移識別相同的對象。這將能夠研究序列上的時間實例分割。然而,我們也看到了基于我們標注工作的其他新任務的潛力,例如語義SLAM的評估。
致謝 我們感謝所有幫助注釋數據的學生。The work has been funded by the Deutsche Forschungsgemeinschaft (DFG, German Research Foundation) under FOR 1505 Mapping on Demand, BE 5996/1-1, GA 1927/2-2, and under Germanys Excellence Strategy, EXC2070 – 390732324 (PhenoRob).
References
[1] Anuraag Agrawal, Atsushi Nakazawa, and Haruo Takemura. MMM-classification of 3D Range Data. In Proc. of the IEEE Intl. Conf. on Robotics & Automation (ICRA), 2009. 5
[2] Dragomir Anguelov, Ben Taskar, Vassil Chatalbashev, Daphne Koller, Dinkar Gupta, Geremy Heitz, and Andrew Ng. Discriminative Learning of Markov Random Fields for Segmentation of 3D Scan Data. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pages 169–176, 2005. 5
[3] Iro Armeni, Alexander Sax, Amir R. Zamir, and Silvio Savarese. Joint 2D-3D-Semantic Data for Indoor Scene Understanding. arXiv preprint, 2017. 2
[4] Jens Behley, Kristian Kersting, Dirk Schulz, Volker Steinhage, and Armin B. Cremers. Learning to Hash Logistic Regression for Fast 3D Scan Point Classification. In Proc. of the IEEE/RSJ Intl. Conf. on Intelligent Robots and Systems (IROS), pages 5960–5965, 2010. 5
[5] Jens Behley and Cyrill Stachniss. Efficient Surfel-Based SLAM using 3D Laser Range Data in Urban Environments. In Proc. of Robotics: Science and Systems (RSS), 2018. 3
[6] Jens Behley, Volker Steinhage, and Armin B. Cremers. Performance of Histogram Descriptors for the Classification of 3D Laser Range Data in Urban Environments. In Proc. of the IEEE Intl. Conf. on Robotics & Automation (ICRA), 2012. 2,3
[7] Alexandre Boulch, Joris Guerry, Bertrand Le Saux, and Nicolas Audebert. SnapNet: 3D point cloud semantic labeling with 2D deep segmentation networks. Computers & Graphics, 2017. 5
[8] Angel X. Chang, Thomas Funkhouser, Leonidas J. Guibas, Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Manolis Savva, Shuran Song, Hao Su, Jianxiong Xiao, Li Yi, and Fisher Yu. ShapeNet: An Information-Rich 3D Model Repository. Technical Report arXiv:1512.03012 [cs.GR], Stanford University and Princeton University and Toyota Technological Institute at Chicago, 2015. 2, 5
[9] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L. Yuille. DeepLab: Semantic Image Segmentation withDeep Convolutional Nets, Atrous Convolution,and Fully Connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 40(4):834–848, 2018. 8, 14
[10] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele. The Cityscapes Dataset for Semantic Urban Scene Understanding. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2016. 2, 3, 4, 6, 12, 14
[11] Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, and Matthias Nie?ner. ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2009. 2
[12] Angela Dai, Daniel Ritchie, Martin Bokeloh, Scott Reed, Jürgen Sturm, and Matthias Nie?ner. ScanComplete: Large-Scale Scene Completion and Semantic Segmentation for 3D Scans. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2018. 2, 8
[13] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2009. 2
[14] Francis Engelmann, Theodora Kontogianni, Jonas Schult, and Bastian Leibe. Know What Your Neighbors Do: 3D Semantic Segmentation of Point Clouds. arXiv preprint, 2018.5
[15] Mark Everingham, S.M. Ali Eslami, Luc van Gool, Christopher K.I. Williams, John Winn, and Andrew Zisserman. The Pascal Visual Object Classes Challenge a Retrospective. International Journal on Computer Vision (IJCV), 111(1):98–136, 2015. 4
[16] Michael Firman, Oisin Mac Aodha, Simon Julier, and Gabriel J. Brostow. Structured Prediction of Unobserved Voxels From a Single Depth Image. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pages 5431–5440, 2016. 7
[17] Adrien Gaidon, Qiao Wang, Yohann Cabon, and Eleonora Vig. Virtual Worlds as Proxy for Multi-Object Tracking Analysis. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2016. 3
[18] Martin Garbade, Yueh-Tung Chen, J. Sawatzky, and Juergen Gall. Two Stream 3D Semantic Scene Completion. In Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition (CVPR) Workshops, 2019. 7, 8
[19] Andreas Geiger, Philip Lenz, and Raquel Urtasun. Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pages 3354–3361, 2012.1, 2, 3, 12
[20] Andres Geiger and Chaohui Wang. Joint 3d Object and Layout Inference from a single RGB-D Image. In Proc. of the German Conf. on Pattern Recognition (GCPR), pages 183–195, 2015. 7
[21] Benjamin Graham, Martin Engelcke, and Laurens van der Maaten. 3D Semantic Segmentation with Submanifold Sparse Convolutional Networks. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2018. 5
[22] Fabian Groh, Patrick Wieschollek, and Hendrik Lensch. Flex-Convolution (Million-Scale Pointcloud Learning Beyond Grid-Worlds). In Proc. of the Asian Conf. on Computer Vision (ACCV), Dezember 2018. 5
[23] Timo Hackel, Nikolay Savinov, Lubor Ladicky, Jan D.
Wegner, Konrad Schindler, and Marc Pollefeys. SEMAN-
TIC3D.NET: A new large-scale point cloud classification benchmark. In ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, volume IV1-W1, pages 91–98, 2017. 2
[24] Binh-Son Hua, Quang-Hieu Pham, Duc Thanh Nguyen, Minh-Khoi Tran, Lap-Fai Yu, and Sai-Kit Yeung. SceneNN: A Scene Meshes Dataset with aNNotations. In Proc. of the Intl. Conf. on 3D Vision (3DV), 2016. 2
[25] Binh-Son Hua, Minh-Khoi Tran, and Sai-Kit Yeung. Point-wise Convolutional Neural Networks. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2018. 5
[26] Jing Huang and Suya You. Point Cloud Labeling using 3D Convolutional Neural Network. In Proc. of the Intl. Conf. on Pattern Recognition (ICPR), 2016. 5
[27] Varun Jampani, Martin Kiefel, and Peter V. Gehler. Learning Sparse High Dimensional Filters: Image Filtering, Dense CRFs and Bilateral Neural Networks. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2016. 5
[28] Mingyang Jiang, Yiran Wu, and Cewu Lu. PointSIFT: A SIFT-like Network Module for 3D Point Cloud Semantic Segmentation. arXiv preprint, 2018. 5
[29] Andrew E. Johnson and Martial Hebert. Using spin images for effcient object recognition in cluttered 3D scenes. Trans. on Pattern Analysis and Machine Intelligence (TPAMI), 21(5):433–449, 1999. 5
[30] Roman Klukov and Victor Lempitsky. Escape from Cells: Deep Kd-Networks for the Recognition of 3D Point Cloud Models. In Proc. of the IEEE Intl. Conf. on Computer Vision (ICCV), 2017. 5
[31] Loic Landrieu and Martin Simonovsky. Large-scale Point Cloud Semantic Segmentation with Superpoint Graphs. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2018. 5, 6, 15
[32] Wenbin Li, Sajad Saeedi, John McCormac, Ronald Clark, Dimos Tzoumanikas, Qing Ye, Yuzhong Huang, Rui Tang, and Stefan Leutenegger. InteriorNet: Mega-scale Multi-sensor Photo-realistic Indoor Scenes Dataset. In Proc. of the British Machine Vision Conference (BMVC), 2018. 2
[33] Shice Liu, Yu Hu, Yiming Zeng, Qiankun Tang, Beibei Jin, Yainhe Han, and Xiaowei Li. See and Think: Disentangling Semantic Scene Completion. In Proc. of the Conf. on Neural Information Processing Systems (NeurIPS), pages 261–272, 2018. 7, 8
[34] Daniel Maturana and Sebastian Scherer. VoxNet: A 3D Convolutional Neural Network for Real-Time Object Recognition. In Proc. of the IEEE/RSJ Intl. Conf. on Intelligent Robots and Systems (IROS), 2015. 5
[35] John McCormac, Ankur Handa, Stefan Leutenegger, and Andrew J. Davison. SceneNet RGB-D: Can 5M Synthetic Images Beat Generic ImageNet Pre-training on Indoor Segmentation? In Proc. of the IEEE Intl. Conf. on Computer Vision (ICCV), 2017. 2
[36] Daniel Munoz, J. Andrew Bagnell, Nicolas Vandapel, and Martial Hebert. Contextual Classification with Functional Max-Margin Markov Networks. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2009. 2, 5
[37] Daniel Munoz, Nicholas Vandapel, and Marial Hebert. Directional Associative Markov Network for 3-D Point Cloud Classification. In Proc. of the International Symposium on 3D Data Processing, Visualization and Transmission (3DPVT), pages 63–70, 2008. 5
[38] Daniel Munoz, Nicholas Vandapel, and Martial Hebert. Onboard Contextual Classification of 3-D Point Clouds with Learned High-order Markov Random Fields. In Proc. of the IEEE Intl. Conf. on Robotics & Automation (ICRA), 2009. 5
[39] Gerhard Neuhold, Tobias Ollmann, Samuel Rota Bulo, and Peter Kontschieder. The Mapillary Vistas Dataset for Semantic Understanding of Street Scenes. In Proc. of the IEEE Intl. Conf. on Computer Vision (ICCV), 2017. 2, 3, 12
[40] Charles R. Qi, Hao Su, Kaichun Mo, and Leonidas J. Guibas. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2017. 5, 6, 14, 15
[41] Charles R. Qi, Li Yi, Hao Su, and Leonidas J. Guibas. PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space. In Proc. of the Conf. on Neural Information Processing Systems (NeurIPS), 2017. 5, 6, 14, 15
[42] Joseph Redmon and Ali Farhadi. YOLOv3: An Incremental Improvement. arXiv preprint, 2018. 5
[43] Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, and Frederico Tombari. Fully-Convolutional Point Networks for Large-Scale Point Clouds. Proc. of the European Conf. on Computer Vision (ECCV), 2018. 5
[44] Gernot Riegler, Ali Osman Ulusoy, and Andreas Geiger. OctNet: Learning Deep 3D Representations at High Resolutions. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2017. 5
[45] Jason Rock, Tanmay Gupta, Justin Thorsen, JunYoung Gwak, Daeyun Shin, and Derek Hoiem. Completing 3D Object Shape from One Depth Image. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2015. 7
[46] German Ros, Laura Sellart, Joanna Materzynska, David Vazquez, and Antonio Lopez. The SYNTHIA Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), June 2016. 2
[47] Xavier Roynard, Jean-Emmanuel Deschaud, and Francois Goulette. Paris-Lille-3D: A large and high-quality ground-truth urban point cloud dataset for automatic segmentation and classification. Intl. Journal of Robotics Research (IJRR), 37(6):545–557, 2018. 2, 3
[48] Nathan Silberman, Derek Hoiem, Pushmeet Kohli, and Rob Fergus. Indoor Segmentation and Support Inference from RGBD Images. In Proc. of the European Conf. on Computer Vision (ECCV), 2012. 2, 5, 7
[49] Shuran Song, Fisher Yu, Andy Zeng, Angel X. Chang, Manolis Savva, and Thomas Funkhouser. Semantic Scene Completion from a Single Depth Image. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2017. 7, 8
[50] Bastian Steder, Giorgio Grisetti, and Wolfram Burgard. Robust Place Recognition for 3D Range Data based on Point Features. In Proc. of the IEEE Intl. Conf. on Robotics & Automation (ICRA), 2010. 2
[51] Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, and Jan Kautz. SPLATNet: Sparse Lattice Networks for Point Cloud Processing. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2018. 5, 6, 14, 15
[52] Maxim Tatarchenko, Jaesik Park, Vladen Koltun, and Qian-Yi Zhou. Tangent Convolutions for Dense Prediction in 3D. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2018. 5, 6, 7, 15
[53] Lyne P. Tchapmi, Christopher B. Choy, Iro Armeni, Jun Young Gwak, and Silvio Savarese. SEGCloud: Semantic Segmentation of 3D Point Clouds. In Proc. of the Intl. Conf. on 3D Vision (3DV), 2017. 5
[54] Gusi Te, Wei Hu, Zongming Guo, and Amin Zheng. RGCNN: Regularized Graph CNN for Point Cloud Segmentation. arXiv preprint, 2018. 5
[55] Antonio Torralba and Alexei A. Efros. Unbiased Look at Dataset Bias. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2011. 2, 3
[56] Rudolph Triebel, Krisitian Kersting, and Wolfram Burgard. Robust 3D Scan Point Classification using Associative Markov Networks. In Proc. of the IEEE Intl. Conf. on Robotics & Automation (ICRA), pages 2603–2608, 2006. 5
[57] Shenlong Wang, Simon Suo, Wei-Chiu Ma, Andrei Pokrovsky, and Raquel Urtasun. Deep Parametric Continuous Convolutional Neural Networks. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2018. 3
[58] Yida Wang, Davod Tan Joseph, Nassir Navab, and Frederico Tombari. Adversarial Semantic Scene Completion from a Single Depth Image. In Proc. of the Intl. Conf. on 3D Vision (3DV), pages 426–434, 2018. 8
[59] Zongji Wang and Feng Lu. VoxSegNet: Volumetric CNNs for Semantic Part Segmentation of 3D Shapes. arXiv preprint, 2018. 5
[60] Bichen Wu, Alvin Wan, Xiangyu Yue, and Kurt Keutzer. SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for Real-Time Road-Object Segmentation from 3D LiDAR Point Cloud. In Proc. of the IEEE Intl. Conf. on Robotics & Automation (ICRA), 2018. 5, 6, 14, 15
[61] Bichen Wu, Xuanyu Zhou, Sicheng Zhao, Xiangyu Yue, and Kurt Keutzer. SqueezeSegV2: Improved Model Structure and Unsupervised Domain Adaptation for Road-Object Segmentation from a LiDAR Point Cloud. Proc. of the IEEE Intl. Conf. on Robotics & Automation (ICRA), 2019. 5, 6
[62] Jun Xie, Martin Kiefel, Ming-Ting Sun, and Andreas Geiger. Semantic Instance Annotation of Street Scenes by 3D to 2D Label Transfer. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2016. 11
[63] Xuehan Xiong, Daniel Munoz, J. Andrew Bagnell, and Martial Hebert. 3-D Scene Analysis via Sequenced Predictions over Points and Regions. In Proc. of the IEEE Intl. Conf. on Robotics & Automation (ICRA), pages 2609–2616, 2011. 5
[64] Wei Zeng and Theo Gevers. 3DContextNet: K-d Tree Guided Hierarchical Learning of Point Clouds Using Local and Global Contextual Cues. arXiv preprint, 2017. 5
[65] Jiahui Zhang, Hao Zhao, Anbang Yao, Yurong Chen, Li Zhang, and Hongen Liao. Efficient Semantic Scene Completion Network with Spatial Group Convolution. In Proc. of theEuropean Conf.on Computer Vision(ECCV),pages 733–749, 2018. 8
[66] Richard Zhang, Stefan A. Candra, Kai Vetter, and Avideh Zakhor. Sensor Fusion for Semantic Segmentation of Urban Scenes. In Proc. of the IEEE Intl. Conf. on Robotics & Automation (ICRA), 2015. 2
圖6:點云標注工具。在左上角,用戶看到由紅色軌跡指示的區塊和傳感器的路徑。
A、 LiDAR序列的一致標簽
??在本節中,我們將更詳細地解釋點云標注工具的實現,以及我們決定在空間上(而不是時間上)細分序列以獲得一致標注的點云序列背后的原理。標注工具本身對于提供這種細粒度標簽的掃描量至關重要。
??總之,我們開發了一個基于OpenGL的標注工具,它利用GPU上的并行化。主要的挑戰是大量點數據的可視化,同時還要處理這些數據,同時實現響應性,從而允許注釋者以交互方式標注聚集的點云。圖6顯示了我們的點云注釋程序,它可視化了超過2000萬個點的聚合點云。我們提供了一系列用于注釋的工具,如畫筆、多邊形工具,以及用于隱藏選定標簽的不同過濾方法。即使有這么多點,我們仍然能夠保持交互式標注功能。對聚集點云內的點的標注的更改反映在單獨的掃描中,這使得標注隨著時間的推移具有高度一致性。
??由于我們對每個點進行了標注,因此我們能夠對對象進行注釋,即使是復雜的遮擋,也比僅使用邊界體積更精確[62]。例如,我們確保汽車下方的地面點被相應地標注,這是通過注釋工具的過濾功能實現的。
??為了加速搜索必須標注的點,我們使用了投影方法來分配標簽。為此,我們為每個點確定屏幕上的二維投影,然后確定該點是否靠近單擊的位置(在筆刷的情況下)或在選定多邊形內。因此,注釋者必須確保他們沒有選擇實質上破壞先前分配的點的視圖。
??通常,注釋者執行以下循環來注釋點:(1)使用特定標簽標記點,(2)使用該標簽過濾點。由于已經標注的點的過濾,可以解決遮擋,并且進一步確保上述投影標注不會破壞已經標注的點。
基于區塊的標注。一個重要的細節是前面提到的將完整的聚集點云空間細分為小塊(也顯示在圖6的左上部分)。最初,我們只是在一個時間戳范圍內渲染所有掃描,例如100-150,然后移動到下一部分,例如150-200。然而,這很快導致標簽不一致,因為這些部分的掃描仍然重疊,因此必須重新標注以匹配之前的標簽。此外,由于我們遇到具有相當時間距離的循環閉包,這種重疊甚至可能發生在時間上不接近的序列部分之間,這使得任務更加復雜。
??因此,很明顯,這樣一種額外的努力來確保一致的標簽將導致不合理的復雜標注過程,從而導致不充分的結果。因此,我們決定將序列在空間上細分為區塊,其中每個塊包含與該塊重疊的掃描中的所有點。區塊之間的邊界一致性是通過區塊之間的小重疊實現的,這使得標簽能夠從一個區塊持續到另一個相鄰區塊。
移動對象。我們注釋了所有移動對象,即汽車、卡車、人、自行車手和摩托車手,每個移動對象由不同的類表示,以將其與對應的非移動類區分開來。在我們的例子中,當一個物體在某個時間點移動時,我們給它分配了相應的移動類,同時用傳感器觀察它。
??由于在聚集從不同傳感器位置捕獲的掃描時,移動對象將出現在不同的位置,因此我們必須特別注意注釋移動對象。當多種類型的車輛在同一車道上行駛時,這尤其具有挑戰性,就像大多數遇到的高速公路場景一樣。我們通過過濾地面點或單獨標注每個掃描注釋移動物體,這通常是標注汽車和自行車輪胎點或人的腳所必需的。但在上述情況下,不同類型的多輛車在同一車道上行駛時,逐個掃描標注也是必要的。移動對象的標注通常是注釋區塊時的第一步,因為這允許注釋器過濾所有移動點,然后集中于環境的靜態部分。
B、 數據集的基礎
??我們數據集的基礎是KITTI Vision Benchmark[19]的數據,在撰寫本文時,該數據集仍然是自動駕駛中使用的最大數據集。KITTI數據集是不同環境下許多實驗評估的基礎,并隨著時間的推移通過新任務或附加數據進行了擴展。因此,我們決定在這一傳統的基礎上再接再厲,并使我們的注釋與KITTI Vision Benchmark的其他部分和任務之間發揮協同作用。
??我們特別決定使用Odometry Benchmark來實現注釋數據的使用。我們期望在里程計估計中利用語義信息是未來研究的一個有趣途徑。然而,KITTI Vision Benchmark的其他任務可能會從我們的注釋和我們將在數據集網站上發布的預訓練模型中獲益。
??盡管如此,我們希望,我們的努力和點標注工具的可用性將使其他人能夠復制我們在汽車激光雷達未來公開可用數據集上的工作。
C、 類別定義
??在標注如此大量數據的過程中,我們必須決定在某個時間點對哪些類進行注釋。通常,我們遵循Mapillary Vistas數據集[39]和Cityscapes[10]的類定義和選擇,但對所使用的數據源進行了一些簡化和調整。
??首先,我們沒有明確考慮騎摩托車或自行車的人的騎手類別,因為可用的點云沒有提供單個掃描的密度來區分騎車輛的人。此外,對于此類類,我們只能得到移動示例,因此無法容易地聚合點云以增加點云的保真度,并使其更容易區分車輛的駕駛員和車輛。
??其他結構、其他車輛和其他對象的類別在不清楚的情況下或缺失的類別中是其各自根類別的后備類別,因為這簡化了標注過程,并可能在將來用于進一步區分這些類別。
??注釋者通常對場景的某些對象或部分進行注釋,然后隱藏標注的點,以避免覆蓋或刪除標簽。因此,在不明確的情況下或缺少特定類的情況下分配回退類,可以簡單地隱藏該類以避免覆蓋它。如果我們指示注釋者將這些部分標注為未標注的,那么將導致一致地標注點云的問題。
??此外,我們還區分了移動和非移動的車輛和人類,即,如果車輛或人類在LiDAR傳感器觀察時在一些連續掃描中移動,則會獲得“移動”標簽。
??總之,我們注釋了28個類,下一頁的表6中列出了所有帶注釋的類及其各自的定義。
表6:類別定義。
表7:方法統計。在epochs數字中的? 意味著它是從單掃描版本的預訓練權重開始的。
D、 基線設置
??我們修改了可用的實現,以便可以在我們的大規模數據集上訓練和評估這些方法,因為LiDAR傳感器具有非常稀疏的點云。注意,迄今為止,這些方法中的大多數僅在小型RGB-D室內數據集上進行了評估。
??由于某些方法[40,41]的內存限制,我們通過隨機抽樣將單個掃描中的點數限制為50000。
??對于SPLATNet,我們使用了[51]中的SPLATNet 3D (1 https://github.com/NVlabs/splatnet)架構。輸入由3D位置及其法線的每個點組成。在30個最近鄰居的情況下,先前估計了法線。
??對于TangentConv(2 https://github.com/tatarchm/tangent_conv),我們使用了Semantic3D的現有配置。我們通過預計算掃描批并添加異步數據加載,加快了訓練和驗證過程。培訓期間提供了完整的單次掃描。在多掃描實驗中,由于內存限制,我們將每個批次的點數固定為500000,并從單掃描權重開始訓練。
??對于SquezeSeg[60]及其Darknet主干等價物,我們使用了與原始Squezeseg方法相同的掃描球面投影。該投影包含64條高度線,與傳感器的單獨光束相對應,并外推了僅使用前90°水平分辨率為512,我們在整個掃描中使用2048。因為在這個采樣過程中有些點是重復的,所以我們總是保持最接近的范圍值,在每次掃描的推斷中,我們遍歷整個點列表,并在輸出網格中檢查其語義值。
??表7中給出了所用參數的概述。此外,我們還提供了訓練epochs的數量,以及我們是否能夠獲得在給定時間內似乎收斂的結果。
E、 使用多次掃描的結果
??表8列出了多次掃描實驗的全部每類IoU結果。正如正文中已經提到的,我們通常觀察到靜態類的IoU不受多次過去掃描可用性的影響。在某種程度上,某些類別的IoU略有增加。mIoU方面的性能下降主要是由于正確區分移動類和非移動類帶來的額外挑戰。
F、 語義場景補全
??表9顯示了語義場景補全的類結果以及場景補全的精度和召回。可以看出,TS3D+DarkNet53Seg的性能略優于SSCNet和TS3D。注意,DarkNet53Seg已經在語義場景補全所需的完全相同的類上進行了預訓練。另一方面,TS3D使用了在Cityscapes[10]數據集上預訓練的DeepLab v2(ResNet-101)[9],該數據集不區分其他地面、停車場或干線等類別。另一個原因可能是投影回點云的2D語義標簽不是很準確,尤其是在對象邊界,標簽通常會流到遠處的對象上。這是因為在2D投影中,它們彼此接近,這是投影方法固有的問題。最佳方法(TS3D+DarkNet53Seg+SATNet)顯著優于其他方法(場景補全率為20.77%IoU,語義場景補全率+7.51%mIoU)。如上所述,這是唯一能夠產生高分辨率輸出的方法。然而,這種方法存在巨大的內存消耗。因此,在訓練期間,輸入體積被隨機裁剪為網格大小為64×64×32的體積,而在推斷期間,每個體積被劃分為大小為90×138×32的6個重疊塊,分別對其進行推斷。隨后對各個塊進行融合以獲得最終結果。圖7顯示了這種方法的示例結果。
??像自行車、摩托車、摩托車手和人這樣的罕見類別不被辨別或幾乎不被辨別。這表明這些類可能很難識別,因為它們代表SemanticKITTI數據中的一個小而罕見的信號。
圖7:語義場景補全方法TS3D+DarkNet53Seg+SATNet的定性結果。左:輸入體積。中間:網絡預測。右:真值。由于內存限制,必須在重疊子卷上分六步進行推斷。子體積因此被融合以獲得最終結果。
圖8:所有方法的推理示例。使用球形投影將點云投影到2D,以便于比較。
表8:使用多次過去掃描序列的IoU結果(%)。
表9:場景補全的結果和語義場景補全的分類結果(%)。
G、 定性結果
??圖8顯示了從驗證數據中掃描的評估基線方法的定性結果。這里我們展示了結果的球形投影,以便于比較結果。
??隨著平均IoU(從上到下)方面的表現不斷提高,請參見本文的表2,我們看到地面點可以更好地劃分為人行道、道路和停車場。特別是,停車區需要大量的上下文信息以及來自相鄰點的信息,因為通常一個小的路緣將停車區與道路區分開來。
??總的來說,我們可以肯定地看到,對于像圖像右側的桿子這樣的較小對象,精度會有所提高,這表明需要使用容量最大的模型的額外參數(在DarkNet21Seg的情況下為2500萬個,在Darknet 53Seg的情況下為5000萬個)來區分較小的類和示例很少的類。
H、 數據集和基線訪問API
??除了注釋和標注工具,我們還提供了一個用Python實現的公共API。
??我們的標注工具旨在允許用戶輕松擴展此數據集,并為其他目的生成其他數據集,與此相反,此API旨在用于輕松訪問數據、計算統計數據、評估度量,以及訪問不同最先進語義分割方法的數種實現。我們希望該API將作為實現新的點云語義分割方法的基線,并將提供一個通用框架來評估它們,并將它們與其他方法進行更透明的比較。選擇Python作為API的底層語言是因為它是深度學習框架開發人員以及深度學習從業者當前選擇的前端語言。
??圖9給出了標注序列的概述,顯示了整個序列上的估計軌跡和聚集點云。
圖9:標注序列和軌跡的定性概述。
總結
以上是生活随笔為你收集整理的SemanticKITTI 数据集 - 3D 点云分割(ICCV 2019)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 系统集成项目管理 : 挣值管理(PV、E
- 下一篇: 网络扫描与网络侦察