多视点三维行人检测
多視點三維行人檢測
Improving 3D Object Detection for Pedestrians with Virtual Multi-View
Synthesis Orientation Estimation
論文地址:https://arxiv.org/pdf/1907.06777.pdf
摘要
準確估計行人的方向對于自動駕駛來說是一項重要而具有挑戰性的任務,因為這些信息對于跟蹤和預測行人的行為至關重要。本文提出了一種靈活的虛擬多視圖綜合模塊,可應用于三維目標檢測方法中,以改進方向估計。該模塊使用一個多步驟的過程來獲取精確方位估計所需的背景語義信息。首先,使用結構保持深度完成算法對場景的點云進行加密,并使用相應的RGB像素對每個點進行著色。接下來,虛擬攝像機被放置在密度點云中的每個對象周圍,以生成新的視點,從而保持對象的外觀。實驗結果表明,該模塊在KITTI基準上大大提高了對具有挑戰性的行人類別的方向估計。當與開源的三維探測器AVOD-FPN一起使用時,在行人定位、三維和鳥瞰基準上的表現優于所有其他已發布的方法。
一.基本原理與貢獻
深度神經網絡在三維目標檢測方面取得了顯著的進展,使其具有足夠的魯棒性,可以應用于自主車輛上。KITTI[1]基準測試展示了3D物體檢測方法的成功,特別是在汽車和自行車類上,但也強調了需要改進的地方。基準測試表明,現有的三維檢測方法[2]、[3]能夠非常精確地估計汽車和自行車的方位,平均角度誤差(AAE)[4]分別小于7°和20°而行人的平均誤差幾乎為56°左右。在這項工作中,處理行人的三維姿勢估計的任務,重點是方向估計。此任務對于自動駕駛尤其重要,因為此信息對于跟蹤和預測行人行為非常有用。此外,重要的是將方向估計納入檢測管道,而不是依賴于跟蹤方法進行估計,因為等待過馬路的行人的方向必須在沒有運動線索的情況下推斷出來。基于圖像的檢測方法可以從RGB數據中獲取豐富的語義信息。為了準確估計方向,這些方法必須提取對象的細粒度細節。然而,由于三維場景的透視變換會導致對象的尺度和外觀發生變化,因此提取語義信息具有很大的挑戰性。一些方法[5],[6]試圖通過使用多尺度圖像來提取特征來解決這個問題。然而,如[4]所述,從ROI裁剪中仍然存在對象外觀的不一致性。相比之下,建議通過將虛擬攝像機放置在三維場景中相對于每個對象的一致位置來呈現對象的多個視點,從而學習細粒度信息。如圖1所示,使用這些生成的視點可以保持更一致的對象外觀,這有助于在神經網絡中學習對象方向。
激光雷達方法可以利用精確的深度信息實現魯棒定位。對于汽車類和自行車類,可以利用3D對象的長寬比來簡化方向估計問題[2]。然而,基于激光雷達的方法在提取對象的細粒度語義信息方面也面臨挑戰。激光雷達數據的稀疏性限制了這些方法的工作范圍,特別是對于行人等較小的物體。在較長距離內,由于激光雷達數據的稀疏性變得非常嚴重,很難區分樹木、電線桿和行人,從而導致誤報,從而丟失了細粒度信息。圖2顯示,即使在20米和30米的較短距離內,使用高密度64束HDL-64E激光雷達,由于數據的稀疏性,人類也很難識別有意義的方向信息。為了解決這種稀疏性問題,利用深度完成的任務來生成稠密的點云,這允許一對一像素點合并RGB圖像數據。此外,受F-PointNet[7]使用2D檢測器進行精確分類的啟發,利用2D檢測器進行假陽性抑制。此外,方位估計性能取決于可用訓練數據的數量。
訓練集必須能夠很好地代表所有可能的方向,但是標記的3D數據是昂貴和耗時的獲取[8]。KITTI[1]數據集只有4500個帶有3D標簽的行人訓練實例,這使得訓練通常需要大量數據才能獲得良好性能的神經網絡變得困難。一個常見的解決方案是利用CAD模型和附加注釋來獲取更多的訓練數據[9],[10]。但是,不需要使用額外的數據源或標簽。為了減少數據量,開發了一個虛擬多視圖渲染管道,從圖像和激光雷達輸入中生成新的真實數據。在訓練和推理過程中,生成的數據被合并到網絡中。檢測到的對象將從一組規范的相機視圖重新渲染,以便與使用由公共感興趣區域(ROI)cropand resize過程獲得的二維裁剪相比,對象保持更一致的外觀。在推斷時,這些附加的視點用于確定更精確的方向估計。
總之,在這項工作中的貢獻如下:
?提出了一個靈活的模塊,可用于三維目標檢測管道,以改進方向估計。
?解決了有限位姿數據的問題,以及在使用虛擬攝像機在彩色深度完成的激光雷達點云上生成視點的新型管道中,從圖像和激光雷達數據中獲取精細顆粒細節的挑戰。
?在提交時,當納入開源AVOD-FPN[2]3D目標探測器的檢測管道時,方法在KITTI[1]行人定位、3D和鳥瞰基準上與所有其他已發布的方法相比排名第一。
?與具有可比方向估計性能的其他檢測方法相比,方法運行速度快8倍以上。
三.相關研究
方向(偏航、俯仰、橫滾)表示定義對象三維姿勢的組件之一。3D位姿數據集的引入[1]、[11]、[12]、[13]催生了大量的3D位姿估計方法,并由此探索了許多方位估計技術。
多尺度特征提取
以前的工作已經認識到,準確的方向估計需要一個特征提取過程,捕捉對象的細粒度語義信息。Zhang等人[14] 確定標準的快速R-CNN特征地圖對于行人來說分辨率太低,而使用的是阿托羅斯卷積[15]和淺層的池特征。金字塔結構包括圖像金字塔[16]和特征金字塔[17]也被用來從多個尺度獲取信息。SubCNN[5]使用圖像金字塔來處理對象的比例變化,并且[2]強調金字塔結構對于行人等小類的重要性。此外,[18]、[19]、[20]已經表明了方法裁剪ROI特征的重要性。Kundu等人[4] 注意,標準的ROI裁剪可以扭曲形狀和姿勢的外觀,并建議使用虛擬ROI相機來解決這個問題。取而代之的是,使用多個虛擬感興趣區攝像機,在每個物體檢測到的質心周圍規范地放置,從而獲得細粒度的細節。與文獻[4]相比,不僅使用二維RGB數據,而且還使用三維點云生成逼真的新穎視點,以保持對象外觀的一致性。
關鍵點和CAD模型
使用關鍵點檢測[21]、[22]、[23]、[24]和CAD模型[25]、[26]已被證明在獲得感興趣對象的語義理解方面是有效的。使用二維關鍵點檢測來估計姿態已經作為透視點(PnP)問題得到了很好的研究,并提出了許多解決方案[27]、[28]、[29]。最近,[25],[26]使用3D CAD模型和卷積神經網絡(CNNs)檢測關鍵點來學習3D姿勢。在自主駕駛環境中,DeepMANTA[10]預測車輛部件協調性,并使用車輛CAD模型數據集來估計3D姿勢。CAD模型也被用來創建額外的地面真實性標簽。Su等人[9] 認為視點標注訓練數據的稀缺性阻礙了視點估計性能的提高,因此采用三維模型生成準確的地面真實數據。與上述方法不同,不需要額外的關鍵點標簽或外部CAD數據集。提出了一個利用可用數據的通用管道,并使用虛擬攝像機生成新的高分辨率視點。
多視角學習
使用多個視圖已經被證明可以有效地讓神經網絡學習形狀和姿勢信息。Su等人[30]從CAD數據集中圍繞一個對象呈現多個視圖,然后根據每個視圖的特征預測形狀。其他[31]、[32]、[33]使用多個視圖來確保投影一致性,以學習形狀和姿勢信息。這些方法傾向于使用CAD模型,從背景中分割感興趣的對象,包含完整的360°形狀信息,并允許從任何角度完美地生成數據。然而,在自動駕駛中的應用程序只能訪問激光雷達掃描,只提供來自單一方向的輸入數據。表明,仍然能夠通過將虛擬攝像機小心地放置在特定的操作區域內來利用這些數據來保持真實的渲染圖像,如圖4所示。
方向表示法
與工作最相似的是為自主駕駛場景設計的三維姿態估計方法。這些方法主要集中在方向的表示和新的損失函數的設計上。姿勢RCNN[34]使用位數表示作為[35]建議的方向。單目三維目標檢測方法Deep3DBox[36]提出了一種角元公式,將幀方向估計作為一個混合分類回歸問題。在這里,方向被離散成若干個箱子,網絡的任務是分類正確的箱子和預測一個回歸偏移。該公式已被包括[7]在內的激光雷達方法采用。[2] 識別一個模糊問題,即盡管方向估計值相差±∏弧度,但創建相同的三維長方體。他通過將方向參數化為角度向量來解決這個問題,而Yan等人[3] 用正弦誤差損失來處理同樣的問題。消融研究顯示將方向參數化為角矢量,同時使用離散連續角bin公式作為輔助損失是最有效的。
三.姿態估計框架
圖3提供了用于3D行人姿勢估計的管道的概述。
該方法的核心思想是從彩色稠密點云中生成真實新穎的物體視點,并利用這些視點提取出豐富的物體語義信息,從而實現對物體的方位估計。首先,在現有三維探測器性能的基礎上,使用三維探測作為質心建議。這些建議由虛擬多視圖合成模塊處理,該模塊使用密集點云重建來呈現一組新的視圖。重要的是,這些視圖是在一組規范的攝像機視點中創建的,方法是將虛擬攝像機放置在相對于每個對象的一致位置布氏體從這些虛擬相機生成的對象視圖與進行ROI裁剪相比,可以更好地保留對象的3D形狀和外觀。對于生成的每個新視圖,方向是通過將視圖通過CNN,然后通過方向回歸輸出頭來估計的。最終方向輸出是通過合并方向估計值產生的。最后,由于流水線中使用的3D檢測器是在具有高召回率的基礎上選擇的,因此使用魯棒的2D檢測器來抑制誤報。
A、 虛擬多視圖綜合
加密RGB點云生成
首先注意到,激光雷達點云只是底層場景的稀疏表示,可以全方位觀看,每個視圖都提供了場景的獨特視覺表示。然而,激光雷達數據的稀疏性只能提供低分辨率的場景透視圖。因此,將激光雷達掃描的一部分對應于圖像的可見部分,并通過結構保持深度完成算法進行處理[37]。特別地,使用提供的3×4相機投影矩陣Pcam將LiDAR點投影到圖像中,從而創建稀疏的深度映射Ds。深度完成算法生成一個密集的深度圖Dd,每個像素表示一個深度,然后將其重新投影為一個3D點云。由于得到的點云來自于與RGB圖像具有相同分辨率的稠密深度圖,接下來通過將RGB圖像中的每個3D點與其對應的像素著色,從圖像中注入語義信息。該場景點云的彩色密集重建解決了激光雷達掃描的低分辨率問題,并允許生成更逼真的新視圖,以保留細粒度語義信息,如圖2所示。
多視圖生成
目標是學習每個對象的細粒度細節。最直接的過程是簡單地對每個對象對應的圖像區域進行ROI裁剪,但是正如[4]所指出的,這種常見的裁剪過程可能導致同一對象的外觀大不相同。最近,以對象為中心的坐標框架的使用被證明對促進學習任務是有效的[7],[38],因此,設計了模塊來使用規范視角進行估計。為了創建標準攝像機視點,將虛擬攝像機沿N個等距的角度分割放置在與對象質心等距的位置。攝像機位置與感興趣物體的中心水平放置,在一個角度范圍內,從原始攝像機中心到物體質心的光線定義的水平視圖角度α的左側和右側,ρ∈[-ρmax,ρmax]之間,如圖4所示。選擇視點的最小和最大角度時,生成的視圖不會顯示從原始相機視點看不到的對象部分,這會使對象看起來不現實。對象的N個視圖是在一組標準視點中生成的,這些視點沿對象周圍半徑r的弧均勻分布。每個視點生成一個保持外觀的H×W ROI圖像,如圖1所示。這些渲染輸出密集地將點云和圖像信息融合為3通道RGB格式,從而允許使用成熟的CNN架構進行方向估計。
B、 方位估計
渲染的ROI圖像通過CNN生成最終的方向估計。有幾種方法[36],[7]使用離散的連續損失,以B角箱的形式,在每個箱中進行回歸。然而,假設這會分割訓練數據,因為每個bin只會有訓練樣本總數的一小部分可供學習。
C、 最終姿態估計
最終的三維檢測由物體質心T、尺寸D和方向O參數化。質心和尺寸估計直接從三維檢測中獲取,而方向的偏航θ設置為方向估計模塊產生的輸出。
D、 假正性抑制
與包含圖像數據的方法相比,KITTI測試基準上基于行人激光雷達的3D探測器的平均精度(AP)曲線顯示出顯著的低精度。這支持了這樣一種假設,即僅從激光雷達數據中識別行人等較小物體非常困難,而且誤報現象普遍存在。為了提高檢測性能,使用0.4的交超并(IoU)閾值,將魯棒2D檢測器的2D盒與3D檢測的2D投影進行匹配。投影不符合此閾值的3D框的分數降低,這起到了假陽性抑制的作用。由于KITTI平均方向相似性(AOS)的評估也依賴于2D檢測性能,因此每個3D盒的投影被其來自2D檢測器的相應2D盒替換,這使得AOS可以被評估。
E、 訓練損失
多任務訓練在提高神經網絡性能方面有著顯著的效果。根據[36]中的離散連續角倉公式,添加了一個輔助輸出層,生成B向倉和B角回歸。角度箱用軟最大損失訓練,而箱回歸和角度向量輸出用平滑的L1損失訓練。總損失計算如下:
總結
- 上一篇: 多任务训练的模式结构扩散
- 下一篇: 单目和多目视觉统一标定