论文阅读笔记 | 三维目标检测——AVOD算法
如有錯誤,懇請指出。
文章目錄
- 1. 背景
- 2. 網絡結構
- 3. 實驗結果
paper:《Joint 3D Proposal Generation and Object Detection from View Aggregation》
1. 背景
AVOD同樣是一個two-stage(使用了RPN提取候選框)、anchor-based網絡結構。獲得較高的召回率對RPN網絡來說是比較重要的,但對于稀疏的較低分辨率的輸入來說(比如前視圖和鳥瞰圖)不足以讓RPN輸出高質量的候選框,且導致低召回率,這會在第二個階段帶來無法逆轉的結構。基于這個考慮,AVOD設計了一個新穎的RPN結構可以通過在高分辨率特征圖上進行多模態特征融合(將來自RGB圖像和BEV的全分辨率特征圖為輸入),來提高小目標的定位精度。
補充一點,這里與MV3D的處理方法是不一樣的。對于MV3D中的是對鳥瞰圖的特征進行3d候選框的生成再投影回去每個模態的特征圖中獲得統一尺寸的roi特征圖,所以本質上MV3D融合的信息較小,對于小目標來說檢測精度較低。而AVOD采取的方案是利用投影在RGB圖與BEV全尺寸的特征圖上獲取feature crop融合來進行最后邊界框的預測,在下面網絡結構中會詳細介紹。
2. 網絡結構
AVOD的網絡結構圖如下所示。對于BEV輸入表示采用與MV3D類似的方式,截取的點云范圍是[-40,40]x[0,70],以包含RGB圖像視野的點。BEV輸入包含6個channel,其中前5個是切片的高度特征(沿z軸0.5m進行切片,提取網格中的最高點),第6個channel是密度特征(網格內的點密度)。
對于點云這種稀疏數據來說,如果對BEV進行8x下采樣卷積提取特征,那么一個0.8x0.6m的行人在0.1m采樣下,原本是8x6的像素,而在下采樣后的特征圖中像素點可能不足1。對于這種情況,需要提高特征圖尺寸,這里AVOD使用Encoder-Decoder類似U-Net的結構來對特征進行反卷積到原始大小(如下所示),構建了一個point-wise的特征圖。對于BEV和RGB數據,通過這種方式分別構建成BEV特征圖以及RGB特征圖。
現在,對BEV圖的坐標點以0.5米精度進行間隔采樣生成3d錨框網格(3d anchor grid),3d的先驗框尺寸通過對真實目標框進行聚類獲取。錨框由中心點(tx,ty,tz)以及相對尺寸(dx,dy,dz)進行參數設定,如下圖所示的Axis Aligned方法所示。此外,可以通過計算積分圖像去除BEV中沒有3d點的anchor,以此減少計算量。
基于BEV采樣所獲得的3d anchor投影到BEV和RGB上,獲得這兩個特征圖上的感興趣區域。將此區域截取出來,進行雙線性插值變化到3x3的相同大小,隨后進行element-wise mean操作融合,再通過全連接構建一組預測參數來生成proposal。輸出包括objectness以及回歸參數(?tx,?ty,?tz,?dx,?dy,?dz),既回歸是通過anchor和ground truth之間的質心和尺寸差異來進行回歸。在BEV視圖上進行正負樣本的判定,iou<0.3是負樣本,iou>0.5的正樣本。最后通過nms挑選前1024個anchor作為3d proposals。
獲得了3d proposals將其投影回去BEV與RGB視圖中獲得對應區域的feature map,同樣的對來自BEV與RGB的兩個feature crop進行resize到7x7的大小進行element-wise融合,隨后用過3層2048的全連接層進行特征編碼。在這個階段的proposals編碼方式采取的是4 Corners+Height,也就是底部的4個角點以及兩個高度來對真實框進行回歸。這種方式考慮到了3d邊界框的物理約束,無需強迫頂角與底角的對齊,減少物理信息的冗余性。所以,4個點的(x,y)位置以及2個高度,特征編碼的輸出維度由8角點(corner loss)的24維度縮減到了10維度。
損失組成同樣有分類損失(cross-entropy loss)以及這種4角點+2高度的定位回歸損失(Smooth L1 losses)所構成。這里對car類別BEV視圖上iou>0.65是正樣本,而pedestrian/cyclist類別只需要iou>0.55。
3. 實驗結果
實驗結果表明,對于AVOD來說,對BEV和RGB進行反卷積到原尺寸構建高分辨率的特征圖有極大幫助,尤其是行人這種小目標,提升效果10%。而本質上,這種反卷積到原始尺寸已經可以作為一個語義分割的任務處理,那么可不可以推斷出語義分割網絡結構性能提升,提取到這種pixel-wise的強語義特征,在一定程度上也有助于檢測任務的性能。
AVOD對框回歸設計了新的回歸方法,但是這里并沒有對另外兩種回歸方法(8 Corner、Axis Aligned)進行對比實驗,并沒有否定添加8 Corner會對精度有提升。此外,基于原尺寸的特征圖截取feature crop局部特征有助于小目標的定位檢測,整體效果均有提升,這個idea可以在后續處理中保留。
總結
以上是生活随笔為你收集整理的论文阅读笔记 | 三维目标检测——AVOD算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Windows 7的中国DNA
- 下一篇: 一步步学习微软InfoPath2010和