《《《翻译》》》avod 三维生成与目标检测
論文題目:Joint 3D Proposal Generation and Object Detection from View Aggregation
開源代碼:https://github.com/kujason/avod
摘要
我們提出AVOD,一個用于自主駕駛場景的聚合視圖對象檢測網絡。提出的神經網絡結構使用LIDAR點云和RGB圖像生成由兩個子網絡共享的特征:區域建議網絡(RPN)和第二級檢測器網絡。提出的RPN使用能夠在高分辨率特征地圖上執行多模態特征融合的新體系結構來為道路場景中的多個對象類生成可靠的3D對象建議。
利用這些建議,第二階段檢測網絡執行精確的面向3D邊界盒回歸和類別分類,以預測三維空間中物體的范圍、方向和分類。我們提出的體系結構在KITTI 3D目標檢測基準[1]上產生最新結果,同時以低內存占用實時運行,使得它適合在自主車輛上部署。代碼是:https://github.com/kujason/avod
一、引言
近年來,深層神經網絡在二維目標檢測任務上取得的顯著進展并沒有很好地轉移到三維目標檢測上。達到了90%以上的平均精度(AP),而最高得分的3D汽車檢測器在同一場景只達到70%的AP。造成這種差距的原因是由于在估計問題中添加三維而引起的困難、3D輸入數據的低分辨率、以及作為距離的函數的其質量的惡化。此外,與2D對象檢測不同,3D對象檢測任務需要估計定向邊界框(圖1)。
與2D對象檢測器類似,大多數用于3D對象檢測的最新深度模型依賴于用于3D搜索空間縮減的3D區域建議生成步驟。使用區域建議允許在稍后的檢測階段通過更復雜和計算上更昂貴的處理產生高質量的檢測。但是,提案生成階段的任何遺漏實例在下列階段無法恢復。因此,在區域建議生成階段實現高召回對于良好的性能至關重要。
區域建議網絡(RPN)是在Faster-RCNN[2]中提出的,并且已經成為二維目標檢測器中主要的建議生成器。RPN可以被認為是弱模態檢測器,提供高召回率和低精度的建議。這些深層結構很有吸引力,因為它們能夠與其他檢測階段共享計算上昂貴的卷積特征提取器。
然而,將這些RPNS擴展到3D是一項非平凡的任務。更快的R-CNN RPN架構是為密集、高分辨率的圖像輸入量身定制的,其中對象通常占據特征映射中的多個像素。當考慮稀疏且低分辨率的輸入時,例如前視圖[3]或鳥瞰圖(BEV)[4]點云投影,該方法不能保證有足夠的信息來生成區域建議,特別是對于小對象類。
本文旨在通過提出AVOD(用于自主駕駛的聚合視圖對象檢測體系結構)來解決這些困難。所提出的架構提供以下貢獻:
●受用于2D目標檢測的特征金字塔網絡(FPN)[5]的啟發,我們提出了一種新的特征提取器,該特征提取器從LIDAR點云和RGB圖像生成高分辨率特征圖,允許場景中的小類定位。
●我們提出一個特征融合區域建議網絡(RPN),它利用多種模式為小類產生高召回區域建議。
●我們提出了一種符合盒幾何約束的新的3D邊界盒編碼,允許更高的3D定位精度。
●所提出的神經網絡結構利用RPN階段的1×1卷積,以及3D錨點投影的固定查找表,允許高計算速度和低內存占用,同時保持檢測性能。
上述貢獻導致一種以低計算成本和內存占用提供最新檢測性能的體系結構。最后,我們將網絡集成到我們的自主駕駛堆棧中,并在更極端的天氣和光照條件下對新場景和檢測進行概括,使之成為在自主車輛上部署的適當候選。
二。相關工作
用于提案生成的手工制作特征:在3D區域提案網絡(RPN)[2]出現之前,3D提案生成算法通常使用手工制作的特征來生成小組候選框,以檢索3D空間中的大多數對象。3DOP[6]和Mono3D[7]使用來自立體點云和單眼圖像的各種手工制作的幾何特征來在能量最小化框架中對3D滑動窗口進行評分。最上面的K個評分窗口被選擇為區域建議,然后被修改的快速RCNN[?生成最終的3D檢測。我們使用區域建議網絡,從BEV和圖像空間學習特征,以高效方式生成更高質量的建議。
建議的自由單鏡頭檢測器:單鏡頭對象檢測器也被提出作為RPN自由體系結構的3D對象檢測任務。VeloFCN[3]將LIDAR點云投影到前視圖,該點云用作全卷積神經網絡的輸入,以直接生成密集的3D邊界框。3D-FCN[8]通過在由LIDAR點云構建的3D體素網格上應用3D卷積來擴展這個概念,以產生更好的3D邊界框。我們的兩階段架構使用RPN來檢索道路場景中的大多數對象實例,與這兩個單鏡頭方法相比,提供了更好的結果。VoxelNet[9]通過編碼具有逐點特征而不是占用值的體素來進一步擴展3D-FCN。然而,即使使用稀疏的3D卷積運算,VoxelNet的計算速度仍比我們提出的體系結構慢3×,這在汽車和行人類別上提供了更好的結果。
基于單眼的建議生成:最新技術的另一個方向是使用成熟的2D對象檢測器來生成2D中的建議,然后通過模態程度回歸將其擠壓到3D。這種趨勢始于[10]的室內物體檢測,它激發了.stumbased PointNets(F-PointNet)[11]使用點網[12]的點狀特征代替點直方圖進行范圍回歸。雖然這些方法在室內場景和亮光照明的室外場景中工作良好,但是在更極端的室外場景中它們預期表現不佳。任何未命中的2D檢測都將導致未命中的3D檢測,因此,在這種極端條件下這些方法的泛化能力尚未得到證明。
LIDAR數據比圖像數據變化小得多,在第四節中,我們顯示AVOD對噪聲LIDAR數據和光照變化是魯棒的,因為它是在雪景和低光條件下測試的。
基于單眼的3D物體檢測器:另一種利用成熟的2D物體檢測器的方法是使用先驗知識僅從單眼圖像執行3D物體檢測。Deep MANTA[13]提出一種基于單目圖像的多任務車輛分析方法,該方法同時優化區域建議、檢測、2D盒回歸、零件定位、零件可見性和3D模板預測。該體系結構需要與幾種類型的車輛相對應的3D模型的數據庫,使得所提出的方法很難推廣到不存在此類模型的類。Deep3DBox[14]建議通過利用3D邊界框的透視投影應該緊密地適合其2D檢測窗口這一事實,將2D對象檢測器擴展到3D。然而,在第四節中,與使用點云數據的方法相比,這些方法在3D檢測任務上執行得很差。
3D區域建議網絡:3DRPN之前已經在[15]中提出用于從RGBD圖像中檢測3D對象。然而,據我們所知,MV3D[4]是唯一針對自主駕駛場景提出3DRPN的體系結構。MV3D通過將BEV特征映射中的每個像素對應到多個先前的3D錨點,將更快的R-CNN[2]的基于圖像的RPN擴展到3D。
然后,這些錨點被饋送到RPN,以生成用于從BEV、[3]的前視圖和圖像視圖特征映射創建特定于視圖的特征作物的3D建議。利用深度融合方案結合來自這些特征作物的信息,產生最終的檢測輸出。然而,這種RPN架構對于BEV中的小對象實例并不適用。當由卷積特征提取器進行下采樣時,小實例將占據最終特征圖中像素的一小部分,導致沒有足夠的數據來提取信息特征。我們的RPN體系結構旨在將圖像和BEV特征映射中的全分辨率特征作物作為輸入融合到RPN,從而允許為較小的類生成高召回建議。此外,我們的特征提取器提供全分辨率的特征圖,這顯示出在檢測框架的第二階段對小目標的定位精度有很大幫助。
三、AVOD體系結構
如圖2所示,提出的方法使用特征提取器從BEV圖和RGB圖像中生成特征圖。然后,RPN使用兩個特征映射來生成非定向區域建議,這些建議被傳遞到檢測網絡以進行維度細化、方向估計和類別分類。
A.從點云和圖像生成特征地圖
我們遵循[4]中描述的過程,以0:1米分辨率從點云的體素網格表示生成六通道BEV圖。點云在[40;40]×[0;70]米處裁剪,以包含攝像機視場內的點。BEV圖的前5個通道用每個網格單元中點的最大高度編碼,這些點由沿Z軸[0;2:5]米之間的5個等切片生成。第六個BEV通道包含每個單元計算的點密度信息為min(1:0;log(log 16 N+1)),其中N是單元中的點數。。
B.特征提取器
所提出的體系結構使用兩個相同的特征提取器體系結構,每個輸入視圖一個。全分辨率特征提取器如圖3所示,由兩個部分組成:編碼器和解碼器。編碼器在VGG-16[16]之后進行建模,經過一些修改,主要是將信道數量減少一半,并在conv-4層切斷網絡。因此,編碼器以M×N×D圖像或BE圖作為輸入,產生M8×N8×D_特征圖F。KeTI數據集中的平均行人在BEV中占據0:8×0:6米。這轉化為一個8×6像素區域的BEV地圖與0:1米分辨率。下采樣8×的結果是這些小類在輸出特征圖中占據不到一個像素,即沒有考慮卷積引起的接收場的增加。受特征金字塔網絡(FPN)[5]的啟發,我們創建了一個自底向上解碼器,該解碼器學習將特征映射上采樣回原始輸入大小,同時保持運行時間速度。譯碼器將編碼器的輸出F作為輸入,產生一個新的M×N×D~特征圖。圖3顯示了解碼器執行的操作,包括通過conv-transpose操作對輸入進行上采樣,從編碼器連接相應的特征圖,最后通過3×3卷積操作將兩者融合。最終的特征圖具有高分辨率和表示能力,并且由RPN和第二級檢測網絡共享。
C 多模式融合區域建議網絡
類似于2D兩級檢測器,提出的RPN回歸一組先驗3D盒與地面真值之間的差異。這些先前的框被稱為錨,并且使用圖4所示的軸對齊的邊框編碼進行編碼。錨箱由質心(tx;ty;tz)和軸對齊尺寸(dx;dy;dz)參數化。為了生成3D錨定網格,在BEV中以0:5米的間隔采樣(tx;ty)對,而tz是基于傳感器在地面以上的高度確定的。通過聚類每個類的訓練樣本來確定錨的維度。在BEV中沒有3D點的錨通過積分圖像被有效去除,導致每幀80_100K非空錨。
通過多視圖作物和大小調整操作提取特征作物:為了從視圖特定的特征映射中提取每個錨的特征作物,我們使用作物和大小調整操作[17]。給定3D中的錨點,通過將錨點投影到BEV和圖像特征圖上來獲得兩個感興趣區域。然后使用相應的區域從每個視圖中提取特征地圖作物,然后將特征地圖作物的雙線性調整到3×3以獲得等長的特征向量。這種提取方法得到的特征量在兩種視圖中都遵循投影錨點的縱橫比,與Faster-RCNN最初使用的3×3卷積相比,提供了更可靠的特征量。
通過1×1卷積層進行降維:在某些情況下,區域建議網絡需要為GPU存儲器中的100K錨保存特征作物。試圖直接從高維特征映射中提取特征作物會給每個輸入視圖帶來很大的內存開銷。例如,假設32位浮點表示,從256維特征映射中提取100K錨的7×7個特征作物需要大約5GB的內存。此外,用RPN處理這種高維特征作物極大地增加了其計算需求。受[18]中所用方法的啟發,我們提出在每個視圖的輸出特征映射上應用1×1卷積核,作為一種有效的降維機制,它學習選擇對區域建議生成的性能有很大貢獻的特征。這減少了D~×計算錨特定特征作物的內存開銷,允許RPN僅使用幾兆字節的額外內存處理數萬錨的融合特征。
3D建議生成:裁剪和大小調整操作的輸出是兩個視圖中大小相等的特征裁剪,它們通過逐個元素的平均操作進行融合。大小為256的完全連接的兩個任務特定分支[2]使用融合的特征作物來回歸軸對齊的對象建議框并輸出對象/背景“客觀性”得分。通過計算(tx;ty;tz;dx;dy;dz)、錨桿與地面之間的質心差和尺寸差進行三維盒回歸。
真邊界框。平滑L1損失用于3D盒回歸,交叉熵損失用于“客觀性”。與[2]類似,在計算回歸損失時忽略背景錨點。通過計算錨和地面真值邊界框之間的BEV中的2DIoU來確定背景錨。對于汽車類,IoU小于0:3的錨被認為是背景錨,而IoU大于0:5的錨被認為是對象錨。對于行人和騎自行車的人類,對象錨IoU閾值降低到0:45。為了去除冗余建議,在BEV中采用2D非最大值抑制(NMS)在IoU閾值0:8時保持訓練期間最多1024個建議。在推理時,300個建議用于汽車類,而1024個建議用于行人和騎自行車者。
D.第二階段檢測網絡
3D包圍盒編碼:in [ 4 ],陳等人。聲稱8角盒編碼比先前在[15]中提出的傳統軸對齊編碼提供更好的結果。然而,8角編碼沒有考慮3D邊界框的物理約束,因為邊界框的頂角被迫與底部的那些角對齊。為了減少冗余度并保持這些物理約束,我們提出用四個角和兩個高度值對包圍盒進行編碼,這兩個高度值代表了從傳感器高度確定的來自地面的頂角和底角偏移。因此,我們的回歸目標是(x1::x4;y1::y4;h1;h2),建議和地面真值框之間的角和高度偏離地面。為了確定角點偏移,我們將提案的最近角點與BEV中地面真值框的最近角點對應。所提出的編碼將盒表示從過參數化的24維向量減少到10維向量。
顯式方向向量回歸:為了從3D邊界框中確定方向,MV3D[4]依賴于估計邊界框的范圍,其中方向向量假設在框的長邊方向。這種方法存在兩個問題。首先,對于檢測出的不總是遵守上述規則的對象,如行人,此方法會失敗。其次,所得到的取向只知道±π弧度的加性常數。由于角點順序沒有保留在角點到角點最近的匹配中,因此丟失了方向信息。
圖1給出了一個例子,說明同一個矩形邊界框如何可以包含兩個具有相反方向矢量的對象實例。我們的體系結構通過計算(xθ;yθ)=(cos(θ);sin(θ))來解決這個問題。這個方向向量表示隱式地處理角度包裝,因為每個θ2[π;π]都可以由BEV空間中的唯一單位向量表示。我們使用回歸的方向向量來解決邊界框方向估計中的模糊性,從采用的四角表示,因為這個實驗發現比直接使用回歸的方向更準確。具體地說,我們提取邊界框的四個可能方向,然后選擇最接近顯式回歸方向向量的方向。
生成最終檢測:與RPN類似,多視圖檢測網絡的輸入是通過將建議投影到兩個輸入視圖中而產生的特征作物。由于建議的數量比錨的數量低一個數量級,所以使用深度為D~=32的原始特征圖來生成這些特征作物。來自兩個輸入視圖的裁剪被調整到7×7,然后與逐個元素的平均操作融合。
單組大小為2048的三層完全連接的層處理融合的特征作物,以便為每個建議輸出箱回歸、方向估計和類別分類。與RPN類似,對于邊界盒和方向向量回歸任務,我們采用結合兩個平滑L1損失的多任務損失和分類任務的交叉熵損失。只有當建議在BEV中至少具有0:65或0:552DIoU,并且分別具有用于汽車和行人/騎自行車者的地面真值盒時,才在評估回歸損失時考慮這些建議。為了消除重疊檢測,在0:01的閾值處使用NMS。
E.培訓
我們訓練兩個網絡,一個用于汽車班,一個用于行人和自行車班。RPN和檢測網絡采用端到端方式聯合訓練,使用分別包含512和1024ROI的一個圖像的小批量。使用ADAM優化器對網絡進行120K迭代訓練,初始學習速率為0:0001,每30K迭代,衰減系數為0:8,衰減系數為指數衰減。
四、實驗和結果
我們在KITTI對象檢測基準[1]的三個類上測試了AVOD在提案生成和對象檢測任務上的性能。我們遵循[4]將所提供的7481個訓練幀分割成大約1∶1的訓練和驗證集。對于評估,我們遵循KITTI提出的簡單、中等、困難的分類。我們評估和比較了我們實現的兩個版本,使用類似于[4]的VGG類特征提取器的Ours,以及使用在第III-B節中描述的建議的高分辨率特征提取器的Ours(Feature Pyramid)。
3D建議召回:使用0:53DIoU閾值的3D邊界框召回評估3D建議生成。我們將RPN的三個變體與建議生成算法3DOP[6]和Mono3D[7]進行比較。圖5顯示了我們的RPN變體(3DOP和Mono3D)的召回率與建議數量的關系曲線。可以看出,我們的RPN變體在所有三個類上都遠遠超過3DOP和Mono3D。例如,我們的基于特征金字塔的融合RPN在汽車類上實現了86%的3D召回,每幀只有10個建議。3DOP和Mono3D在汽車類上的最大召回率分別為73:87%和65:74%。這個差距也出現在步行和騎自行車的階層,我們的RPN實現了超過百分之二十的回憶增加在1024個建議。這種性能上的巨大差距表明基于學習的方法優于基于手工制作的特征的方法。對于汽車類,我們的RPN變體僅50個建議實現了91%的召回,而MV3D[4]報告需要300個建議來實現相同的召回。應當指出,MV3D沒有公開提供汽車的建議結果,也沒有對行人或騎自行車的人進行測試。
三維物體檢測:使用3D和BEV AP和平均航向相似度(AHS)評估3D檢測結果,對于汽車等級為0:7IoU閾值,對于行人和自行車等級為0:5IoU閾值。AHS是平均方向相似度(AOS)[1],但是使用3DIOU和全局方向角而不是二維IOU和觀察角來評估,消除了度量對定位精度的依賴。我們將其與驗證集中公開提供的MV3D[4]和Deep3DBox[14]的檢測進行比較。必須注意的是,目前沒有公開發布的方法為3D對象檢測任務提供關于步行者和騎自行車者的類的結果,因此只對汽車類進行比較。在驗證集(表I)中,我們的架構在中等設置時比MV3D性能高2:09%,在硬設置時比MV3D性能高4:09%。然而,在中等和硬設置下,AVOD與MV3D相比,AHS分別增加了30:36%和28:42%。這可以歸因于III-D節中討論的方向矢量方向的丟失,導致方向估計高達±π弧度的加性誤差。為了驗證這個斷言,圖7顯示了AVOD和MV3D的結果與KITTI的地面事實相比的可視化。可以看到,MV3D為幾乎一半的汽車分配了錯誤的方向。另一方面,我們提出的體系結構是正確的。
面向所有汽車的場景。正如所預期的,Deep3DBox與我們提出的體系結構在3D定位性能方面差距很大。從圖7中可以看出,Deep3DBox無法在3D中精確定位大部分車輛,這進一步加強了基于融合的方法優于基于單眼的方法。我們還將架構在KITTI測試集上的性能與MV3D、VoxelNet[9]和F-PointNet[11]進行了比較。測試集結果由評估服務器直接提供,而評估服務器不計算AHS度量。表II示出了KoTI測試集上AVOD的結果。可以看到,即使只使用用于特征提取的編碼器,我們的架構在所有三個類上都表現得很好,同時比下一個最快的方法,F-PointNet.然而,一旦我們添加了我們的高分辨率特征提取器(Feature Pyramid),我們的架構在3D對象檢測方面就優于汽車類中的所有其他方法,在硬(高度遮擋或遠)實例中,與性能第二好的方法F-Po相比,具有顯著的4:19%的差距。國際互聯網。在步行類中,我們的特征金字塔架構在BEV AP中排名第一,而在使用3DAP的硬實例中得分略高于F-PointNet。在自行車課上,我們的方法不適用于F點網。我們認為,這是由于KITTI數據集中騎行者實例數量較少,這導致對以下內容的偏向
行人在行人/自行車網絡中的行人檢測。運行時和內存需求:我們使用FLOP計數和參數的數量來評估所提議網絡的計算效率和內存需求。我們最終的特征金字塔融合架構使用了大約38:073萬個參數,大約是MV3D的16%。我們提出的體系結構參數的數量。此外,我們的特征金字塔融合架構要求每幀231:263億FLOP,允許它在TITAN Xp GPU上在0:1秒內處理幀,預處理需要20ms,推理需要80ms。這使得它比F-PointNet快1:7×同時保持了最先進的結果。最后,我們提出的體系結構在推理時只需要2GB的GPU內存,使得它適合于在自主車輛上部署。
消融研究:
表三顯示了改變不同的超參數對AP和AAHS測量的性能、模型參數的數量以及建議的體系結構的FLOP計數的影響。基本網絡使用全文所描述的超參數值,以及MV3D的特征提取器。nly特征和其他使用大小為1×1的特征作物作為RPN階段的輸入。我們還研究了圖4中所示的不同邊界盒編碼方案的效果,以及根據AP和AHS,添加方向回歸輸出層對最終檢測性能的影響。最后,我們對比了MV3D提出的高分辨率特征提取器的效果。
RPN輸入變化:圖5顯示了原始RPN和BEV僅RPN在驗證集上的三個類上沒有特征金字塔提取器的情況下的召回與建議數量的關系曲線。對于行人和騎自行車的階層,在RPN階段融合來自兩個視圖的特征顯示提供10:1%和8:6%的回憶比BEV的唯一版本增加1024個建議。添加我們的高分辨率特征提取器將此差異增加到相應類的10:5%和10:8%。對于car類,添加圖像特征作為RPN的輸入,或者使用高分辨率特征提取器似乎不會
提供比BEV版本更高的召回價值。
我們將此歸因于這樣一個事實,即來自car類的實例通常在輸入BEV映射中占據較大的空間,在相應的輸出低分辨率特征映射中提供足夠的特征以可靠地生成對象建議。建議召回的增加對最終檢測性能的影響可以在表III中觀察到。在RPN階段使用圖像和BEV特征導致AP分別比僅用于步行和騎自行車的BEV版本增加6:9%和9:4%。
包圍盒編碼:我們通過訓練另外兩個網絡來研究圖4中所示的不同包圍盒編碼的效果。第一網絡使用回歸的方向向量作為最終的方框方向,估計軸對齊的邊框。第二和第三網絡使用我們的4角和MV3D的8角編碼,沒有像III-D節中所描述的額外的方向估計。NCOSTEN提供了比所有三個類的基礎網絡低得多的AHS。這種現象可歸因于III-D節中所描述的取向信息的丟失。
特征提取器:將特征提取器的檢測結果與基于VGG的MV3D特征提取器的檢測結果進行比較。對于汽車類,我們的金字塔特征提取器在AP和AHS中僅獲得0:3%的增益。然而,在較小的類上的性能增益要大得多。特別地,我們在行人和騎自行車的課程上分別獲得了19:3%和8:1%的AP增益。這表明,我們的高分辨率特征提取器是必不可少的,以實現對這兩個類的最新結果,在計算要求略有增加。
定性結果:圖6顯示了RPN的輸出以及3D和圖像空間中的最終檢測。在https://youtu.be/mDaqKICiHyA上提供了更多定性結果,包括雪地和夜景中運行的AVOD的結果。
五、結論
在這項工作中,我們提出了AVOD,一個針對自主駕駛場景的3D物體檢測器。通過使用與多模態融合RPN架構耦合的高分辨率特征提取器,所提出的架構與現有技術不同,因此能夠為道路場景中的小類生成精確的區域建議。此外,所提出的結構使用顯式方向向量回歸來解決從邊界框推斷出的模糊方向估計。在KITTI數據集上的實驗表明,我們提出的體系結構在3D定位、方向估計和分類任務方面優于現有技術。最后,給出了該體系結構的實時運行和低內存開銷。
REFERENCES
[1] A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous?driving? the kitti vision benchmark suite,” in Computer Vision and?Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012,?pp. 3354–3361.
[2] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards realtime object detection with region proposal networks,” in Advances in?Neural Information Processing Systems 28, 2015, pp. 91–99.
[3] B. Li, T. Zhang, and T. Xia, “Vehicle detection from 3d lidar using?fully convolutional network,” in Proceedings of Robotics: Science and?Systems, AnnArbor, Michigan, June 2016.
[4] X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3d object?detection network for autonomous driving,” in Computer Vision and?Pattern Recognition, 2017. CVPR 2017. IEEE Conference on,.
[5] T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, ′?“Feature pyramid networks for object detection,” in Computer Vision?and Pattern Recognition, vol. 1, no. 2, 2017, p. 4.
[6] X. Chen, K. Kundu, Y. Zhu, A. Berneshawi, H. Ma, S. Fidler, and?R. Urtasun, “3d object proposals for accurate object class detection,”?in NIPS, 2015.
[7] X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, and R. Urtasun,?“Monocular 3d object detection for autonomous driving,” in Computer?Vision and Pattern Recognition, 2016.
[8] B. Li, “3d fully convolutional network for vehicle detection in point?cloud,” in IROS, 2017.
[9] Y. Zhou and O. Tuzel, “Voxelnet: End-to-end learning for point cloud?based 3d object detection,” arXiv preprint?arXiv:1711.06396, 2017.
[10] J. Lahoud and B. Ghanem, “2d-driven 3d object detection in rgb-d?images,” in Proceedings of the IEEE Conference on Computer Vision?and Pattern Recognition, 2017, pp. 4622–4630.
[11] C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum?pointnets for 3d object detection from rgb-d data,” arXiv preprint
arXiv:1711.08488, 2017.
[12] C. R. Qi, H. Su, K. Mo, and L. J. Guibas, “Pointnet: Deep learning?on point sets for 3d classification and segmentation,” arXiv preprint?arXiv:1612.00593, 2016.
[13] F. Chabot, M. Chaouch, J. Rabarisoa, C. Teuliere, and T. Chateau, `?“Deep manta: A coarse-to-fine many-task network for joint 2d and 3d?vehicle analysis from monocular image,” in Proceedings of the IEEE?Conference on Computer Vision and Pattern Recognition, 2017.
[14] A. Mousavian, D. Anguelov, J. Flynn, and J. Kosecka, “3d bounding?box estimation using deep learning and geometry,” in Proceedings of?the IEEE Conference on Computer Vision and Pattern Recognition,?2017.
[15] S. Song and J. Xiao, “Deep sliding shapes for amodal 3d object?detection in rgb-d images,” in Proceedings of the IEEE Conference?on Computer Vision and Pattern Recognition, 2016, pp. 808–816.
[16] K. Simonyan and A. Zisserman, “Very deep convolutional networks?for large-scale image recognition,” arXiv preprint arXiv:1409.1556,?2014.
[17] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi,?I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, and K. Murphy,?“Speed/accuracy trade-offs for modern convolutional object detectors,”?in The IEEE Conference on Computer Vision and Pattern Recognition?(CVPR), July 2017.
[18] F. N. Iandola, S. Han, M. W. Moskewicz, K. Ashraf, W. J. Dally,?and K. Keutzer, “Squeezenet: Alexnet-level accuracy with 50x fewer?parameters and? 0.5 mb model size,” arXiv preprint arXiv:1602.07360,?2016.
[19] “Kitti 3d object detection benchmark,” http://www.cvlibs.net/datasets/?kitti/eval object.php?obj benchmark=3d, accessed: 2018-02-28.
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
總結
以上是生活随笔為你收集整理的《《《翻译》》》avod 三维生成与目标检测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: IDEA 统计插件Statistic:查
- 下一篇: 郭天祥 十天搞定单片机 (1)基础知识和