CVPR 2020 | 港中文提出3D目标检测新框架DSGN
?PaperWeekly 原創(chuàng) ·?作者|張承灝
學(xué)校|中科院自動化所碩士生
研究方向|雙目深度估計
本文介紹的是香港中文大學(xué)賈佳亞團隊在 CVPR 2020 上提出的?3D 目標(biāo)檢測新框架——深度立體幾何網(wǎng)絡(luò)(Deep Stereo Geometry Network,DSGN)。
通過構(gòu)造一種可導(dǎo)的 3D 幾何體來實現(xiàn) 3D 目標(biāo)檢測,從而減小了基于圖像的方法和基于 LiDAR 的方法之間的鴻溝。這是第一個一階段的,基于雙目的 3D 目標(biāo)檢測器,在 KITTI 3D 目標(biāo)檢測榜單上超越以往基于雙目的 3D 目標(biāo)檢測方法。
論文標(biāo)題:DSGN: Deep Stereo Geometry Network for 3D Object Detection
論文地址:https://arxiv.org/abs/2001.03398
開源代碼:https://github.com/chenyilun95/DSGN
背景
根據(jù)特征的表示方法不同,3D 目標(biāo)檢測器主要分為基于圖像的 3D 檢測器和基于 LiDAR 的 3D 檢測器。
基于 LiRAD 的 3D 檢測器:主要分為基于體素的方法和基于點云的方法;
基于圖像的 3D 檢測器:主要分為基于深度估計的方法和基于 3D 特征的方法;
由于 LiDAR 傳感器能夠捕捉準(zhǔn)確的 3D 信息,因此基于 LiDAR 的 3D 檢測器準(zhǔn)確率較高。其不足之處在于 LiDAR 設(shè)備笨重且價格昂貴,得到是帶有激光束的稀疏分辨率的數(shù)據(jù)。
相比之下,視頻攝像機要便宜很多,并且能夠產(chǎn)生更加稠密的分辨率。這種基于圖像的方法通常依靠單目或者雙目深度估計,但是準(zhǔn)確率仍然無法與基于 LiDAR 的方法相媲美。
基于深度估計的方法將 3D 目標(biāo)檢測分為兩步:深度估計和目標(biāo)檢測,這其中最大的挑戰(zhàn)在于 2D 網(wǎng)絡(luò)并不能提取到穩(wěn)定的 3D 信息。
另一種方案是先利用深度估計產(chǎn)生中間偽點云,再利用基于 LiDAR 的 3D 目標(biāo)檢測方法。但是這種方法中的變換是不可導(dǎo)的,并且需要多個獨立的網(wǎng)絡(luò),還容易出現(xiàn)失真現(xiàn)象。
DSGN 是一種基于雙目深度估計的,端到端的 3D 目標(biāo)檢測框架,其核心在于通過空間變換將 2D 特征轉(zhuǎn)換成有效的 3D 結(jié)構(gòu)。論文的主要貢獻如下:
為了彌補 2D 圖像和 3D 空間的鴻溝,作者利用立體匹配構(gòu)建平面掃描體(plane-sweep volume,PSV),并將其轉(zhuǎn)換成 3D 幾何體(3D geometric volume,3DGV),以便能夠編碼 3D 幾何形狀和語義信息。
作者設(shè)計了一個端到端的框架,以提取用于立體匹配的像素級特征和用于目標(biāo)識別的高級特征。所提出的 DSGN 能同時估計場景深度并檢測 3D 目標(biāo),從而實現(xiàn)多種實際應(yīng)用。
作者提出的簡單且完全可導(dǎo)的網(wǎng)絡(luò)在 KITTI 排行榜上超越所有其他基于雙目深度估計的 3D 目標(biāo)檢測器(AP 高出 10 個點)。
方法
上圖展示了 DSGN 的整體框架圖。將雙目圖像對 作為輸入,利用權(quán)重共享的孿生網(wǎng)絡(luò)提取特征,并構(gòu)建一個平面掃描體(PSV),它可以學(xué)習(xí)逐像素的對應(yīng)關(guān)系。
接著通過可導(dǎo)的 warping 操作,將 PSV 轉(zhuǎn)換為 3D 幾何體(3DGV),從而構(gòu)建 3D 世界坐標(biāo)系的 3D 幾何特征。最后利用 3D 卷積網(wǎng)絡(luò)作用于 3DGV 進行 3D 目標(biāo)檢測。
2.1 特征提取
作者借鑒 PSMNet [1] 的特征提取器作為深度估計和 3D 目標(biāo)檢測的共享特征提取網(wǎng)絡(luò)。為了提取更多的高層次特征,并且減少計算量,主要進行了以下改動:
將更多的計算從 conv_3 轉(zhuǎn)到 conv_4 和 conv_5,比如從 conv_2 到 conv_5 的基本模塊的通道數(shù)從 {3,16,3,3} 變成 {3,6,12,4}。
PSMNet 中的 SPP 模塊增加了 conv_4 和 conv_5。
conv_1 的輸出通道數(shù)和殘差模塊的輸出通道數(shù)有所改變。
詳細的網(wǎng)絡(luò)結(jié)構(gòu)可參考論文中的附錄部分。
2.2 構(gòu)建3DGV
論文的核心是如何構(gòu)建帶有 3D 幾何特征的 3DGV,它是由 PSV 經(jīng)過 warping 操作轉(zhuǎn)換得到。3DGV 可以看做是 3D 世界坐標(biāo)系的 3D 體素網(wǎng)格,它的大小是 ,分別沿攝像機視角的右方,下方和前方。每個體素的大小是 。
2.3 Plane-Sweep Volume
在雙目立體匹配中,一對左右圖像 用來構(gòu)造基于視差的匹配代價體(cost volume),它計算了左右圖像的像素點在水平方向上的位移是視差 的匹配代價。
根據(jù)基于 cost volume 的立體匹配方法,連接左右圖特征構(gòu)造 PSV,它的坐標(biāo)表示為 ,其中 表示圖像上在該位置的像素點, 表示垂直于圖像平面的深度信息。那么 空間可以被稱為相機坐標(biāo)系。
之后利用 3D Hourglass 網(wǎng)絡(luò)進行代價聚合。對于視差/深度估計,利用可導(dǎo)的 soft argmin 操作來計算所有概率為 ? 的深度候選值的期望:
其中深度的候選值在間隔為 的預(yù)定義網(wǎng)格(即 ,)內(nèi)均勻采樣。再利用 softmax 函數(shù)使得模型為每個像素點只選擇一個深度值,從而完成深度估計。
2.4 3D Geometric Volume
有了照相機坐標(biāo),在已知攝像機內(nèi)參的情況下,可以利用相機投影矩陣 實現(xiàn)從世界坐標(biāo)系到相機坐標(biāo)系的轉(zhuǎn)換。假設(shè)世界坐標(biāo)系表示為 ,而前面的相機坐標(biāo)表示為 ,經(jīng)典的轉(zhuǎn)換方法是從世界坐標(biāo)系到相機坐標(biāo)系:
而現(xiàn)在PSV的最后一層特征作為已知的相機坐標(biāo)系,要想得到世界坐標(biāo)系,因此需要使用相機投影矩陣的逆矩陣 。
其中 和 分別是水平方向和豎直方向的焦距, 和 是相機位姿參數(shù)。該操作是完全可導(dǎo)的,可以利用三線性差值的 warp 操作實現(xiàn)。
2.5 3D目標(biāo)檢測器
對于 3D 目標(biāo)檢測網(wǎng)絡(luò)部分,作者借鑒 anchor-free 的方法 FCOS [2] 中的centerness思想,設(shè)計了一種基于距離的策略來分配目標(biāo),同時也繼續(xù)保持anchor。
具體來說,令 3DGV 中的特征圖大小為 ,經(jīng)過逐步下采樣操作,得到用于鳥瞰視角的特征圖 ,其大小為 。
對于 中的每一個位置 ,放置幾個不同方向和大小的anchor。假設(shè)anchors用 表示,而GT目標(biāo)框用 表示,那么它們的位置,預(yù)設(shè)大小和方向定義如下:
Anchors:
GT:
預(yù)測值:
其中 是 anchor 方向的數(shù)量, 是每個參數(shù)學(xué)習(xí)的偏置。
沿用 FCOS 中的 centerness 思想,作者利用 anchor 和 GT 在 8 個角上的坐標(biāo)距離作為目標(biāo)分配的策略:
將與 GT 最近的 N 個樣本作為正樣本,其中 , 是 GT 中體素的個數(shù),而 用來調(diào)整正樣本的個數(shù)。最終的 centerness 定義如下:
其中的范數(shù)表示最小-最大歸一化。
2.6 多任務(wù)訓(xùn)練
DSGN 的整個網(wǎng)絡(luò)同時進行雙目深度估計和 3D 目標(biāo)檢測,因此是一個多任務(wù)訓(xùn)練過程,整體 loss 如下:
對于深度估計,采用 smooth L1 loss, 是 GT 中的有效像素點,
對于 3D 目標(biāo)檢測的分類任務(wù),采用 focal loss 避免樣本不平衡的缺陷, 是正樣本的個數(shù),對于 centerness 采用 BCE loss。
對于 3D 目標(biāo)檢測的回歸任務(wù),采用 smooth L1 loss 進行回歸,
實驗
作者在 KITTI 3D 目標(biāo)檢測數(shù)據(jù)集上進行實驗評測,該數(shù)據(jù)集包含 7481 張訓(xùn)練圖像對和 7518 張測試圖像對,分為 Car, Pedestrian 和 Cyclist 三種類型。下面是在測試集上的主要結(jié)果:
從表中可以看出,對于 3D 和 BEV(Bird's Eye View)目標(biāo)檢測,DSGN 超越了所有基于圖像的 3D 目標(biāo)檢測器;在 2D 檢測上,也僅僅比 3DOP 要差一點。
值得一提的是,DSGN 首次得到了與基于 LiDAR 的目標(biāo)檢測器 MV3D 相當(dāng)?shù)臏?zhǔn)確率,該結(jié)果證明至少在低速自動駕駛條件下是有應(yīng)用前景的。這些都驗證了 3DGV 的有效性,表明 3DGV 構(gòu)建了 2D 圖像和 3D 空間的橋梁。
作者將訓(xùn)練集分成一半訓(xùn)練集,一半驗證集進行消融分析,下面是消融實驗的結(jié)果:
從上表中可以得到以下幾個結(jié)論:
點云的監(jiān)督是很重要的。有點云監(jiān)督的結(jié)果要大大優(yōu)于沒有監(jiān)督的情況。
在有點云監(jiān)督的情況下,基于雙目的方法要遠遠優(yōu)于基于單目的方法。再次證明僅僅有 3D 檢測框的監(jiān)督信息是不充分的,基于雙目的深度信息對于 3D 檢測相當(dāng)重要。
PSV 對于 3D 結(jié)構(gòu)是一種更合適的特征表示。PSCV 相比于 CV 的不同在于從相機坐標(biāo)系到世界坐標(biāo)系的轉(zhuǎn)換,對于 3D 檢測 AP 從 45.89 提升到 54.27。
PSV 作為一種中間編碼方式能更有效地包含深度信息,因為它是深度估計網(wǎng)絡(luò)的中間特征。
討論和總結(jié)
Stereo RCNN [3] 是 CVPR 2019 的 3D 目標(biāo)檢測器,它是通過擴展 Faster RCNN,以雙目圖像作為輸入的端到端 3D 檢測器。我們可以通過比較 DSGN 和 Stereo RCNN 的不同之處來更好的理解 DSGN。
DSGN 是 one-stage 的目標(biāo)檢測器,而 Stereo RCNN 是 two-stage 的。
DSGN 利用了深度點云信息作為深度估計網(wǎng)絡(luò)的監(jiān)督,從而實現(xiàn)深度估計和3D目標(biāo)檢測的多任務(wù)學(xué)習(xí),而 Stereo RCNN 僅有 3D 檢測框的監(jiān)督信息。這種點云監(jiān)督信息使得DSGN中的 PSV 成為更好的特征表示,這可能是 DSGN 性能大大提升的根本所在。
從目標(biāo)檢測的角度看,二者都采用了 anchor,不過 DSGN 借鑒了 anchor-free 的 centerness 思想,使得檢測性能更優(yōu)。
參考文獻
[1] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR, pages 5410–5418, 2018.?
[2] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. Fcos: Fully convolutional one-stage object detection. 2019.?
[3] Peiliang Li, Xiaozhi Chen, and Shaojie Shen. Stereo r-cnn based 3d object detection for autonomous driving. In CVPR, pages 7644–7652, 2019.
點擊以下標(biāo)題查看更多往期內(nèi)容:?
變分推斷(Variational Inference)最新進展簡述
變分自編碼器VAE:原來是這么一回事
圖神經(jīng)網(wǎng)絡(luò)三劍客:GCN、GAT與GraphSAGE
如何快速理解馬爾科夫鏈蒙特卡洛法?
深度學(xué)習(xí)預(yù)訓(xùn)練模型可解釋性概覽
ICLR 2020:從去噪自編碼器到生成模型
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的CVPR 2020 | 港中文提出3D目标检测新框架DSGN的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一只小猪多少钱 猪肉价格走势及市场行情分
- 下一篇: 为什么喝完酸奶拉肚子?