先进驾驶员辅助系统中用于车辆检测的雷达和摄像机早期融合
先進駕駛員輔助系統(tǒng)中用于車輛檢測的雷達和攝像機早期融合
- 摘要
- 1 Introduction
- 2 Related Work
- 3 FusionNet
Radar and Camera Early Fusion for Vehicle Detection in Advanced Driver Assistance Systems 的翻譯
摘要
感知模塊是現(xiàn)代高級駕駛員輔助系統(tǒng)(ADAS)的核心。為了提高該模塊的質量和魯棒性,特別是在光照和天氣條件變化等環(huán)境噪聲存在的情況下,傳感器(主要是相機和激光雷達)的融合是近年來研究的重點。在這篇論文中,我們關注一個相對未開發(fā)的領域,即相機和雷達傳感器的早期融合。為了提高感知模塊的準確性和魯棒性,我們將經(jīng)過最小處理的雷達信號與相應的攝像機框架一起提供給我們的深度學習架構。我們對真實世界數(shù)據(jù)的評估表明,雷達和攝像機信號的互補性可以在應用于目標檢測時減少15%的橫向誤差。
1 Introduction
在過去的幾年里,自動駕駛和自動駕駛已經(jīng)成為深度學習領域研究的主要力量之一。目標檢測是這些系統(tǒng)魯棒感知系統(tǒng)設計中的一個關鍵問題。相機本身已經(jīng)成為構建感知模塊的主要傳感器。近年來,為了提高對一系列操作條件的魯棒性,人們越來越重視使傳感器的種類多樣化。各種各樣的傳感器,如激光雷達、近程雷達、遠程雷達、紅外攝像機和sonars都被用來提高感知模塊輸出的質量。
在我們的工作中,我們專注于相機和雷達傳感器的融合。雷達提供了一個低成本的替代激光雷達作為距離確定傳感器。由于其基本設計的性質,目前典型的汽車雷達要比激光雷達便宜得多。除了成本之外,雷達還能適應不同的照明和天氣條件(如雨和霧),并能提供瞬時速度測量,這為改進系統(tǒng)反應時間提供了機會。
車輛上有多個傳感器,傳感器融合可以提高目標檢測的準確性,尤其是在相對嘈雜環(huán)境下的魯棒性,因此對于ADAS系統(tǒng)來說,傳感器融合是一個很自然的發(fā)展方向。傳統(tǒng)上,采用擴展卡爾曼濾波器(EKF)[8]等方法來結合不同感知模塊的檢測。最近,深度學習也被用于相機和激光雷達的傳感器融合[3,15,5,13,17]。
不同傳感器之間的數(shù)據(jù)融合可以在后期進行,例如,相機和激光雷達/雷達分別對物體/車輛進行檢測,后期將檢測到的物體屬性(如物體邊界盒)進行合并。典型地,這種融合技術比早期的融合方法復雜度要低,在早期的融合方法中,來自多個模態(tài)的傳感器測量數(shù)據(jù)被聯(lián)合處理以生成對象屬性。傳統(tǒng)上,早期融合允許低水平的特征融合,從而提高了檢測精度。例如,在早期融合的情況下,一個傳感器可以檢測到車輛的側鏡,而前保險杠可能被另一個傳感器檢測到。早期融合和晚期融合之間的權衡最近被研究人員所研究[12,27]。
雷達數(shù)據(jù),在自動駕駛和ADAS的背景下,已被用來提高傳感器融合和/或感知模塊的準確性。然而,通常使用CFAR算法處理雷達數(shù)據(jù),將原始數(shù)據(jù)轉換為點云,從而將感興趣的目標與周圍的雜波區(qū)分開。將原始的4D雷達張量(由稠密的2D歐幾里德空間、多普勒和時間組成)轉換成稀疏的2D點云,可以去除信號中大量的信息。相反,我們依賴原始雷達數(shù)據(jù)來最小化信號后處理所引入的人工制品,同時最小化雷達輸出的抽象。
在本文中,我們做出了以下貢獻:
2 Related Work
圖像目標檢測
圖像分類和目標檢測一直是計算機視覺領域的兩大難題。近年來,圖像分類任務的性能有了突破性的進展。基于深度的神經(jīng)網(wǎng)絡已經(jīng)成為應對這些挑戰(zhàn)的實際解決方案。目標檢測建立在圖像分類的基礎上,解決了另外兩個問題——給定圖像中的目標列表和目標在圖像中的位置。在這一領域主要有兩類正在開發(fā)的解決方案:單級和兩級探測器。單級檢波器,如單次發(fā)射多盒檢波器(Single-Shot Multibox Detector, SSD)[16]或YOLO[20],主要關注每幀的推理時間。由于速度是最重要的,所以這些網(wǎng)絡內(nèi)部依賴于一個單一的通道來識別先前的機器。另一方面,兩級探測器通常速度較慢,但可以獲得更好的精度結果。例如RCNN[7]、Fast-RCNN[6]、Fast-RCNN[22]、R-FCN[4]和Mask-RCNN[9]等網(wǎng)絡。這些網(wǎng)絡依賴于區(qū)域建議網(wǎng)絡(RPN)來識別感興趣的區(qū)域(RoI), RoI隨后被傳遞到執(zhí)行最終分類和boxcoordinate調(diào)整的第二階段。
自動駕駛雷達深度學習
由于雷達的獨特性,在這方面缺乏文獻和數(shù)據(jù)集是可以理解的。此外,傳統(tǒng)的雷達文獻通常將“檢測”稱為返回空間點的任務,而在計算機視覺社區(qū)中,“檢測”是將區(qū)域作為對象對象返回的任務。在自動駕駛的背景下,已發(fā)表的方法[24][19]利用了來自商用汽車雷達系統(tǒng)的稀疏點云。在這些商用雷達系統(tǒng)中,這些點是用恒虛警率(CFAR)[23]算法對原始雷達信號進行處理而產(chǎn)生的。這種方法的缺點是雷達回波的背景信息丟失,只有距離、方位和多普勒信息被保留了。這限制了對雷達信號進行更高級別分類的能力。除了自主駕駛外,微多普勒[25][2]還應用了深度神經(jīng)網(wǎng)絡進行活動分類,但是這些方法并沒有解決空間定位的問題。
使用深度學習的傳感器融合
在最近的工作中,一些作者關注于相機和激光雷達的融合,這是不同于我們的目標。此外,汽車雷達系統(tǒng)返回的點云的稀疏性(通常≤64點)限制了使用雷達點云的激光雷達方法。多視圖三維(MV3D)[3]應用特征提取分別對3幀:激光雷達鳥瞰圖,激光雷達前視圖,和相機前視圖。然后,激光雷達鳥瞰圖的特點是用來產(chǎn)生三維包圍框的建議,以指導最后融合的其他兩幀。在[15]中,作者依靠激光雷達和攝像機來提高目標檢測的精度。激光雷達的鳥瞰圖是用來作為融合的相機功能在多個決議與激光雷達的特點。連續(xù)融合層考慮了攝像機幀中發(fā)生的遮擋,使融合在整個網(wǎng)絡中成為可能。PointFusion[26]使用了一個早期的工作(即。, PointNet[18])直接處理激光雷達點云,而不需要將其映射到2D平面。使用3D錨盒進行融合增加了復雜性,同時使架構更加一般化。
3 FusionNet
我們提出了FusionNet(圖1),我們提出的架構融合了來自多個傳感器的特征映射來進行對象檢測。我們的網(wǎng)絡設計受到了SSD[16]的啟發(fā),通過它,一個特征提取器網(wǎng)絡可以生成多尺度的特征圖,然后是檢測頭。然而,我們的網(wǎng)絡并沒有使用單一的特征提取網(wǎng)絡來提取攝像機圖像,而是將來自不同來源的觀測同一物理場景的輸入組合在一起。FusionNet的目標是從觀察同一空間的不同傳感器中提取和組合特征,這些特征可能來自不同的角度,并且它們的相對位置已知。每個特征提取分支合并一個空間轉換,以便每個分支的輸出特征映射在空間上與其他分支對齊。
高級體系結構
我們在FusionNet中實現(xiàn)了兩個分支,即處理來自雷達的距離-方位圖像的雷達分支和處理由前置相機捕獲的圖像的相機分支。在獨立的特征提取器分支之后,這些特征被傳遞到融合層。為了確保網(wǎng)絡從不同的信號源學習有意義的表示,我們采用了一種獨特的訓練策略:部分凍結網(wǎng)絡并進行微調(diào)。
雷達分支
與其他利用汽車雷達的文獻相比,我們的網(wǎng)絡的輸入不是點云。相反,我們的雷達分支采用密集的2D距離-方位“圖像”,允許我們使用圖像對象檢測網(wǎng)絡中流行的特征金字塔網(wǎng)絡結構。由于目標是預測笛卡爾坐標中的邊界框,所以在中間特征圖中添加了一個映射層(如圖2所示)。根據(jù)經(jīng)驗,我們發(fā)現(xiàn)將空間轉換放在中間特征層的早期效果最好。在這個轉換之后,在與其他分支連接之前添加了更多的卷積層。
相機分支
為了將攝像機圖像轉換成笛卡爾空間,我們設計了一種逆投影映射,即攝像機圖像的單應性變換。為了計算這個投影映射,我們首先假設攝像機正在成像一個平面場景(即雷達平面,它與道路平面近似平行)。然后,利用本征和非本征標定信息,將笛卡爾雷達平面上的一組點投影到圖像坐標上。然后使用標準的4點算法可以找到一個平面單應性變換。在無法進行校準的情況下,也可以手動分配多個聯(lián)絡點,最終使用最小二乘法求解最佳單應性。
攝像機分支的結構與雷達分支非常相似。然而,我們并沒有在特征圖中進行坐標變換,而是根據(jù)經(jīng)驗發(fā)現(xiàn),當這種變換直接應用于相機圖像而不是特征圖時,網(wǎng)絡的表現(xiàn)最好。經(jīng)單應性變換后,輸入到網(wǎng)絡的圖像為3通道256×256彩色圖像。如果平面假設是正確的,并且相機相對于雷達不移動,那么圖像坐標現(xiàn)在應該與笛卡爾坐標相匹配。
融合層
獨立特征提取器分支的輸出僅依賴于單個傳感器的數(shù)據(jù)。為了使網(wǎng)絡能夠使用來自多個傳感器的輸入進行預測,我們使用了額外的融合層來結合兩個分支的特征。我們設計了這兩個分支,使它們的輸出特征映射的分辨率匹配。因此,我們可以簡單地將這些來自radar分支和camera分支的輸出特征連接起來,形成一個兩倍于通道數(shù)量的unifiedfeature map。接下來,我們在訓練中應用了一個 p= 0.5的dropout來引導網(wǎng)絡結合來自兩個分支的部分特性。最后,我們應用1×1的卷積將信道數(shù)減少到原來的單個傳感器的信道數(shù)。
檢測輸出
對于目標檢測,我們將SSD頭應用到融合特征圖上。我們選擇錨盒來匹配訓練集中的地面真值盒分布。我們使用k-means聚類(類似于[20,21])來構建一組更適合我們的車輛檢測網(wǎng)絡的錨盒。應該清楚的是,由于我們主要關注的是車輛,只有少數(shù)幾種類型的車輛通常在路上(例如,中型轎車,卡車)。特別是,考慮到美國交通部對車道寬度的限制,這些車輛的寬度變化很小。
基于平面假設的強度
平面道路似乎是一個非常強的假設,但事實并非如此。美國州際公路的最高等級為6%[1];考慮立即從0%等級轉換到6%等級,導致我們雷達的最大射程誤差為0.08m,低于我們雷達系統(tǒng)的距離分辨率(第4.1節(jié))。此外,道路等級是逐漸變化的,在大多數(shù)道路上,我們不應該看到明顯和持續(xù)的等級變化。另一方面,更大的誤差來源是不可避免的機械振動。我們不能期望任何傳感器的安裝在一個移動的平臺上是完全剛性的。對于相機,這個錯誤表現(xiàn)為一個擺動的變換圖像,最明顯的是在頂部的變換圖像。對于雷達,這將轉化為采取一個傾斜的場景切片。沒有進行顯式處理或數(shù)據(jù)清理來排除這些扭曲,我們期望網(wǎng)絡學會如何在融合過程中處理這些錯誤。
總結
以上是生活随笔為你收集整理的先进驾驶员辅助系统中用于车辆检测的雷达和摄像机早期融合的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第二次作业--------STEAM
- 下一篇: 浅谈易语言多线程 by逆风