Cooperative Perception协同感知学习记录
Cooperative Perception協同感知學習記錄
文章目錄
- Cooperative Perception協同感知學習記錄
-
- 1. 首先介紹一篇不錯的Revision文章:Deep Multi-modal Object Detection and Semantic Segmentation for Autonomous Driving: Datasets, Methods, and Challenges (2020)
-
- 作者
- 論文介紹
- 自動駕駛中可以進行融合的傳感器信息:
- 作者總結的相關數據集
- 傳感器信息融合的關鍵問題
-
- What to Fuse
- How to Fuse
- When to Fuse
- 作者總結的相關算法
- 領域的主要挑戰與開放性問題
- 2. 另一篇關于3D目標檢測的Revision文章,A Survey on 3D Object Detection Methods for Autonomous Driving Applications
-
- 作者
- 論文介紹
- 2D目標檢測與3D目標檢測的對比
- 幾種目前主流的自動駕駛相關3D目標檢測算法對比
- 基于純點云的傳感器融合
- 1. TruPercept: Trust Modelling for Autonomous Vehicle Cooperative Perception from Synthetic Data (2019)
-
- 作者
- 應用技術
- Motivation
- Contributions
- 項目地址
- 2. Cooperative Perception for 3D Object Detection in Driving Scenarios Using Infrastructure Sensors (2020)
-
- 作者
- 應用技術
- Motivation
- Contributions
- Conclusions and Results
- 3. Cooper: Cooperative Perception for Connected Autonomous Vehicles based on 3D Point Clouds 2019
-
- 作者
- 應用技術
- Motivation
- Contributions
- 4. F-Cooper: Feature based Cooperative Perception for Autonomous Vehicle Edge Computing System Using 3D Point Clouds (2019)
-
- 作者
- 應用技術
- Motivation
- Contributions
- 基于視覺(+非視覺)的傳感器融合
- 1. Cooperative Object Classi?cation for Driving Applications
-
- 作者
- 應用技術
- Motivation
- Contributions
1. 首先介紹一篇不錯的Revision文章:Deep Multi-modal Object Detection and Semantic Segmentation for Autonomous Driving: Datasets, Methods, and Challenges (2020)
作者
Di Feng, Christian Haase-Sch¨utz, Lars Rosenbaum, Heinz Hertlein, Claudius Gl¨aser, Fabian Timm, Werner Wiesbeck, Klaus Dietmayer,來自羅伯特博世汽車公司的科研團隊(Corporate Research of Robert Bosch GmbH)
論文介紹
這篇論文詳細歸納總結了近些年的基于深度學習的2D、3D目標檢測以及相關的傳感器融合(單機位)方法,并且整理了相關的數十個數據集,最終總結了這個領域目前的挑戰以及問題。
本篇論文的介紹將按照論文原始的結構順序進行。
自動駕駛中可以進行融合的傳感器信息:
- 光學和熱成像相機
光學相機:可以提供詳細的紋理特征、外貌特征信息。受環境影響大,很容易受到例如光照的影響,魯棒性欠佳。
熱成像相機:不受光線影響,可以提供物體的輪廓信息。但是與光學相機一樣沒用圖像深度信息。 - LiDAR與點云
可以準確的提供深度信息和3D點云信息。但是無法捕捉物體的紋理特征信息,并且對于遠距離物體,點云成像效果差。
結合之前的工程經驗,彩色點云或許可以解決物體紋理信息缺失的問題,但是與此同時對相機的成像效果質量要求較高,否則紋理信息也難以準確捕捉。
工業和實際應用中常見的問題:雙目相機標定誤差導致的成像偏差,飛點,強光下反光位置點云缺失。 - 雷達
在各種環境下都有較強的魯棒性,但是因為分辨率太低,難以進行目標分類。 - 超聲波
可以用于近場物體檢測,適用于低速環境例如自動泊車。但是受空氣質量影響較大,例如沙塵,濕度,雨水都可以造成影響。 - GNSS(全球導航衛星系統)和高清地圖信息
通過衛星定位獲取車輛及其他物體的定位信息。不適用于實驗室環境。 - IMU(慣性測量單元)和里程表
主要用于記錄車輛內部的信息而不是外界環境的信息。
作者總結的相關數據集
作者再此論文中列舉了和歸納了數十種數據集,并且也歸納了各個數據集所擁有的傳感器數據,以及發布時間,標簽類別,大小,物體種類,以及對應的鏈接,如下圖所示。
其中KITTI為最經典的自動駕駛場景數據集,但是局限性大:只在一個城市拍攝的所有照片,只有晴天日光環境數據,但是目前依舊是應用最多的benchmark數據集。
這些數據集里大多數是視覺與其他傳感器的融合,純視覺與純其他傳感器的只占少數。
傳感器信息融合的關鍵問題
本文主要討論的問題有三個:
- What to fuse: 要對哪些傳感器的數據進行融合,主流的融合信息有哪些
- How to fuse: 融合的具體方法
- When to fuse: 在檢測的哪個階段進行融合
What to Fuse
-
LiDAR點云信息
處理點云信息有3種方式- 將3d點云轉換為3d模型體素化信息(相當于3d建模?),然后對體素化的點云進行學習和應用。
- 直接應用3d點云在空間中的位置信息。
- 把3d點云投影到2d特征圖上進行學習。
-
相機照片
綜合以上的1和2,現有的大部分方法都是整合RGB圖片和LiDAR點云信息進行融合,主要有有以下幾種方法進行整合:- 將點云映射到2d平面,與圖片一樣經過深度網絡處理,并整合處理后的特征。得到3d region proposal。
- 通過3d點云分割去得到3d region proposal。
- 將3d點云和RGB圖片都映射到bird’s eye view平面,進行多傳感器特征對齊。
-
雷達信號信息
可以被轉換成2d特征圖以被深度網絡所處理。
How to Fuse
- 特征圖求和或者取平均
將多個feature map逐元素求和或者求平均。 - 連接
將多個特征圖拼接起來。 - 組合
主要用于ROI的融合。 - Mixture of Experts
以上幾種融合方式沒有考慮到各個傳感器信息的權重問題,例如黑暗環境下圖片所能提供的信息遠遠少于LiDAR,所以LiDAR的信息應當有更多的權重。此方法會自動對各個傳感器的特征信息進行加權。
When to Fuse
主要分為三個融合階段:
-
Early Fusion早期融合
融合原始數據或者是簡單預處理(標準化,歸一化)的傳感器數據。
早期融合可以讓網絡更全面的學習到原始數據的組合特征信息,并且早起融合不會帶來額外的運算負擔,畢竟是把數據整合之后送到一個網絡里面進行訓練,參數量不會因此受到影響。
但是早期融合可能會受到數據對齊的影響,導致訓練效果變差。并且當更換一個傳感器進行組合時,真整個網絡需要被從頭開始重新訓練。 -
Late Fusion晚期融合
晚期融合融合了多個網絡的最終輸出結果,例如置信度、3d目標框。
網絡更靈活,可以更改需要融合的信息。
代價就是要分多個網絡分別訓練,成本更高。 -
Middle Fusion中期融合
中期融合是一種早期+晚期的折中融合方式,可以理解為特征級融合,例如先經過backbone網絡進行特征提取,之后將提取出的特征圖進行融合,可以又有靈活性又不至于太高的資源占用。但是目前還沒有一個很好很確定的方法和流程來進行這種特征級的融合,只能比較機械的拉直特征圖之后進行How to fuse里面的這些操作,或者是很粗暴的直接將多個并列的模型輸出到同一組全連接層里,而這個過程非常的intuitive,沒有合適的理論依據。
作者總結的相關算法
領域的主要挑戰與開放性問題
目前領域的挑戰主要有以下幾種
- 沒有特別統一的方法去進行傳感器信息融合,還是需要去規定適用場景,目前的融合都是基于特定場景的實驗。
- 訓練數據集數量偏少。
- 場景信息不夠多樣性,難以全面覆蓋各種情況,難以全面匹配自動駕駛所面對的復雜環境。
- 數據集內標簽標注錯誤。
- 傳感器數據時間空間上難以對齊,原文:Spatial and temporal misalignment of different sensors。
- 傳感器的種類比較少,只有有限的種類可以使用。
- 特征級的融合和特征表達方式的相關研究很少,原文:Lack of studies for different feature representations。
- 特征融合的操作太過粗暴簡單,目前常用的就是拼接(Feature Map Concatenation)。
- 不能為各個傳感器的數據定量分析。例如陽光,下雨,霧霾,等外界環境的因素都會對識別到的信息進行影響,但是都難以定量去進行描述。
- 在檢測速度/檢測質量、計算資源占用/魯棒性的權衡問題上探討的內容很少,相關研究還很不成熟。例如3D目標檢測中為了實時快速檢測,物體的3D成像必須被壓縮,這就導致信息的丟失。
- 多車協同、車路協同的多傳感器數據傳輸速率、帶寬、延遲也是一個很大的問題。目前有分布式計算和集中計算兩種方式。
- 傳感器數據的正確性和可靠性問題也需要解決(TruePercept就是在嘗試解決這個問題)。
2. 另一篇關于3D目標檢測的Revision文章,A Survey on 3D Object Detection Methods for Autonomous Driving Applications
作者
Eduardo Arnold, Omar Y. Al-Jarrah, Mehrdad Dianati, Saber Fallah, David Oxtoby and Alex Mouzakitis。英國華威大學的科研團隊Warwick Manufacturing Group (WMG)
論文介紹
這篇論文歸納總結了3D目標檢測目前的一些方法。鑒于3D目標檢測已經相對成熟,所以只對這篇論文做簡單的描述。
2D目標檢測與3D目標檢測的對比
| 優勢 | 劣勢 | |
|---|---|---|
| 2D目標檢測 | 數據集多且完善,可以實現準確的檢測。 | 缺少深度,位姿信息 |
| 3D目標檢測 | 3D目標框提供了更詳細的物體位置信息,有助于更好的理解語義和周遭環境。 | 需要深度、位姿信息的輔助,數據標注困難,數據集少,運算量大。 |
幾種目前主流的自動駕駛相關3D目標檢測算法對比
| 方法/貢獻 | 限制 | |
|---|---|---|
| MV3D | 本文主要介紹了一種名為Deep Fusion的融合方式,可以融合多種傳感器的信息,最終結合鳥瞰和前視的激光雷達圖以及2D單目相機圖像進行車輛檢測。 | 只能識別汽車,激光雷達對遠處的物體識別能力差。 |
| AVOD | 相比于MV3D去掉了激光點云的前視圖輸入,在俯視圖中去掉了強度信息。MV3D是改進的VGG16做特征提取,而AVOD使用的是FPN,它可以在保證特征圖相對于輸入是全分辨率的,而且還能結合底層細節信息和高層語義信息,因此能顯著提高物體特別是小物體的檢測效果。k可以做到識別行人、騎手、汽車。 | 只對車前面的物體比較有效。 |
| F-PointNet | F-PointNet也同時利用了RGB圖像與點云,但不同的是F-PointNet沒有對兩類信息分別處理(并行)并進行fusion,而是使用了2d-driven 3d object detection(串行)的方式進行檢測。舍棄了global fusion,提高了檢測效率;并且通過2D detector和3D Instance Segmentation PointNet對3D proposal實現了逐維(2D-3D)的精準定位,大大縮短了對點云的搜索時間相比于在BEV(Bird’s Eye view)中進行3D detection,F-PointNet直接處理raw point cloud,沒有任何維度的信息損失,使用PointNet能夠學習更全面的空間幾何信息,特別是在小物體的檢測上有很好的表現。 | 受到串行結構的影響,F-PointNet中3d box estimation的結果嚴重依賴于2d detection,并且RGB信息對整個結構是至關重要的。然而,圖像受到光照以及前后遮擋的影響,會導致2d detector出現漏檢的情況。而MV3D, AVOD等并行結構,RGB信息與點云信息之間是相輔相成,且RGB相較于點云更次要一些。只對車前面的物體比較有效,夜間檢測效果較差。 |
以上是對這個領域的一個大體總結和概況,本文接下來將對一些特定的論文進行簡單介紹。
基于純點云的傳感器融合
1. TruPercept: Trust Modelling for Autonomous Vehicle Cooperative Perception from Synthetic Data (2019)
作者
Braden Hurl, Robin Cohen, Krzysztof Czarnecki, and Steven Waslander
應用技術
Trust Modeling,3D目標檢測,虛擬數據集,點云相機。
Motivation
現代的傳感器融合模型都是建立在傳感器的數據是絕對可靠和可信的,然而有時傳感器的數據不一定正確,錯誤的數據可能反而會影響正確的識別結果,從而進一步影響最終的決策,所以判斷數據來源的可靠性也是一個很重要的問題。
Contributions
- 將傳感器融合和信任建模(trust modeling)結合,實現了對數據來源可靠性的判斷。
- 制作了一個源于于GTA5的虛擬數據集,沒有場景局限性,可以應用于多種場景。
項目地址
https://github.com/bradenhurl/TruPercept/tree/master/tru_percept
2. Cooperative Perception for 3D Object Detection in Driving Scenarios Using Infrastructure Sensors (2020)
作者
Eduardo Arnold, Mehrdad Dianati, Senior Member, IEEE, Robert de Temple , and Saber Fallah,英國華威大學的科研團隊Warwick Manufacturing Group (WMG)。
應用技術
3D目標檢測,虛擬數據集,點云相機。
Motivation
現存的大多數方法(majority of existing methods)使用的是單機位多類型傳感器融合,會存在遮擋,感知距離近等問題, 于是使用多機位傳感器來消除遮擋和探測距離有限的問題。
Contributions
- 應用了早期融合、晚期融合對丁字路口和環島路口進行了場景模擬和傳感器融合實驗,只利用了路邊的固定傳感器進行了數據融合,沒有用到車載的傳感器。
- 制做了一個虛擬數據集,用于測試融合效果,這個數據集包含環形交叉路口和丁字路口兩種情況。
- 對早期融合和晚期融合兩種方法進行了評估。
- 對傳感器硬件設備的參數設置進行了評估,為日后的實際落地提供方便和理論依據。
Conclusions and Results
- 核心思想是設置一個centralized計算系統,可以處理多個傳感器的數據,進行計算、融合之后再分發給附近的車輛。
- 得出了“增加傳感器數量能夠顯著優化識別效果”的結論。
- 作者通過傳感器感應區域的疊加來實現點云的增強。
3. Cooper: Cooperative Perception for Connected Autonomous Vehicles based on 3D Point Clouds 2019
作者
Qi Chen, Sihai Tang, Qing Yang and Song Fu. Department of Computer Science and Engineering, University of North Texas, USA。來自北德克薩斯州大學的科研團隊。
應用技術
3D目標檢測,稀疏點云檢測,KITTI數據集,點云相機。
Motivation
單機位檢測死角多,遠處的感知信號弱,單機位傳感器可能會產生錯誤的感知結果,這是第一個做車與車之間協同的raw data fusion的團隊。
Contributions
- 提出了一種稀疏點云檢測的算法,可以對稀疏點云實行目標檢測,并且也可以用于密集點云的情況。
- 本系統可以撐過的延伸一輛車本身的感知范圍
- 證明了車與車之間傳遞ROI LiDAR數據的可行性。
4. F-Cooper: Feature based Cooperative Perception for Autonomous Vehicle Edge Computing System Using 3D Point Clouds (2019)
作者
Qi Chen, Xu Ma, Sihai Tang, Jingda Guo, Qing Yang, Song Fu. Department of Computer Science and Engineering, University of North Texas, USA。來自北德克薩斯州大學的科研團隊。
應用技術
3D目標檢測,稀疏點云檢測,KITTI數據集,點云相機,特征級融合。
Motivation
單機位檢測死角多,遠處的感知信號弱,單機位傳感器可能會產生錯誤的感知結果,這是第一個做車與車之間協同的feature level fusion的團隊,現在的深度網絡還沒能完全提取出3D點云的特征信息,3D點云的raw data對于V2V的傳輸帶寬來說太大了。
Contributions
提出了一個端到端的特征級融合的深度網絡,并且更好的提取出特征圖里的特征,使得在算力增加不高的情況下獲得了顯著的準確度提升。并且避免了數據傳輸量過大的問題。
基于視覺(+非視覺)的傳感器融合
1. Cooperative Object Classi?cation for Driving Applications
作者
Eduardo Arnold, Omar Y. Al-Jarrah, Mehrdad Dianati, Saber Fallah , David Oxtoby and Alex Mouzakitis。和上面華威團隊的是一群人。
應用技術
多機位目標分類,多機位視覺信息融合,遮擋、噪聲消除。
Motivation
3D目標檢測相對于2D多機位來說會比較慢,本篇論文探究遮擋、噪聲對于多機位2D目標分類的.
Contributions
- 創建了一個3視角物體分類數據集。
- 提出了幾種視覺融合模型。
- 對提出的幾種視覺融合模型進行了分析與總結。
模型如下圖
總結
以上是生活随笔為你收集整理的Cooperative Perception协同感知学习记录的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 区块链相关安全名词及常见攻击手法
- 下一篇: P2761 软件补丁问题