自动驾驶前沿综述:基于深度强化学习的自动驾驶算法
?作者 | 陳道明
學校 | 布里斯托爾大學
研究方向 | 自動駕駛方向
這是 21 年的一篇綜述文章,可以算得上是最前沿的自動駕駛技術綜述。這幾年隨著深度表征學習的發展,強化學習領域也得到了加強。本文會對目前最先進的自動駕駛 DRL 算法進行匯總和分類。
論文標題:
Deep Reinforcement Learning for Autonomous Driving: A Survey
論文鏈接:
https://arxiv.org/abs/2002.00444
簡介
自動駕駛系統(AD system),由多個級別的感知和控制任務組成,目前在感知方面,已經可以通過深度學習架構來實現。但在控制層面,經典的監督學習已經不再使用,因為代理需要在每一個瞬間做出動作決策,這些決策可能會改變場景條件。
▲ 自動駕駛各級別的任務
AD system 的組成
2.1 感知模塊(Preception Module)
感知模塊的目標是創建環境狀態的中間級別表示(例如所有障礙物和代理的鳥瞰圖),稍后將由最終產生駕駛策略的決策系統使用。該狀態將包括車道位置、可行駛區域、代理(例如汽車和行人)的位置、交通信號燈的狀態等。感知中的不確定性傳播到信息鏈的其余部分。強大的傳感對于安全至關重要,因此使用冗余源可以提高檢測的信心。這是通過語義分割、運動估計、深度估計、污點檢測等幾種感知任務的組合來實現的,這些任務可以有效地統一成一個多任務模型。
▲ 多視角相機融合的鳥瞰圖
2.2 場景理解(Scene Understanding)
該模塊的作用是將感知模塊獲得的信息映射到高級動作或決策層。該模塊旨在提供對場景的更高層次的理解,通過融合異構傳感器源(如激光雷達、相機、雷達、超聲波),抽象和概括場景信息,為決策制定提供簡化的信息。
2.3 定位和建圖(Localization and Mapping)
定位和建圖技術,又稱 SLAM 是自動駕駛的關鍵技術之一。由于問題的規模,傳統的 SLAM 技術通過語義對象檢測得到增強,以實現可靠的消歧。此外,局部高清地圖(HD maps)可以用作物體檢測的先驗。
2.4 規劃和推動策略(Planning and Driving Policy)
軌跡規劃是自動駕駛中的關鍵模塊,在高清地圖或基于 GPS 的地圖上計劃路線,并引導代理生成運動層的命令。經典運動計劃會忽略環境動態和差分約束,因此類似于 A* 算法之類的基于 Djisktra 的算法在此問題中并不適用。而快速探索隨機樹(RRT)通過隨機采樣和無障礙路徑生成來探索配置空間。目前有多種版本的 RRT 被用于自動駕駛管道中的運動規劃。
2.5 控制(Control)
這是最底層的運動控制,即汽車的加速加速,方向盤的轉動角度,以及剎車。目前的車輛控制通常是基于經典的最優控制理論,通過狀態空間方程 中的汽車當前狀態 和 控制輸入量 來控制汽車。此方法通常使用 MPC 模型和 PID 控制器使車輛跟隨軌跡。但是目前自動駕駛車輛通常使用的是強化學習,該方法的好處是可以處理隨機控制問題以及具有未知獎勵和狀態轉移概率的不適定問題。更多此方面的內容推薦閱讀綜述文 [1]。
強化學習(reinforcement Learning)
強化學習(RL)是于 監督學習(Sueprvised Learning)和非監督學習(Unsupervised Learning)之外的第三種機器學習(Machine Learning)方式。RL 通過一個代理來完成行動策略。代理的目標是最大化在其生命周期內收到的累積獎勵。代理可以通過利用了解不同狀態-動作對的預期效用(即預期未來獎勵的折扣和)的知識來逐漸增加其長期獎勵。
在形式化涉及單個 RL 代理的順序決策問題時,馬爾可夫決策過程 (MDP) 是最流行的解決方法。MDP 由一個狀態集合 、一個動作集合 、一個轉移函數 和一個獎勵函數 組成。通過目標是找到最優策略 ,從而產生最高的折扣獎勵總和期望值:
其中, 是遵循策略 的狀態值方程, 是折扣系數,, 用于控制代理如何看待未來的獎勵,低 值鼓勵代理人的短視行為,其中代理人旨在最大化短期獎勵,而高 值導致代理人更具前瞻性并在更長的時間范圍內最大化獎勵。 為時間步數,它可以是有限的也可以是無限的。
另一個與狀態函數方程相關的是狀態-動作方程,又稱為“Q值”:
▲ MDP 決策的組成部分和關系圖
在許多現實世界的應用領域中,智能體不可能觀察到環境狀態的所有特征;在這種情況下,決策問題被表述為部分可觀察的馬爾可夫決策過程(POMDP)。解決強化學習任務意味著找到一個策略 ,該策略使狀態空間中軌跡上的期望折扣總和最大化。
RL 代理可以直接學習價值函數估計、策略和/或環境模型。動態規劃(DP)算法可用于在給定環境模型的獎勵和轉移函數方面計算最優策略。與 DP 不同,在 MonteCarlo 方法中沒有完整環境知識的假設。蒙特卡洛方法在逐集意義上是增量的。情節完成后,價值估計和政策被更新。
另一方面,時間差(TD)方法在逐步意義上是增量的,使其適用于非情節場景。與蒙特卡羅方法一樣,TD 方法可以直接從原始經驗中學習,而無需環境動態模型。與 DP 一樣,TD 方法基于其他估計來學習它們的估計。
文章對于 RL 和 DRL 的算法進行了綜合性的概述,這里不做詳細的解釋,建議系統性的學習這些算法。
自動駕駛任務中的強化學習
在自動駕駛中,RL 可以完成的任務有:控制器優化、路徑規劃和軌跡優化、運動規劃和動態路徑規劃、為復雜導航任務開發高級駕駛策略、高速公路、交叉路口、合并和拆分的基于場景的策略學習,預測行人、車輛等交通參與者的意圖,并最終找到確保安全和執行風險估計的策略。
4.1 狀態空間、動作空間和獎勵
為了成功地將 DRL 應用于自動駕駛任務,設計適當的狀態空間、動作空間和獎勵函數非常重要。
4.1.2 狀態空間
自動駕駛汽車常用的狀態空間特征包括:本車的位置、航向和速度,以及本車的傳感器視野范圍內的其他障礙物。此外,我們通常使用一個以自主車輛為中心的坐標系,并在其中增強車道信息,路徑曲率、自主的過去和未來軌跡、縱向信息等。我們通常會使用一個鳥瞰圖來展示這些信息。
▲ 鳥瞰圖
4.1.3 動作空間
自主車輛的控制策略需要操縱一系列執行器,比如方向盤,油門和剎車(暫時不考慮其他的執行器)。有一點需要注意的是,這些控制器都是在連續空間中運行的,而大多數 DRL 控制器屬于離散空間。因此我們需要選擇合適的時間步長。
獎勵
為自動駕駛的 DRL 代理設計獎勵函數仍然是一個懸而未決的問題。AD 任務的標準示例包括:向目的地行駛的距離 、本車的速度、使本車保持靜止、與其他道路使用者或場景對象的碰撞,人行道上的違規行為,保持在車道上,保持舒適和穩定性,同時避免極端加速、制動或轉向,并遵守交通規則。
4.2 運動規劃和軌跡優化
運動規劃是確保目標點和目的地點之間存在路徑的任務。但是動態環境和變化的車輛動力學中的路徑規劃是自動駕駛中的一個難題,比如通過十字路口,或者并入高速公路。有許多文章在這方面做了嘗試,并獲得了不錯的效果,比如論文 [4] [5] [6] [7]。
4.3 模擬器和場景生成工具
自動駕駛數據集使用包含圖像、標簽對的訓練集來處理監督學習設置,用于各種模式。強化學習需要一個可以恢復狀態-動作對的環境,同時分別對車輛狀態、環境以及環境和代理的運動和動作的隨機性進行建模。各種模擬器被積極用于訓練和驗證強化學習算法。具體信息如下:
自動駕駛在現實世界的挑戰
此部分內容我目前不會接觸到,因此先留個坑,等以后再填。
參考文獻
[1] A Survey of Deep Learning Applications to Autonomous Vehicle Control:
https://ieeexplore.ieee.org/abstract/document/8951131?casa_token=fwUZxwU0Eo8AAAAA:B
[2] End-to-End Deep Reinforcement Learning for Lane Keeping Assist:https://arxiv.org/abs/1612.04340
[3] Deep Reinforcement Learning framework for Autonomous Driving:https://www.ingentaconnect.com/content/ist/ei/2017/00002017/00000019/art00012
[4] A Reinforcement Learning Based Approach for Automated Lane Change Maneuvers:https://ieeexplore.ieee.org/abstract/document/8500556?casa_token=OcyB7gHOxcAAAAAA:JrwO6
[5] Formulation of deep reinforcement learning architecture toward autonomous driving for on-ramp merge:https://ieeexplore.ieee.org/abstract/document/8317735?casa_token=HaEyBLwaSU0AAAAA:5
[6] A Multiple-Goal Reinforcement Learning Method for Complex Vehicle Overtaking Maneuvers:https://ieeexplore.ieee.org/abstract/document/5710424?casa_token=Y-bJbe3K9r0AAAAA:ZNo
[7] Navigating Occluded Intersections with Autonomous Vehicles Using Deep Reinforcement Learning:https://ieeexplore.ieee.org/abstract/document/8461233?casa_token=uuC5uVdLp60AAAAA:6fr7
[8] Reinforcement Learning with A* and a Deep Heuristic:https://arxiv.org/abs/1811.07745
[9] CARLA: An Open Urban Driving Simulator:https://proceedings.mlr.press/v78/dosovitskiy17a.html
[10] TORCS - The Open Racing Car Simulator:https://sourceforge.net/projects/torcs/
[11] MADRaS Multi-Agent DRiving Simulato:https://www.opensourceagenda.com/projects/madras
[12] Microscopic Traffic Simulation using SUMO:https://ieeexplore.ieee.org/abstract/document/8569938?casa_token=1z4z-bT6kTsAAAAA:BdTO6tJB4xEgr_EO0CPveWlForEQHJWyprok3uyy3DssqzT-7Eh-pr7H__3DOJPDdpuIVUr7Lw
[13] Flow: Architecture and Benchmarking for Reinforcement Learning in Traffic Control:https://www.researchgate.net/profile/Abdul-Rahman-Kreidieh/publication/320441979_Flow_Archite
[14] A Collection of Environments for Autonomous Driving and Tactical Decision-Making Tasks:https://github.com/eleurent/highway-env
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的自动驾驶前沿综述:基于深度强化学习的自动驾驶算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么香蕉皮擦脸会黑?
- 下一篇: 麻辣烫哪里有培训 学习制作正宗麻辣烫的好