《强化学习周刊》第22期:ICRA 2021-2022强化学习的最新研究与应用
強化學習作為人工智能領域研究熱點之一,其研究進展與成果也引發了眾多關注。并且諸多研究成果發表于ICRA 2021-2022學術會議中,為幫助研究與工程人員了解該領域的相關進展和資訊,智源社區結合領域內容,撰寫為第22期《強化學習周刊》。本期周刊整理了ICRA 2021-2022中強化學習領域相關的最新論文推薦和新工具等,以饗諸位。
周刊采用社區協作的模式產生,歡迎感興趣的朋友們參與我們的工作,一起來推動強化學習社群的分享、學習和交流活動。可以掃描文末的二維碼加入強化學習社區群。
本期貢獻者:李明,劉青,劉元,小胖
論文推薦
強化學習近年來取得了令人矚目的成就,其應用于各個領域的研究也取得較大的進步。人工智能頂會ICRA 2021-2022對強化學習取得了一系列矚目的進展進行了發布,比如將強化學習應用于規劃、控制和仿真的實時聯合概率交通預測、高效強化學習樣本、基于模型的元強化學習、基于對抗增強學習進行領域自適應的混合模擬器識別、基于深度強化學習加速機器人技能、Recovery RL相關的理論及其最新應用等。
本次推薦了16篇ICRA 2021-2022強化學習領域的相關論文,主要涉及基于強化學習應用于規劃、控制和仿真的實時聯合概率交通預測、基于激光雷達的端到端自動駕駛與對比深度強化學習、基于魯棒自監督深度強化學習的多模態互信息 (MuMMI) 訓練、基于模型集成探索與開發的高效強化學習樣本、基于多任務學習實現無重置強化學習:在無需人工干預的情況下學習靈巧的操作行為、具有懸浮有效載荷的基于模型的元強化學習、SimGAN:通過對抗增強學習進行領域自適應的混合模擬器識別、模型預測演員-評論家:通過深度強化學習來加速機器人技能的獲得、Recovery RL:通過學習的恢復區域進行安全強化學習等。
標題:PredictionNet: Real-Time Joint Probabilistic Traffic Prediction for Planning, Control, and Simulation(PredictionNet:用于規劃、控制和仿真的實時聯合概率交通預測)
簡介:預測交通代理的未來運動對于安全高效的自主駕駛至關重要。為此,本文提出了PredictionNet,這是一種深度神經網絡(DNN),用于預測所有周圍交通智能體的運動以及ego車輛的運動。所有預測都是概率性的,并以簡單的自上而下光柵化表示,該光柵化允許任意數量的智能體。以具有車道信息的多層地圖為條件,網絡在單次傳遞中聯合輸出所有智能體(包括ego車輛)的未來位置、速度和回溯向量。然后從輸出中提取軌跡。該網絡可以用來模擬真實的流量,并在流行的基準上產生有競爭力的結果。通過將其與運動規劃/控制子系統相結合,它已被用于成功控制數百公里的真實世界車輛。該網絡在嵌入式GPU上的運行速度比實時速度快,并且由于選擇了輸入表示,該系統顯示出良好的泛化(跨感官模式和位置)。此外,本文還證明了通過使用強化學習(RL)擴展DNN,它可以更好地處理罕見或不安全的事件,例如攻擊性機動和碰撞。
論文鏈接:https://www.aminer.cn/pub/616d206a6750f84ef29b03fe?f=cs
標題:Carl-Lead: Lidar-based End-to-End Autonomous Driving with Contrastive Deep Reinforcement Learning(Carl-Lead:基于激光雷達的端到端自動駕駛與對比深度強化學習)
簡介:在不受管制的十字路口的城市人群中自動駕駛具有挑戰性,應仔細考慮動態遮擋和其他車輛的不確定行為。傳統方法是啟發式的,基于手工設計的規則和參數,但在新情況下的擴展性很差,在所有可預見的場景中,它們都需要高昂的人力成本來設計和維護規則。深度強化學習(DRL)在城市駕駛場景中顯示出有希望的前景。然而,DRL 是樣本效率低下的,且先前的大多數研究都假設完美的觀察結果,例如地面真實位置和車輛的運動,而沒有考慮噪聲和遮擋,這對于策略部署來說可能是一個過于強硬的假設。本文使用 DRL 來訓練基于激光雷達的端到端駕駛策略,這些策略自然會考慮不完美的部分觀察。通過進一步使用無監督的對比表示學習作為輔助任務來提高樣本效率。比較評估結果表明,該方法比最先進的(SOTA)基于激光雷達的端到端驅動網絡實現了更高的成功率,比精心調整的基于規則的方法在安全性和效率之間取得了更好的權衡,并且比基線更好地推廣到新場景。
論文鏈接:https://www.aminer.cn/pub/6147fba55244ab9dcb1b54e9?f=cs
標題:Multi-Modal Mutual Information (MuMMI) Training for Robust Self-Supervised Deep Reinforcement Learning(基于魯棒自監督深度強化學習的多模態互信息 (MuMMI) 訓練)
簡介:該工作重點使用了多個可能不可靠的傳感器來學習有用且強大的深度世界模型。本文發現當前的方法不足以鼓勵模態之間的共享表示;這可能會導致下游任務的性能不佳以及過度依賴特定傳感器。作為解決方案,本文提出了新的多模態深度潛在狀態空間模型,使用互信息下界進行訓練。關鍵創新是一個特別設計的密度比估計器,它鼓勵每種模式的潛在代碼之間的一致性。將該方法在多模態自然 MuJoCo 基準和具有挑戰性的 Table Wiping 任務上學習策略(以自我監督的方式)。實驗表明了該方法明顯優于最先進的深度強化學習方法,尤其是在缺少觀察的情況下。
論文鏈接:https://www.aminer.cn/pub/60e563fcdfae54c432543fdd?f=cs
標題:Sample Efficient Reinforcement Learning via Model-Ensemble Exploration and Exploitation(基于模型集成探索與開發的高效強化學習樣本)
簡介:基于模型的深度強化學習在需要高樣本效率的各個領域取得了成功,例如圍棋和機器人技術。然而,其仍然存在一些問題,例如規劃有效的探索以學習更準確的動態模型、評估學習模型的不確定性以及更合理地利用模型。為了緩解這些問題,本文提出了 MEEE,一種由樂觀探索和加權開發組成的模型集成方法。文中的智能體首先生成一組動作候選,然后尋找兼顧預期回報和未來觀察新穎性的最佳動作。根據模型的不確定性,將不同的折扣權重分別分配給想象的過渡元組,以防止模型預測誤差在agent訓練中的傳播。在幾個具有挑戰性的連續控制基準任務的實驗表明,該方法優于其他無模型和基于模型的最先進方法,尤其是在樣本復雜性方面。
論文鏈接:https://www.aminer.cn/pub/60e436d5dfae54001623bfcd?f=cs
標題:Reset-Free Reinforcement Learning via Multi-Task Learning: Learning Dexterous Manipulation Behaviors without Human Intervention(基于多任務學習實現無重置強化學習:在無需人工干預的情況下學習靈巧的操作行為)
簡介:強化學習 (RL) 算法原則上可以通過從現實世界中通過反復試驗收集的大量數據中學習來獲得復雜的機器人技能。然而,大多數 RL 算法使用精心設計的設置來收集數據,需要人工監督和干預以提供情景重置。本文適當選擇多任務RL設置實際上減輕了無重置學習挑戰,并且所需的額外機器最少。并且解決多任務問題可以直接解決無重置問題,因為不同的任務組合可以用于為其他任務執行重置。通過一起學習多個任務并適當地對其進行排序,可以有效地一起學習所有任務而無需重置。而多任務學習可以有效地將無重置學習方案擴展到更復雜的問題。本文通過簡單的多任務學習方案來解決無重置學習問題,并展示了其在無需任何顯式重置的情況下學習解決硬件和模擬中復雜的靈巧操作任務的有效性。研究結果表明在沒有任何人工干預的情況下使用 RL 在現實世界中學習靈巧操作行為的能力。
論文鏈接:https://www.aminer.cn/pub/6082a0e891e0118612e3f5cf?f=cs
標題:DisCo RL: Distribution-Conditioned Reinforcement Learning for General-Purpose Policies(DisCo RL:針對通用政策的有條件分配強化學習)
簡介:是否可以使用強化學習來學習可以執行各種不同任務,產生靈活且可重復使用的技能的通用策略?上下文策略原則上提供了此功能,但是上下文的表示方式決定了概括性和表達性。分類上下文無法將其推廣到全新的任務。目標條件策略可以實現某種概括,但不能捕獲可能需要的所有任務。本文提出目標分布作為適合上下文策略的通用且廣泛適用的任務表示。分配類別的特定選擇使我們可以權衡表達能力和可學習性。本文通過分配條件強化學習(DisCo RL)的非策略算法,以有效地學習這些策略。對各種機器人操縱任務進行了DisCo RL評估,發現對于需要歸納到新目標分布的任務,DisCo RL明顯優于以前的方法。
論文鏈接:https://www.aminer.cn/pub/604f1e079e795e5feaac5514?f=cs
標題:Reinforcement Learning for Robust Parameterized Locomotion Control of Bipedal Robots(雙足機器人魯棒參數化運動控制的強化學習)
簡介:為雙足機器人開發健壯的行走控制器是一項艱巨的任務。傳統的基于模型的運動控制器需要簡化假設并進行仔細建模。任何小錯誤都會導致控制不穩定。為了解決兩足動物運動的這些挑戰,本文提出了一種無模型的強化學習框架,用于在仿真中訓練魯棒的運動策略,然后可以將其轉移到真正的兩足動物Cassie機器人中。為了促進從模擬到真實的傳輸,使用域隨機化來鼓勵策略學習對系統動態變化具有魯棒性的行為。所學習的策略使Cassie能夠執行一組多樣化的動態行為,同時比傳統的控制器和使用殘差控制的基于學習的現有方法更為強大。
論文鏈接:https://www.aminer.cn/pub/6061a9d691e0112c88b9834e?f=cs
標題:Model-Based Meta-Reinforcement Learning for Flight With Suspended Payloads(具有懸浮有效載荷的基于模型的元強化學習)
簡介:對于自動駕駛飛行器而言,運輸懸浮的有效載荷具有挑戰性,因為有效載荷會導致機器人動力學發生重大且不可預測的變化。這些變化可能導致飛行性能欠佳,甚至發生災難性故障。盡管自適應控制和基于學習的方法原則上可以適應這些混合機器人有效載荷系統的變化,但是在飛行中快速適應具有先驗未知物理特性的有效載荷仍然是一個懸而未決的問題。本文提出了一種元學習方法,該方法可在連接后飛行數據的幾秒鐘內“學習如何學習”變化后的動力學模型。實驗表明,在一系列具有挑戰性的懸掛式有效載荷運輸任務中,該文的在線適應方法優于非自適應方法。
論文鏈接:https://www.aminer.cn/pub/5ea2b8c391e01167f5a89e1c?f=cs
標題:ViNG: Learning Open-World Navigation with Visual Goals(ViNG:通過視覺目標學習開放世界的導航)
簡介:本文提出了一種基于學習的導航系統,以實現視覺指示的目標,并在真實的移動機器人平臺上演示該系統。與傳統的機器人導航方法相比,學習可以使機器人學習導航能力,了解可穿越的障礙物類型(例如高草),而不是根據幾何形狀和地圖來推理環境。(例如墻壁),并概括環境中的模式。在部署過程中很難更改學習策略的目標。通過學習導航到所需目的地的目標圖像的方法。將學習到的策略與根據先前觀察到的數據構建的拓撲圖相結合,即使在外觀和光線變化的情況下,該系統也可以確定如何達到視覺指示的目標。在航點提議,圖形修剪和否定挖掘使該方法能夠僅使用脫機數據來學習在現實環境中的導航,而這是以前方法所難以解決的。實例研究表明ViNG的系統優于以前提出的用于目標條件式強化學習的方法,包括結合強化學習和搜索的其他方法。在許多實際應用中演示了ViNG,例如最后一英里的交付和倉庫檢查。
論文鏈接:https://www.aminer.cn/pub/5fdc955491e01104c9181219?f=cs
標題:SimGAN: Hybrid Simulator Identification for Domain Adaptation via Adversarial Reinforcement Learning(SimGAN:通過對抗增強學習進行領域自適應的混合模擬器識別)
簡介:隨著基于學習的方法朝著使機器人控制器設計自動化的方向發展,將學習到的策略轉移到具有不同動態特性的新域(例如,從模擬到真實的轉移)仍然需要人工。本文介紹了SimGAN,它是一種解決領域適應問題的框架,它通過使用學習的判別性損失來解決與人工損失設計相關的局限性,從而確定混合物理模擬器以將模擬軌跡與目標領域的軌跡相匹配。混合模擬器將神經網絡和傳統物理模擬相結合,以平衡表現力和通用性,并減少了在系統ID中精心選擇的參數集的需求。通過對抗性強化學習識別出混合模擬器之后,就可以將其用于優化目標領域的策略,無需收集更多數據。證明了該方法在六個機器人運動任務領域的表現優于多個強基準。
論文鏈接:https://www.aminer.cn/pub/600558f091e0118e0cce2239?f=cs
標題:Learning Task Space Actions for Bipedal Locomotion(學習雙足運動的任務空間動作)
簡介:強化學習 (RL) 在訓練真實機器人雙足運動策略方面的成功。然而,先前研究側重于基于跟蹤現有控制器產生的聯合軌跡的目標來學習聯合協調控制器。因此,很難訓練這些方法來實現腿運動的更高級別的目標。本文提出了將機器人系統的知識整合到 RL 中的方法,以允許在任務空間動作的水平上根據腳設定點進行學習。特別是將學習任務空間策略與基于模型的逆動力學控制器相結合,將任務空間動作轉換為關節級控制。通過這種用于學習運動的自然動作空間,與學習純聯合空間動作相比,該方法具有更高的樣本效率并產生所需的任務空間動態。通過模擬中演示了該方法,并表明學習到的策略能夠轉移到真正的雙足機器人 Cassie上。這一結果激勵進一步研究將雙足控制技術納入學習過程的結構以實現動態行為。
論文鏈接:https://www.aminer.cn/pub/5fabac3591e0110281fda9b8?f=cs
標題:Learning Spring Mass Locomotion: Guiding Policies With a Reduced-Order Model(學習彈簧質量運動:使用降階模型指導策略)
簡介:本文描述了一種在物理機器人上實現動態腿部運動的方法,該方法將現有的控制方法與強化學習相結合。通過描述腿運動的基本物理學的降階模型來規劃最高級別的行為,而較低級別的控制器利用可以彌合理想化簡單模型之間差距的學習策略以及復雜的全訂單機器人。高級規劃器可以使用環境模型并針對特定的任務,而低級學習控制器可以執行各種運動,以便它適用于許多不同的任務。基于學習動態步行控制器,并展示了來自降階模型的一系列步行運動可以用作學習策略的命令和主要訓練信號。由此產生的策略不是試圖像傳統的軌跡跟蹤控制器那樣天真地跟蹤運動,而是平衡即時運動跟蹤與長期穩定性。最終的控制器以高達1.2 m / s的速度在人類規模,不受約束的雙足機器人上進行了演示。本文為通用的動態學習步行控制器奠定了基礎,該控制器可應用于許多不同的任務。
論文鏈接:https://www.aminer.cn/pub/5f929e9791e011edb35738e9?f=cs
標題:Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with Deep Reinforcement Learning(模型預測演員-評論家:通過深度強化學習來加速機器人技能的獲得)
簡介:基于模型的強化學習算法的實質性進步已受到所收集數據引起的模型偏差的阻礙,其固有的樣品效率保證了其在大多數機器人應用中的實用性,從而限制了訓練過程中對機器人及其環境的潛在損害。受信息理論模型預測控制和深度強化學習進展的啟發,本文引入了基于模型/無模型的混合方法-模型預測演員-評論家(MoPAC),將模型預測推出與策略優化相結合,從而減輕了模型偏差。MoPAC利用最佳軌跡來指導策略學習,通過其無模型方法進行探索,從而使該算法可以學習更具表現力的動力學模型。這種結合保證了最佳的技能學習,直至接近誤差,并減少了與環境的必要物理交互,使其適合于實際的機器人培訓。通過評估MoPAC來進行物理機械手學習以進行閥門旋轉和手指步態學習來得出結論-這是一項需要抓握、操縱然后重新抓取物體的任務。
論文鏈接:https://www.aminer.cn/pub/605db42791e0113c286559c3?f=cs
標題:Differentiable Physics Models for Real-World Offline Model-Based Reinforcement Learning(現實世界基于離線模型的強化學習的可微物理模型)
簡介:基于模型的強化學習 (MBRL) 的一個限制是會利用學習模型中的錯誤。黑盒模型可以高保真地擬合復雜的動力學,但它們的行為在數據分布之外是未定義的。基于物理的模型由于其信息結構的普遍有效性而更擅長外推,但由于存在未建模的現象,因此在現實世界中不適合。實驗證明對于基于離線模型的強化學習設置,如果機械結構已知,則基于物理的模型與高容量函數逼近器相比可能是有益的。基于物理的模型可以使用離線 MBRL 僅使用 4 分鐘的采樣數據學習在物理機械手上執行杯中球 (BiC) 任務。盡管可以訪問比基于物理的模型更多的數據,但黑盒模型始終為 BiC 制定不可行的策略,因為所有預測軌跡都發散到物理上不可能的狀態。此外,本文將物理參數識別方法從完整的多體系統建模推廣到使用端到端自動微分的非完整動力學系統。
論文鏈接:https://www.aminer.cn/pub/5fa2890391e011cda13f4fe3?f=cs
標題:Recovery RL: Safe Reinforcement Learning with Learned Recovery Zones(Recovery RL:通過學習的恢復區域進行安全強化學習)
簡介:安全仍然是阻止在現實世界中廣泛使用RL的主要障礙:在不確定的環境中學習新任務需要進行廣泛的探索,而安全則需要進行有限的探索。本文提出了Recovery RL,該算法可通過(1)利用離線數據來了解違反約束的區域來導航此折中前策略學習和(2) 分離跨兩個策略提高任務性能和約束滿意度的目標:僅優化任務獎勵的任務策略,以及在可能違反約束條件時將智能體引導至安全狀態的恢復策略。本文在6個仿真域上評估了Recovery RL,包括兩個接觸豐富的操縱任務和一個基于圖像的導航任務,以及在物理機器人上的基于圖像的避障任務。本文將Recovery RL與5種先前的安全RL方法進行了比較,后者通過約束優化或獎勵整形共同優化了任務性能和安全性,發現Recovery RL在所有領域的性能均優于次優方法。結果表明,Recovery RL在約束域和任務成功之間進行權衡,仿真領域的效率提高2至20倍,而物理實驗的效率提高3倍。
論文鏈接:https://www.aminer.cn/pub/5f9fcda491e0112e85ce8fe9?f=cs
標題:What Can I Do Here? Learning New Skills by Imagining Visual Affordances(我可以在這里做什么?通過想象視覺影響來學習新技能)
簡介:一個擁有學習技能的通用型機器人必須能夠在許多不同的環境中執行許多任務。然而遇到環境或物體變化時,它可能需要微調它的一些技能以適應這種變化。先前的行為和模型仍然應該適合并加速這種新的學習場景。本文的目標是研究可能的結果的生成模型如何能夠讓機器人學習有負擔能力的視覺表征,從而使機器人就可以在新的情況下對潛在的可能結果進行采樣,然后進一步訓練其策略。當機器人遇到陌生的環境時,它可以從其模型中抽出潛在的結果,試圖達到這些結果,然后進一步訓練其策略以達到這些結果。即視覺運動承受力學習(VAL),可以用來訓練有目標的策略。可用于訓練以原始圖像輸入為基礎的目標條件策略,并能迅速學會通過VAL快速學習操縱新物體。
論文鏈接:https://www.aminer.cn/pub/60c9423e91e01169a64d986a?f=cs
新工具
標題:BADGR: An Autonomous Self-Supervised Learning-Based Navigation System(BADGR:一個基于自監督學習的自主導航系統)
簡介:移動機器人導航通常被視為一個幾何問題。機器人的目標是通過感知環境的幾何形狀,以規劃無碰撞的路徑達到預期的目標。然而,一個對世界的純粹的幾何角度可能不足以解決許多導航問題。例如,一個基于幾何學進行導航的機器人可能會避開一片高大的草地,因為它認為那是無法穿越的,因此將無法達到它的預期目標。本文研究了如何超越這些純粹基于幾何學的方法,使用一種從經驗中學習物理導航能力的方法(BADGR)。其為基于端到端學習的移動機器人導航系統,可以用在真實世界環境中收集的自監督的離線數據進行訓練,不需要任何模擬或人類監督。BADGR可以在現實世界的城市和非道路環境中進行導航。在現實世界中,BADGR可以在有幾何干擾障礙物的城市和越野環境中進行導航。它還可以將地形偏好,歸納到新的環境中,并通過收集更多的數據繼續通過收集更多的數據來自主地改進。
論文鏈接:https://www.aminer.cn/pub/5e4672c93a55ac14f595d8ac?f=cs
總結
以上是生活随笔為你收集整理的《强化学习周刊》第22期:ICRA 2021-2022强化学习的最新研究与应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: matlab eval函数用法
- 下一篇: 中国2项上榜:《时代周刊》2019年度1