NeurIPS 2020 所有RL papers全扫荡
文 | 微塵-黃含馳
源 | 知乎
論文列表
1.《Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model》
關鍵詞:model-based reinforcement learning, minimaxity, planning, policy evaluation, instance-dependent guarantees, generative model
從理論上研究了樣本復雜度和統計準確性之間的權衡取舍。得出了基于模型的策略評估的改進(instance-dependent)保證,據我們所知,該工作提供了生成模型中第一個極大極小最優保證,可容納the entire range of sample sizes.
2.《Deep Reinforcement and InfoMax Learning》
關鍵詞:predictive of the future,InfoMax Learning,representations
我們的工作基于以下假設:representations可以預測未來狀態的屬性的無模型的智能體,將更有能力解決和適應新的RL問題。為了檢驗這一假設,我們引入了一個基于Deep InfoMax(DIM)的目標,該目標通過最大化其內部表示的連續時間步長間的互信息來訓練智能體預測未來。我們從馬爾科夫鏈混合時間的角度對方法的收斂特性進行了直觀分析,并認為互信息下限的收斂性與過渡模型的逆絕對譜隙有關。我們在幾個合成環境中測試了新方法,它成功地學習了對未來有預測性的表示。最后,我們用temporal DIM目標增強了C51,一個強大的RL基線,并在持續學習任務和最近引入的Procgen環境上展示了改進的性能。
3.《Almost Optimal Model-Free Reinforcement Learning via Reference-Advantage Decomposition》
關鍵詞:Model-Free RL
我們研究了在具有S個狀態、A個動作和episode 長度為H的finite-horizon episodic馬爾科夫決策過程(MDPs)環境下的強化學習問題,提出了一種有不錯理論保證的無模型算法UCB-Advantage。UCB-Advantage實現了較低的局部切換成本,并適用于并發強化學習,它在[Bai等,2019]的最新結果基礎上進行了改進。
4.《Effective Diversity in Population Based Reinforcement Learning》
關鍵詞:Population、exploration、diversity
探索是強化學習中的一個關鍵問題,因為智能體只能從他們在環境中獲得的數據中學習。考慮到這一點,維持一個智能體群體是一種有吸引力的方法,因為它允許收集具有多樣化行為的數據。這種行為多樣性通常通過多目標損失函數來鼓勵。然而,這些方法通常利用基于對偶距離的平均場更新,這使它們很容易受到循環行為和增加冗余的影響。此外,明確鼓勵多樣性往往對優化已有成果的行為進行獎勵有不利影響。因此,獎勵-多樣性的權衡通常依賴于啟發式方法。最后,這類方法需要的行為表示通常是手工制作的和特定領域的。在本文中,我們介紹了一種同時優化一個種群所有成員的方法。我們沒有使用對偶距離,而是測量整個種群在behavioral manifold中的體積,這由任務無關的行為(behavioral)嵌入定義。此外,新算法Diversity via Determinants (DvD)在訓練過程中使用在線學習技術調整多樣性程度。我們介紹了DvD的進化和基于梯度的實例,并表明當不需要更好的探索時,它們可以有效改善探索而不降低性能。
5.《A Boolean Task Algebra for Reinforcement Learning》
關鍵詞:Boolean Task Algebra、multi-task
我們提出了一個在任務空間上定義布爾代數的框架。這使得我們可以用一組基礎任務的否定、disjunction和連接來制定新任務。文章表明,通過學習面向目標的價值函數和限制任務的過渡動態,智能體可以在不進一步學習的情況下解決這些新任務。我們證明,通過以特定的方式組合這些價值函數,我們立即恢復了布爾代數下可表達的所有任務的最優策略。我們在兩個領域(包括一個需要函數逼近的高維視頻游戲環境)驗證了新方法,實驗中智能體首先學習一組基本技能,然后將它們組合起來,解決超指數數量的新任務。
6.《Knowledge Transfer in Multi-Task Deep Reinforcement Learning for Continuous Control》
沒找到paper
7.《Multi-task Batch Reinforcement Learning with Metric Learning》
關鍵詞:Multi-task,Batch RL
我們解決了多任務Batch RL問題。給定從不同任務中收集的多個數據集,我們訓練一個多任務策略,使其在從相同分布中采樣的未見任務中表現良好。為了表現良好,策略必須通過建模其對狀態、動作和獎勵的依賴性,從收集到的transitions中推斷出任務身份。由于不同數據集可能具有差異較大的狀態-動作分布,任務推理模塊可能會學習忽略獎勵,只將狀態-動作對虛假地與任務身份相關聯,從而導致測試時間性能不佳。為了魯棒化任務推理,我們提出了一種新型的triplet loss的應用。為了挖掘hard negative examples,我們通過近似訓練任務的獎勵函數 來重新標記訓練任務的transitions。當我們允許在未見任務上進行進一步的訓練時,使用之前訓練了的策略作為初始化,與隨機初始化的策略相比,收斂速度顯著加快(高達80%的改進,并且跨越5種不同的Mujoco任務分布)。我們將新方法命名為MBML(Multi-task Batch RL with Metric Learning)。
7.《On the Stability and Convergence of Robust Adversarial Reinforcement Learning: A Case Study on Linear Quadratic Systems》
沒找到文章
8.《Towards Playing Full MOBA Games with Deep Reinforcement Learning》
沒找到文章,不過有其他相關文章的解讀https://zhuanlan.zhihu.com/p/99210924
9.《Reinforcement Learning in Factored MDPs: Oracle-Efficient Algorithms and Tighter Regret Bounds for the Non-Episodic Setting》
關鍵詞:FMDPs、Non-Episodic
我們研究non-episodic factored馬爾科夫決策過程(FMDPs)中的強化學習。我們 1.提出了兩種近乎最優的、oracle-efficient 的FMDPs算法;2.為FMDPs提出了一個更嚴格的連通性度量——factored span,并證明了一個取決于factored span而不是直徑D的下界。為減小下界和上界之間的差距,我們提出了對REGAL.C算法的改編,其后悔界取決于factored span。我們的oracle-efficient算法在計算機網絡管理模擬上優于之前提出的接近最優的算法。
10.《Promoting Coordination through Policy Regularization in Multi-Agent Deep Reinforcement Learning》
關鍵詞:MARL、Policy regularization、Coordination
在MARL中,發現成功的集體行為是具有挑戰性的,因為它需要探索一個聯合行動空間,這個空間隨著智能體數量的增加而呈指數增長。雖然獨立智能體探索的可操作性很吸引人,但這種方法在需要詳細群體策略的任務上卻失敗了。我們認為,協調智能體的策略可以指導探索,我們研究了促進這種歸納偏置的技術,提出了兩種策略正則化方法——基于智能體間行動可預測性的TeamReg,以及依賴于同步行為選擇的CoachReg。我們在四個具有挑戰性的連續控制任務上對每種方法進行評估,這些任務具有稀疏獎勵,且需要不同程度的協調。實驗中我們發現,相比于其他baselines,新方法對超參數的變化更加穩健。同時,新方法可成功協調不同智能體的行為,顯著提高了合作性多智能體問題的性能,并且當智能體數量增加時,新方法可以很好地擴展。
11.《Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning》
關鍵詞:Off-policy、Confounding-Robust、olicy Evaluation
batch rl中從觀測數據中對順序決策策略進行Off-policy評估是必要的。然而,未觀察到的變量會混淆觀察到的行動,使得新策略的精確評估不可能。為此,我們開發了一種穩健的方法,在給定數據的情況下,通過敏感度模型,在infinite-horizon問題中估計給定策略的(不可識別的)價值的尖銳邊界,這些數據來自另一個具有未觀測的 confounding。我們考慮了靜止的或 baseline unobserved confounding,并通過優化所有與新的部分識別估計方程和敏感性模型一致的靜止狀態占用率的集合來計算邊界。當我們收集更多的confounding數據時,我們證明了對 sharp bounds的收斂性。雖然檢查set membership是一個線性規劃,但support函數是由一個困難的非凸優化問題給出的。我們開發了基于非凸投射梯度下降的近似方法,并以經驗證明了結果的邊界。
12.《Learning Retrospective Knowledge with Reverse Reinforcement Learning》
關鍵詞:Retrospective Knowledge、Reverse RL
我們提出了一種逆強化學習(Reverse RL)的方法來表示Retrospective Knowledge。一般的價值函數(GVF)在表示預測性知識方面(即回答關于未來可能結果的問題,如 “如果我們開車從A到B,預計會消耗多少燃料?”)取得了巨大成功。然而,GVFs無法回答 “如果一輛汽車在時間t時在B處,我們期望它耗費多少燃料?”這樣的問題。要回答此問題,我們需要知道那輛車什么時候加滿了油,以及是如何到達B的,由于這類問題強調的是過去可能發生的事件對現在的影響,我們將其答案稱為Retrospective Knowledge。在本文中,我們展示了如何用Reverse GVF來表示回顧性知識,它是通過Reverse RL來訓練的。我們用經驗證明了逆GVFs在表征學習和異常檢測中的效用。
13.《Combining Deep Reinforcement Learning and Search for Imperfect-Information Games》
關鍵詞:Games theory、Imperfect-Information
在訓練和測試時進行DRL和搜索的結合是一個強大的paradigm,它導致了單智能體設置和完美信息游戲的許多成功案例,其中最成功就是AlphaZero。但是,這種形式的算法無法應付不完美的信息游戲。本文介紹了ReBeL,這是一個用于self-play RL和搜索不完全信息游戲的通用框架。在更簡單的完美信息游戲環境中,ReBeL簡化為類似于AlphaZero的算法。結果表明,ReBeL導致基準不完全信息游戲中的可利用性較低,并在heads-up no-limit德州撲克中獲得超人表現,同時使用的領域知識比以前的任何撲克AI都要少。我們還證明了ReBeL在 tabular settings的兩人零和游戲中收斂到Nash平衡。
14.《Reinforced Molecular Optimization with Neighborhood-Controlled Grammars》
沒找到文章
15.《POMO: Policy Optimization with Multiple Optima for Reinforcement Learning》
沒找到文章
16.《Self-Paced Deep Reinforcement Learning》
關鍵詞:Curriculum Reinforcement Learning (CRL) 、reasoning、automatic curriculum generation
課程強化學習(Curriculum Reinforcement Learning,CRL)通過在整個學習過程中讓智能體接觸到一系列量身定制的任務,提高智能體的學習速度和穩定性。盡管在經驗上取得了成功,但CRL中的一個未決問題是如何為給定的強化學習(RL)智能體自動生成課程以避免人工設計。在本文中,我們提出了一個答案,將課程生成解釋為一個推理問題,其中任務上的分布被逐步學習以接近目標任務。這種方法導致了一種自動的課程生成,它的pace由智能體控制,控制過程具有堅實的理論動機,并且很容易與DRL算法耦合。在實驗中,新算法生成的課程顯著提高了在幾種環境和DRL算法中的學習性能,與最先進的CRL算法相匹配或優于后者。
17.《Efficient Model-Based Reinforcement Learning through Optimistic Policy Search and Planning》
關鍵詞:exploration、Model-Based RL
基于模型的強化學習算法和概率動力學模型是數據效率最高的學習方法之一。這通常歸因于他們區分認知和不確定不確定性的能力。但是,雖然大多數算法在學習模型時都將這兩個不確定性區分開來,但在優化策略時卻忽略了它。在本文中,我們證明了忽略認知不確定性會導致貪婪算法無法充分探索。反過來,我們提出了一種實用的樂觀探索算法(H-UCRL),該算法利用幻覺輸入(hallucinated inputs)擴大了輸入空間,該幻覺輸入可施加模型中認知不確定性所能提供的盡可能多的控制。我們分析了這種情況,并為校準良好的模型構建了一個general regret bound。基于這一理論基礎,我們展示了如何將樂觀探索與最新的強化學習算法和不同的概率模型輕松地結合在一起。我們的實驗表明,當存在對行動的懲罰時(這對于其他現有的基于模型的強化學習算法來說十分困難),樂觀探索顯著加快了學習速度。
18.《Weakly-Supervised Reinforcement Learning for Controllable Behavior》
關鍵詞:Weakly-Supervised
Q:我們是否可以將任務空間限制為語義上有意義的任務?
A:在這項工作中,我們介紹了一個框架,該框架使用弱監督自動將任務的語義有意義的子空間與無意義的“chaff”任務的巨大空間自動區分開。我們表明,該學習的子空間能夠進行有效探索,并提供捕獲狀態之間距離的表示。在各種具有挑戰性的,基于視覺的連續控制問題上,我們的方法可帶來可觀的性能提升,尤其當環境復雜性不斷提高時。
19.《MOReL: Model-Based Offline Reinforcement Learning》
關鍵詞:Model-Based RL、offline RL
在offline RL中,目標是僅基于與環境發生歷史交互的數據集學習高回報的策略。離線訓練RL策略的能力可以大大擴展RL的適用性,數據效率和實驗速度。offline RL中的先前工作幾乎僅限于無模型RL方法。在這項工作中,我們提出MOReL,這是用于基于模型的offline RL的算法框架。該框架包括兩個步驟:(a)使用離線數據集學習悲觀的MDP(P-MDP);(b)在該P-MDP中學習接近最優的策略。獲知的P-MDP具有以下特性:對于任何策略,實際環境中的性能大約都受到P-MDP中性能的限制。這使其可以作為策略評估和學習目的的良好替代,并且可以克服基于模型的RL(如model exploitation)的常見陷阱。從理論上講,我們顯示MOReL對于offline RL是幾乎minimax最優的。通過實驗,我們顯示MOReL在經過廣泛研究的離線RL基準測試中達到或超過了最新結果。此外,MOreL的模塊化設計使其相關組件的未來發展(如,生成建模,不確定性估計,規劃等)可直接轉化為offline RL的發展。
20.《Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension》
關鍵詞:Function Approximation
值函數逼近已證明在強化學習(RL)中取得了驚人的經驗成功。然而,盡管最近在發展具有線性函數逼近的RL理論上取得了一些進展,但對通用函數逼近方案的理解仍然很不足。在本文中,我們建立了一種通用值函數近似的可證明有效的RL算法。我們的理論使用線性值函數逼近來概括RL的最新進展,且新算法是無模型的,我們也沒對環境做出明確假設。
21.《Security Analysis of Safe and Seldonian Reinforcement Learning Algorithms》
沒找到文章
22.《Model-based Adversarial Meta-Reinforcement Learning》
關鍵詞:meta-RL、Adversarial、gradient estimator
元強化學習(meta-RL)旨在從多個訓練任務中學習有效地適應未曾見過的測試任務的能力。盡管取得了成功,但已知現有的meta-RL算法對任務分配轉移很敏感。當測試任務分配與訓練任務分配不同時,性能可能會大大降低。為了解決這個問題,本文提出了基于模型的對抗性元強化學習(AdMRL),我們旨在最大程度地減少最壞情況的次優gap-最優回報與算法適應后獲得的回報間的gap -使用基于模型的方法來處理一系列任務中的所有任務。我們提出了一個minimax目標,并通過在固定任務上學習動力學模型與在當前模型的對抗任務之間進行交替來優化它-該任務所導致的策略在最大程度上次優。假設任務族已參數化,我們通過隱函數定理推導次優梯度相對于任務參數的公式,并說明如何通過共軛梯度法和新穎的方法有效地實現梯度估計器 REINFORCE估算器。我們在幾個連續的控制基準上評估了新方法,并證明了它在所有任務的最壞情況下的性能,對 out-of-distribution任務的泛化能力以及在現有狀態下的訓練和測試時段樣本效率方面的功效。
23.《Safe Reinforcement Learning via Curriculum Induction》
關鍵詞:Curriculum learning、safe RL
在對安全性要求嚴格的應用中, autonomous agents可能需要在錯誤可能造成巨大損失的環境中學習。在這種情況下,智能體要在學習之后和學習過程中安全行事。為達到此目的,現有的安全強化學習方法使智能體依賴先驗條件,從而有可能避免探索過程中的危險情況,但是先驗條件固有的概率保證和平滑假設在許多場景如 自動駕駛中均不可行。本文提出了一種受人類教學啟發的替代方法,其中智能體在自動指導員的指導下進行學習,從而避免了在學習過程中違反約束。在此模型中,我們引入的監視器既不需要知道智能體在學習的任務上如何做好,也不需要知道環境如何工作。相反,它具有重置控制器庫,當智能體開始出現危險行為時可激活重置控制器,以防止智能體造成損壞。至關重要的是,在哪種情況下使用哪種重置控制器會影響智能體學習的速度。基于觀察智能體的進度,老師自己會學習選擇重置控制器的策略和課程表,以優化智能體的最終策略獎勵。我們的實驗在兩個環境中使用此框架來誘導課程的安全有效學習。
24.《Conservative Q-Learning for Offline Reinforcement Learning》
關鍵詞:Conservative Q-Learning 、regularization
有效地利用強化學習(RL)中以前收集的大型數據集是大規模實際應用的主要挑戰。離線RL算法保證無需進一步交互即可從以前收集的靜態數據集中學習有效的策略。但是,在實踐中,離線RL提出了一個重大挑戰,標準的off-policy RL方法可能會因對數據集和學習的策略之間的分布偏移而導致的值進行過高估計而失敗,尤其是在對復雜和多模態數據分布進行訓練時 。在本文中,我們提出了保守的Q學習(CQL),其目的是通過學習保守的Q函數來解決這些限制,從而使該Q函數下策略的期望值lower-bounds其真實值。我們從理論上證明CQL對當前策略的價值產生了下界,并且可以將其納入具有理論改進保證的策略學習過程中。在實踐中,CQL通過簡單的Q值正則化器擴展了標準的Bellman錯誤目標,該Q值正則化器可在現有的DQN和基于actor的實施上直接實現。在離散和連續控制域上,我們都表明CQL大大優于現有的離線RL方法,經常學習的策略可以獲得更高的2-5倍的最終回報(尤其是從復雜的多模態數據分布中學習時)。
25.《Munchausen Reinforcement Learning》
關鍵詞:current policy、scaled log-policy
Bootstrapping 是強化學習(RL)中的核心機制。大多數算法基于temporal differences,以其對當前值的估計來代替過渡狀態的真實值。但是,我們還可以利用current policy估計來引導RL。我們的核心貢獻在于一個非常簡單的想法:將scaled log-policy添加到即時獎勵中。我們證明,以這種方式稍加修改Deep Q-Network(DQN)即可提供一種與Atari游戲上的分配方法有競爭力的智能體,而無需利用distributional RL, n-step returns or prioritized replay。為證明這種想法的多功能性,我們還將其與隱式分位數網絡(IQN)結合使用。為繼續給這項經驗研究添色,我們提供了關于幕后發生的強大理論見解-隱式Kullback-Leibler正則化和action-gap的增加。
26.《Non-Crossing Quantile Regression for Distributional Reinforcement Learning》
沒找到文章
27.《Online Decision Based Visual Tracking via Reinforcement Learning》
沒找到文章
28.《Discovering Reinforcement Learning Algorithms》
關鍵詞:meta learning
強化學習(RL)算法根據多年研究中人工發現的幾種可能的規則之一更新智能體的參數。從數據中自動發現更新規則可以帶來更高效的算法,或更好地適應特定環境的算法。雖然之前已經有人嘗試解決這一挑戰,但發現RL的基本概念(如值函數和時差學習)的替代方案是否可行仍是一個懸而未決的問題。本文引入了一種新的元學習方法,通過與一組環境的交互,發現整個更新規則,其中包括 “預測什么”(如價值函數)和 “如何從中學習”(如bootstrapping)。新算法的輸出是一個RL算法,我們稱之為學習策略梯度(LPG)。實證結果表明,我們的方法發現了自己對價值函數概念的替代。此外,它還發現了一種bootstrapping機制來維持和使用其預測。令人驚訝的是,當僅在玩具環境中進行訓練時,LPG有效地泛化到復雜的Atari游戲中,并取得了非平凡的性能。這表明了從數據中發現一般RL算法的潛力。
29.《Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning》
關鍵詞:MARL、Shared Experience
在MARL中的探索是一個具有挑戰性的問題,尤其在獎勵稀少的環境中。我們建議通過在智能體之間共享經驗來進行有效探索的通用方法。我們提出的算法稱為“Shared Experience Actor-Critic”(SEAC),將經驗分享應用于actor-Critic框架。我們在稀疏獎勵多智能體環境的集合中評估了SEAC,發現它以更少的步驟學習并收斂到更高的回報,始終優于兩個基準和兩個最新算法。在某些更艱難的環境中,經驗共享會在學習解決任務和根本不學習之間體現出性能差別。
30.《The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in Reinforcement Learning》
關鍵詞:evaluation
我們研究了評估RL方法基于模型的行為的度量標準——Local Change Adaptation(LoCA),它可以衡量RL方法適應環境中Local Change的速度。
31.《Leverage the Average: an Analysis of KL Regularization in Reinforcement Learning》
關鍵詞:Regularization、ADP
我們研究了Kullback-Leibler(KL)和熵正則化在強化學習中的作用。通過相關近似動態規劃(ADP)方案的等效表示,我們表明KL懲罰等于平均q值。這種等價性可以在文獻中的先驗不相干的方法之間建立聯系,并證明KL正則化確實會導致在每次迭代值函數更新時做出的平均誤差。通過理論分析,我們還研究了KL和熵正則化之間的相互作用。當考慮的ADP方案與基于神經網絡的隨機逼近相結合時,等價性就會丟失,這表明了進行正則化的許多不同方法。
32.《Task-agnostic Exploration in Reinforcement Learning》
關鍵詞:exploration、Task-agnostic、multi-task
有效的探索是強化學習(RL)的主要挑戰之一。大多數現有的采樣有效算法都假設在探索過程中存在單個獎勵函數。但是,在許多實際情況下,例如,當一個智能體需要同時學習許多技能,或者需要平衡多個相互矛盾的目標時,就沒有單一的基礎獎勵函數來指導探索。為了解決這些挑戰,我們提出了task-agnostic RL框架:在探索階段,智能體首先通過探索MDP來收集軌跡,而無需獎勵函數的指導。經過探索,它的目的是為N個任務找到接近最佳的策略, given the collected trajectories augmented with sampled rewards for each task。我們提出了一種高效的與任務無關的RL算法UCBZero,UCBZero的理論性能十分不錯。
33.《Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement Learning》
關鍵詞:HRL、Adjacency-Constrained Subgoals、search
Goal-conditioned分層強化學習(HRL)是擴大強化學習(RL)技術的一種有前途的方法。但是,由于大的目標空間,此算法訓練效率低下。在較大的目標空間中進行搜索會給高級子目標生成和低級策略學習帶來困難。在本文中,我們表明可以通過使用鄰接約束將高級動作空間從整個目標空間限制到以當前狀態為中心的k步鄰接區域來有效緩解此問題。我們從理論上證明了鄰接約束保留了最佳的分層策略,并表明該約束可通過訓練可以區分相鄰和不相鄰子目標的鄰接網絡來實際實現。在離散和連續控制任務上的實驗結果表明,我們的方法優于最新的HRL方法。
34.《Reinforcement Learning with Feedback Graphs》
關鍵詞:episodic RL、Feedback Graphs、model-based RL
我們研究馬爾科夫決策過程中的episodic RL,此時智能體每一步都會收到幾個transition observations形式的額外反饋。通過擴展的傳感器或關于環境的先驗知識(例如,當某些動作產生類似結果時),在一系列任務中可獲得這樣的額外觀察。我們使用狀態-動作對的反饋圖來形式化這種設置,并表明基于模型的算法可利用額外的反饋來進行更有效的樣本學習。我們給出了一個忽略對數因素和低階項的遺憾邊界,該邊界僅取決于反饋圖的最大無環子圖的大小,而在沒有反饋圖的情況下,該邊界對狀態和動作的數量具有多項式依賴性。最后,我們強調了與bandit環境相比利用反饋圖的小支配集時的挑戰,并提出了一種新的算法,該算法可以利用這種支配集的知識以更sample-efficient地學習近似最優策略。
35.《Storage Efficient and Dynamic Flexible Runtime Channel Pruning via Deep Reinforcement Learning》
關鍵詞:Storage、Runtime Channel Pruning
在本文中,我們提出了一種基于DRL的框架,以在CNN上有效執行runtime channel pruning。我們基于DRL的框架旨在學習一種修剪策略,以確定在每個卷積層中要修剪多少通道以及哪些通道(depending on each specific input instance in runtime)。新策略通過在總體計算預算下限制不同層上的計算資源以優化網絡性能。此外,與其他需要在推理中存儲所有通道參數的其他runtime channel方法不同,我們的框架可以通過引入靜態修剪組件來減少部署時的參數存儲消耗。
36.《Multi-Task Reinforcement Learning with Soft Modularization》
關鍵詞:Multi-Task、 Soft Modularization
主要亮點:
通過定義可微分的總加權目標函數,將路由網絡(用于控制對子網絡各層賦予的不同權重)的訓練和
各子網絡的訓練協同,而不是單獨用 RL 再訓練路由網絡;
將總目標函數中對不同子目標賦予的權重巧妙地和與熵有關的參數 α 相關聯。因為不同子網絡的熵
能反映它們不同的訓練程度,所以新算法對解決 MTLRL 中的分心困境(根據不同子任務的狀態,合理
平衡對它們賦予的不同注意力)有一定幫助。
37.《Weighted QMIX: Improving Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning》
關鍵詞:MTRL、centralised
在許多實際環境中,一組智能體必須在以分散方式行事的同時協調其行為。同時,通常可以用集中式的方式訓練智能體,在這種情況下,全局狀態信息是可用的,并且通信約束被解除。學習以額外狀態信息為條件的聯合行動值是利用集中式學習的一種有吸引力的方式,但隨后提取分散式策略的最佳策略還不清楚。我們的解決方案是QMIX,這是一種新穎的基于價值的方法,它可以以集中式的端到端方式訓練分散式策略。QMIX采用了一個混合網絡,將聯合行動值估計為每個智能體值的單調組合。我們在結構上強制要求聯合行動值在每個智能體值中是單調的,通過使用混合網絡中的非負權重,保證了集中式和分散式策略之間的一致性。為了評估QMIX的性能,我們提出星際爭霸多智能體挑戰賽(SMAC)作為深度多智能體強化學習的新基準。我們在一組具有挑戰性的SMAC場景上對QMIX進行了評估,并表明它的性能顯著優于現有的多智能體強化學習方法。
38.《MDP Homomorphic Networks: Group Symmetries in Reinforcement Learning》
關鍵詞:Homomorphic Networks、constraint
本文介紹了用于深度強化學習的MDP同態網絡。MDP同態網絡是在MDP的聯合狀態-動作空間中的對稱性下等價的神經網絡。通過使用等方差約束將此先驗知識構建到策略和價值網絡中,我們可以減小解空間的size。我們特別關注組結構對稱(可逆轉換)。另外,我們引入了一種簡單方法來數值構造等變網絡層,因此系統設計人員無需像通常那樣手動解決約束。我們構造了在一組反射或旋轉下等變的MDP同態MLP和CNN。我們證明,在CartPole,網格世界和Pong上,此類網絡的收斂速度比非結構化baseline更快。
39.《On Efficiency in Hierarchical Reinforcement Learning》
關鍵詞:HRL、Efficiency
未找到文章
40.《Variational Policy Gradient Method for Reinforcement Learning with General Utilities》
關鍵詞:Variational Policy Gradient、Utilities
本文考慮了馬爾可夫決策問題中的策略優化,其中目標是state-action occupancy measure的一般凹效用函數。這樣的普遍性使Bellman方程無效。由于這意味著動態規劃不再起作用,因此我們專注于直接的策略搜索。類似于可用于帶有累積獎勵的RL策略梯度定理,我們導出了具有通用效用的新RL變分策略梯度定理,它確定了可以通過參數化的策略梯度作為隨機鞍點的解(涉及效用函數的Fenchel對偶問題)。我們開發了一種變分的蒙特卡洛梯度估計算法,以基于樣本路徑計算策略梯度,并且證明,盡管優化問題是非凸的,但變分策略梯度方案在全局上收斂到了針對一般目標的最優策略。我們還通過利用問題的隱藏凸度來建立階數O(1 / t)的收斂速度,并證明當問題允許隱藏強凸度時,它的收斂速度為指數級。我們的分析也適用于具有累積獎勵的標準RL問題(特例)并可提高其收斂速度。
41.《Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs》
關鍵詞:Model-based RL、SMDPs、Neural ODEs
42.《Reinforcement Learning with Augmented Data》
關鍵詞:data Augmentation
從視覺觀察中學習是強化學習(RL)中一個基本而又具有挑戰性的問題。盡管算法的進步與卷積神經網絡的結合已被證明是成功的秘訣,但目前的方法在以下兩方面仍有欠缺。(a)學習的數據效率和(b)對新環境的泛化。為此,我們提出了增強數據的強化學習(RAD),這是一個簡單的即插即用模塊,可以增強大多數RL算法。我們首次對基于像素和基于狀態的輸入的RL的通用數據增強進行了廣泛的研究,并引入了兩種新的數據增強–隨機翻譯和隨機振幅尺度。我們表明,隨機轉換、裁剪、顏色抖動、補丁切除、隨機卷積和振幅尺度等增強功能可以使簡單的RL算法在通用基準上優于復雜的最先進方法。RAD在數據效率和基于像素控制的DeepMind Control Suite基準以及基于狀態控制的OpenAI Gym基準的最終性能方面創造了一個新sota。我們進一步證明,在幾個OpenAI ProcGen基準上,RAD比現有方法顯著改善了測試階段的泛化。
代碼:
https://github.com/MishaLaskin/rad
43.《Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing》
關鍵詞:combinatorial optimization
我們開發了一個具有組合動作空間的基于價值函數的深度強化學習框架,在該框架中,動作選擇問題被明確地表述為混合整數優化問題。作為一個激勵性的例子,我們提出了該框架在capacitated vehicle routing problem(CVRP)中的應用。在每種情況下,我們都將動作建模為單個車輛的整個行程,并考慮確定性策略,該策略可通過簡單的策略迭代算法進行改進。我們的方法可與其他強化學習方法競爭,并且在中等大小的標準庫實例上產生接近最佳的結果。
44.《DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction》
關鍵詞:data distribution
深度強化學習由于不穩定和對超參數的敏感性常常難以使用。當使用標準的監督方法(如,針對bandits)時,on-policy數據收集會提供“hard negatives”,它恰恰在策略可能訪問的那些狀態和行動中修正了模型。我們將這種現象稱為 “矯正反饋”。我們表明,基于bootstrapping的Q-learning算法不一定能從這種糾正性反饋中獲益,對算法收集的經驗進行訓練并不足以糾正Q函數的錯誤。事實上,Q-learning和相關方法可能會在智能體收集的經驗分布和對該經驗進行訓練所誘導的策略之間表現出病態的相互作用,導致潛在的不穩定性、次優的收斂性,以及從嘈雜、稀疏或延遲的獎勵中學習時的糟糕結果。我們從理論和經驗上證明了這個問題的存在性。然后我們表明,對數據分布進行特定的修正可以緩解這個問題。基于這些觀察,我們提出了一種新算法DisCor,它可以計算出最佳分布的近似值,并用它來重新加權用于訓練的轉換,從而在一系列具有挑戰性的RL設置中獲得實質性的改進,例如多任務學習和從嘈雜的獎勵信號中學習。博客:
https://bair.berkeley.edu/blog/2020/03/16/discor/
45.《Neurosymbolic Reinforcement Learning with Formally Verified Exploration》
關鍵詞:safe RL、Neurosymbolic、mirror descent
我們提出了Revel——一種部分神經強化學習(RL)框架,用于在連續狀態和動作空間中進行可證明的安全探索。可證明安全的深度RL的關鍵挑戰是,在 learning loop中反復驗證神經網絡在計算上是不可行的。我們使用兩個策略類來解決這個挑戰:一個是具有近似梯度的一般神經符號類,另一個是允許高效驗證的更限制的符號策略類。我們的學習算法是對策略的鏡像下降:在每次迭代中,它都會安全地將一個符號策略提升到神經符號空間,對產生的策略進行安全的梯度更新,并將更新后的策略投射到安全的符號子集中,所有這些都不需要神經網絡的明確驗證。我們的實證結果表明,Revel在許多場景中強制執行安全探索,而約束策略優化則沒有。
46.《Generalized Hindsight for Reinforcement Learning》
關鍵詞:multi-task、Hindsight
強化學習(RL)中樣本復雜性高的主要原因之一是無法將知識從一項任務轉移到另一項任務。在標準的多任務RL設置中,嘗試解決一項任務時收集的低獎勵數據幾乎沒有提供解決該特定任務的信號因此而被浪費。但是,我們認為這些數據可能會為其他任務提供豐富的信息來源。為了利用這種洞察力并有效地重用數據,我們提出了通用Hindsight:一種近似的逆強化學習技術,用于用正確的任務重新標記行為。與標準的重新標記技術相比,Generalized Hindsight提供了更有效的樣本重用,我們將在一組多任務導航和操縱任務上進行經驗演示。視頻和代碼:
https://sites.google.com/view/generalized-hindsight
47.《Meta-Gradient Reinforcement Learning with an Objective Discovered Online》
關鍵詞:Meta learning
DRL的很多算法通過深度神經網絡對內部表示(如價值函數或策略)進行參數化。每個算法都會根據一個目標(如Q-learning或策略梯度)來優化其參數。在這項工作中,我們提出了一種基于元梯度下降的算法,該算法僅從與環境的交互經驗中發現目標,并由深度神經網絡靈活地設定參數。隨著時間的推移,智能體可以學習如何越來越有效地學習。此外,由于目標是被在線挖掘的,它可以隨時間的推移而自適應變化。我們證明了該算法挖掘如何解決RL中的幾個重要問題,如bootstrapping、非平穩性和off-policy學習。在Atari學習環境上,元梯度算法隨著時間的推移適應了更高的學習效率,最終超越了強actor-critic基線的中位數得分。
48.《TorsionNet: A Reinforcement Learning Approach to Sequential Conformer Search》
關鍵詞:search、curriculum learning
我們提出TorsionNet,這是一種在剛性轉子近似下基于強化學習的有效順序Conformer搜索技術。該模型是通過課程學習訓練的,課程學習將詳細探討其理論價值,以使基于熱力學的新穎度量(Gibbs評分)最大化。
49.《Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement Learning》
關鍵詞:combinatorial optimization
未找到文章
50.《Is Plug-in Solver Sample-Efficient for Feature-based Reinforcement Learning?》
關鍵詞:Efficient
未找到文章
51.《Instance-based Generalization in Reinforcement Learning》
關鍵詞:Instance-based、Generalization
傳統強化學習(RL)算法在具有離散狀態空間的域上運行。它們通常表示表中的值函數,按狀態或狀態-動作對進行索引。但是,將RL應用于具有連續狀態的域時,表格表示形式不再可能。在這些情況下,一種通用的方法是通過存儲一小組狀態(或狀態-動作對)的值并將這些值插值到其他未存儲的狀態(或狀態-動作對)來表示值函數。這種方法稱為基于實例的強化學習(IBRL)。實例是顯式存儲的值,且插值通常使用眾所周知的基于實例的監督學習算法。
52.《Preference-based Reinforcement Learning with Finite-Time Guarantees》
關鍵詞:reward、Preference-based、 dueling bandits
基于偏好的強化學習(Preference-based Reinforcement Learning,PbRL)在傳統的強化學習中用偏好來代替獎勵值,以更好地引起人們對目標的意見,特別是在數值獎勵難以設計或解釋的情況下。盡管PbRL在應用中取得了可喜的成果,但對它的理論認識仍處于起步階段。在本文中,我們首次提出了針對一般PbRL問題的Finite-Time分析。我們首先表明,如果對軌跡的偏好是確定性的,那么對于PbRL,唯一的最優策略可能不存在。如果偏好是隨機的且偏好概率與隱藏的獎勵值有關,那么無論有無模擬器,PbRL都能以高概率確定最佳策略。我們的方法通過導航到未被探索的狀態來探索狀態空間,并使用dueling bandits和策略搜索的組合來求解PbRL。
53.《Learning to Decode: Reinforcement Learning for Decoding of Sparse Graph-Based Channel Codes》
關鍵詞:bandits、clustering、Q-learning
這項工作表明,強化學習可成功應用于解碼短到中等長度的基于稀疏圖的信道碼。我們利用一種順序更新策略,選擇最佳的檢查節點(CN)調度,以提高解碼性能。特別地,我們將CN更新過程建模為一個多臂的、具有依賴臂的bandits過程,并采用Q-learning方案來優化CN調度策略。為降低學習復雜度,我們提出了一種新型的圖誘導CN聚類方法,以這種方式對狀態空間進行分區,使聚類之間的依賴性最小化。結果表明,與文獻中的其他解碼方法相比,新的強化學習方法不僅顯著提高了解碼性能,而且在模型被學習后,也大幅降低了解碼復雜度。
54.《BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning》
關鍵詞:imitation learning
在batch DRL設置中,常用的off-policy DRL算法的性能可能會很差,有時甚至根本無法學習。在本文中,我們提出了一種新算法——最佳動作模仿學習(BAIL)。與許多off-policy DRL算法不同,該算法不涉及在動作空間上最大化Q函數。BAIL在追求簡單性的同時也追求性能,它首先從一批動作中選擇它認為對其對應的狀態是高績效的動作,然后使用這些狀態動作對使用模仿學習來訓練一個策略網絡。雖然BAIL很簡單,但我們證明了BAIL在Mujoco基準上達到了最先進的性能。
55.《Task-Agnostic Online Reinforcement Learning with an Infinite Mixture of Gaussian Processes》
關鍵詞:meta learning、Continuously learning、Gaussian、nonstationarity
在元學習和持續學習中,持續學習以有限的經驗來解決未見過的任務已經被廣泛追求,但同時我們需要注意一些限制性的假設,如可獲得的任務分布、獨立和相同分布的任務以及明確的任務劃分。然而,現實世界中的物理任務經常違反這些假設,導致性能下降。本文提出了一種基于持續在線模型的強化學習方法,它不需要預先訓練來解決任務邊界未知的任務無關問題。我們保持專家的混合來處理非穩態性,并用高斯過程來表示每種不同類型的動態,以有效利用收集到的數據和表達模型的不確定性。我們提出了一個過渡先驗來考慮流數據的時間依賴性,并通過順序變分推斷在線更新混合物。我們的方法通過為從未見過的動態生成新的模型,并為以前見過的動態重用舊模型,可靠地處理了任務分布的轉變。
56.《On Reward-Free Reinforcement Learning with Linear Function Approximation》
關鍵詞:Reward、 Function Approximation
57.《Near-Optimal Reinforcement Learning with Self-Play》
關鍵詞:game theory
58.《Robust Multi-Agent Reinforcement Learning with Model Uncertainty》
關鍵詞:MARL、Robust
59.《Towards Minimax Optimal Reinforcement Learning in Factored Markov Decision Processes》
關鍵詞:FMDPs、Minimax
60.《Scalable Multi-Agent Reinforcement Learning for Networked Systems with Average Reward》
關鍵詞:MARL、Scale
61.《Constrained episodic reinforcement learning in concave-convex and knapsack settings》
關鍵詞:constrained RL、combinatorial optimization
我們提出了一種用于帶約束的表格式episode RL算法。對于具有凹形獎勵和凸形約束的設置以及具有硬約束(背包)的設置,我們提供了具有強大理論保障的模塊化分析。先前在約束強化學習中的大多數工作都局限于線性約束,而其余工作則集中在可行性問題或單個episode的設置上。我們的實驗表明,在現有的約束episode環境中,新算法明顯優于以往方法。
62.《Sample Efficient Reinforcement Learning via Low-Rank Matrix Estimation》
關鍵詞:Efficient、Low-Rank Matrix Estimation
63.《Trajectory-wise Multiple Choice Learning for Dynamics Generalization in Reinforcement Learning》
未找到文章
64.《Cooperative Heterogeneous Deep Reinforcement Learning》
關鍵詞:heterogeneous agents, cooperation
65.《Implicit Distributional Reinforcement Learning》
關鍵詞:Distributional
66.《Efficient Exploration of Reward Functions in Inverse Reinforcement Learning via Bayesian Optimization》
關鍵詞:Exploration、Inverse Reinforcement Learning
67.《EPOC: A Provably Correct Policy Gradient Approach to Reinforcement Learning》
關鍵詞:Policy Gradient
68.《Provably Efficient Reinforcement Learning with Kernel and Neural Function Approximations》
關鍵詞:kernel、Function Approximation
69.《Decoupled Policy Gradient Methods for Competitive Reinforcement Learning》
關鍵詞:Decoupled Policy Gradient、Competitive
70.《Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss》
關鍵詞:constrained RL、CMDP、Primal-Dual、Upper Confidence、Adversarial、safe RL
我們考慮episodic隨機約束馬爾科夫決策過程(CMDP)的在線學習,它在確保強化學習的安全性方面起著核心作用。其中,損失函數可在各個episodes中任意變化,接收到的損失和預算消耗都會在每個episode結束時被揭示。以往的工作是在限制性假設(即馬爾科夫決策過程(MDP)的過渡模型是先驗已知的)下解決此問題的,并且建立的后悔界取決于狀態空間S和行動空間A的cardinality。在這項工作中,我們提出了一種新的upper confidence primal-dual算法,它只需要從過渡模型中采樣的軌跡。我們將拉格朗日乘子過程的新的高概率漂移分析融入到著名的upper confidence強化學習的后悔分析中,證明了 “面對不確定性時的樂觀 “在約束在線學習中的力量。
71.《Improving Generalization in Reinforcement Learning with Mixture Regularization》
關鍵詞:Generalization、Regularization
72.《A game-theoretic analysis of networked system control for common-pool resource management using multi-agent reinforcement learning》
關鍵詞:MARL、game theory、resource management
73.《Deep Reinforcement Learning with Stacked Hierarchical Attention for Text-based Games》
關鍵詞:representation、 Hierarchical Attention、 Text-based Games
74.《Robust Reinforcement Learning via Adversarial training with Langevin Dynamics》
關鍵詞:Robust RL、Adversarial、 Langevin Dynamics
75.《Interferobot: aligning an optical interferometer by a reinforcement learning agent》
關鍵詞:align、robot、domain randomizations (光學干涉實驗)
76.《Reinforcement Learning for Control with Multiple Frequencies》
未找到文章
77.《Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff in Regret》
關鍵詞:Risk、uncertainty
我們研究具有未知transition kernels的episodic馬爾可夫決策過程中的風險敏感強化學習,目標是在指數效用的風險度量下優化總回報。我們提出了兩種可證明有效的無模型算法——風險敏感值迭代(RSVI)和風險敏感Q學習(RSQ)。這些算法在面對不確定性時實現了一種風險敏感型樂觀主義的形式,它同時適用于尋求風險和規避風險的探索方式。
78.《Expert-Supervised Reinforcement Learning for Offline Policy Learning and Evaluation》
關鍵詞:Expert-Supervised、Offline Policy Learning and Evaluation
79.《Dynamic allocation of limited memory resources in reinforcement learning》
關鍵詞:memory budget、Dynamic allocation
80.《AttendLight: Universal Attention-Based Reinforcement Learning Model for Traffic Signal Control》
關鍵詞:Attention-Based、Traffic Signal Control
81.《Sample-Efficient Reinforcement Learning of Undercomplete POMDPs》
關鍵詞:Efficient、Undercomplete POMDPs
82.《RL Unplugged: A Collection of Benchmarks for Offline Reinforcement Learning》
部分可觀察性是RL落地的一大挑戰,這要求智能體保持記憶,推斷潛在狀態并將過去的信息整合到探索中。這項挑戰導致了許多用于學習一般部分可觀察的馬爾可夫決策過程(POMDP)的計算和statistical hardness結果。這項工作表明,這些hardness壁壘并不排除對POMDP豐富而有趣的子類進行有效的強化學習。特別地,我們提出了一種樣本有效的OOM-UCB算法,用于episodic finite的不完全POMDP,其觀測數大于潛在狀態數,并且探索對于學習至關重要,因此可將我們的結果與先前的研究區分開。作為一個有趣的特例,我們還為具有確定性狀態轉換的POMDP提供了一種計算和統計有效的算法。**
83.《A local temporal difference code for distributional reinforcement learning》
關鍵詞:TD、distributional
84.《The Value Equivalence Principle for Model-Based Reinforcement Learning》
關鍵詞:Model-Based RL、Value Equivalence Principle
85.《Steady State Analysis of Episodic Reinforcement Learning》
關鍵詞:Episodic RL、Steady State Analysis
86.《Information-theoretic Task Selection for Meta-Reinforcement Learning》
關鍵詞:Information theory、meta RL、Task Selection
87.《A Unifying View of Optimism in Episodic Reinforcement Learning》
關鍵詞:Optimism、Episodic RL
88.《Accelerating Reinforcement Learning through GPU Atari Emulation》
關鍵詞:GPU、Emulation、efficient
89.《Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations》
關鍵詞:Robust、Adversarial
90.《Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning》
關鍵詞:Model-Based RL、Imagination
91.《Adaptive Discretization for Model-Based Reinforcement Learning》
關鍵詞:Adaptive、Discretization、 Model-Based RL
92.《Provably Good Batch Off-Policy Reinforcement Learning Without Great Exploration》
關鍵詞:Batch RL、 Off-Policy
93.《Provably adaptive reinforcement learning in metric spaces》
關鍵詞:adaptive、metric spaces
94.《Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model》
關鍵詞:Latent Variable Model、Stochastic
95.《Inverse Reinforcement Learning from a Gradient-based Learner》
關鍵詞:Inverse RL、gradient
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會審稿人、大廠研究員、知乎大V和妹紙
等你來撩哦~
總結
以上是生活随笔為你收集整理的NeurIPS 2020 所有RL papers全扫荡的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021届秋招算法岗真的要灰飞烟灭了吗?
- 下一篇: 跨性别,你所不知道的事