High Dimensional Continuous Control Using Generalized Advantage Estimation
策略梯度方法在強化學習中是一種很有吸引力的方法,因為它們可以直接優(yōu)化累積獎勵,并且可以直接與非線性函數逼近器(如神經網絡)一起使用。兩個主要挑戰(zhàn)是通常需要大量的樣本,以及盡管傳入的數據是非平穩(wěn)性,但仍難以獲得穩(wěn)定和穩(wěn)步的改進。本文通過使用價值函數來解決第一個挑戰(zhàn),以一些偏差為代價,通過類似于TD(λ)的優(yōu)勢函數的指數加權估計來大幅減少策略梯度估計的方差。本文通過對由神經網絡表示的策略和值函數使用信賴域優(yōu)化過程來解決第二個挑戰(zhàn)。該方法在高度挑戰(zhàn)性的3D運動任務、學習雙足和四足模擬機器人的跑步步態(tài),以及學習使雙足動物從一開始躺在地面上站起來的策略方面產生了強大的經驗結果。與之前一大批使用手工策略表示的工作相比,所提出的神經網絡策略直接從原始運動學映射到關節(jié)力矩。所提出算法是完全無模型的,在3D兩足動物上學習任務所需的模擬經驗量相當于1-2周的實時時間
2 PRELIMINARIES?
?
?3 ADVANTAGE FUNCTION ESTIMATION
?
?5 VALUE FUNCTION ESTIMATION
有很多不同的方法可以用來估計價值函數(參見Bertsekas(2012))。當使用非線性函數逼近器來表示值函數時,最簡單的方法是解決非線性回歸問題
?
?對于本工作中的實驗,我們使用信任區(qū)域法來優(yōu)化分批優(yōu)化過程的每一次迭代的值函數。信任區(qū)域可以幫助我們避免對最近一批數據的過擬合
?
7 DISCUSSION
策略梯度方法通過提供無偏梯度估計,提供了一種將強化學習減少到隨機梯度下降的方法。然而,到目前為止,它們在解決困難的控制問題方面的成功是有限的,主要是由于它們的高樣本復雜度。我們已經討論過,減小方差的關鍵是獲得對優(yōu)勢函數的良好估計
本文對優(yōu)勢函數估計問題提供了一個直觀但非正式的分析,并證明了廣義優(yōu)勢估計器,它有兩個參數γ和λ,用于調整偏差-方差權衡。我們描述了如何將這種思想與信賴域策略優(yōu)化以及優(yōu)化以神經網絡為代表的值函數的信賴域算法相結合。結合這些技術,能夠學習解決以前通用強化學習方法無法解決的困難控制任務
在并行工作中,研究人員一直在開發(fā)策略梯度方法,涉及對連續(xù)值行動的微分(Lillicrap等人,2015;Heess et al., 2015)。雖然我們從經驗上發(fā)現一步回歸(λ = 0)會導致過大的偏差和較差的性能,但這些論文表明,在適當調整的情況下,這種方法是可以工作的。然而,請注意,這些論文考慮的控制問題的狀態(tài)和動作空間比這里考慮的要低得多。兩類方法之間的比較將有助于今后的工作?
總結
以上是生活随笔為你收集整理的High Dimensional Continuous Control Using Generalized Advantage Estimation的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微型计算机知识做流水灯,微机原理流水灯的
- 下一篇: Redis集群搭建(基于6.2.6版本)