论文笔记 General Advantage Estimation(GAE)
論文筆記GAE
- 1 引言
- 2 GAE
- 3 置信域值函數更新
- 4 實驗
GAE 全稱General Advantage Estimation,是一種平衡優勢函數估計中的偏差和方差的方法。論文地址https://arxiv.org/abs/1506.02438
1 引言
-
策略梯度法存在的兩個方面問題:
樣本利用率,由于樣本利用率低需要大量采樣;
算法穩定性,需要讓算法在變化的數據分布中穩定提升; -
值函數也是為了解決信用分配問題,能夠在延遲獎勵到來之前判斷動作的好壞。
-
策略梯度法與AC法的區別:
使用全部獎勵來估計策略梯度,盡管無偏但是方差大;Actor-Critic方法使用值函數來估計獎勵,能夠降低偏差但是方差較大。 -
方差、偏差的影響:
高方差需要更多的樣本來訓練,偏差會導致不收斂或收斂結果較差。 -
本文兩個貢獻:
2 GAE
策略梯度估計方法有如下多種,使用優勢函數的方法方差最小。
gamma-just是指期望為如下表達式:
定義狀態值函數V的TD error:
定義k步估計的優勢函數:
當k越大,方差越大,偏差越小。
GAE定義為lambda指數下降權重調整的Ak求和
當lambda=0時,相當于TD-error;當lambda=1時,相當于A∞。
GAE(γ, 1) 是 γ-just 不管 V是否準確 , 但是因為求和項較多具有高方差。
GAE(γ, 0) 是 γ-just 只在 V = V π,γ (最有值函數)時,否則會引入偏差,但是方差更小。
當 0 < λ < 1 就是平衡方差與偏差的過程。
GAE策略梯度更新公式:
3 置信域值函數更新
置信域方法的好處是防止過擬合最近一批數據。
使用共軛梯度法求解
的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql 临时表联表查询_一、MySQ
- 下一篇: 2010计算机系助学金,计算机系贫困生助