强化学习(十四) Actor-Critic
在強化學習(十三) 策略梯度(Policy Gradient)中,我們講到了基于策略(Policy Based)的強化學習方法的基本思路,并討論了蒙特卡羅策略梯度reinforce算法。但是由于該算法需要完整的狀態序列,同時單獨對策略函數進行迭代更新,不太容易收斂。
在本篇我們討論策略(Policy Based)和價值(Value Based)相結合的方法:Actor-Critic算法。
本文主要參考了Sutton的強化學習書第13章和UCL強化學習講義的第7講。
1. Actor-Critic算法簡介
Actor-Critic從名字上看包括兩部分,演員(Actor)和評價者(Critic)。其中Actor使用我們上一節講到的策略函數,負責生成動作(Action)并和環境交互。而Critic使用我們之前講到了的價值函數,負責評估Actor的表現,并指導Actor下一階段的動作。
回想我們上一篇的策略梯度,策略函數就是我們的Actor,但是那里是沒有Critic的,我們當時使用了蒙特卡羅法來計算每一步的價值部分替代了Critic的功能,但是場景比較受限。因此現在我們使用類似DQN中用的價值函數來替代蒙特卡羅法,作為一個比較通用的Critic。
也就是說在Actor-Critic算法中,我們需要做兩組近似,第一組是策略函數的近似:
πθ(s,a)=P(a|s,θ)≈π(a|s)πθ(s,a)=P(a|s,θ)≈π(a|s)
第二組是價值函數的近似,對于狀態價值和動作價值函數分別是&
總結
以上是生活随笔為你收集整理的强化学习(十四) Actor-Critic的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(十三) 策略梯度(Policy
- 下一篇: 强化学习(十五) A3C