强化学习6——Value-based RL和Policy-based RL 的区别
生活随笔
收集整理的這篇文章主要介紹了
强化学习6——Value-based RL和Policy-based RL 的区别
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Value-based RL和Policy-based RL 的區別
? Value-based RL 都是確定的一個策略:at=arg?max?aQ(a,st)a_{t}=\arg \max _{a} Q\left(a, s_{t}\right)at?=argmaxa?Q(a,st?)。
? Policy-based RL 產生的是各個動作的概率:πθ(a∣s)\pi_\theta(a|s)πθ?(a∣s)。例如下圖用神經網路來構建策略,θ\thetaθ可以看做是各個連接層之間的參數,輸入的是游戲的像素(狀態),通過網絡輸出的是每個動作的概率(這里就是上或者下)。
Value-based RL:學習價值函數,從價值函數采取出策略,是一種間接產生策略的方法。
Policy-based RL:學習策略函數,直接產生策略的方法。
總結
以上是生活随笔為你收集整理的强化学习6——Value-based RL和Policy-based RL 的区别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习5——价值函数近似(VFA)
- 下一篇: 强化学习6——Policy-based