重温强化学习之基于模型方法:动态规划
生活随笔
收集整理的這篇文章主要介紹了
重温强化学习之基于模型方法:动态规划
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
基于模型的強化學習,可以用動態規劃求解
動態規劃要求知道馬爾科夫五元組:狀態集、動作集、狀態轉移矩陣、獎勵、折扣因子? ? ---使用貝爾曼方程
1、前言
什么是動態規劃?
2、策略評價
3、策略提升
4、策略迭代(策略評價+策略提升+...)
5、值迭代
?
?
?
參考連接:
https://blog.csdn.net/hiwallace/article/details/81220130
總結
以上是生活随笔為你收集整理的重温强化学习之基于模型方法:动态规划的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Spider_douyin
- 下一篇: 重温强化学习之无模型学习方法:蒙特卡洛方