强化学习(四)用蒙特卡罗法(MC)求解
在強化學習(三)用動態規劃(DP)求解中,我們討論了用動態規劃來求解強化學習預測問題和控制問題的方法。但是由于動態規劃法需要在每一次回溯更新某一個狀態的價值時,回溯到該狀態的所有可能的后續狀態。導致對于復雜問題計算量很大。同時很多時候,我們連環境的狀態轉化模型PP都無法知道,這時動態規劃法根本沒法使用。這時候我們如何求解強化學習問題呢?本文要討論的蒙特卡羅(Monte-Calo, MC)就是一種可行的方法。
蒙特卡羅法這一篇對應Sutton書的第五章和UCL強化學習課程的第四講部分,第五講部分。
1. 不基于模型的強化學習問題定義
在動態規劃法中,強化學習的兩個問題是這樣定義的:
預測問題,即給定強化學習的6個要素:狀態集SS, 動作集AA, 模型狀態轉化概率矩陣PP, 即時獎勵RR,衰減因子γγ, 給定策略ππ, 求解該策略的狀態價值函數v(π)v(π)
控制問題,也就是求解最優的價值函數和策略。給定強化學習的5個要素:狀態集SS, 動作集AA, 模型狀態轉化概率矩陣PP, 即時獎勵RR,衰減因子γγ, 求解最優的狀態價值函數v?v?和最優策略π?π?
可見, 模型狀態轉化概率矩陣PP始終是已知的,即MDP已知,對于這樣的強化學習問題,我們一般稱為基于模型的強化學習問題。
不過有很多強化學習問題,我們沒有辦法事先得到模型狀態轉化概率矩陣PP,這時如果仍然需要我們求解強化學習問題,那么這就是不基于模型的強化學習問題了。它的兩個問題一般的定義是:
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀
總結
以上是生活随笔為你收集整理的强化学习(四)用蒙特卡罗法(MC)求解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(三)用动态规划(DP)求解
- 下一篇: 强化学习(五)用时序差分法(TD)求解