强化学习(五)用时序差分法(TD)求解
在強化學(xué)習(xí)(四)用蒙特卡羅法(MC)求解中,我們講到了使用蒙特卡羅法來求解強化學(xué)習(xí)問題的方法,雖然蒙特卡羅法很靈活,不需要環(huán)境的狀態(tài)轉(zhuǎn)化概率模型,但是它需要所有的采樣序列都是經(jīng)歷完整的狀態(tài)序列。如果我們沒有完整的狀態(tài)序列,那么就無法使用蒙特卡羅法求解了。本文我們就來討論可以不使用完整狀態(tài)序列求解強化學(xué)習(xí)問題的方法:時序差分(Temporal-Difference, TD)。
時序差分這一篇對應(yīng)Sutton書的第六章部分和UCL強化學(xué)習(xí)課程的第四講部分,第五講部分。
1. 時序差分TD簡介
時序差分法和蒙特卡羅法類似,都是不基于模型的強化學(xué)習(xí)問題求解方法。所以在上一篇定義的不基于模型的強化學(xué)習(xí)控制問題和預(yù)測問題的定義,在這里仍然適用。
預(yù)測問題:即給定強化學(xué)習(xí)的5個要素:狀態(tài)集SS, 動作集AA, 即時獎勵RR,衰減因子γγ, 給定策略ππ, 求解該策略的狀態(tài)價值函數(shù)v(π)v(π)
控制問題:也就是求解最優(yōu)的價值函數(shù)和策略。給定強化學(xué)習(xí)的5個要素:狀態(tài)集SS, 動作集AA, 即時獎勵RR,衰減因子γγ, 探索率??, 求解最優(yōu)的動作價值函數(shù)q?q?和最優(yōu)策略π?π?
回顧蒙特卡羅法中計算狀態(tài)收獲的方法是:
Gt=Rt+1+γRt+2+γ2Rt+3+...γT?t?1RTGt=Rt+1+γRt+2+γ2Rt+3+...γT?t?1RT
而對
總結(jié)
以上是生活随笔為你收集整理的强化学习(五)用时序差分法(TD)求解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(四)用蒙特卡罗法(MC)求解
- 下一篇: 强化学习(六)时序差分在线控制算法SAR