當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习（五）用时序差分法（TD）求解

發(fā)布時間：2025/4/5 编程问答 15 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习（五）用时序差分法（TD）求解小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

　　在強化學(xué)習(xí)（四）用蒙特卡羅法（MC）求解中，我們講到了使用蒙特卡羅法來求解強化學(xué)習(xí)問題的方法，雖然蒙特卡羅法很靈活，不需要環(huán)境的狀態(tài)轉(zhuǎn)化概率模型，但是它需要所有的采樣序列都是經(jīng)歷完整的狀態(tài)序列。如果我們沒有完整的狀態(tài)序列，那么就無法使用蒙特卡羅法求解了。本文我們就來討論可以不使用完整狀態(tài)序列求解強化學(xué)習(xí)問題的方法：時序差分(Temporal-Difference, TD)。

　　　　時序差分這一篇對應(yīng)Sutton書的第六章部分和UCL強化學(xué)習(xí)課程的第四講部分，第五講部分。

1. 時序差分TD簡介

　　　　時序差分法和蒙特卡羅法類似，都是不基于模型的強化學(xué)習(xí)問題求解方法。所以在上一篇定義的不基于模型的強化學(xué)習(xí)控制問題和預(yù)測問題的定義，在這里仍然適用。

　　　　預(yù)測問題：即給定強化學(xué)習(xí)的5個要素：狀態(tài)集SS, 動作集AA, 即時獎勵RR，衰減因子γγ, 給定策略ππ，求解該策略的狀態(tài)價值函數(shù)v(π)v(π)

　　　　控制問題：也就是求解最優(yōu)的價值函數(shù)和策略。給定強化學(xué)習(xí)的5個要素：狀態(tài)集SS, 動作集AA, 即時獎勵RR，衰減因子γγ, 探索率??, 求解最優(yōu)的動作價值函數(shù)q?q?和最優(yōu)策略π?π?　

　　　　回顧蒙特卡羅法中計算狀態(tài)收獲的方法是：

Gt=Rt+1+γRt+2+γ2Rt+3+...γT?t?1RTGt=Rt+1+γRt+2+γ2Rt+3+...γT?t?1RT

　　　　而對

總結(jié)

以上是生活随笔為你收集整理的强化学习（五）用时序差分法（TD）求解的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

TD
差分

上一篇：强化学习（四）用蒙特卡罗法（MC）求解
下一篇：强化学习（六）时序差分在线控制算法SAR

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

强化学习（五）用时序差分法（TD）求解

1. 時序差分TD簡介

總結(jié)