强化学习(六)时序差分在线控制算法SARSA
在強化學習(五)用時序差分法(TD)求解中,我們討論了用時序差分來求解強化學習預測問題的方法,但是對控制算法的求解過程沒有深入,本文我們就對時序差分的在線控制算法SARSA做詳細的討論。
SARSA這一篇對應Sutton書的第六章部分和UCL強化學習課程的第五講部分。
1. SARSA算法的引入
SARSA算法是一種使用時序差分求解強化學習控制問題的方法,回顧下此時我們的控制問題可以表示為:給定強化學習的5個要素:狀態(tài)集SS, 動作集AA, 即時獎勵RR,衰減因子γγ, 探索率??, 求解最優(yōu)的動作價值函數(shù)q?q?和最優(yōu)策略π?π?。
這一類強化學習的問題求解不需要環(huán)境的狀態(tài)轉(zhuǎn)化模型,是不基于模型的強化學習問題求解方法。對于它的控制問題求解,和蒙特卡羅法類似,都是價值迭代,即通過價值函數(shù)的更新,來更新當前的策略,再通過新的策略,來產(chǎn)生新的狀態(tài)和即時獎勵,進而更新價值函數(shù)。一直進行下去,直到價值函數(shù)和策略都收斂。
再回顧下時序差分法的控制問題,可以分為兩類,一類是在線控制,即一直使用一個策略來更新價值函數(shù)和選擇新的動作。而另一類是離線控制,會使用兩個控制策略,一個策略用于選擇新的動作,另一個策略用于更新價值函數(shù)。
我們的SARSA算法,屬于在線控制這一類,即一直使用一個策略來更新價值函數(shù)和選擇新的動作,而這個策略是????貪婪法,在
總結(jié)
以上是生活随笔為你收集整理的强化学习(六)时序差分在线控制算法SARSA的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(五)用时序差分法(TD)求解
- 下一篇: 强化学习(八)价值函数的近似表示与Dee