增强学习(三)----- MDP的动态规划解法
上一篇我們已經(jīng)說(shuō)到了,增強(qiáng)學(xué)習(xí)的目的就是求解馬爾可夫決策過(guò)程(MDP)的最優(yōu)策略,使其在任意初始狀態(tài)下,都能獲得最大的Vπ值。(本文不考慮非馬爾可夫環(huán)境和不完全可觀測(cè)馬爾可夫決策過(guò)程(POMDP)中的增強(qiáng)學(xué)習(xí))。
那么如何求解最優(yōu)策略呢?基本的解法有三種:
動(dòng)態(tài)規(guī)劃法(dynamic programming methods)
蒙特卡羅方法(Monte Carlo methods)
時(shí)間差分法(temporal difference)。
動(dòng)態(tài)規(guī)劃法是其中最基本的算法,也是理解后續(xù)算法的基礎(chǔ),因此本文先介紹動(dòng)態(tài)規(guī)劃法求解MDP。本文假設(shè)擁有MDP模型M=(S, A, Psa, R)的完整知識(shí)。
1. 貝爾曼方程(Bellman Equation)
上一篇我們得到了Vπ和Qπ的表達(dá)式,并且寫(xiě)成了如下的形式
在動(dòng)態(tài)規(guī)劃中,上面兩個(gè)式子稱(chēng)為貝爾曼方程,它表明了當(dāng)前狀態(tài)的值函數(shù)與下個(gè)狀態(tài)的值函數(shù)的關(guān)系。
優(yōu)化目標(biāo)π*可以表示為:
分別記最優(yōu)策略π*對(duì)應(yīng)的狀態(tài)值函數(shù)和行為值函數(shù)為V*(s)和Q*(s, a),由它們的定義容易知道,V*(s)和Q*(s, a)存在如下關(guān)系:
狀態(tài)值函
總結(jié)
以上是生活随笔為你收集整理的增强学习(三)----- MDP的动态规划解法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 增强学习(四) ----- 蒙特卡罗方法
- 下一篇: 增强学习(二)----- 马尔可夫决策过