David Silver强化学习公开课】-2:MDP
一、一些概念
馬爾科夫性質:當前時刻狀態僅僅與前一個時刻相關。
狀態轉移矩陣,表明了任意狀態a到狀態b的條件概率。
馬爾科夫過程(馬爾科夫鏈):一個具有馬爾科夫性質的無記憶的隨機過程,包含n個狀態。
馬爾科夫激勵過程(S,P,R,γ)是一個帶有value的馬爾科夫鏈。
用GtGt來表示t時刻會得到的總的return。出于數學計算、防止NaN無窮大的return等原因,引入折扣因子γ∈[0,1]γ∈[0,1]來對下一時刻的獎勵和更遠的獎勵之間進行取舍。(若所有序列都會在有限步終結,而且策略上合適,γ也可以取1。)
Gt=Rt+1+γRt+2+...=∑k=0∞γkRt+k+1Gt=Rt+1+γRt+2+...=∑k=0∞γkRt+k+1價值函數v(s),在馬爾科夫激勵過程(MRP)中表征指定狀態下,獲得的return的期望。是由所有包含該狀態的樣本Sample序列計算出來的。其中RsRs是立即獎勵,可以認為是離開狀態s時獲得的獎勵。
v(s)=E[Gt|St=s]=E[Rt+1+γ(v(st+1)|St=s)]=Rs+γ∑s′∈SPss′v(s′)v(s)=E[Gt|St=s]=E[Rt+1+γ(v(st+1)|St=s)]=Rs+γ∑s′∈SPss′v(s′)上面的公式可以向量化的表示為:
V=R+γPVV=R+γPV而這個公式是有解析解的,MRP每個狀態的價值可以直接被解出來。
二、MDP
馬爾科夫決策過程(S,A,P,R,γ),在MRP基礎上增加了有限的action集合。
策略,給定狀態時,關于行為的概率分布,用π來表示。決定了agent的行為。
MDP和馬爾科夫過程、MRP內在的聯系。
狀態價值函數vπ(s)vπ(s)定義了在狀態s下,采用策略π,所能獲得的期望return。
行為價值函數qπ(s,a)qπ(s,a)定義了在狀態s下,采取行為a,并在之后采用策略π所能獲得的期望return。
這兩個價值函數之間密切相關。狀態的價值,就等于這個狀態下所有行為a產生的行為價值q,乘以做出該行為的概率(策略)π。反之,行為的價值,就等于這個行為所能產生的立即獎勵immediate reward加上折扣因子乘以下一個狀態(到達這個狀態的概率由動態轉移矩陣來確定)乘以這個狀態的狀態價值。
在MDP中,你能夠控制你的行為(通過策略),但是你無法控制環境(做出行為之后會發生什么),這個要靠動態轉移矩陣來計算。
最佳價值函數v?(s)v?(s)和q?(s,a)q?(s,a)。最佳策略π?π?,就是在每個狀態下選擇最大的行為價值函數q*。
如何計算這個Q呢,Bellman Optimality Equation。也就是對每個狀態,其價值等于價值最大的行為的價值,而這個行為的價值又由直接獎勵和行為*可能會導致的狀態價值有關。
v?(s)=maxaq?(s,a)v?(s)=maxaq?(s,a) q?(s,a)=Ras+γ∑s′∈SPass′v?(s′)q?(s,a)=Rsa+γ∑s′∈SPss′av?(s′)而這個公式就無法直接解析求解了,求解的方法有:
- Value iteration
- Policy iteration
- Q-learning
- Sarsa
最后,對MDP的擴展模型和其他一些概念進行了簡介,如infinite/continuous/POMDP/belief states。
參考
- https://zhuanlan.zhihu.com/p/21378532
總結
以上是生活随笔為你收集整理的David Silver强化学习公开课】-2:MDP的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Tutorial on Variatio
- 下一篇: 【David Silver强化学习公开课