强化学习(二)马尔科夫决策过程(MDP)
在強(qiáng)化學(xué)習(xí)(一)模型基礎(chǔ)中,我們講到了強(qiáng)化學(xué)習(xí)模型的8個(gè)基本要素。但是僅憑這些要素還是無(wú)法使用強(qiáng)化學(xué)習(xí)來(lái)幫助我們解決問(wèn)題的, 在講到模型訓(xùn)練前,模型的簡(jiǎn)化也很重要,這一篇主要就是講如何利用馬爾科夫決策過(guò)程(Markov Decision Process,以下簡(jiǎn)稱MDP)來(lái)簡(jiǎn)化強(qiáng)化學(xué)習(xí)的建模。
MDP這一篇對(duì)應(yīng)Sutton書(shū)的第三章和UCL強(qiáng)化學(xué)習(xí)課程的第二講。
1. 強(qiáng)化學(xué)習(xí)引入MDP的原因
強(qiáng)化學(xué)習(xí)的8個(gè)要素我們?cè)诘谝还?jié)已經(jīng)講了。其中的第七個(gè)是環(huán)境的狀態(tài)轉(zhuǎn)化模型,它可以表示為一個(gè)概率模型,即在狀態(tài)ss下采取動(dòng)作aa,轉(zhuǎn)到下一個(gè)狀態(tài)s′s′的概率,表示為Pass′Pss′a。
如果按照真實(shí)的環(huán)境轉(zhuǎn)化過(guò)程看,轉(zhuǎn)化到下一個(gè)狀態(tài)s′s′的概率既與上一個(gè)狀態(tài)ss有關(guān),還與上上個(gè)狀態(tài),以及上上上個(gè)狀態(tài)有關(guān)。這一會(huì)導(dǎo)致我們的環(huán)境轉(zhuǎn)化模型非常復(fù)雜,復(fù)雜到難以建模。因此我們需要對(duì)強(qiáng)化學(xué)習(xí)的環(huán)境轉(zhuǎn)化模型進(jìn)行簡(jiǎn)化。簡(jiǎn)化的方法就是假設(shè)狀態(tài)轉(zhuǎn)化的馬爾科夫性,也就是假設(shè)轉(zhuǎn)化到下一個(gè)狀態(tài)s′s′的概率僅與上一個(gè)狀態(tài)ss有關(guān),與之前的狀態(tài)無(wú)關(guān)。用公式表示就是:
Pass′=E(St+1=s′|St=s,At=a)Pss′a=E(St+1=s′|St=s,At=a)
對(duì)于馬爾科夫性本身,我之前講過(guò)的隱馬爾科夫模型HMM(一?
總結(jié)
以上是生活随笔為你收集整理的强化学习(二)马尔科夫决策过程(MDP)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 日志和告警数据挖掘经验谈
- 下一篇: 强化学习(三)用动态规划(DP)求解