强化学习笔记: backup diagram
生活随笔
收集整理的這篇文章主要介紹了
强化学习笔记: backup diagram
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
???backup diagram(備份圖),圖示的關(guān)系構(gòu)成了更新或備份操作的基礎(chǔ),而這些操作是強(qiáng)化學(xué)習(xí)方法的核心。
????????這些操作將價(jià)值信息從一個(gè)狀態(tài)(或狀態(tài)-動(dòng)作對(duì))的后繼狀態(tài)(或狀態(tài)-動(dòng)作對(duì))轉(zhuǎn)移回來。
1 Value function的備份圖
我們這里有兩層加和:
- 第一層加和就是這個(gè)葉子節(jié)點(diǎn),往上走一層的話,我們就可以把未來的價(jià)值(狀態(tài)s'的價(jià)值) backup 到黑色的節(jié)點(diǎn)。即:
- 第二層加和是對(duì) action 進(jìn)行加和。得到黑色節(jié)點(diǎn)的價(jià)值過后,再往上 backup 一層,就會(huì)推到根節(jié)點(diǎn)的價(jià)值,即當(dāng)前狀態(tài)的價(jià)值。即:【我action和s是一輪的,所以不用乘γ)
?兩式結(jié)合,有:
?
?這個(gè)式子用Bellman Expectation Equation也可以推導(dǎo)出來?
2 Q function的備份圖
我們這里也有兩個(gè)加和:
- 第一層加和是先把這個(gè)葉子節(jié)點(diǎn)從黑色節(jié)點(diǎn)推到這個(gè)白色的節(jié)點(diǎn),進(jìn)了它的這個(gè)狀態(tài)。即:
- 當(dāng)我們到達(dá)某一個(gè)狀態(tài)過后,再對(duì)這個(gè)白色節(jié)點(diǎn)進(jìn)行一個(gè)加和,這樣就把它重新推回到當(dāng)前時(shí)刻的一個(gè) Q 函數(shù)。即:
?兩式結(jié)合,有:
?
總結(jié)
以上是生活随笔為你收集整理的强化学习笔记: backup diagram的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pytorch笔记: 处理inf和nan
- 下一篇: 强化学习笔记: MDP - Policy