重温强化学习之无模型学习方法:TD(lambda)
1、多步自舉
? ? ? ? ? ? ? ? ?
一步TD:TD(0),白色圈V函數(shù),黑色Q函數(shù),后繼狀態(tài)V函數(shù)更新當(dāng)前狀態(tài)V函數(shù),采樣,智能體和環(huán)境進(jìn)行交互。根據(jù)狀態(tài)采取一個(gè)動(dòng)作,轉(zhuǎn)為后繼狀態(tài),環(huán)境給一個(gè)獎(jiǎng)勵(lì)--》采樣一步得到后繼狀態(tài)
MC 采樣到終止?fàn)顟B(tài)。MC只采樣一步,之后的狀態(tài)利用之前的值函數(shù)進(jìn)行對(duì)當(dāng)前值函數(shù)的估計(jì)
多步自舉通過(guò)采樣和自舉的方法做一個(gè)權(quán)衡,TD(0)一步采樣之后多步自舉,現(xiàn)在多步采樣多步自舉
?
n步回報(bào)值:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
幾步為最優(yōu)?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ??
注意:為了計(jì)算n步回報(bào)值,需要維護(hù)R,S的存儲(chǔ)空間,對(duì)于后繼狀態(tài)不足n個(gè)的,使用MC目標(biāo)值
2、TD(lambda)
? ? ???1)簡(jiǎn)介
將n步回報(bào)值平均
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ??
lambda回報(bào)值
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? TD(lambda)加權(quán)函數(shù)
? ? ? ? ? ? ? ? ? ? ??? ? ? ? ??
TD(lambda)的兩種視角:
? ? ? ? ? ? ? 前向視角:主要是理解TD(lambda),上述是前向視角
? ? ? ? ? ? ? 后向視角:比較實(shí)用的算法
? ? ? ?TD(lambda)的前向視角:
? ? ? ? ??
? ? ? ? ? ? ? ?? ? ? ? ? ? ??
? ? ? ? TD(lambda)的后向視角:前向視角提供理論,后向視角提供實(shí)用算法,通過(guò)后向視角,可以實(shí)現(xiàn)在線更新,每步更新,從不完整狀態(tài)更新
? ? ? ?2)資格跡? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
? ?后向視角的TD(lambda):
? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ?簡(jiǎn)單地來(lái)說(shuō),后向視角是秋后算賬,看前面那個(gè)狀態(tài)貢獻(xiàn)比較大,之后對(duì)這個(gè)狀態(tài)的資格跡加1,其它狀態(tài)資格跡不斷地衰減
? ? ? ?3)TD(lambda)的兩種視角的關(guān)系
? TD(lambda)與TD(0)
? ? ? ? ? ? ? ? ? ? ??? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
?
TD(1)和MC:
? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
TD(lambda)和TD(0)
? ? ?當(dāng)lambda=1時(shí),信度分配會(huì)被延遲到終止?fàn)顟B(tài),這里考慮到片斷性任務(wù),而且考慮離線更新,考慮一個(gè)片段整體的情況下,TD(1)總更新量等價(jià)于MC,在每一步更新上可能有差距
對(duì)s 的總更新量
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
前向視角和后向視角的TD(lambda)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
兩種視角下的等價(jià)性:
離線更新:
? ? ? ? ? ? ? ? ? ?
在線更新:
? ? ? ? ? ? ? ? ? ??? ? ? ? ??
小結(jié):
? ? ? ? ? ? ? ? ??
3、TD(lambda)優(yōu)化算法
n步Sarsa:
? ? ? ? ? ? ? ? ??
前向視角的Sarsa(lambda)算法
? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ?
后向視角的Sarsa(lambda)
? ? ? ? ? ? ? ? ? ?
Sarsa(lambda)算法:
? ? ? ? ? ? ? ? ? ??
總結(jié)
以上是生活随笔為你收集整理的重温强化学习之无模型学习方法:TD(lambda)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 重温强化学习之无模型学习方法:时间差分方
- 下一篇: 重温强化学习之函数近似