重温强化学习之无模型学习方法:时间差分方法
1、時間差分方法簡介
強化學習中最核心也是最新奇的想法
混合DP和MC思想:
? ? ? ?與MC類似,TD也從歷史經驗中學習;與DP類似使用后繼狀態的值函數更新當前狀態的值函數
蒙特卡洛只是適用于片斷性任務
屬于無模型方法
? ? ? ?未知P,R,需要交互,樣本備份,需要充分的探索
同時利用采樣和貝爾曼方程
可以從不完整的片段中學習(通過自舉法)
? ? ? ?可同時應用于片段性任務和連續性任務
通過估計來更新估計
自舉法:通過對樣本進行重采樣得到的估計總體的方法
樣本是總體進行采樣,對樣本進行采樣得到重采樣
不用自舉法:樣本-> 總體
使用自舉法:重采樣樣本-> 樣本 (重采樣多次可以估計分布)? ?樣本 -> 總體
強化學習中的自舉法:利用一個估計去更新另一個估計
2、時間差分評價
時間差分策略評價算法
時間差分策略評價:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
時間差分策略評價算法:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
策略評價算法對比-TD和DP
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
DP備份:全寬備份
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
TD備份:
? ? ? ? ? ? ? ? ? ? ? ? ? ??
利用采樣進行估計
策略評價算法對比-TD和MC
MC備份:采樣終止點為止
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
例子:
? ? ? ? ? ? ? ? ? ? ? ? ? ??
離開辦公室預計回家需要30min;開到車,下雨啦調整估計,需要40min;下高速估計到家需要15min,總估30min;蹦到卡車,在卡車后面,再次估計需要40min,40min過去還在路上,估計還需要3min
?
蒙特卡洛:更新狀態的預估,真正到家需要43min
? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ?
TD和MC 的優缺點:
? ?TD算法在知道結果之前學習:
? ? ? ? ? ? TD算法在每一步之后都能在線學習
? ? ? ? ? ? MC算法必須等待回報值得到之后才能學習
? ?TD算法即便沒有最終結果也能學習
? ? ? ? ? TD算法能夠從不完整序列中學習
? ? ? ? ? MC算法僅僅能夠從完整序列中學習
? ? ? ? ?TD算法適用于連續性任務和片段性任務
? ? ? ? ?MC算法僅僅適用于片段性任務
TD算法有多個驅動力:
? ? ? ? ?MC算法只有獎勵值作為更新的驅動力
? ? ? ? ?TD算法有獎勵值和狀態轉移作為更新的驅動力
?
偏差和方差權衡
? ? ? ?在監督學習中,偏差和方差有另外的理解--欠擬合和過擬合
? ? ? ? ? ? ? ?偏差大(欠擬合):預測值和樣本之間的差
? ? ? ? ? ? ? ?方差大 (過擬合):樣本值之間的方差,學出的模型適用性差
? ? ? 方差大意味著樣本的置信度較差
? ? ? 不同的機器學習方法會在兩者之間做權衡(trade-off)
? ?? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
RL中的偏差和方差權衡
? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
TD和MC對比:
? ? ? ?MC高方差,零偏差
? ? ? ? ? ? ? 收斂性較好(采用函數逼近),對初始值不太敏感,簡單,容易理解和使用,隨著樣本數量的增加,方差逐漸減小,趨于0
? ? ? TD低方差,和一些偏差
? ? ? ? ? ? ? 通常比MC效率更高,表格下TD(0)收斂到V(s)(函數逼近時不一定),對初始值更加敏感,隨著樣本數量的增加,偏差逐漸減少,趨近于0
批(batch)MC和TD
批MC指采樣一部分樣本
例子:
? ? ? ? ? ? ? ? ? ? ? ??
確定性等價估計
? ? MC收斂到最小均方誤差的解,是對樣本回報值的最佳擬合
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
在上述例子中,V(A) = 0
? TD(0)收斂到最大似然馬爾可夫模型中的解,是對馬爾科夫鏈的最佳擬合,假設數據是來自P,R
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
在例子中,V(A) = 0 + V(B) = 0.75
等價于內在動態過程是確定性的估計
?
TD利用馬爾可夫性,一般來說TD在馬爾可夫環境中更有效;MC沒有利用馬爾科夫性,一般對非馬爾科夫環境更有效
其它比較維度
自舉和采樣:
? ?自舉:使用隨機變量的估計去更新(后繼狀態計算當前狀態)MC沒有自舉,DP和TD都有自舉
? ?采樣:通過樣本估計期望 MC和TD采樣,DP不采樣
從備份的角度分析區別:
?
DP和TD都是單不更新,所以是淺備份;TD和MC 采取采樣的方式進行估計,所以是樣本備份
?
3、時間差分優化
TD中的策略迭代:
廣義策略迭代:
無模型得到策略評價比較難,不知道狀態轉移,所以采用Q函數;策略提升需要考慮到探索,必須得到有效的探索,使用帶探索的提升
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
TD優化相比MC有幾點好處:低方差:樣本數據有限更新數據效率比較高;在線更新(online),每走一步都更新,MC數據離線更新,需要一個路徑走完;不完整序列中學習,連續型任務
在策略策略優化:
SARSA算法:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
做一次策略評價,做一次策略提升
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
在每個時間步驟(值迭代)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ??
為什么是在策略的?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
Sarsa收斂性:
定理:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
GLIE是無限探索下的極限貪婪,保證充分他所,策略最終收斂到貪婪的策略,逐漸推薦為最優策略
Robbins-Monro保證不長足夠大,足以克服任意的初始值,步長足夠小,最終收斂(常量不長不滿足)
期望Sarsa:
?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ?
離策略TD評價:
? ? ? ? ? ? ? ? ? ? ??
對Q函數的離策略學習:
? ? ? ? ? ? ? ? ? ? ??
?
Q-學習:
? ? ? ? ? ? ? ? ? ? ?
Q學習優化算法
? ? ? ? ? ? ? ? ? ?
Q學習優化算法會收斂到最優的狀態動作值函數
Q學習優化算法:
? ? ? ? ? ? ? ? ? ??
DP和TD之間的關系:
? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ??
? ? ? ? ? ??
?
總結
以上是生活随笔為你收集整理的重温强化学习之无模型学习方法:时间差分方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 重温强化学习之无模型学习方法:蒙特卡洛方
- 下一篇: 重温强化学习之无模型学习方法:TD(la