重温强化学习之无模型学习方法:蒙特卡洛方法
1、無模型方法簡介
無模型屬于學習方法的一種,(學習和規劃),需要智能體和環境進行交互,一般采用樣本備份,需要結合充分的探索
MDPs中未知P,R-無模型
交互是為了更加了解環境,了解狀態
動態規劃是已經知道模型,沒有模型通過采樣的方法,也就是樣本備份
從經驗中學習
和動態規劃的區別:
無模型學習:
? ? ?1、未知環境模型
? ? ? 2、需要與環境進行交互,有交互成本(時間、金錢)
? ? ? 3、樣本備份
? ? ? 4、異步備份(更新狀態值函數不需要等待更新其它狀態值函數)
? ? ? 5、需要充分的探索(不進行充分探索,學不到最優策略)
? ? ? 6、兩個策略(行為策略和目標策略)
動態規劃:
? ? ? 1、已知環境模型
? ? ? ?2、不需要直接交互,直接利用環境模型推導
? ? ? ?3、全寬備份
? ? ? ?4、同步和異步
? ? ? ?5、無探索(只需要做演算就可以)
? ? ? ?6、一個策略
2、在策略和離策略
行為策略是智能體與環境進行交互的策略,(用來產生樣本)
目標策略是我們學習的策略,即Vpi 時的下標
在策略(on-policy)學習:
? ? ? ?行為策略和目標策略是同一個策略,直接使用樣本統計屬性去估計總體,更簡單且收斂性更好
? ? ? ?數據利用性更差(只有智能體當前交互的樣本能夠被利用)
? ? ? ?限定學習過程中的策略是隨機性策略
離策略(off-policy)學習:
? ? ? 行為策略和目標策略不是同一個策略??
? ? ? 一般行為策略選用隨機性策略,目標策略選用確定性策略
? ? ? 需要結合重要性采樣才能使用樣本估計總體
? ? ? 方差更大,收斂性更差
? ? ? 數據利用性更好(可以使用其它智能體交互的樣本,例如學圍棋可以用棋譜樣本用)
? ? ? 行為策略比目標策略更具備探索性,即,在每個狀態下,目標策略的可行動作是行為策略可行動作的子集
重要性采樣:
? ??
例子:
? ? ?
重要性采樣公式:
? ? ?
離策略學習中的重要性采樣:
3、蒙特卡洛方法(Monte Carlo,MC)
?
蒙特卡洛樹,蒙特卡洛在樹中采樣一條軌跡
方差比較大,樹中每一個節點有一定隨機性,軌跡比較長,中間隨機性較大,
做一次實驗,可信性比較差
樣本備份
動態規劃方法:
考慮所有后繼狀態以及所做的動作
一步備份,只考慮一步情況,蒙特卡洛考慮到最終的狀態
4、蒙特卡洛評價
? ? ? ? ? ?
蒙特卡洛不使用貝爾曼方程
在策略蒙特卡洛評價:
? ? ? First-visit MC策略評價:
? ? ? ? ? ?
? ? ? ? ? ? ? ? ??
? ? ? ? ? ?
? ? ? ? Every-visit MC策略評價:
? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ??
對Q函數的MC方法:
? ? ? ??
? ? ? ? ? ? ? ?? ? ?
? ? ? ?
離策略蒙特卡洛評價:
? ? ? ??
MC特點小結:
? ? ? ??
?
5、增量式蒙塔卡洛算法
為什么需要增量式蒙特卡洛?
增量式MC更新
? ? ? ? ? ? ? ? ? ? ? ? ?
平均值更新
常量步長:
? ? ? ? ? ? ? ? ? ? ? ??
特點:? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ??
6、蒙特卡洛優化
廣義策略迭代:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
MC中的廣義策略迭代
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
問題一:使用哪個值函數?Q函數
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
問題二:是否可以貪婪策略提升?
? ? ? ?MC雖然利用過去的經驗數據,但是某些狀態并未遍歷到,遍歷不夠充分,置信度不夠
?
-貪婪策略
? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ?? ?? ?
? ? ? ? ? ? ??
策略提升
? ? ? ? ? ? ? ?
? ? ? ? ? ??
?
MC策略迭代:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
?
增量式策略評價:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
每條軌跡
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
7、蒙塔卡洛算法引申
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ???
?
總結
以上是生活随笔為你收集整理的重温强化学习之无模型学习方法:蒙特卡洛方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 重温强化学习之基于模型方法:动态规划
- 下一篇: 重温强化学习之无模型学习方法:时间差分方