【David Silver强化学习公开课】-6:Value Function Approximation
一、介紹
找到一種適應真實情況(很大的狀態(tài)空間)的RL方法,之前的價值函數(shù)表示是通過一個S×A的表(Table)來表示Q(s,a)。狀態(tài)空間很大時,這種表示內存占用過大,而且單獨學習每個state的價值函數(shù)太慢了。而且在遇到?jīng)]有見過的狀態(tài)時,表現(xiàn)會很差(缺少泛化能力)。
二、價值函數(shù)逼近-Incremental Online
使用參數(shù)化的價值函數(shù)V’(s,w)來逼近V(s),或者Q’(s,a,w)逼近Q(s,a)。常用的方法有:特征線性組合,神經(jīng)網(wǎng)絡等。那么我們就需要不斷的優(yōu)化這個逼近函數(shù)。
訓練逼近函數(shù)的過程中,還要注意數(shù)據(jù)non-stationary和non-iid的性質。
- 梯度下降,以真實價值函數(shù)vπvπ和估計的價值函數(shù)的MSE作為objective,用GD進行訓練。(這里用V函數(shù)舉例,對Q函數(shù)同理)
但是,在RL中,真實價值函數(shù)是不知道的,因此在實際使用中,我們在不同的方法中使用不同的target:
MC中,target是GtGt;而TD(0)中,target是Rt+γV′(St+1,w)Rt+γV′(St+1,w);TD(λ)中,target是GλtGtλ。
所以,我們采用逼近式的策略評估過程時,相當于采用MC或者TD的target,并用GD的訓練方式得到一個與真實價值函數(shù)相近的函數(shù)。
三、價值函數(shù)逼近-batch method
從亂序的數(shù)據(jù)集D中采樣狀態(tài)價值對,然后用來優(yōu)化逼近函數(shù)。這里的優(yōu)化目標是所有樣本的MSE經(jīng)驗期望(均值)。
亂序+采樣,減弱了樣本之間本來的相關性。
這個部分介紹的內容也就是DQN中使用的experience replay。
第二個DQN中使用的部分就是fixed Q-target,使用兩個相同的神經(jīng)網(wǎng)絡,但是計算target的網(wǎng)絡參數(shù)較老,定期從learning網(wǎng)絡更新參數(shù)。因為target老是更新的話,不會穩(wěn)定。這個trick其實理論依據(jù)不強,主要是實踐中效果比較好。
從最后給出的表格可以看出,DQN的訓練非常依賴這兩個trick,沒有這兩種變化的話,效果不怎么好。
原文地址:?http://cairohy.github.io/2017/09/04/deeplearning/%E3%80%8ADavid%20Silver%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%AC%E5%BC%80%E8%AF%BE%E3%80%8B-6%EF%BC%9AValue%20Function%20Appro/
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的【David Silver强化学习公开课】-6:Value Function Approximation的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【David Silver强化学习公开课
- 下一篇: 【David Silver强化学习公开课