【论文解读】深度强化学习基石论文:函数近似的策略梯度方法
?導(dǎo)讀:這篇是1999 年Richard Sutton 在強(qiáng)化學(xué)習(xí)領(lǐng)域中的經(jīng)典論文,論文證明了策略梯度定理和在用函數(shù)近似 Q 值時(shí)策略梯度定理依然成立,本論文奠定了后續(xù)以深度強(qiáng)化學(xué)習(xí)策略梯度方法的基石。理解熟悉本論文對(duì) Policy Gradient,Actor Critic 方法有很好的指導(dǎo)意義。
論文分成四部分。第一部分指出策略梯度在兩種期望回報(bào)定義下都成立(定理一)。第二部分提出,如果 被函數(shù) 近似時(shí)且滿足兼容(compatible)條件,以 替換策略梯度中的 公式也成立(定理二)。第三部分舉Gibbs分布的策略為例,如何應(yīng)用 近似函數(shù)來(lái)實(shí)現(xiàn)策略梯度算法。第四部分證明了近似函數(shù)的策略梯度迭代法一定能收斂到局部最優(yōu)解。附錄部分證明了兩種定義下的策略梯度定理。
1. 策略梯度定理
對(duì)于Agent和環(huán)境而言,可以分成episode和non-episode,后者的時(shí)間步驟可以趨近于無(wú)窮大,但一般都可以適用兩種期望回報(bào)定義。一種是單步平均reward ,另一種是指定唯一開(kāi)始狀態(tài)并對(duì)trajectory求 -discounted 之和,稱(chēng)為開(kāi)始狀態(tài)定義。兩種定義都考慮到了reward的sum會(huì)趨近于無(wú)窮大,并通過(guò)不同的方式降低了此問(wèn)題的概率。
A. 平均reward定義
目標(biāo)函數(shù) 定義成單步的平均reward,這種情況下等價(jià)于穩(wěn)定狀態(tài)分布下期望值。
?穩(wěn)定狀態(tài)分布定義成無(wú)限次數(shù)后狀態(tài)的分布。
?此時(shí), 定義為無(wú)限步的reward sum 減去累積的單步平均 reward ,這里減去是為了一定程度防止 沒(méi)有上界。
?B. 開(kāi)始狀態(tài)定義
在開(kāi)始狀態(tài)定義方式中,某指定狀態(tài)作為起始狀態(tài), 的定義為 trajectory 的期望回報(bào),注意由于時(shí)間步驟 t 趨近于無(wú)窮大,必須要乘以discount 系數(shù) 保證期望不會(huì)趨近無(wú)窮大。
?也直接定義成 trajectory 的期望回報(bào)。
? 依然為無(wú)限次數(shù)后狀態(tài)的穩(wěn)定分布。 ?策略梯度定理
論文指出上述兩種定義都滿足策略梯度定理,即目標(biāo) 對(duì)于參數(shù) 的偏導(dǎo)不依賴于 對(duì)于 偏導(dǎo),僅取決
?關(guān)于策略梯度定理的一些綜述,可以參考?深度強(qiáng)化學(xué)習(xí)之:Policy Gradient Theorem 綜述。論文中還提到策略梯度定理公式和經(jīng)典的William REINFORCE算法之間的聯(lián)系。REINFORCE算法即策略梯度的蒙特卡洛實(shí)現(xiàn)。
聯(lián)系如下:
首先,根據(jù)策略梯度定理,如果狀態(tài) s 是通過(guò) 采樣得到,則下式是 的無(wú)偏估計(jì)。注意,這里action的summation和 是無(wú)關(guān)的。
?在William REINFORCE算法中,采用 作為 的近似,但是 取決于 on-policy 的動(dòng)作分布,因此必須除掉 項(xiàng),去除引入 ?后導(dǎo)致oversample動(dòng)作空間。 ?2. 函數(shù)近似的策略梯度
論文第二部分,進(jìn)一步引入 的近似函數(shù) : ?。
如果我們有的無(wú)偏估計(jì),例如 ,很自然,可以讓 通過(guò)最小化 和 之間的差距來(lái)計(jì)算。
?當(dāng)擬合過(guò)程收斂到局部最優(yōu)時(shí),策略梯度定理中右邊項(xiàng)對(duì)于 求導(dǎo)為0,可得(3)式。
?至此,引出策略梯度定理的延續(xù),即定理2:當(dāng) 滿足(3)式同時(shí)滿足(4)式(稱(chēng)為compatible條件時(shí)),可以用 替換原策略梯度中的
?3. 一個(gè)應(yīng)用示例
假設(shè)一個(gè)策略用features的線性組合后的 Gibbs分布來(lái)生成,即:
?注意, 和 都是 維的。當(dāng) 滿足compatible 條件,由公式(4)可得
?注意, 也是 維。 可以很自然的參數(shù)化為
?即 和 策略 一樣是features的線性關(guān)系。當(dāng)然 還滿足對(duì)于所有狀態(tài),在 動(dòng)作分布下均值為0。 ?上式和advantage 函數(shù) 定義一致,因此可以認(rèn)為 的意義是 的近似。具體定義如下
?4. 函數(shù)近似的策略梯度收斂性證明
這一部分證明了在滿足一定條件后, 可以收斂到局部最優(yōu)點(diǎn)。
條件為
Compatible 條件,公式(4)
任意兩個(gè) 偏導(dǎo)是有限的,即
此時(shí),當(dāng) 和 按如下方式迭代一定能收斂到局部最優(yōu)。
? ?收斂到局部最優(yōu),即
?5. 策略梯度定理的兩種情況下的證明
下面簡(jiǎn)單分解策略梯度的證明步驟。
A. 平均reward 定義下的證明
?根據(jù)定義,將 導(dǎo)數(shù)放入求和號(hào)中,并分別對(duì)乘積中的每項(xiàng)求導(dǎo)。 ?將的定義代入第二項(xiàng) 對(duì) 求偏導(dǎo)中,引入環(huán)境reward 隨機(jī)變量 ,環(huán)境dynamics 和 ? 偏導(dǎo)進(jìn)一步移入,, 不依賴于。 ? 對(duì)于 偏導(dǎo)整理到等式左邊 ?兩邊同時(shí)乘以 ?由于 是狀態(tài)在 下的平穩(wěn)分布, 項(xiàng)表示 agent 主觀 和環(huán)境客觀 對(duì)于狀態(tài)分布的影響,因此可以直接去除。 ?整理證得。B. Start-state 定義下的證明
?根據(jù)定義,將 導(dǎo)數(shù)放入求和號(hào)中,并分別對(duì)乘積中的每項(xiàng)求導(dǎo)。 ?將的定義代入第二項(xiàng) 對(duì) 求偏導(dǎo)中,引入環(huán)境reward 隨機(jī)變量 ,環(huán)境dynamics ? 偏導(dǎo)進(jìn)一步移入,, 不依賴于。注意,此式表示從狀態(tài) 出發(fā)一步之后的能到達(dá)的所有 ,將次式反復(fù)unroll 成 之后得到 ? 表示 k 步后 狀態(tài) s 能到達(dá)的所有狀態(tài) x ?根據(jù)定義, ?將 替換成unroll 成 的表達(dá)式 ?即?
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。
往期精彩回顧適合初學(xué)者入門(mén)人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專(zhuān)輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專(zhuān)輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專(zhuān)輯 獲取本站知識(shí)星球優(yōu)惠券,復(fù)制鏈接直接打開(kāi): https://t.zsxq.com/qFiUFMV 本站qq群704220115。加入微信群請(qǐng)掃碼:總結(jié)
以上是生活随笔為你收集整理的【论文解读】深度强化学习基石论文:函数近似的策略梯度方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 无法打开Win11系统小组件怎么办
- 下一篇: 【机器学习基础】Softmax与交叉熵的