强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)
強(qiáng)化學(xué)習(xí)(三)—— 策略學(xué)習(xí)(Policy-Based)及策略梯度(Policy Gradient)
- 1. 策略學(xué)習(xí)
- 2. 策略梯度
- 3. 案例
1. 策略學(xué)習(xí)
Policy Network
- 通過(guò)策略網(wǎng)絡(luò)近似策略函數(shù)
π(a∣st)≈π(a∣st;θ)π(a|s_t)≈π(a|s_t;\theta) π(a∣st?)≈π(a∣st?;θ) - 狀態(tài)價(jià)值函數(shù)及其近似
Vπ(st)=∑aπ(a∣st)Qπ(st,a)V_π(s_t)=\sum_aπ(a|s_t)Q_π(s_t,a) Vπ?(st?)=a∑?π(a∣st?)Qπ?(st?,a)
V(st;θ)=∑aπ(a∣st;θ)?Qπ(st,a)V(s_t;\theta)=\sum_aπ(a|s_t;\theta)·Q_π(s_t,a) V(st?;θ)=a∑?π(a∣st?;θ)?Qπ?(st?,a) - 策略學(xué)習(xí)最大化的目標(biāo)函數(shù)
J(θ)=ES[V(S;θ)]J(\theta)=E_S[V(S;\theta)] J(θ)=ES?[V(S;θ)] - 依據(jù)策略梯度上升進(jìn)行
θ←θ+β??V(s;θ)?θ\theta\gets\theta+\beta·\frac{\partial V(s;\theta)}{\partial \theta} θ←θ+β??θ?V(s;θ)?
2. 策略梯度
Policy Gradient
?V(s;θ)θ=∑aQπ(s,a)?π(a∣s;θ)?θ=∫aQπ(s,a)?π(a∣s;θ)?θ=∑aπ(a∣s;θ)?Qπ(s,a)?ln[π(a∣s;θ)]?θ=EA~π(a∣s;θ)[Qπ(s,A)?ln[π(A∣s;θ)]?θ]≈Qπ(st,at)?ln[π(at∣st;θ)]?θ\frac{\partial V(s;\theta)}{\theta}=\sum_a{Q_\pi(s,a)\frac{\partial\pi(a|s;\theta)}{\partial\theta}}\\=\int_a{Q_\pi(s,a)\frac{\partial\pi(a|s;\theta)}{\partial\theta}}\\=\sum_a{\pi(a|s;\theta)·Q_\pi(s,a)\frac{\partial ln[\pi(a|s;\theta)]}{\partial\theta}}\\=E_{A\sim\pi(a|s;\theta)}[Q_\pi(s,A)\frac{\partial ln[\pi(A|s;\theta)]}{\partial\theta}]\\≈Q_\pi(s_t,a_t)\frac{\partial ln[\pi(a_t|s_t;\theta)]}{\partial\theta} θ?V(s;θ)?=a∑?Qπ?(s,a)?θ?π(a∣s;θ)?=∫a?Qπ?(s,a)?θ?π(a∣s;θ)?=a∑?π(a∣s;θ)?Qπ?(s,a)?θ?ln[π(a∣s;θ)]?=EA~π(a∣s;θ)?[Qπ?(s,A)?θ?ln[π(A∣s;θ)]?]≈Qπ?(st?,at?)?θ?ln[π(at?∣st?;θ)]?
- 觀測(cè)得到狀態(tài)
sts_t st? - 依據(jù)策略函數(shù)隨機(jī)采樣動(dòng)作
at=π(at∣st;θ)a_t = \pi(a_t|s_t;\theta) at?=π(at?∣st?;θ) - 計(jì)算價(jià)值函數(shù)
qt=Qπ(st,at)q_t = Q_\pi(s_t,a_t) qt?=Qπ?(st?,at?) - 求取策略網(wǎng)絡(luò)的梯度
dθ,t=?ln[π(at∣st;θ)]?θ∣θ=θtd_{\theta,t}=\frac{\partial ln[\pi(a_t|s_t;\theta)]}{\partial\theta}|\theta=\theta_t dθ,t?=?θ?ln[π(at?∣st?;θ)]?∣θ=θt? - 計(jì)算近似的策略梯度
g(at,θt)=qt?dθ,tg(a_t,\theta _t)=q_t·d_{\theta,t} g(at?,θt?)=qt??dθ,t? - 更新策略網(wǎng)絡(luò)
θt+1=θt+β?g(at,θt)\theta_{t+1}=\theta_t+\beta·g(a_t,\theta_t) θt+1?=θt?+β?g(at?,θt?)
3. 案例
目前沒(méi)有好的方法近似動(dòng)作價(jià)值函數(shù),則未撰寫(xiě)案例。
by CyrusMay 2022 03 29
總結(jié)
以上是生活随笔為你收集整理的强化学习(三)—— 策略学习(Policy-Based)及策略梯度(Policy Gradient)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 强化学习(二)—— 价值学习(Value
- 下一篇: 强化学习(四)—— Actor-Crit