【David Silver强化学习公开课】-5:Model-Free Control
一、介紹
這一講的內(nèi)容是大部分情況下真實(shí)使用的算法,也就是在對環(huán)境一無所知的情況下,去學(xué)習(xí)出一個好的策略。首先介紹一些概念:
Model-Free Control,在環(huán)境未知的前提下,如何學(xué)習(xí)策略(價值)以獲得最大的獎勵。
On-Policy和Off-Policy,兩種控制的類型,前一種是策略已知,后一種是策略未知。后者允許你使用其他人的experience sequence來學(xué)習(xí),而前者只能在知道自己策略的前提下學(xué)習(xí)。如果計算target的時候使用的是get data的時候的policy,那么就是on-policy的方法,否則是off-policy。
??-貪婪,每一次進(jìn)行動作的時候,以??的概率隨機(jī)執(zhí)行一個動作,以1??1??的概率執(zhí)行q值最高的動作。隨著訓(xùn)練進(jìn)行??逐漸減小。這樣能夠盡可能多的探索各種策略,同時達(dá)到訓(xùn)練的目的。同時可以很容易證明qπ′(s)≥qπ(s)qπ′(s)≥qπ(s)。
二、Monte-Carlo Control
對于每個Episode,控制過程分成兩個步驟:
- Monte-Carlo的策略評估過程,這個過程結(jié)束后Q≈q(π)Q≈q(π).
- ??-貪婪的策略優(yōu)化過程。
三、Sarsa
TD -Control,用TD代替MC進(jìn)行策略評估。那么每一步都會更新一次價值函數(shù)的評估,而不是每個Episode。
Sarsa,在每個time-step,用Sarsa的方式進(jìn)行策略評估,并用??-貪婪的方式進(jìn)行策略優(yōu)化。
我們來回顧一下TD(0)的更新公式:
V(St)←V(St)+α(Rt+1+γV(St+1)?V(St))V(St)←V(St)+α(Rt+1+γV(St+1)?V(St))下面是Sarsa的更新公式,很像是把TD應(yīng)用在Q函數(shù)上的形式:
Q(S,A)←Q(S,A)+α(R+γQ(S′,A′)?Q(S,A))Q(S,A)←Q(S,A)+α(R+γQ(S′,A′)?Q(S,A))不過Sarsa的算法是屬于on-policy的,因為你在更新Q函數(shù)的過程中,需要對一個狀態(tài)S獲得一個行為A,并觀察下一個狀態(tài)S’,且使用現(xiàn)有的策略π獲得行為A’。因為確定行為A’需要知道你的策略,所以是on-policy的。當(dāng)然,Sarsa也可以推廣到n-step的形式和Sarsa(λ)的形式。
疑問:
- 在Sarsa算法中,你采用了一個action,然后觀察reward和s’,那么這個r和s’是如何產(chǎn)生的呢?這里有某種形式的采樣過程嗎?
- 也就是公式中的R(t+1),R(t+2),….等等是如何獲得的?
四、Off-Policy Learning
上面說的Sarsa的方法,必須在已知自己的策略的時候,才能進(jìn)行策略學(xué)習(xí),即On-Policy。但是與之對應(yīng)的Off-Policy有很多好處。比如可以利用別人的經(jīng)驗來學(xué)習(xí),可以在學(xué)習(xí)最優(yōu)策略的同時多多嘗試,等。
Q-learning是一種off-policy的Q值學(xué)習(xí)方法。在off-policy的方法中,使用兩種policy。
- behaviour policy,μμ,是固定的,用來進(jìn)行exploration。在Q-learning中被用來采樣得到行為atat,常用??greedy??greedy。
- target policy,?ππ,用來進(jìn)行evaluation和improve的policy。Q-learning中用來獲得行為a′a′,也就是st+1st+1時刻的行為,常見的選擇是greedy。
將最常見的選擇帶入上面兩個policy之后,Q-learning的更新公式如下:
Q(S,A)←Q(S,A)+α(R+γmaxa′Q(S′,A′)?Q(S,A))Q(S,A)←Q(S,A)+α(R+γmaxa′Q(S′,A′)?Q(S,A))參考
- difference between on-policy and off-policy
原文地址:?http://cairohy.github.io/2017/09/01/deeplearning/%E3%80%8ADavid%20Silver%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%AC%E5%BC%80%E8%AF%BE%E3%80%8B-5%EF%BC%9AModel-Free%20Control/
總結(jié)
以上是生活随笔為你收集整理的【David Silver强化学习公开课】-5:Model-Free Control的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【David Silver强化学习公开课
- 下一篇: 【David Silver强化学习公开课