强化学习总结(1-2)——model-base(policy evaluation;policy control)
文章目錄
- 強化學習總結(1-4)
- 馬爾科夫決策過程
- policy evaluation
- policy control
- policy iteration
- value iteration
- 兩種方法的區別
- 最后總結
強化學習總結(1-4)
馬爾科夫決策過程
? 馬爾科夫決策過程是一個model-base過程,它分為策略估值policy evaluation與策略控制policy control。就是已知一個策略估計狀態函數的值,和求解一個最優策略。
policy evaluation
? 策略估值evaluation的情況下,主要采用動態規劃bootsrapping的方法,已知策略π\piπ,對貝爾曼期望方程進行迭代,直到收斂:
vkπ(s)=∑a∈Aπ(a∣s)(R(s,a)+γ∑s′∈SP(s′∣s,a)vk+1π(s′))\mathrm{v}_{k}^{\pi}(\mathrm{s})=\sum_{\mathrm{a} \in \mathrm{A}} \pi(\mathrm{a} \mid \mathrm{s})\left(\mathrm{R}(\mathrm{s}, \mathrm{a})+\gamma \sum_{\mathrm{s}^{\prime} \in \mathrm{S}} \mathrm{P}\left(\mathrm{s}^{\prime} \mid \mathrm{s}, \mathrm{a}\right) \mathrm{v}_{k+1}^{\pi}\left(\mathrm{s}^{\prime}\right)\right) vkπ?(s)=a∈A∑?π(a∣s)(R(s,a)+γs′∈S∑?P(s′∣s,a)vk+1π?(s′))
policy control
policy iteration
? 隨機一個π\piπ,先進行bootstrapping對其狀態函數進行估值,根據估計的vπ(s)\mathrm{v}^{\pi}(\mathrm{s})vπ(s),再使用Q函數的貝爾曼等式
q(s,a)=R(s,a)+γ∑s′∈SP(s′∣s,a)v(s′)\mathrm{q}(\mathrm{s}, \mathrm{a})=\mathrm{R}(\mathrm{s}, \mathrm{a})+\gamma \sum_{\mathrm{s}^{\prime} \in \mathrm{S}} \mathrm{P}\left(\mathrm{s}^{\prime} \mid \mathrm{s}, \mathrm{a}\right) \mathrm{v}\left(\mathrm{s}^{\prime}\right)q(s,a)=R(s,a)+γ∑s′∈S?P(s′∣s,a)v(s′),計算Q-table,從中更新策略
π(a∣s)={1,if?a=arg?max?a∈Aq(s,a)0,otherwise?\pi(a \mid s)=\left\{\begin{array}{ll} 1, & \text { if } a=\arg \max _{a \in A} q(s, a) \\ 0, & \text { otherwise } \end{array}\right. π(a∣s)={1,0,??if?a=argmaxa∈A?q(s,a)?otherwise??
再用新策略估計狀態函數,一直循環,直到V和π\piπ都收斂了,就求得了最優的策略。
總結:由于策略更新每次都是選擇能夠產生最大價值的動作,所以如果該過程具有最優的策略,那么在迭代一定次數后,最后一定會收斂到那個最優策略。
value iteration
? 如果策略達到了最優,那么當前狀態的價值函數值就等于當前狀態最大價值動作對函數值vπ(s)=max?a∈Aqπ(s,a)=max?a∈A(R(s,a)+γ∑s′∈SP(s′∣s,a)v(s′))\mathrm{v}^{\pi}(\mathrm{s})=\max _{\mathrm{a} \in \mathcal{A}} \mathrm{q}^{\pi}(\mathrm{s}, \mathrm{a})=\max _{\mathrm{a} \in \mathcal{A}}(\mathrm{R}(\mathrm{s}, \mathrm{a})+\gamma \sum_{\mathrm{s}^{\prime} \in \mathrm{S}} \mathrm{P}\left(\mathrm{s}^{\prime} \mid \mathrm{s}, \mathrm{a}\right) \mathrm{v}\left(\mathrm{s}^{\prime}\right))vπ(s)=maxa∈A?qπ(s,a)=maxa∈A?(R(s,a)+γ∑s′∈S?P(s′∣s,a)v(s′)),如果我們將此等式用bootsrapping進行迭代,就能得到最優的價值函數,最后再用下式,policy iteration中的策略更新方法更新一次π\piπ即可。
π(a∣s)={1,if?a=arg?max?a∈Aq(s,a)0,otherwise?4\pi(a \mid s)=\left\{\begin{array}{ll}1, & \text { if } a=\arg \max _{a \in A} q(s, a) \\0, & \text { otherwise }4\end{array}\right. π(a∣s)={1,0,??if?a=argmaxa∈A?q(s,a)?otherwise?4?
兩種方法的區別
? policy iteration :相當于在不停的探索,策略實時在更新。
? value iteration:相當于一勞永逸,將價值函數迭代到最優的狀態,策略一次更新到位
最后總結
首先呢(12/4—12/16 model-base ),學習了馬爾科夫決策過程,這個過程是強化學習中的很多模型的基礎。這里首先解決了兩個問題:
總結
以上是生活随笔為你收集整理的强化学习总结(1-2)——model-base(policy evaluation;policy control)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 线性规划总结3——单纯形法和对偶单纯形法
- 下一篇: 机器人学一些概念1——自由度冗余,映射和