當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习总结(1-2)——model-base(policy evaluation；policy control)

發布時間：2025/1/21 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习总结(1-2)——model-base(policy evaluation；policy control) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

強化學習總結(1-4)
- 馬爾科夫決策過程
- - policy evaluation
  - policy control
  - - policy iteration
    - value iteration
    - 兩種方法的區別
- 最后總結

強化學習總結(1-4)

馬爾科夫決策過程

? 馬爾科夫決策過程是一個model-base過程，它分為策略估值policy evaluation與策略控制policy control。就是已知一個策略估計狀態函數的值，和求解一個最優策略。

policy evaluation

? 策略估值evaluation的情況下，主要采用動態規劃bootsrapping的方法，已知策略 $π\pi$ ，對貝爾曼期望方程進行迭代，直到收斂：
$vkπ(s)=∑a∈Aπ(a∣s)(R(s,a)+γ∑s′∈SP(s′∣s,a)vk+1π(s′))\mathrm{v}_{k}^{\pi}(\mathrm{s})=\sum_{\mathrm{a} \in \mathrm{A}} \pi(\mathrm{a} \mid \mathrm{s})\left(\mathrm{R}(\mathrm{s}, \mathrm{a})+\gamma \sum_{\mathrm{s}^{\prime} \in \mathrm{S}} \mathrm{P}\left(\mathrm{s}^{\prime} \mid \mathrm{s}, \mathrm{a}\right) \mathrm{v}_{k+1}^{\pi}\left(\mathrm{s}^{\prime}\right)\right)$

policy control

policy iteration

? 隨機一個 $π\pi$ ，先進行bootstrapping對其狀態函數進行估值，根據估計的 $vπ(s)\mathrm{v}^{\pi}(\mathrm{s})$ ，再使用Q函數的貝爾曼等式

$q(s,a)=R(s,a)+γ∑s′∈SP(s′∣s,a)v(s′)\mathrm{q}(\mathrm{s}, \mathrm{a})=\mathrm{R}(\mathrm{s}, \mathrm{a})+\gamma \sum_{\mathrm{s}^{\prime} \in \mathrm{S}} \mathrm{P}\left(\mathrm{s}^{\prime} \mid \mathrm{s}, \mathrm{a}\right) \mathrm{v}\left(\mathrm{s}^{\prime}\right)$ ，計算Q-table，從中更新策略
$π(a∣s)={1,if?a=arg?max?a∈Aq(s,a)0,otherwise?\pi(a \mid s)=\left\{\begin{array}{ll} 1, & \text { if } a=\arg \max _{a \in A} q(s, a) \\ 0, & \text { otherwise } \end{array}\right.$
再用新策略估計狀態函數，一直循環，直到V和 $π\pi$ 都收斂了，就求得了最優的策略。

總結：由于策略更新每次都是選擇能夠產生最大價值的動作，所以如果該過程具有最優的策略，那么在迭代一定次數后，最后一定會收斂到那個最優策略。

value iteration

? 如果策略達到了最優，那么當前狀態的價值函數值就等于當前狀態最大價值動作對函數值 $vπ(s)=max?a∈Aqπ(s,a)=max?a∈A(R(s,a)+γ∑s′∈SP(s′∣s,a)v(s′))\mathrm{v}^{\pi}(\mathrm{s})=\max _{\mathrm{a} \in \mathcal{A}} \mathrm{q}^{\pi}(\mathrm{s}, \mathrm{a})=\max _{\mathrm{a} \in \mathcal{A}}(\mathrm{R}(\mathrm{s}, \mathrm{a})+\gamma \sum_{\mathrm{s}^{\prime} \in \mathrm{S}} \mathrm{P}\left(\mathrm{s}^{\prime} \mid \mathrm{s}, \mathrm{a}\right) \mathrm{v}\left(\mathrm{s}^{\prime}\right))$ ，如果我們將此等式用bootsrapping進行迭代，就能得到最優的價值函數，最后再用下式，policy iteration中的策略更新方法更新一次 $π\pi$ 即可。
$π(a∣s)={1,if?a=arg?max?a∈Aq(s,a)0,otherwise?4\pi(a \mid s)=\left\{\begin{array}{ll}1, & \text { if } a=\arg \max _{a \in A} q(s, a) \\0, & \text { otherwise }4\end{array}\right.$

兩種方法的區別

? policy iteration ：相當于在不停的探索，策略實時在更新。

? value iteration：相當于一勞永逸，將價值函數迭代到最優的狀態，策略一次更新到位

最后總結

首先呢(12/4—12/16 model-base )，學習了馬爾科夫決策過程，這個過程是強化學習中的很多模型的基礎。這里首先解決了兩個問題：

怎么去算狀態的價值，就是我在這個狀態下能得到的結果有多好。

怎么去尋找我的最優策略，policy 和value iteration都是利用動態規劃的思想，不斷的對價值函數進行迭代更新，這里就體現了model-base的意義，它能夠計算價值函數，所以最優策略就可以從這個最優價值著手去找。

總結

以上是生活随笔為你收集整理的强化学习总结(1-2)——model-base(policy evaluation；policy control)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：线性规划总结3——单纯形法和对偶单纯形法
下一篇：机器人学一些概念1——自由度冗余，映射和