當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

MDP 笔记：Value Iteration

發布時間：2025/4/5 编程问答 16 豆豆

生活随笔收集整理的這篇文章主要介紹了 MDP 笔记：Value Iteration 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

??????在強化學習筆記： MDP - Policy iteration_UQI-LIUWJ的博客-CSDN博客中，我們知道，當整個狀態收斂的時候，也就是已經達到最佳policy的時候，MDP會滿足bellman optimality equation

????????Value iteration 就是把 Bellman Optimality Equation 當成一個 update rule 來進行，如下式所示：

?????????

?????????之前我們說上面這個等式只有當整個 MDP 已經到達最佳的狀態時才滿足。

????????但這里我們不停地去迭代 Bellman Optimality Equation，到了最后，它能逐漸趨向于最佳的策略，這是 value iteration 算法的精髓。

????????

?????????這個算法開始的時候，它是先把所有值初始化，通過每一個狀態，然后它會進行這個迭代。

????????把等式 (22) 插到等式 (23) 里面，就是 Bellman optimality backup 的那個等式。

????????有了等式 (22) 和等式 (23) 過后，然后進行不停地迭代，迭代過后，然后收斂，收斂后就會得到這個v?

????????當我們有了v??過后，一個問題是如何進一步推算出它的最佳策略。

????????提取最佳策略的話，我們可以直接用 arg max。就先把它的 Q 函數重構出來，重構出來過后，每一個列對應的最大的那個 action 就是它現在的最佳策略。這樣就可以從最佳價值函數里面提取出最佳策略。

這兩個算法都可以解 MDP 的控制問題。

Policy Iteration 分兩步，首先進行 policy evaluation，即對當前已經搜索到的策略函數進行一個估值。得到估值過后，進行 policy improvement，即把 Q 函數算出來，我們進一步進行改進，選取Q最大的策略。不斷重復這兩步，直到策略收斂。
Value iteration 直接把 Bellman Optimality Equation 拿進來，然后去尋找最佳的 value function，沒有 policy function 在這里面。當算出 optimal value function 過后，我們再來提取最佳策略。（所以我策略在迭代的過程中是不變的）

在Policy Iteration中
- 第一步 Policy Eval：一直迭代至收斂，獲得準確的V(s)
- 第二步 Policy Improvement：根據準確的V(s)，求解最好的Action
對比之下，在Value Iteration中
- 第一步 "Policy Eval"：迭代只做一步，獲得不太準確的V(s)
- 第二步 "Policy Improvement"：根據不太準確的V(s)，求解最好的Action

以上是生活随笔為你收集整理的MDP 笔记：Value Iteration的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。