强化学习(part2)--马尔科夫决策
生活随笔
收集整理的這篇文章主要介紹了
强化学习(part2)--马尔科夫决策
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
學習筆記,僅供參考,有錯必糾
文章目錄
- 馬爾科夫決策
- 馬爾科夫決策要求
- 馬爾科夫決策過程由5個元素構成
- 狀態轉移過程
- 狀態價值函數
- 最優價值函數
- Bellman方程
馬爾科夫決策
馬爾科夫決策要求
- 能夠檢測到理想的狀態
- 可以多次嘗試
- 系統的下個狀態只與當前狀態信息有關,而與更早之前的狀態無關 在決策過程中還和當前采取的動作有關
馬爾科夫決策過程由5個元素構成
- S:表示狀態集(states)
- A:表示一組動作(actions)
- P:表示狀態轉移概率 P s a
總結
以上是生活随笔為你收集整理的强化学习(part2)--马尔科夫决策的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(part1)--概述
- 下一篇: bat脚本执行命令_实用bat代码