强化学习(五)---基于模型的强化学习实战
生活随笔
收集整理的這篇文章主要介紹了
强化学习(五)---基于模型的强化学习实战
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
有一個(gè)4*4的矩陣,0和15代表出口
結(jié)果輸出第一個(gè)矩陣一共輸出16個(gè)向量,每個(gè)向量里面的位置代表,在當(dāng)前狀態(tài)往哪里走比較好,第二個(gè)矩陣對(duì)第一個(gè)矩陣進(jìn)行統(tǒng)計(jì)處理,更加直觀,也是表示在16個(gè)狀態(tài),每個(gè)位置最好的動(dòng)作方向
參考資料:唐宇迪視頻
總結(jié)
以上是生活随笔為你收集整理的强化学习(五)---基于模型的强化学习实战的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(四)---基于模型动态规划问题
- 下一篇: 强化学习(六)---基于无模型强化学习方