强化学习1 高斯赛德尔迭代
生活随笔
收集整理的這篇文章主要介紹了
强化学习1 高斯赛德尔迭代
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
開始看《深入淺出強(qiáng)化學(xué)習(xí)——原理入門》,由于時間有限,做個簡要的筆記。
“深度學(xué)習(xí)如圖像識別和語音識別解決的是感知問題,強(qiáng)化學(xué)習(xí)解決的是決策問題,人工智能的終極目標(biāo)就是經(jīng)過感知進(jìn)行智能決策?!?/p>
1、區(qū)分有模型 無模型: 狀態(tài)轉(zhuǎn)移概率Pss'已知,是有模型的強(qiáng)化學(xué)習(xí);
2、(有模型的強(qiáng)化學(xué)習(xí))值函數(shù)是怎么來的:高斯賽德爾迭代,用前一次的值計算后一次的值,直到收斂!
以下是高斯賽德爾迭代求值函數(shù)內(nèi)容:
?
?
?
?
?
總結(jié)
以上是生活随笔為你收集整理的强化学习1 高斯赛德尔迭代的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: html代码打猎小游戏,html贪吃蛇小
- 下一篇: 多线程问题汇总