當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

动态规划算法实验报告_强化学习之动态规划算法

發(fā)布時間：2024/7/5 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了动态规划算法实验报告_强化学习之动态规划算法小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

如今的強(qiáng)化學(xué)習(xí)研究大體分為了兩個研究學(xué)派：一個是以Sutton，Sliver等人為代表的value-based學(xué)派，他們主要從值函數(shù)近似角度入手去研究強(qiáng)化學(xué)習(xí)，這也是強(qiáng)化學(xué)習(xí)早期最初發(fā)展起來時沿用的路線；第二個是以伯克利Sergey Levine為代表的policy-based學(xué)派，主要從策略近似角度出發(fā)研究強(qiáng)化學(xué)習(xí)。

今天我介紹的動態(tài)規(guī)劃算法思想在value-based乃至整個強(qiáng)化學(xué)習(xí)領(lǐng)域都起到了至關(guān)重要的作用，有非常多的算法都從其中衍生而來。話不多說，請坐穩(wěn)扶好，老司機(jī)要發(fā)車了，嘟嘟~

動態(tài)規(guī)劃是一種優(yōu)化算法，起源于最優(yōu)控制領(lǐng)域，可以用來解決多階段序列決策問題，或者離散時間動態(tài)自適應(yīng)控制問題。一個問題可以用動態(tài)規(guī)劃求解，需要滿足一下幾條基本性質(zhì)：

子問題最優(yōu)性/最優(yōu)子結(jié)構(gòu)

原問題可以被分解為子問題，原問題的最優(yōu)性可以通過子問題的最優(yōu)性推導(dǎo)出

子問題重疊性/重疊子問題

一個問題滿足子問題重疊性，意味著當(dāng)我們?nèi)デ蠼庖粋€較大問題的最優(yōu)解時，會多次調(diào)用子問題的最優(yōu)解，即子問題的解會被多次遞歸調(diào)用。實(shí)際編程中我們會把子問題的解存儲起來，后續(xù)會多次訪問。例如OI中的記憶化搜索等等。

—————————————————————————————————————

馬爾可夫決策過程滿足上述兩條基本性質(zhì)：

貝爾曼期望方程給出了遞歸分解式，將原問題的求解分解為子問題的求解
價值函數(shù)可以被存儲和多次調(diào)用

MDPs產(chǎn)生的序列是有先后順序的，對于這種序列決策問題，前驅(qū)狀態(tài)可以看做子問題，后繼狀態(tài)可以看做原問題，通過backup即可利用

可達(dá)狀態(tài)的價值函數(shù)推導(dǎo)出的價值函數(shù)。

動態(tài)規(guī)劃方法用于解決model-based reinforcement learning問題，假設(shè)可知環(huán)境的所有動態(tài)信息，例如狀態(tài)之間的轉(zhuǎn)移規(guī)律等等。這個要求實(shí)際是非常苛刻的，因此后續(xù)會有很多的變體，不要求已知一個環(huán)境的模型。

接下來先介紹一下prediction和control的區(qū)別：

prediction：

prediction過程主要在做policy evaluation，即輸入

和policy ，輸出是follow policy 得到的狀態(tài)價值函數(shù)

control

control主要在solve一個optimal policy and optimal value function。輸入是MDP

，輸出：

optimal policy
optimal value function

接下來我們介紹利用動態(tài)規(guī)劃解決Policy Evaluation的方法：

目標(biāo)：評估一個Policy的好壞；

解決方法：不斷迭代貝爾曼期望方程；

——————————————————————————————稍后繼續(xù)更新

策略改進(jìn)：

策略評估：

''' 動態(tài)規(guī)劃之策略迭代實(shí)現(xiàn) 算法：Policy Iteration 策略評估 + 策略改進(jìn)：Bellman Expectation Equation + Greedy Policy Improvement ''' import gym import matplotlib.pyplot as plt import numpy as np %matplotlib inlineenv = gym.make('CliffWalking-v0') # 導(dǎo)入gym環(huán)境-懸崖尋路def play_once(env,q_table):total_reward = 0state = env.reset()action = np.argmax(q_table[state,:]) # greedy policy improvement 公式（1）while True:next_state, reward, done, _ = env.step(action)next_action = np.argmax(q_table[next_state,:])# 貝爾曼期望方程策略改進(jìn)，公式（2）q_table[state,action] = reward + 0.9*q_table[next_state,next_action] total_reward += rewardif done:breakstate = next_stateaction = next_actionreturn total_rewardq_table = np.zeros((env.nS,env.nA)) ans = [] for i in range(30):total_reward = play_once(env,q_table)print("總獎勵 = {}".format(total_reward))ans.append(total_reward) plt.figure() plt.plot(ans,'b-') plt.show()

——————————————稍后繼續(xù)更——————————————————

總結(jié)

以上是生活随笔為你收集整理的动态规划算法实验报告_强化学习之动态规划算法的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： mqtt如何判断设备离线_反渗透纯水设备
下一篇：【Python基础知识-pycharm版