當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习笔记 DDPG (Deep Deterministic Policy Gradient)

發(fā)布時間：2025/4/5 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习笔记 DDPG (Deep Deterministic Policy Gradient) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

總體來講，和actor-critic 差不多，只不過這里用了target network 和experience relay

強化學(xué)習(xí)筆記 experience replay 經(jīng)驗回放_UQI-LIUWJ的博客-CSDN博客

強化學(xué)習(xí)筆記：Actor-critic_UQI-LIUWJ的博客-CSDN博客

DQN 筆記 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客

看模型架構(gòu)和actor-critic 類似，也是訓(xùn)練一個actor 網(wǎng)絡(luò)（策略網(wǎng)絡(luò)）以及一個critic網(wǎng)絡(luò)（DQN）

Q-network和帶目標(biāo)網(wǎng)絡(luò)的DQN一樣

但是這里因為是actor-critic結(jié)構(gòu)，所以相應(yīng)的策略網(wǎng)絡(luò)（actor）也需要有target-network。這樣的話 eval-actor的動作喂給eval-critic，target=actor的動作喂給target-critic

????????在DQN中，每過一定的回合，就直接將eval net的所有參數(shù)給替換成target net。這種做法被稱為hard replace。

????????DQN 筆記 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客

????????

????????而在DDPG中一般采取的是soft replace。即每一個回合都將target net的參數(shù)用一個小步長向著eval net的方向更新。如此看來，target net就是eval net的一個比較滯后的版本。

????????

????????這是為了使得訓(xùn)練更加穩(wěn)定。因為我們加入時滯的target net目的是讓問題變得更像一個監(jiān)督學(xué)習(xí)問題，讓label更加穩(wěn)定。

????????而在hard replace的前后，可能全局所有Q(s_)的label都發(fā)生了劇烈的變化，我們可以想成整個監(jiān)督學(xué)習(xí)的問題都變了。這樣會導(dǎo)致求解的結(jié)果不穩(wěn)定。

????????而soft replace可以在讓label緩慢地發(fā)生變化，更加的平緩一些。

????????

以上是生活随笔為你收集整理的强化学习笔记 DDPG (Deep Deterministic Policy Gradient)的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。