强化学习(十二) Dueling DQN
在強化學習(十一) Prioritized Replay DQN中,我們討論了對DQN的經驗回放池按權重采樣來優化DQN算法的方法,本文討論另一種優化方法,Dueling DQN。本章內容主要參考了ICML 2016的deep RL tutorial和Dueling DQN的論文<Dueling Network Architectures for Deep Reinforcement Learning>(ICML 2016)。
1. Dueling DQN的優化點考慮
在前面講到的DDQN中,我們通過優化目標Q值的計算來優化算法,在Prioritized Replay DQN中,我們通過優化經驗回放池按權重采樣來優化算法。而在Dueling DQN中,我們嘗試通過優化神經網絡的結構來優化算法。
具體如何優化網絡結構呢?Dueling DQN考慮將Q網絡分成兩部分,第一部分是僅僅與狀態SS有關,與具體要采用的動作AA無關,這部分我們叫做價值函數部分,記做V(S,w,α)V(S,w,α),第二部分同時與狀態狀態SS和動作AA有關,這部分叫做優勢函數(Advantage Function)部分,記為A(S,A,w,β)A(S,A,w,β),那么最終我們的價值函數可以重新表示為:
Q(S,A,w,α,β)=V(S,w,α)+A(S,A,w,β)Q(S,A,w,α,β)=V(S,w,α)+A(S,A,w,β)
其中,ww是公共部分的網絡參數,而αα是價值函數獨有部分的網絡參數,而ββ是優勢函
總結
以上是生活随笔為你收集整理的强化学习(十二) Dueling DQN的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(十)Double DQN (D
- 下一篇: 强化学习(十三) 策略梯度(Policy