强化学习(十五) A3C
生活随笔
收集整理的這篇文章主要介紹了
强化学习(十五) A3C
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
在強化學習(十四) Actor-Critic中,我們討論了Actor-Critic的算法流程,但是由于普通的Actor-Critic算法難以收斂,需要一些其他的優化。而Asynchronous Advantage Actor-critic(以下簡稱A3C)就是其中比較好的優化算法。本文我們討論A3C的算法原理和算法流程。
本文主要參考了A3C的論文,以及ICML 2016的deep RL tutorial。
1. A3C的引入
上一篇Actor-Critic算法的代碼,其實很難收斂,無論怎么調參,最后的CartPole都很難穩定在200分,這是Actor-Critic算法的問題。但是我們還是有辦法去有優化這個難以收斂的問題的。
回憶下之前的DQN算法,為了方便收斂使用了經驗回放的技巧。那么我們的Actor-Critic是不是也可以使用經驗回放的技巧呢?當然可以!不過A3C更進一步,還克服了一些經驗回放的問題。經驗回放有什么問題呢? 回放池經驗數據相關性太強,用于訓練的時候效果很可能不佳。舉個例子,我們學習下棋,總是和同一個人下,期望能提高棋藝。這當然沒有問題,但是到一定程度就再難提高了,此時最好的方法是另尋高手切磋。
A3C的思路也是如此,它利用多線程的方法,同時在多個
總結
以上是生活随笔為你收集整理的强化学习(十五) A3C的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(十四) Actor-Criti
- 下一篇: 强化学习(十六) 深度确定性策略梯度(D