(转)谷歌公开dopamine
上周那個在DOTA2 TI8賽場上“裝逼失敗”的OpenAI Five,背后是強化學習的助推。
其實不僅僅是OpenAI Five,下圍棋的AlphaGo和AlphaGo Zero、玩雅達利街機游戲的DeepMind DQN(deep Q-network),都離不開強化學習(Reinforcement Learning)。
現在,谷歌發布了一個基于TensorFlow的強化學習開源框架,名叫Dopamine。
另外,還有一組Dopamine的教學colab。
和它的名字Dopamine(多巴胺)一樣,新框架聽上去就令人激動。
清晰,簡潔,易用
新框架在設計時就秉承著清晰簡潔的理念,所以代碼相對緊湊,大約是15個Python文件,基于Arcade Learning Environment (ALE)基準,整合了DQN、C51、 Rainbow agent精簡版和ICML 2018上的Implicit Quantile Networks。
可再現
新框架中代碼被完整的測試覆蓋,可作為補充文檔的形式,也可以用ALE來評估。
基準測試
為了讓研究人員能快速比較自己的想法和已有的方法,該框架提供了DQN、C51、 Rainbow agent精簡版和Implicit Quantile Networks的玩ALE基準下的那60個雅達利游戲的完整訓練數據,以Python pickle文件和JSON數據文件的格式存儲,并且放到了一個可視化網頁中。
另外,新框架中還有訓練好的深度網絡、原始統計日志,以及TensorBoard標注好的TensorFlow事件文件。
傳送門 開源框架資源
Dopamine谷歌博客:
https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html
Dopamine github下載:
https://github.com/google/dopamine/tree/master/docs#downloads
colabs:
https://github.com/google/dopamine/blob/master/dopamine/colab/README.md
游戲訓練可視化網頁:
https://google.github.io/dopamine/baselines/plots.html
相關資料
ALE基準:
https://arxiv.org/abs/1207.4708
DQN(DeepMind):
https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf
C51(ICML 2017):
https://arxiv.org/abs/1707.06887
Rainbow:
https://arxiv.org/abs/1710.02298
Implicit Quantile Networks(ICML 2018):
https://arxiv.org/abs/1806.06923
總結
以上是生活随笔為你收集整理的(转)谷歌公开dopamine的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Matlab画图小结(二)
- 下一篇: olap mysql_MySQL与OLA