深度强化学习(Deep Reinforcement Learning)的资源
深度強化學習(Deep Reinforcement Learning)的資源??
2015-04-08 11:21:00|??分類: Torch |??標簽:深度強化學習?? |舉報 |字號?訂閱
Google的Deep Mind團隊2013年在NIPS上發表了一篇牛x閃閃的文章,亮瞎了好多人眼睛,不幸的是我也在其中。前一段時間收集了好多關于這方面的資料,一直躺在收藏夾中,目前正在做一些相關的工作(希望有小伙伴一起交流)。
一、相關文章 關于DRL,這方面的工作基本應該是隨著深度學習的爆紅最近才興起的,做這方面的研究的一般都是人工智能領域的大牛。最早(待定)的一篇可以追溯到2010年,Lange[1]做的相關工作。 提出了Deep auto-encoder用于基于視覺的相關控制,和目前的架構其實已經很相似了。接下來,在2011年,Cuccu等人[2](Jurgen Schmidhuber課題組的),做了一些相關的工作(有和DRL靠近的意思)。關于這位瑞士的大牛Jurgen先生,他去年寫了一篇關于DL的綜述,這不是關鍵,關鍵是這貨引用了888篇參考文獻,這貨必定受了中國高人指點(因為中國人很喜歡的),事實上他也做中文識別(我都驚呆了)。還是2011年,Abtahi等人[3]用DBN替代傳統的強化學習中的逼近器(做RL的人是不是很親切,和Deep mind就差一點兒額!有木有覺得很可惜,幾乎都摸到Nature的門上了), 。2012年的時候,Lange[4]這人更進一步開始做應用了,提出Deep Fitted Q學習做車輛控制,不過效果不咋地。后來2012年的時候,就有人開始寫深度強化學習的相關應用前景和綜述了,比如Arel[5](大牛們還是看的比較遠的)的。然后時間就到了2013年,Deep Mind團隊在nips上發表了他們的文章[6],業界都驚呆了,(RL和DL還可以這樣玩兒)。但是,剛出來的時候,他們不給代碼,各路牛人震驚之余開始搞逆向工程,最后真有一幫人把代碼寫出來了(囧啊!我為什么寫不出來呢?)后來更給力的就是Deep mind[7]居然又更進一步發到nature上去了。 反正我當時知道后都驚呆了,人工智能領域的人開始狂歡了,各種搖旗吶喊的人,然后現在這東西開始變得炙手可熱,不知道會不會像Google眼鏡一樣。關于DRL的發展就是這個樣子,接下來就看看那些個人怎么給吶喊的吧!二、科學評論
- 先給中文的,這篇分析DRL比較客觀,推薦指數3星http://www.infoq.com/cn/articles/atari-reinforcement-learning。不過這里面其實也只是說了一個皮毛,真正的要看內容的話還是去看人家論文把
- 純科普的http://36kr.com/p/220012.html和http://36kr.com/p/217570.html?,兩篇都是36kr報道的,算是國內比較有良心的了,推薦指數2星。
看看人家外國人怎么說吧!
- 這個優點類似綜述,適合搞學術的人看看,而且還有demo和教程呢!有些視頻得翻墻http://nextbigfuture.com/2014/12/deep-learning-and-deep-reinforcement.html。推薦指數5星。
- http://arstechnica.com/science/2015/02/ai-masters-49-atari-2600-games-without-instructions/,這個就是一個科普,有視頻,比國內的科普強點兒,推薦指數3星。
- 還有一個overview, 基本上把deep mind文章的重點部分挑出來說了一下,適合有一定ML基礎的人去看看,推薦指數3星。http://artent.net/2014/12/10/a-review-of-playing-atari-with-deep-reinforcement-learning/ 。
- Nature上還采訪了一個做逆向的深度強化學習的東歐的一個學者科學家,他們還給出了DRL算法的一個缺陷,一個中文翻譯的http://www.7huoxing.com/?p=13035 。推薦指數2星,適合科普。
還有很多很多就不一一列舉了。
三、相關代碼
這部分應該是大家最關心的,我想大部分看到文章的第一想法是代碼呢!擦,其實我也是這么想的,誰叫自己的coding能力不夠呢!沒辦法,本人在網上(github.com)深挖了好久,沒想到大牛真的好多好多啊!
基本上重要的就是這么多了,然后外圍的關于Torch 7和其他東西的安裝就不提了。
?
三、論壇這是google上的一個小組,里面有不少人討論DQN的算法以及代碼使用心得,有興趣的可以加入。
https://groups.google.com/forum/#!topic/deep-q-learning。
?
最后用Deep Mind的主頁鎮樓http://deepmind.com/ 。
四、補充
在跑Deep Mind的程序的時候,可能會遇到一些問題
問題1
?在convnet.lua的22行中報錯,返回nill value,這個地方對于torch的設置有問題,請看如下網址。? ? ?http://stackoverflow.com/questions/29564360/bug-encountered-when-running-googles-deep-q-network-code
? PS:歡迎各位大小牛牛補充~~~
[1] S. Lange and M. Riedmiller, "Deep auto-encoder neural networks in reinforcement learning," in IJCNN, 2010, pp. 1-8.
[2] G. Cuccu, M. Luciw, J. Schmidhuber, and F. Gomez, "Intrinsically motivated neuroevolution for vision-based reinforcement learning," in Development and Learning (ICDL), 2011 IEEE International Conference on, 2011, pp. 1-7.
[3] F. Abtahi and I. Fasel, "Deep belief nets as function approximators for reinforcement learning," RBM, vol. 2, p. h3, 2011.
[4] S. Lange, M. Riedmiller, and A. Voigtlander, "Autonomous reinforcement learning on raw visual input data in a real world application," in Neural Networks (IJCNN), The 2012 International Joint Conference on, 2012, pp. 1-8.
[5] I. Arel, "Deep Reinforcement Learning as Foundation for Artificial General Intelligence," in Theoretical Foundations of Artificial General Intelligence, ed: Springer, 2012, pp. 89-102.
[6] V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra, et al., "Playing Atari with deep reinforcement learning," arXiv preprint arXiv:1312.5602, 2013.
[7] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, et al., "Human-level control through deep reinforcement learning," Nature, vol. 518(7540), pp. 529-533, 2015.
總結
以上是生活随笔為你收集整理的深度强化学习(Deep Reinforcement Learning)的资源的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 生成学习算法Generative Lea
- 下一篇: 深度学习未来十大趋势