要玩转这个星际争霸II开源AI,你只需要i5+GTX1050
Reaver 是一個(gè)模塊化的深度強(qiáng)化學(xué)習(xí)框架,可提供比大多數(shù)開源解決方案更快的單機(jī)并行化能力,支持星際爭(zhēng)霸 2、OpenAI Gym、Atari、MuJoCo 等常見環(huán)境,其網(wǎng)絡(luò)被定義為簡(jiǎn)單的 Keras 模型,易于配置和共享設(shè)置。在示例中,Reaver 在不到 10 秒鐘內(nèi)通過了 CartPole-v0 游戲,在 4 核 CPU 筆記本上每秒采樣率為 5000 左右。
Reaver 可以在 30 分鐘內(nèi)攻克星際爭(zhēng)霸 2 的 MoveToBeacon 小游戲,和 DeepMind 得到的結(jié)果相當(dāng),僅使用了配置 Intel i5-7300HQ CPU (4 核) 和 GTX 1050 GPU 的筆記本,你也可以在 Google Colab 上在線跑跑對(duì)比一下。
- 項(xiàng)目鏈接:https://github.com/inoryy/reaver-pysc2
- Reaver 的 Google Colab 地址:https://colab.research.google.com/drive/1DvyCUdymqgjk85FB5DrTtAwTFbI494x7
具體來說,Reaver 具備以下特征:
性能:現(xiàn)有研究的多數(shù)強(qiáng)化學(xué)習(xí)基線通常針對(duì)進(jìn)程之間基于消息的通信(如 MPI)進(jìn)行調(diào)整。這對(duì)于 DeepMind、OpenAI 等擁有大規(guī)模分布式 RL 設(shè)置的公司來說是有意義的,但對(duì)于只擁有一個(gè)計(jì)算機(jī)/HPC 節(jié)點(diǎn)的研究人員或發(fā)燒友來說,這似乎是一個(gè)很大的瓶頸。因此,Reaver 采用了共享內(nèi)存,與之前基于消息的并行化的項(xiàng)目相比,速度提升了 2 倍。具體來說,Reaver 通過 lock-free 的方式利用共享內(nèi)存,可以專門針對(duì)這種情況優(yōu)化。這種方法可以在星際爭(zhēng)霸 II 采樣率上速度提升了 2 倍(在一般情況下可以實(shí)現(xiàn) 100 倍的加速),其最主要的瓶頸在于 GPU 的輸入/輸出管道。
模塊化:許多 RL 基線或多或少都是模塊化的,但經(jīng)常緊緊地與作者使用的模型/環(huán)境耦合。以我個(gè)人經(jīng)驗(yàn)來看,當(dāng)我只專注于星際爭(zhēng)霸 2 游戲時(shí),每一次實(shí)驗(yàn)或調(diào)試都是一個(gè)令人沮喪的長(zhǎng)期過程。而有了 Reaver 之后,我就能夠在一行代碼中交換環(huán)境(即使是從 SC2 到雅達(dá)利或 CartPole)。對(duì)于模型來說也是如此——任何 Keras 模型都可以,只要它遵守基本 API 契約(inputs = agent obs, outputs = logits + value)。Reaver 的三個(gè)核心模塊 envs、models、 和 agents 基本上是完全獨(dú)立的。這保證了在一個(gè)模塊上的功能擴(kuò)展可以無縫地連接到其它模塊上。
可配置性:現(xiàn)有的智能體通常具有幾十個(gè)不同的配置參數(shù),共享這些參數(shù)似乎讓每一個(gè)參與其中的人都很頭疼。我最近偶然發(fā)現(xiàn)了這個(gè)問題的一個(gè)有趣的解決方案——gin-config,它支持將任意 Python 可調(diào)用函數(shù)配置為類似 Python 的配置文件和命令行參數(shù)。試驗(yàn)后發(fā)現(xiàn) gin-config 可以實(shí)現(xiàn)僅用一個(gè)文件共享全部訓(xùn)練流程環(huán)境配置。所有的配置都能輕松地以.gin 文件的形式進(jìn)行分享,包括所有超參數(shù)、環(huán)境變量和模塊定義。
不過時(shí):DL 中充滿變數(shù),即使只有一年歷史的代碼庫也會(huì)過時(shí)。我使用即將面世的 TensorFlow 2.0 API 寫 Reaver(大多使用 tf.keras,避開 tf.contrib),希望 Reaver 不會(huì)遭此厄運(yùn)。
Reaver 的用途并不局限于星際爭(zhēng)霸 II 智能體的深度強(qiáng)化學(xué)習(xí)訓(xùn)練,如果有任何擴(kuò)展的想法歡迎分享給我。我計(jì)劃近期添加 VizDoom 環(huán)境到這個(gè)項(xiàng)目中去。
python -m reaver.run --env MoveToBeacon --agent a2c --envs 4 2> stderr.log只需通過一行代碼,Reaver 就可以直接配置一個(gè)訓(xùn)練任務(wù),如上所示。Reaver 的獎(jiǎng)勵(lì)函數(shù)可以很快收斂到大約 25-26RMe(mean episode rewards),這和 DeepMind 在該環(huán)境(MoveToBeacon)中得到的結(jié)果相當(dāng)。具體的訓(xùn)練時(shí)間取決于你自己的硬件。以下日志數(shù)據(jù)是通過配置了 Intel i5-7300HQ CPU (4 核) 和 GTX 1050 GPU 的筆記本訓(xùn)練了 30 分鐘得到的。
| T 118 | Fr 51200 | Ep 212 | Up 100 | RMe 0.14 | RSd 0.49 | RMa 3.00 | RMi 0.00 | Pl 0.017 | Vl 0.008 | El 0.0225 | Gr 3.493 | Fps 433 || T 238 | Fr 102400 | Ep 424 | Up 200 | RMe 0.92 | RSd 0.97 | RMa 4.00 | RMi 0.00 | Pl -0.196 | Vl 0.012 | El 0.0249 | Gr 1.791 | Fps 430 |
| T 359 | Fr 153600 | Ep 640 | Up 300 | RMe 1.80 | RSd 1.30 | RMa 6.00 | RMi 0.00 | Pl -0.035 | Vl 0.041 | El 0.0253 | Gr 1.832 | Fps 427 |
...
| T 1578 | Fr 665600 | Ep 2772 | Up 1300 | RMe 24.26 | RSd 3.19 | RMa 29.00 | RMi 0.00 | Pl 0.050 | Vl 1.242 | El 0.0174 | Gr 4.814 | Fps 421 |
| T 1695 | Fr 716800 | Ep 2984 | Up 1400 | RMe 24.31 | RSd 2.55 | RMa 30.00 | RMi 16.00 | Pl 0.005 | Vl 0.202 | El 0.0178 | Gr 56.385 | Fps 422 |
| T 1812 | Fr 768000 | Ep 3200 | Up 1500 | RMe 24.97 | RSd 1.89 | RMa 31.00 | RMi 21.00 | Pl -0.075 | Vl 1.385 | El 0.0176 | Gr 17.619 | Fps 423 |
在 MoveToBeacon 環(huán)境上的 RMe 學(xué)習(xí)曲線。
基準(zhǔn)評(píng)測(cè)分?jǐn)?shù)
其中:
- Human Expert 是由 DeepMind 從戰(zhàn)網(wǎng)天梯的大師級(jí)玩家中收集的數(shù)據(jù)
- DeepMind ReDRL 是當(dāng)前業(yè)內(nèi)最佳結(jié)果,出自 DeepMind 2018 年 6 月的論文《Relational Deep Reinforcement Learning》
- DeepMind SC2LE 成績(jī)出自 DeepMind 和暴雪 2017 年 8 月的論文《StarCraft II: A New Challenge for Reinforcement Learning》
- Reaver(A2C)是通過訓(xùn)練 reaver.agents.A2C 智能體獲得的結(jié)果,其在硬件上盡可能復(fù)制 SC2LE 的架構(gòu)。通過訓(xùn)練智能體 --test 模組 100 個(gè)迭代,計(jì)算總獎(jiǎng)勵(lì)值,收集結(jié)果。表中列出的是平均值、標(biāo)準(zhǔn)差(在括號(hào)中),以及最小&最大值(在方括號(hào)中)。
訓(xùn)練細(xì)節(jié),注意這些訓(xùn)練時(shí)間都是在配置了 Intel i5-7300HQ CPU (4 核) 和 GTX 1050 GPU 的筆記本上得到的。我并沒有花費(fèi)太多時(shí)間來調(diào)超參數(shù),而是先展示其可學(xué)習(xí)性,但至少在 MoveToBeacon 環(huán)境中,我已經(jīng)顯著地降低了訓(xùn)練樣本數(shù)。
不同環(huán)境下的 RMe 學(xué)習(xí)曲線和標(biāo)準(zhǔn)差。
超強(qiáng)干貨來襲 云風(fēng)專訪:近40年碼齡,通宵達(dá)旦的技術(shù)人生總結(jié)
以上是生活随笔為你收集整理的要玩转这个星际争霸II开源AI,你只需要i5+GTX1050的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 每周一个 Python 模块 | cal
- 下一篇: re:Invent 大会第一天,看看AW