算法全覆盖,还能玩星际争霸,开源决策智能平台OpenDILab面世
開源是推動人工智能技術(shù)進(jìn)步的重要力量。
近年來,AI 開發(fā)者們也一直在享受著開源帶來的技術(shù)紅利:前沿算法、數(shù)據(jù)、AI框架、甚至算力。這些開源資源為開發(fā)者們帶來了極大的便利,而反過來,通過匯聚開發(fā)者們的力量,這些開源項(xiàng)目也得到了極大的發(fā)展。
在意識到開源的力量之后,國內(nèi)高校、企業(yè)也紛紛加入到開源社區(qū)。
7 月 8 日,在 2021 世界人工智能大會上,上海人工智能實(shí)驗(yàn)室就做出了開源新動作:開源決策智能平臺 OpenDILab。
2021WAIC大會科學(xué)前沿全體會議上,上海人工智能實(shí)驗(yàn)室青年科學(xué)家劉宇博士發(fā)布OpenDILab開源決策AI平臺
據(jù)介紹,它是首個覆蓋最全學(xué)術(shù)界算法和工業(yè)級規(guī)模的決策 AI 平臺。也就是說,OpenDILab 不僅實(shí)現(xiàn)了最全面的算法覆蓋,例如強(qiáng)化學(xué)習(xí),還提供了豐富的工業(yè)級應(yīng)用環(huán)境,可應(yīng)用于自動駕駛、游戲競技等領(lǐng)域。
如今,OpenDILab 已經(jīng)被放到 Github 上。就讓我們對此項(xiàng)目一探究竟。
GitHub:
https://github.com/opendilab/
為什么要開源OpenDILab?
首先,為什么要做這樣一個平臺??
我們知道,過去 10 年,感知 AI 已經(jīng)讓機(jī)器具備了從「看清」到「看懂」的能力,例如,給定一張貓的圖片,機(jī)器能夠判別出這是一只貓。
然而相較于這種感知層面的人工智能,決策 AI 問題是一項(xiàng)更加復(fù)雜的任務(wù),它需要進(jìn)行推理、決策、規(guī)劃等。
因此,決策 AI 是下一代 AI 的重要方向已經(jīng)是業(yè)界共識。
目前決策 AI 主要存在兩大難題:
一是決策類問題因涉及多模態(tài)數(shù)據(jù)空間、跨尺度計算邏輯、多領(lǐng)域算法融合,這些問題很難標(biāo)準(zhǔn)化。與感知類 AI 單純的視覺信息不同,決策類 AI 通常需要同時處理諸如圖像、語音、結(jié)構(gòu)化數(shù)據(jù)等多種復(fù)雜模態(tài)的數(shù)據(jù)類型。此外,單機(jī)單卡與多機(jī)多卡甚至跨集群計算的決策 AI 計算邏輯也完全不同。不同任務(wù)間的最優(yōu)算法配置也差別較大。
二是作為一個前沿領(lǐng)域,決策 AI 的問題定義和研究視角在學(xué)術(shù)界和工業(yè)界之間存在巨大差距,諸多新奇的學(xué)術(shù)算法缺少環(huán)境和計算 pipeline 上的通用性,很多情況下只能局限于 toy model 級別的實(shí)驗(yàn)環(huán)境,無法轉(zhuǎn)化到真正的工業(yè)場景上去,而從工業(yè)界本身來看,如何將實(shí)際問題抽象為適合現(xiàn)有的決策 AI 算法解決的環(huán)境,仍是阻礙決策 AI 技術(shù)應(yīng)用實(shí)踐的核心門檻。
針對決策 AI 的技術(shù)難題,以及產(chǎn)學(xué)研協(xié)同創(chuàng)新過程中的困難,上海人工智能實(shí)驗(yàn)室開源了 OpenDILab 平臺。它首次將產(chǎn)業(yè)應(yīng)用中對于訓(xùn)練系統(tǒng)、環(huán)境接口、算法設(shè)計的需求與學(xué)術(shù)界進(jìn)行了有效連接。
作為一套完備的決策 AI 訓(xùn)練與組織框架,OpenDILab 平臺自頂而下覆蓋了應(yīng)用層、算法層、訓(xùn)練層和支持層,適配了從單機(jī)到服務(wù)器集群規(guī)模的全尺度高效訓(xùn)練 pipeline。?
OpenDILab平臺概覽
·?應(yīng)用層:涵蓋多種決策場景,支持多模態(tài)數(shù)據(jù)空間的表示和變換,并提供大量性能優(yōu)異的算子,助力 AI 做出最優(yōu)決策;
· 算法層:提供多種常用模塊化組件,可在此基礎(chǔ)上構(gòu)建不同的算法模型,支持用戶多維度的擴(kuò)展和定制,完成決策 AI 算法的大統(tǒng)一;
·?訓(xùn)練層:內(nèi)置多種類型的執(zhí)行計算圖,并深度優(yōu)化了相應(yīng)數(shù)據(jù)吞吐和資源利用率,可為小到學(xué)術(shù)研究,大到工業(yè)級應(yīng)用的多種規(guī)模問題提供支持;
· 支持層:嘗試了 CUDA 異構(gòu)計算和決策 AI 算法的結(jié)合,而在資源調(diào)度方面,OpenDILab 可依據(jù)算法和資源,動態(tài)管理整個訓(xùn)練過程,提供異常自動化維護(hù)等多種微服務(wù)。作為一個系統(tǒng)工程,OpenDILab 為 AI+SYSTEM 帶來了全新形態(tài)。
一鍵實(shí)現(xiàn)決策算法與應(yīng)用
OpenDILab (beta) 開源后,研究者和開發(fā)者們可以訪問 github,獲取最強(qiáng)最全的決策 AI 算法 Zoo,查看自動駕駛、游戲 AI 等工業(yè)問題在 OpenDILab 平臺加持下的具體實(shí)踐,以及諸多決策 AI 系統(tǒng)設(shè)計和優(yōu)化的相關(guān)組件。
在 OpenDILab(beta)的開源版本里,我們可以看到它已經(jīng)開放了四個核心代碼庫,最底層的 DI-engine,致力于解決決策 AI 環(huán)境算力標(biāo)準(zhǔn)化的訓(xùn)練問題;中層的算法抽象層 DI-zoo,提供了目前最全最強(qiáng)的決策 AI 算法集合。還有頂部應(yīng)用生態(tài)層,開源了基于 DI-engine 的自動駕駛決策平臺 DI-drive 和面向策略游戲《星際爭霸II》的大規(guī)模分布式訓(xùn)練平臺 DI-star。
DI-engine 是一個通用的決策智能引擎,不僅支持 DQN、PPO、SAC 等大多數(shù)基礎(chǔ)的深度強(qiáng)化學(xué)習(xí)(DRL)算法,而且支持諸多特定研究領(lǐng)域的算法,如多智能體 RL 中的 QMIX、逆向 RL 中的 GAIL 和探索和稀疏獎勵問題中的 HER,RND 等等。對于每種算法,可以從多種環(huán)境和多種訓(xùn)練 pipeline 的角度探索決策 AI 技術(shù)的不同形態(tài)。
DI-zoo 則可以為開發(fā)者提供當(dāng)前最全、最強(qiáng)的決策 AI 算法集,擁有包括強(qiáng)化學(xué)習(xí)、MARL、MCTS 等 20 多種跨領(lǐng)域決策 AI 算法,支持 10 多個決策 AI 環(huán)境,并原生集成了大量研究員的算法調(diào)優(yōu)經(jīng)驗(yàn)。這為開發(fā)者省去了調(diào)參困擾,方便在統(tǒng)一平臺對比性能。
而說到應(yīng)用層的兩個代碼庫:DI-star、DI-drive,可以說是研究決策 AI 最合適的場景。
從國際象棋、圍棋到麻將、斗地主,各類游戲一直都是 AI 挑戰(zhàn)的對象,而這些復(fù)雜的游戲也成為了研究 AI 技術(shù)的絕佳場景。星際爭霸 2 作為目前難度最高的游戲之一,為檢驗(yàn)人工智能決策能力提供了合適的舞臺。
基于 DI-engine 的底層支持和大規(guī)模分布式深度強(qiáng)化學(xué)習(xí)訓(xùn)練技術(shù),DI-star 打造出了人類大師分段水平星際爭霸 2 智能體,并把完整的技術(shù)實(shí)現(xiàn)細(xì)節(jié)和與人機(jī)對戰(zhàn)測試(僅需 Windows 系統(tǒng) + 1060 以上顯卡)開放給所有人,希望借此促進(jìn)通用人工智能的研究。
同時 OpenDILab 團(tuán)隊(duì)也希望借助 DI-star,匯聚更多社區(qū)開發(fā)者的力量優(yōu)化大規(guī)模深度強(qiáng)化學(xué)習(xí)訓(xùn)練效率等方面的問題,將 AlphaStar 級別的智能體設(shè)計簡化到原來的 1/20~1/30。
自動駕駛同樣也是當(dāng)前人工智能的熱門研究方向。決策、規(guī)劃與控制是自動駕駛?cè)蝿?wù)的大腦,被各大公司視作高度保密技術(shù)。DI-drive 是自動駕駛領(lǐng)域第一個開源的,人人可以參與的研究平臺。
DI-drive 支持各種模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等決策算法,支持多模態(tài)類型的輸入輸出,支持高度定制的可視化模塊,為自動駕駛和決策 AI 搭建了至關(guān)重要的橋梁。DI-drive 還自主研發(fā)設(shè)計了 Casezoo 這一從實(shí)車采集數(shù)據(jù)轉(zhuǎn)化而成的測試場景,在及貼近真實(shí)的駕駛環(huán)境中訓(xùn)練和測試決策模型,促進(jìn)自動駕駛領(lǐng)域仿真研究在實(shí)車環(huán)境中的推廣和應(yīng)用。
未來,OpenDILab 還將提供諸如 AutoML、信控等更多的工業(yè)級生態(tài)應(yīng)用,加速下一代人工智能的重大技術(shù)突破和創(chuàng)新應(yīng)用的落地。
而對我們開發(fā)者來說,一個開源平臺是否有意義在于能為我們帶來哪些方面的增益,OpenDILab 平臺的開源也不例外。?
無論你是想入門決策 AI 的技術(shù)萌新,還是志在探索算法真理的研究員,又或是想應(yīng)用決策 AI 技術(shù)到各類實(shí)際應(yīng)用中的工程師,都可以通過 OpenDILab 平臺獲得在算法,系統(tǒng),工程等方面的經(jīng)驗(yàn)和工具支持。而現(xiàn)今開源的 OpenDILab (beta) ,也正在期待更多的開發(fā)者使用、反饋并逐漸完善它,整個社區(qū)一起共同構(gòu)建最強(qiáng)最好用的決策 AI 平臺。
Exploration and Exploitation,就從現(xiàn)在開始!
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的算法全覆盖,还能玩星际争霸,开源决策智能平台OpenDILab面世的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 花呗怎么转账给朋友
- 下一篇: 节省显存新思路,在PyTorch里使用2