腾讯绝悟AI完全体限时开放体验,研究登上国际顶会与顶刊
感謝閱讀騰訊AI Lab微信號第112篇文章。本文將介紹絕悟 AI 完全體升級版本的技術方法,也歡迎讀者到王者榮耀 app 親身體驗其技術實力。
騰訊 AI Lab 宣布與王者榮耀聯合研發的策略協作型 AI“絕悟”推出升級版本。
創新算法突破了可用英雄限制(英雄池數量從40增為100+),讓 AI 完全掌握所有英雄的所有技能,能應對高達10的15次方的英雄組合數變化;
優化了禁選英雄(BanPick,簡稱BP)博弈策略,能綜合自身技能與對手情況等多重因素派出最優英雄組合。
相關研究已被 AI 頂級會議 NeurIPS 2020 與頂級期刊 TNNLS 收錄,展現出騰訊國際一流的 AI 研究與應用能力。
強化學習相關研究被 AI 頂級會議 NeurIPS 2020 收錄
論文地址:https://arxiv.org/abs/2011.12692
絕悟「完全體」版本會在王者榮耀 app 限時開放,讓公眾親身體驗 AI 在復雜策略、團隊協作與微觀操作方面的強大能力。活動時間為 11 月 14 日至 30 日,絕悟在 20 個關卡的能力會不斷提升,最強的 20 級于 11 月 28 日開放,接受 5v5 組隊挑戰。
AI 策略:紅方 AI 鎧大局觀出色,繞后蹲草叢扭轉戰局
AI微操:藍方 AI 小規模交鋒精細操作化解攻勢
AI協作:藍方AI團戰完美配合以少勝多
Ai微操:AI公孫離完美連招一秀三反殺
40個到100+,英雄池完全解禁
少林有七十二藝,功夫既有不同,練習之法,亦必各異。學者茍能盡之,則無敵于世矣。
在王者榮耀中,若每個職業都有4個紫色熟練度英雄,你就能解鎖“全能高手”稱號。但因為練習時間與精力限制,很少有人能精通所有英雄。
但絕悟 AI 做到了。技術團隊一年內讓它掌握的英雄數從1個增加到100+個,完全解禁英雄池,此版本因此得名“絕悟完全體”。
絕悟AI能力演進路線,從MOBA 新手玩家到職業水平
絕悟 AI 的不同英雄會共享一個模型參數,從零學會單個陣容易如反掌,但面對多英雄組合時就難如登天。在對戰中,因為地圖龐大且信息不完備,不同的10個英雄組合應該有不同的策略規劃、技能應用、路徑探索及團隊協作方式,這將使決策難度幾何級增加并且,多英雄組合也帶來了“災難性遺忘”問題,模型容易邊學邊忘,這成了長期困擾開發者的大難題。
為了應對多英雄組合問題,技術團隊先采用引入“老師分身”模型,每個AI老師在單個陣容上訓練至精通,再引入一個 AI 學生模仿學習所有的AI老師,最終讓“絕悟”掌握了所有英雄的所有技能,成為一代宗師。
團隊的長期目標,就是要讓“絕悟”手握強兵,學會所有英雄的技能,且每個英雄都能達到頂尖水平,因此在技術上做了三項重點突破:
團隊首先構建了一個最佳神經網絡模型,讓模型適配MOBA類任務、表達能力強、還能對英雄操作精細建模。模型綜合了大量AI方法的優勢,具體而言,在時序信息上引入長短時記憶網絡(LSTM)優化部分可觀測問題,在圖像信息上選擇卷積神經網絡(CNN)編碼空間特征,用注意力(Attention)方法強化目標選擇,用動作過濾(Action Mask)方法提升探索效率,用分層動作設計加快訓練速度,用多頭值估計(Multi-Head Value)方法降低估計方差等。
網絡架構
其次,團隊研究出了拓寬英雄池,讓“絕悟“掌握所有英雄技能的訓練方法——CSPL(Curriculum Self-Play Learning,課程自對弈學習)。這是一種讓 AI 從易到難的漸進式學習方法:
第一步是挑選多組覆蓋全部英雄池的陣容,在小模型下用強化學習訓練,得到多組“教師分身”模型。
第二步是蒸餾,把第一步得到的多個模型的能力遷移到同一個大模型中。
第三步是隨機陣容的強化訓練,在蒸餾后的大模型里,隨機挑選陣容繼續強化訓練和微調。通過多種傳統和新穎技術方法的結合,實現了在大的英雄池訓練,同時還能不斷擴展的目標。
CSPL流程圖。設計思想:任務由易到難,模型從簡單到復雜,知識逐層深入。
使用CSPL方法擴展英雄池有明顯優勢
第三,團隊還搭建了大規模訓練平臺——騰訊開悟(aiarena.tencent.com),依托項目積累的算法經驗、脫敏數據及騰訊云的算力資源,為訓練所需的大規模運算保駕護航。開悟平臺于今年 8 月對 18 所高校開放,未來希望為更多科研人員提供技術與資源支持,深化課題研究。
排兵布陣靠“AI教練”智用田忌賽馬術
一場比賽中,勝負的關鍵不僅在于擁有“絕悟”這樣的頂尖選手,排兵布陣的教練也非常重要。從古時的田忌賽馬,到足球場上的攻防策略,莫不是一個博弈的過程。團隊的第二個目標,就是為“絕悟”找到一個能排兵布陣的AI教練,也就是在游戲BP環節(禁選英雄)的最優策略。
絕悟 vs 人類BP測試
簡單的做法是選擇貪心策略,即選擇當前勝率最高的英雄。但王者榮耀有上百個英雄,任意英雄間都有或促進或克制的關系,只按勝率選擇很容易被對手針對,更需要綜合考慮敵我雙方、已選和未選英雄的相關信息,最大化己方優勢,最小化敵方優勢。
受到圍棋 AI 算法的啟發,團隊使用蒙特卡洛樹搜索(MCTS)和神經網絡結合的 自動 BP 模型。MCTS 方法包括了選擇、擴張、模擬和反向傳播四個步驟,會不斷迭代搜索,估算出可選英雄的長期價值。因為其中模擬部分最耗時,團隊用估值神經網絡替代該環節,加快了搜索速度,就能又快又準地選出具備最大長期價值的英雄。要提到的是,圍棋等棋牌類游戲結束就能確定勝負,但 BP 結束只到確定陣容,還未對戰,所以勝負未分。因此團隊利用絕悟自對弈產生的超過3000萬條對局數據訓練出一個陣容勝率預測器,用來預測陣容的勝率。進一步的,勝率預測器得到的陣容勝率被用來監督訓練估值網絡。
除了常見的單輪 BP ,AI 教練還學會了王者榮耀 KPL 賽場上常見的多輪 BP 賽制,該模式下不能選重復英雄,對選人策略要求更高。團隊因此引入多輪長周期判定機制,在BO3/BO5賽制中可以全局統籌、綜合判斷,做出最優 BP 選擇。訓練后的 BP 模型在對陣基于貪心策略的基準方法時,能達到近70%勝率,對陣按位置隨機陣容的勝率更接近90%。
至此,絕悟前有多個強兵,后有軍師輔佐,不折不扣的一代宗師終于練成了。
研發拓展,從監督學習到強化學習,再回到監督學習
團隊同時研發了監督學習(SL)方法,針對大局觀和微操策略同時建模,讓絕悟同時擁有優秀的長期規劃和即時操作,達到了非職業玩家的頂尖水平。相關技術成果曾在2018年12月公開亮相對戰人類玩家。其實,團隊對于監督學習的研發一直在持續進行中。今年11月14日起開放的絕悟第1到19級,就有多個關卡由監督學習訓練而成。
監督學習方法論文地址:https://arxiv.org/abs/2011.12582
雖然在理論上,監督學習訓練出的 AI 表現會遜于強化學習的結果,但此類研究極具研究與應用價值,相關技術成果還入選了頂級期刊 TNNLS 。
研究方法論上看,監督學習對于AI智能體的研發有很高的價值。首先,通過挖掘人類數據預測未來的監督學習是通常是研發游戲 AI 的第一步,并在眾多視頻游戲上取得良好效果。比如在明星大亂斗等復雜電子游戲中,純監督學習能也學到達到人類高手玩家水平的AI智能體。第二,它能復用為強化學習的策略網絡,如 AlphaGo 就是監督學習結合強化學習。第三,它還能縮短強化學習探索時間,比如 DeepMind的星際爭霸AI AlphaStar 就用監督學習做強化訓練的隱含狀態。
應用上它更是具有諸多優點,比如訓練快,在16張 GPU 卡上只需幾天,而強化學習則需幾個月。其次,拓展能力強,能完成全英雄池訓練。最后,其使用真實玩家的脫敏數據,配合有效采樣,產出的 AI 行為上會更接近人類。
網絡架構
技術應用
絕悟一方面將發力電子競技領域。作為數字時代最受年輕人歡迎的運動,電競已于2018年成為亞運會表演項目,中國隊參賽獲兩金一銀的佳績。與傳統體育項目一樣,電競職業選手也需要手眼腦協調、策略和操作快速反應、團隊協作精神及大量刻苦訓練。借助在算法和數據方面的優勢,絕悟可為職業選手提供數據、戰略與協作類實時分析與建議,及不同強度與級別的專業陪練。以前沿科技推動電競專業化發展,AI 將繼續推動中國電競在全球范圍內保持領先。另一方面,絕悟能夠參與游戲設計,比如英雄角色的平衡性測試與參數調整,提高測試效率,優化角色平衡性,還可參與MOBA新地圖研發等。
生態建設
騰訊 AI Lab 還與王者榮耀聯合推出了AI+游戲開放平臺「開悟」,打造產學研生態。王者榮耀開放脫敏數據、游戲核心集群(Game Core)和工具,騰訊AI Lab開放強化學習、模仿學習的計算平臺和算力,邀請高校與研究機構共同推進AI前沿研究,讓開悟成為展示多智能體領先研究的舞臺。開悟將在2020年12月舉辦第一屆水平測試。
長遠目標
騰訊 AI Lab 不僅研究王者榮耀為代表的MOBA類游戲,還同步推進了多類AI+游戲研究。在棋牌類,研發了三年內奪得四次世界冠軍、擔任中國國家圍棋隊陪練的AI「絕藝」;在RTS類游戲代表星際爭霸2里,在一個不完全信息博弈場景,需在復雜連續的決策空間下進行面向長期決策的決策的游戲中,研發出首個能在「星際爭霸 II」全場游戲中打敗「開掛」內置 AI 的智能體;在FPS射擊類游戲中,我們著力解決3D環境建模、感知實現視角的轉換和移動尋人等難題,先是奪得了VizDoom AI競賽歷史上首個中國區冠軍,然后FPS AI上線手游《穿越火線-槍戰王者(CFM)》廣獲好評。
長遠來看,AI+游戲研究將是騰訊攻克 AI 終極研究難題——通用人工智能(AGI)的關鍵一步。AGI 代表研發能在通用系統中執行多種復雜命令,達到或超越人類水平的 AI ,從絕藝到絕悟,不斷讓 AI 從0到1去學習進化,并發展出一套合理的行為模式,這中間的經驗、方法與結論,長期來看,有望在大范圍內,如醫療、制造、無人駕駛、農業到智慧城市管理等領域帶來更深遠影響。
?了解更多:
AI超會團!策略協作型AI“絕悟”首次露面KPL總決賽驚艷全場!
騰訊策略協作型 AI「絕悟」升級至王者榮耀電競職業水平
騰訊AI Lab x 王者榮耀:開放讓「AI+游戲」想象力落地
騰訊「絕悟」AI 1v1版論文入選 AAAI,啟動AI+游戲開放平臺「開悟」內測
策略協作型AI“絕悟”限時挑戰活動,等你來戰!
* 歡迎轉載,請注明來自騰訊AI Lab微信(tencent_ailab)
總結
以上是生活随笔為你收集整理的腾讯绝悟AI完全体限时开放体验,研究登上国际顶会与顶刊的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯与中国人民大学开源最新研究成果:3T
- 下一篇: 大牛书单 | 搜索大牛都读什么书?