腾讯AI×王者荣耀「绝悟」项目首亮相:KPL秋季决赛击败顶尖战队
機(jī)器之心報道
機(jī)器之心編輯部
人工智能下圍棋很在行,但在更為復(fù)雜的多人游戲上水平如何?前一陣,OpenAI 就瞄準(zhǔn)了著名 MOBA 游戲 Dota 2,結(jié)果在 TI8 上輸?shù)煤翢o還手之力。那么在手機(jī)游戲方面呢?在騰訊 AI Lab 的最新研究中,AI 在《王者榮耀》中與前 1% 玩家的對戰(zhàn)中達(dá)到 48% 勝率。
據(jù)機(jī)器之心了解,這是騰訊 AI Lab 與王者榮耀共同探索的研究項目——策略協(xié)作型 AI「絕悟」首次露面,并于昨天在KPL秋季決賽接受前職業(yè) KPL 選手辰鬼、零度和職業(yè)解說白樂、九天和立人組成的人類戰(zhàn)隊(平均水平超過 99% 玩家)的水平測試。最終 AI 戰(zhàn)隊獲得勝利。這是繼圍棋 AI「絕藝」后,騰訊 AI 在深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)領(lǐng)域的又一項前沿研究。
其實,騰訊 AI Lab 一直以來都在研究如何使用人工智能來打王者榮耀,我們可以從一些論文和演講中略知一二。今年五月,他們和匹茨堡大學(xué)的研究人員曾經(jīng)向 AI 頂級會議 ICML 2018 提交了一篇論文,其中人們嘗試了 AlphaGo Zero 中出現(xiàn)的蒙特卡洛樹搜索(MCTS)等技術(shù),并取得了不錯的效果。
那時,人工智能還只能玩狄仁杰一個英雄。幾個月后,它們已經(jīng)可以「五人」組隊,在王者段位和人類玩家打得有來有回了。
那么問題來了:王者榮耀的「前 1%」玩家是有多強(qiáng)?作為流行手機(jī)游戲,王者榮耀自上線到現(xiàn)在已經(jīng)有三年了,有的高手早早就上了王者,但大部分都還卡在鉆石和鉑金段位上。今年 10 月,騰訊官方統(tǒng)計了王者榮耀玩家的段位分布圖:
看起來,能和 AI 打的至少需要是「最強(qiáng)王者」級別水平的玩家。
以下是騰訊 AI Lab 在 arXiv 上傳的最新一篇論文《Hierarchical Macro Strategy Model for MOBA Game AI》的相關(guān)內(nèi)容:
AlphaGo 打敗世界冠軍李世乭讓我們看到了通用人工智能的曙光(Silver et al. 2016)。從那時起,游戲 AI 不僅引起了研究者的注意,還吸引了大量來自公眾的目光。游戲 AI 的目標(biāo)遠(yuǎn)不止玩游戲的機(jī)器人那么簡單。游戲為模擬真實世界提供了理想的環(huán)境。AI 研究人員可以在游戲中開展實驗,并將卓越的 AI 能力應(yīng)用到現(xiàn)實世界。
盡管 AlphaGo 是通往通用人工智能的里程碑,但與現(xiàn)實世界相比,它所解決的問題仍然非常簡單。因此,研究者們近來更加關(guān)注即時戰(zhàn)略游戲(RTS),如 Dota(OpenAI 2018a)、星際爭霸(Vinyals et al. 2017; Tian et al. 2017),這些游戲涉及的問題更加復(fù)雜。Dota 是一款著名的奇幻 5v5 多人在線戰(zhàn)術(shù)競技游戲(MOBA)。每個玩家控制一個英雄,與其他四個隊友一起保護(hù)防御塔,攻擊敵人的防御塔并通過殺死小兵收集資源。他們的目標(biāo)是摧毀敵人的基地。
作為 MOBA 游戲,王者榮耀內(nèi)含防御塔、野區(qū)、裝備等機(jī)制。
與圍棋相比,RTS 游戲的難度主要體現(xiàn)在四個方面:1)計算復(fù)雜度。RTS 游戲動作空間和狀態(tài)空間的計算復(fù)雜度可能達(dá)到 10^20,000,但圍棋的復(fù)雜度只有 10^250 左右(OpenAI 2018b)。2)多智能體。RTS 游戲通常包含多個智能體。多個智能體協(xié)調(diào)、合作非常關(guān)鍵。3)信息不完整。與圍棋不同,許多 RTS 游戲利用戰(zhàn)爭迷霧(Vinyals et al. 2017))來增加游戲難度。4)獎勵稀疏、延遲。在圍棋中,基于游戲獎勵進(jìn)行學(xué)習(xí)的挑戰(zhàn)性在于稀疏和延遲。RTS 游戲長度通常大于 20,000 幀,而每局圍棋通常不超過 361 步。
圍棋和 MOBA 的計算復(fù)雜度對比。
為了掌握 RTS 游戲,玩家在宏觀戰(zhàn)略操作和微觀執(zhí)行方面都要有很強(qiáng)的技巧。在最近的研究中,大多數(shù)注意力和研究都集中在微觀執(zhí)行方面 (Vinyals et al. 2017; Tian et al. 2017; Synnaeve and Bessiere 2011; Wender and Watson 2012)。到目前為止,由 OpenAI 開發(fā)的 Dota2 AI 使用的是強(qiáng)化學(xué)習(xí),OpenAI Five 已經(jīng)取得了最先進(jìn)的成果 (OpenAI 2018a)。OpenAI Five 是通過最近的策略優(yōu)化算法和團(tuán)隊獎勵直接在微觀動作空間上訓(xùn)練的 (Schulman et al. 2017)。在 2018 年的國際比賽(DOTA2 2018)中,相比頂尖的職業(yè) Dota2 隊伍,OpenAI 展示出了強(qiáng)大的團(tuán)隊?wèi)?zhàn)斗技能與合作意識。OpenAI 的方法沒有明確地模擬宏觀戰(zhàn)略,而是使用微觀操作來學(xué)習(xí)整個游戲。然而,由于宏觀戰(zhàn)略管理薄弱,OpenAI Five 無法擊敗職業(yè)隊伍 (Vincent 2018; Simonite 2018)。
關(guān)于明確的宏觀戰(zhàn)略操作的研究已經(jīng)做了不少,大部分都集中在導(dǎo)航上。導(dǎo)航旨在為智能體提供合理的目的地和有效的路徑。大部分關(guān)于導(dǎo)航的研究都使用勢力圖(influence map)或勢場法(potential field)(DeLoura 2001; Hagelb?ck and Johansson 2008; do Nascimento Silva and Chaimowicz 2015)。勢力圖使用手工制作的方程式量化單元。然后,使用規(guī)則將多個勢力圖融合,以提供單值輸出來為智能體導(dǎo)航。
就宏觀戰(zhàn)略操作而言,為智能體提供目的地是最重要的導(dǎo)航目的。在正確的時間到達(dá)正確的地點至關(guān)重要,這也是高級玩家和其他玩家之間的區(qū)別。在宏觀戰(zhàn)略操作中還使用了規(guī)劃。Ontanon 等人提出用對抗分層任務(wù)網(wǎng)絡(luò)(AHTN)規(guī)劃(Ontanón and Buro 2015)來搜索 RTS 游戲中的分層任務(wù)。雖然 AHTN 在 mini-RTS 游戲中展示出了一定的前景,但它存在效率問題,這也導(dǎo)致很難將其直接應(yīng)用于完整的 MOBA 游戲中。
雖然文獻(xiàn)很多,但以前關(guān)于宏觀戰(zhàn)略的研究終究沒能提供完整的解決方案:
首先,通過在微觀動作空間層面學(xué)習(xí)來隱式地推理宏觀戰(zhàn)略可能會很困難。OpenAI Five 在微觀執(zhí)行和宏觀戰(zhàn)略操作方面的能力差距很明顯。如果想讓模型通過簡單地觀察微觀動作和獎勵后想出高級戰(zhàn)略,這顯然是過于樂觀的。作者認(rèn)為明確的宏觀戰(zhàn)略建模十分必要。
其次,先前關(guān)于明確的宏觀戰(zhàn)略的研究過于依賴于手工繪制的方程式來計算和融合勢力圖/勢場法。在實際操作中,通常有成千上萬的參數(shù)需要手動決定,因此幾乎不可能實現(xiàn)良好的性能。而另一方面,規(guī)劃方法無法滿足完整 MOBA 游戲的效率要求。
第三,RTS 游戲宏觀戰(zhàn)略操作中最具挑戰(zhàn)性的問題之一是多個智能體之間的協(xié)調(diào)。然而,據(jù)作者所知,先前的研究并沒有明確地考慮這一點。OpenAI Five 雖然在微觀建模中使用了團(tuán)隊獎勵來考慮多智能體協(xié)調(diào)問題,但每個智能體在獨立做決定時并沒有考慮隊友的宏觀戰(zhàn)略決策,因此它很難在宏觀戰(zhàn)略級別發(fā)揮出最好的協(xié)調(diào)能力。
最后,作者發(fā)現(xiàn)建模戰(zhàn)略階段對 MOBA 游戲中 AI 的表現(xiàn)至關(guān)重要。然而,據(jù)其所知,先前的研究同樣沒有考慮到這一點。
然而,教智能體學(xué)習(xí)宏觀戰(zhàn)略操作頗具挑戰(zhàn)性。首先,從數(shù)學(xué)上定義宏觀戰(zhàn)略,如圍攻和分線推進(jìn)就很困難。此外,在 OpenAI Five 的強(qiáng)化學(xué)習(xí)框架(OpenAI 2018a)上加入宏觀戰(zhàn)略需要相應(yīng)的執(zhí)行才能獲得獎勵,但學(xué)習(xí)宏觀戰(zhàn)略操作本身就是很復(fù)雜的過程。因此,作者認(rèn)為監(jiān)督學(xué)習(xí)是更好的方案,因為可以充分利用高質(zhì)量游戲的回放來學(xué)習(xí)宏觀戰(zhàn)略以及相應(yīng)的執(zhí)行示例。需要注意的是,通過監(jiān)督學(xué)習(xí)學(xué)到的宏觀戰(zhàn)略和執(zhí)行可以進(jìn)一步作為強(qiáng)化學(xué)習(xí)的初始策略。
圖 1: (a) 王者榮耀游戲界面。玩家使用左下角的虛擬鍵控制移動,用右下角的鍵控制技能。玩家可以通過屏幕和左上角的小地圖來觀察環(huán)境。(b) MOBA 示例地圖。雙方隊伍分別用藍(lán)色和紅色表示,每隊擁有 9 個防御塔和 1 個基地。四個野區(qū)分別標(biāo)為 1、2、3、4。
MOBA AI 宏觀戰(zhàn)略架構(gòu)
MOBA AI 宏觀戰(zhàn)略模型的設(shè)計靈感來自人類玩家的戰(zhàn)略決策方式。在 MOBA 游戲中,經(jīng)驗豐富的人類玩家完全了解游戲的每個階段,如開啟期、對線期、游戲中期和游戲后期(Silva and Chaimowicz 2017)。在每個階段,玩家都要關(guān)注游戲地圖并根據(jù)情況決定將英雄派往何處。例如,在對線期,玩家會將更多的注意力放在自己的線路上,而不是支持隊友。但在游戲中期和后期,玩家會更加關(guān)注團(tuán)戰(zhàn)地點,向敵方的基地推進(jìn)。
宏觀戰(zhàn)略操作過程可以總結(jié)為「階段識別-> 注意力預(yù)測-> 執(zhí)行」。為了建模這一過程,作者提出了一個雙層宏觀戰(zhàn)略架構(gòu),如階段層和注意力層:
階段層旨在識別當(dāng)前游戲階段,這樣注意力層就能更清楚地知道應(yīng)該將注意力放在哪里。
注意力層旨在預(yù)測地圖上適合派遣英雄的最佳地點。
階段層和注意力層為宏觀執(zhí)行提供高級指導(dǎo)。下文將詳細(xì)說明建模細(xì)節(jié)。宏觀模型的網(wǎng)絡(luò)架構(gòu)幾乎與 OpenAI Five1(OpenAI 2018a)中用到的結(jié)構(gòu)一樣,只不過前者是以監(jiān)督學(xué)習(xí)的方式。經(jīng)過一些小幅修改,作者將其應(yīng)用到《王者榮耀》中,例如刪除 Teleport。
圖 2:分層宏觀戰(zhàn)略模型的網(wǎng)絡(luò)架構(gòu)
圖 4:(a)在階段層中建模的主要資源(即圖中圈出的防御塔、基地、龍和暴君)。(b)舉例說明階段層中的標(biāo)簽提取。
圖 5:為不同英雄角色學(xué)習(xí)的開放戰(zhàn)略之一。紅圈內(nèi)區(qū)域為最熱門區(qū)域。
圖 7:相層輸出上的 t-分布隨機(jī)近鄰嵌入。嵌入數(shù)據(jù)樣本按照不同的時間階段進(jìn)行著色。
論文:Hierarchical Macro Strategy Model for MOBA Game AI
論文鏈接:https://arxiv.org/abs/1812.07887
摘要:游戲 AI 的下一個挑戰(zhàn)是即時戰(zhàn)略游戲(RTS)。即時戰(zhàn)略游戲提供了部分可觀察的游戲環(huán)境,其中智能體之間交互的動作空間要比圍棋游戲大得多。掌握即時戰(zhàn)略游戲既需要強(qiáng)大的宏觀戰(zhàn)略,又需要微妙的微觀執(zhí)行操作。最近,微觀執(zhí)行層面已經(jīng)取得了很大進(jìn)展,但仍然缺乏針對宏觀戰(zhàn)略的完整解決方案。在本文中,作者提出了一種基于學(xué)習(xí)的新型分層宏觀戰(zhàn)略(Hierarchical Macro Strategy)模型,用于掌握 RTS 游戲的子類型——MOBA(多人在線戰(zhàn)術(shù)競技)游戲。通過用分層宏觀戰(zhàn)略模型訓(xùn)練,智能體可以明確做出宏觀戰(zhàn)略決策,并進(jìn)一步指導(dǎo)其微觀執(zhí)行。此外,雖然會利用一種新型的模擬跨智能體通信機(jī)制同時和隊友溝通,但每個智能體會做出獨立的戰(zhàn)略決策。作者在流行的 5V5 MOBA 游戲中對模型進(jìn)行全面評估。在與人類玩家隊伍(這些隊伍在玩家排行榜系統(tǒng)中排名前 1%)的競技中,由 5 個 AI 智能體組成的隊伍達(dá)到了 48% 的勝率。
機(jī)器之心CES 2019專題報道即將到來,歡迎大家積極關(guān)注。
點擊「閱讀原文」查看機(jī)器之心專題頁。
總結(jié)
以上是生活随笔為你收集整理的腾讯AI×王者荣耀「绝悟」项目首亮相:KPL秋季决赛击败顶尖战队的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: dubbo自定义异常传递信息丢失问题解决
- 下一篇: 继BERT之后,这个新模型再一次在11项