Deepmind顺练了人工智能14天成为星海2最强玩家
Deepmind的人工智能AlphaStar,在2018年12月19日一系列的星海爭霸 2(StarCraft II)測試賽中,以5比0打贏世界頂尖職業(yè)玩家,Deepmind現釋出了訓練人工智能的細節(jié)。Deepmind提到,游戲一直是測試和評估人工智能效能的重要方法,而即便人工智能游玩Atari、馬力歐甚至是Dota 2等游戲已經有很大的進展,人工智能在操作星海爭霸 2上,仍然難以克服其復雜度。暴雪娛樂公司的星海爭霸 2,被認為是極具挑戰(zhàn)的實時戰(zhàn)略游戲之一,而且過去即便是讓計算機作弊,在游戲規(guī)則上動手腳,賦予計算機特殊能力,都難以與專業(yè)玩家匹敵。
不過現在,Deepmind的人工智能AlphaStar,已經能以深度神經網絡完整游玩星海爭霸 2,而且還能碾壓世界排名前十的職業(yè)玩家。該神經網絡透過監(jiān)督式學習和增強學習,直接以原始游戲數據進行訓練。星海爭霸 2有許多種玩法,但在電子競技中,最常見的形式是進行5場1對1的錦標賽,玩家可以選擇各有特色的蟲族、神族或人類種族。AlphaStar以神族與頂尖人類玩家交手,第一次是與德國頂尖玩家Dario Wünsch(代號TLO)進行對戰(zhàn),AlphaStar以5比0贏得了比賽,Dario Wünsch對人工智能的強度感到驚訝,并表示AlphaStar使用了過去他沒想過的策略。第二次則是與世界排名前十強的職業(yè)神族玩家Grzegorz Komincz(代號MaNa)進行對戰(zhàn),依然以5比0取得完勝,Grzegorz Komincz表示,AlphaStar在每場游戲都采用不同的策略,并且以非常人性化的方式進行游戲。Deepmind提到,人工智能要贏得游戲,除了必須謹慎地平衡經濟發(fā)展,也需要微觀的對各單位進行細微控制,要在短期與長期目標之間取得平衡以適應意外狀況。星海爭霸中沒有單一最佳策略,人工智能需要在訓練過程,不斷探索以及拓展戰(zhàn)略知識。而且不像是圍棋或是西洋棋公開所有游戲信息,在星海爭霸 2的關鍵玩家信息是隱藏的,必須透過偵查探索發(fā)現。另一個困難則是,人工智能需要有長期規(guī)畫的能力,并非所有因果關系都是實時發(fā)生的,整個游戲歷程可能長達一個小時才會結束,而這意味著早期采取的行動,或許有很長的一段時間無法獲得回報。在星海爭霸 2中,人工智能沒有太多的思考時間,不像傳統棋盤游戲是輪流進行,人工智能與玩家都必須隨著游戲時間推移,不斷地做出動作。人工智能還需要在大型的動作空間中做出決策,需要實時細微地控制數百個不同的單位和建筑物。由于以上這些困難,星海爭霸成為人工智能的大挑戰(zhàn),Deepmind在2016年和2017年跟暴雪娛樂公司合作,釋出了PySC2工具集,其包括至今最大的匿名游戲回放(Replay)集,Deepmind利用這些基礎,并搭配先進的工程技術和算法開發(fā)出AlphaStar。
AlphaStar的行為由深度神經網絡生成,該神經網絡接受原始游戲接口的輸入數據,并輸出一系列游戲內指令。AlphaStar還使用了一種先進的多代理學習算法,這個神經網絡最初是由暴雪釋出,能讓AlphaStar模擬星海爭霸天梯排位系統上的玩家對戰(zhàn),學習使用宏觀與微觀策略。AlphaStar使用這個初始代理人在95%的比賽中,擊敗了游戲內建的菁英級人工智能,相當于天梯中黃金等級的人類玩家。而這些被應用在多代理人增強學習的過程中,Deepmind創(chuàng)建了一系列連續(xù)的戰(zhàn)隊,戰(zhàn)隊互相對戰(zhàn),類似于人類玩家在天梯上對戰(zhàn)的情況。這種新形式的訓練方法,采用了基于人數的增強學習概念,創(chuàng)造不斷探索玩法的巨大戰(zhàn)略空間。Deepmind提到,隨著戰(zhàn)隊的進步,能夠發(fā)展出擊敗早期策略的反制策略,甚至是全新戰(zhàn)術以及微觀管理計劃,像是一開始人工智能喜愛使用神族的光炮或暗黑圣堂武士進行快攻,但這種充滿風險的策略在訓練過程被放棄,取而代之的是優(yōu)先擴大基地,生產更多任務人強化經濟實力,或是犧牲兩個先知單位,破壞對手的工人以壓制其經濟發(fā)展。這個策略發(fā)展的過程,跟玩家發(fā)現新策略的方式相似。AlphaStar在手速上并沒有作弊,星海爭霸職業(yè)玩家平均每分鐘動作(APM)可達數百個,現有機器人的APM約在數千到數萬間,但是AlphaStar的平均APM約為280,明顯的低于職業(yè)玩家,Deepmind表示,AlphaStar動作數更低表示每個動作都更加準確,平均觀察并執(zhí)行動作的延遲約在350毫秒。信息來源:www.cafes.org.tw/info.asp
總結
以上是生活随笔為你收集整理的Deepmind顺练了人工智能14天成为星海2最强玩家的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 男子商场抱起小女孩致其坠落 警方:嫌疑人
- 下一篇: Firefox 66 将自带自动屏蔽声音