清华大学团队与腾讯AI Lab专项合作夺冠FPS游戏AI竞赛VizDoom
在荷蘭剛剛結束的 IEEE CIG 計算智能與游戲大會上,清華大學張鈸院士領導的人工智能創新團隊 TSAIL 在第一人稱射擊類游戲《毀滅戰士》(Doom)AI競賽 VizDoom(Visual Doom AI Competition) 上榮獲競賽? Track 1?的預賽和決賽冠軍,及 Track 2 預賽冠軍、決賽亞軍,成為賽事歷史上首個中國區冠軍。
該賽事研究得到了騰訊 AI Lab 犀牛鳥專項合作計劃的大力支持,研究過程中與騰訊 AI Lab 的資深研究員進行了密切合作。團隊負責人為清華大學TSAIL實驗室負責人朱軍教授,成員包括清華大學蘇航、黃世宇、閻棟、翁家翌及宋世虹,及騰訊AI Lab許佳、孫鵬等研究人員。
Track 1 官網:
https://www.crowdai.org/challenges/visual-doom-ai-competition-2018-singleplayer-track-1
Track 2 官網:
https://www.crowdai.org/challenges/visual-doom-ai-competition-2018-multiplayer-track-2?
1
2
3
4
圖1至圖4依次為: Track 1 預賽、Track 2 預賽、Track 1 決賽及 Track 2 決賽。點擊可放大圖片。
打 Doom 游戲的 AI
《毀滅戰士》是?ID Software 公司于 1993 年推出的FPS(First Person Shooter,第一人稱射擊)類游戲,作為該類型游戲開拓者,模式延續到《使命召喚》和《光環》等多個射擊游戲。AI 在游戲中能有畫面而無聲音信息,因此基于強化學習的 Bot 獲得的信息比人類還少,使該游戲成為了 AI研究熱門試驗場。
在深度學習和強化學習興起背景下,2016年,基于游戲的 ViZDoom AI競賽誕生,研究能獲取原始視覺信息的強化學習技術,因其高挑戰性吸引眾多頂級實驗室,如2016年冠軍 Facebook FAIR(Track 1) 和英特爾(Track 2) 、2017年冠軍 Marvin(Track 1) 和卡耐基梅隆大學(Track 2)。
比賽共分為兩個挑戰,Track 1是單人闖關模式,考核標準是最短時間內闖最多的關口。這是今年的新增項目,與以往經典的死亡競賽不同,需要AI能同時完成探索路徑、收集裝備、躲避陷阱、殺死怪物、尋找出口等諸多復雜任務,對AI的任務理解和環境認知能力要求極高。在53個國際參賽團提交的204個機器人中,只有6個團隊實現了有意義的闖關。
?
針對該復雜任務,TSAIL團隊提出了環境信息引導的分層強化學習技術,在對環境信息有效感知基礎上,融合環境反饋和強化學習的獎勵信號,引導分層強化學習訓練,使得AI闖關表現優異,預賽中以絕對優勢保持第一,直至決賽鎖定冠軍。
第二個挑戰 Track 2 是隨機對戰模式(Death Match),這是VizDoom的傳統項目,采用死亡競賽模式,要求參賽選手在同一個地圖里對殺10分鐘,AI要在保存自己的同時,盡量多的殺傷敵人。最后用Frags(=殺敵數量-自殺數量)定勝負。清華大學和騰訊AI Lab去年曾參賽并獲得優異成績。今年的比賽喜迎了33個參賽隊的152個機器人。
?
在 Track 2 中,TSAIL團隊針對目前強化學習中普遍存在的動作空間大和獎勵信號稀疏等問題,更改適配了輕量級物體檢測架構YOLO-v3,并與強化學習算法有效融合,極大提高了強化學習的訓了效率。預賽競爭異常激烈,TSAIL團隊與第二名不斷交換領先,最后以0.1個frag優勢奪冠。決賽有6支團隊參加,包括預賽的前三名、2017年冠、亞軍及2016年冠軍,TSAIL最終奪得亞軍,成績遠超前兩屆冠軍。
參與VizDoom競賽的意義,首先是探索輸入像素級視覺信息,直接輸出AI控制策略的強化學習算法。在研究上,這能帶動同類任務研究,如無人駕駛、機器人導航和物體追蹤等;應用上,可助力同類射擊游戲開發,如虛幻競技場、雷聲之錘和刺激戰場等,從而拓展人工智能技術的研究和應用領域。
該團隊由張鈸院士領銜,聚焦人工智能原創性基礎理論,團隊核心成員包括國家“萬人計劃”青年拔尖人才、MIT TR 35 中國區先鋒者朱軍教授、以及胡曉林、李建民、蘇航等教師,和30余名在讀博士和博士后。經過多年的積累,TSAIL團隊在深度學習、貝葉斯學習、強化學習等人工智能基礎理論方面取得了一系列創新成果,研發的深度貝葉斯平臺“珠算”具有重要的影響力。近年來,TSAIL團隊成員在 ICML、NIPS、CVPR、IJCAI 等人工智能領域頂級會議上發表論文一百余篇,先后獲得中國計算機學會自然科學一等獎、nvidia先鋒實驗室等多個重要獎項,和多個國際比賽的冠亞軍,是人工智能基礎理論研究領域具有重要國際影響力的團隊。
游戲AI是騰訊AI Lab的核心研究領域,這是人工智能與博弈論的一個交叉領域,從小來說,它研究如何用AI提升人類玩游戲的體驗。從大來說,它研究人、智能體及環境間的復雜交互關系。游戲AI一直在推動人工智能的核心發展,從國際象棋和圍棋中AI擊敗人類高手,現在已轉移到更復雜的實時策略型游戲,如《星際爭霸》;及多人在線戰術競技MOBA游戲,如《DOTA 2》與《王者榮耀》。
游戲AI研究的奧義——遠不止于游戲本身。這是一個富有挑戰而令人振奮的研究課題,研究當中累積的經驗、方法與結論,能在更廣大深遠的范圍被利用。首先是打通虛擬與現實世界的藩籬,從而賦能物理世界,比如無人車和機器人的發展;其次,游戲中對話智能的研究,或能成為通向強人工智能的重要路徑;第三,研究游戲中人、智能體和環境的交互,能讓智慧城市這樣復雜而意義深遠的項目受益。
游戲AI涉及到三個核心能力:對外界環境的感知,根據狀態做出的決策,人與智能體之間的對話。比如在圍棋的游戲場景,可以通過感知棋盤的全局表達狀態決定在哪里落子。而現實中的無人車,同樣可以通過視覺,激光雷達的感知對方向盤,剎車等動作做出決策。
理解了游戲AI的三個核心能力,那就可以解釋研究中的三個核心挑戰及騰訊目前探索的一些解決方案。
第一個挑戰是游戲的狀態空間過大。比如很多戰略型游戲的狀態空間是無窮維,遠大于圍棋空間。騰訊提出了一套整合了模型,算法,與計算體系結構的解決方案,叫做騰訊機器大腦,整個系統的核心是使用深度神經網絡來建模超大規模的狀態空間。
第二個挑戰是許多復雜的多玩家游戲需要多個智能體協調操作,目前這方面理論比較缺乏。為設計出一個完善的多智能體AI,一個核心問題是將強化學習的價值網絡與描述宏觀戰略的行為樹進行互操作,并使其融合。
第三個挑戰是絕大部分游戲AI是用模擬器在一個理想化的虛擬世界中開發。如何打通虛擬與現實,又是一個核心挑戰。我們的解決方案結合反向強化學習及動態探索機制,對游戲AI中的參數進行貝葉斯升級。這樣得到的系統能保證在現實世界花最小的成本,就能成功部署。
這一套感知、對話與決策模塊,形成了一套通用系統,未來有望在現實中被應用到更多場景中,這就是我們說的虛擬對現實的賦能。
總結
以上是生活随笔為你收集整理的清华大学团队与腾讯AI Lab专项合作夺冠FPS游戏AI竞赛VizDoom的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 解决多进程模式下引起的“惊群”效应
- 下一篇: 腾讯无边界网络 致胜企业安全新战场