OpenAI智能体上演捉迷藏攻防大战,自创套路与反套路
機器之心報道
機器之心編輯部
經(jīng)歷了圍棋、星際爭霸、Dota、撲克、麻將……強化學(xué)習(xí)似乎正在挑戰(zhàn)難度越來越高的人類游戲。但 OpenAI 近日的一份研究似乎打破了這種刻板印象,讓 AI 玩起了捉迷藏。在訓(xùn)練了 3.8 億輪之后,AI 學(xué)會了各種圍追堵截和反圍追堵截的套路,而且有些套路還是研究者始料未及的操作。
為了進行這個捉迷藏游戲,OpenAI 首先構(gòu)建了一個包含墻、盒子和斜坡的 3D 環(huán)境。在這個環(huán)境中,智能體以團隊為單位進行捉迷藏游戲。
隱藏方(藍色小人)的任務(wù)是躲避搜索方(紅色小人)的視線,而搜索方的任務(wù)是緊緊追逐隱藏方。
環(huán)境中不僅散布著隱藏方和搜索方可以適時抓取和鎖定的目標(biāo),而且還有智能體必須學(xué)習(xí)操控的隨機生成的固定房間和墻壁。
在捉迷藏游戲開始前,隱藏方(藍)會進入準(zhǔn)備階段,這時搜索方(紅)固定不動,給隱藏方逃跑或改變環(huán)境的機會。
在隱藏方藏好之前,搜索方處于鎖定狀態(tài)。
在這個游戲中,贏得游戲的隱藏方和搜索方都會獲得獎勵,因此他們要不斷更新自己的策略。
當(dāng)然,這種獎勵是以團隊為單位的。如果所有隱藏方成功隱藏,則獎勵+1;相反,如果任何隱藏方被搜索方發(fā)現(xiàn),則獎勵-1。搜索方的獎勵方式恰恰相反,即如果所有隱藏方成功隱藏,則獎勵-1;如果任何隱藏方被發(fā)現(xiàn),則獎勵+1。
游戲中智能體的行為需要控制在合理的空間,如果超出游戲區(qū)域,則會受到懲罰。在準(zhǔn)備階段,所有智能體的獎勵為零。
在經(jīng)過了多輪訓(xùn)練之后,智能體學(xué)會了 6 種策略:1)奔跑和追逐;2)隱藏方學(xué)會移動磚塊構(gòu)建堡壘;3)搜索方學(xué)會移動斜坡以跳進隱藏方的堡壘;4)隱藏方學(xué)會將所有的斜坡搬進自己的堡壘;5)搜索方學(xué)會跳到盒子上滑行,進而跳到隱藏方的堡壘;6)隱藏方學(xué)會將所有的盒子鎖定在適當(dāng)?shù)奈恢?#xff0c;以防被搜索方利用。
其中,后兩種策略是研究者始料未及的操作。
搜索方學(xué)會移動斜坡以跳進隱藏方的堡壘。
隱藏方學(xué)會將所有的斜坡搬進自己的堡壘。
搜索方學(xué)會跳到盒子上滑行,進而跳進隱藏方的堡壘。
隱藏方學(xué)會將所有的盒子鎖定在適當(dāng)?shù)奈恢?#xff0c;以防被搜索方利用。
雖然游戲環(huán)境非常簡單,但這一過程中智能體以自監(jiān)督方式學(xué)到的策略復(fù)雜度逐漸升高,表明多智能體互適應(yīng)有朝一日可能會產(chǎn)生極其復(fù)雜和智能的行為。
為什么要用捉迷藏游戲訓(xùn)練智能體
為了進一步了解 OpenAI 這一研究背后的意義及動機,機器之心對研究者進行了采訪。在談到為何選擇捉迷藏游戲訓(xùn)練智能體時,OpenAI 的研究者表示,因為這個游戲規(guī)則比較簡單。
從生物進化的角度來看,人類是一個可以不斷適應(yīng)新環(huán)境的物種,但人工智能卻沒有這種特性。近年來機器學(xué)習(xí)在圍棋以及 Dota 2 等復(fù)雜的游戲中取得了顯著進步,但這些特定領(lǐng)域的技能并不一定適應(yīng)現(xiàn)實場景中的實際應(yīng)用。因此,越來越多的研究者希望構(gòu)建在行為、學(xué)習(xí)和進化方面更類人的機器智能。
由于捉迷藏游戲中的目標(biāo)相對簡單,多個智能體通過競爭性的自我博弈進行訓(xùn)練,學(xué)習(xí)如何使用工具并使用類人技能取得勝利。研究者觀察到,智能體在簡單的捉迷藏游戲中能夠?qū)崿F(xiàn)越來越復(fù)雜的工具使用。在這種簡單環(huán)境中以自監(jiān)督方式學(xué)到的復(fù)雜策略進一步表明,多智能體協(xié)同適應(yīng)將來有一天可能生成極度復(fù)雜和智能的行為。OpenAI 相信,這一研究會成為一個智能體開發(fā)和部署的非常有前景的方向。
文章的作者之一、OpenAI 研究員 Yi Wu 告訴機器之心,「社區(qū)的研究真的需要優(yōu)質(zhì)和有趣的環(huán)境,這一環(huán)境比 2D 粒子世界復(fù)雜一點,但又不至于像星際爭霸那么復(fù)雜。」
OpenAI 正在開源他們的代碼和環(huán)境,以鼓勵這一領(lǐng)域的進一步研究。
論文鏈接:https://d4mucfpksywv.cloudfront.net/emergent-tool-use/paper/Multi_Agent_Emergence_2019.pdf
環(huán)境:https://github.com/openai/multi-agent-emergence-environments
如何訓(xùn)練捉迷藏智能體
在此研究中,研究者使用了和 OpenAI Five、Dactyl 相同的培訓(xùn)基礎(chǔ)架構(gòu)和算法。但是,在該環(huán)境中,每個智能體都使用自己觀察和隱藏的記憶狀態(tài)獨立行動。智能體使用以實體為中心的、基于狀態(tài)的世界表征,也就是對其他目標(biāo)和智能體是排列不變的。
在該研究中,嵌入的每個目標(biāo)被傳遞通過一個 mask 殘差自注意塊,這類似于 Transformer,其中的注意力集中在目標(biāo)上而不是時間上。不在視線內(nèi)以及在智能體前面的目標(biāo)被 mask 掉,以使得智能體沒有它們的信息。
智能體策略架構(gòu)
然后,通過自我博弈和臨近策略優(yōu)化(Proximal Policy Optimization (https://openai.com/blog/openai-baselines-ppo/))訓(xùn)練智能體策略。在優(yōu)化期間,智能體可以在價值函數(shù)中使用有關(guān)被遮擋目標(biāo)和其他智能體的特權(quán)信息。
研究者發(fā)現(xiàn),大規(guī)模訓(xùn)練對于各個階段的智能體學(xué)到何種策略來說至關(guān)重要。下圖展示了智能體在各種 batch 大小情況下,學(xué)會第 4 種策略(將斜坡搬進自己的堡壘)所需的 episode 和時間。他們發(fā)現(xiàn),增加 batch 大小可以大大提升收斂速度,然而當(dāng) batch 大小為 32k 或更高時,采樣效率不會受到影響。但是,他們還發(fā)現(xiàn),在指定的 episode 數(shù)量下,batch 大小為 8k 和 16k 時,智能體從未學(xué)會第 4 種策略。
增加 batch 大小加速收斂。注意:作者給出的是在反向傳播中使用轉(zhuǎn)換連續(xù)塊的數(shù)量的 batch 大小,每個包含 10 個轉(zhuǎn)換,也就是圖中 64k batch 實際上包含 640k 個轉(zhuǎn)換。
多智能體競爭 VS 內(nèi)在動機(intrinsic innovation)
在此項研究中,研究者證明了智能體可以在捉迷藏游戲中通過自監(jiān)督 autocurriculum 學(xué)習(xí)復(fù)雜的策略和反策略。另一種以無監(jiān)督方式學(xué)習(xí)技能的方法是內(nèi)在動機,它激勵智能體通過模型誤差或狀態(tài)計數(shù)等各種度量進行探索。研究者在構(gòu)建的環(huán)境中進行了基于計數(shù)的探索,其中智能體對它們訪問的狀態(tài)進行明確計數(shù),并在激勵下前往很少訪問的狀態(tài)。
在當(dāng)前設(shè)置下進行調(diào)整的主要建模選擇是狀態(tài)表征,比如在首個基線中,狀態(tài)中只包含 2D 盒子位置,這樣智能體在激勵下與盒子進行交互并且將盒子推到新的位置。然后,研究者與基于計數(shù)的策略進行比較,這種基于計數(shù)的策略獲取捉迷藏游戲中智能體獲得的完整狀態(tài)。
可以看出,在捉迷藏游戲中進行訓(xùn)練的智能體本質(zhì)上是圍繞人類可解釋性更強的行為,如搭建堡壘等。但是,接受內(nèi)在激勵訓(xùn)練的智能體卻似乎以一種無明確方向的方式移動物體。此外,隨著狀態(tài)空間復(fù)雜度的增加,研究者發(fā)現(xiàn)內(nèi)在獎勵方法與環(huán)境中物體的有意義交互越來越少。因此,研究者相信,隨著環(huán)境大小和復(fù)雜度的增加,多智能體競爭將會是一種更加可擴展的類人技能無監(jiān)督生成方法。
在評估中加入遷移和微調(diào)
在上文中,研究者對捉迷藏游戲中學(xué)習(xí)的行為與利用內(nèi)在動機學(xué)習(xí)的行為進行了定性對比。但是,隨著環(huán)境規(guī)模的擴大,對游戲進程展開定性衡量也變得越來越困難。在多智能體設(shè)置中追蹤獎勵作為評價指標(biāo)是不夠的,因為這項指標(biāo)無法確切地說明智能體在均衡改進還是陷入了停滯。
ELO 或 Tureskill 等度量指標(biāo)能夠更可靠地衡量性能相較于之前的策略版本或其他策略是否實現(xiàn)了提升。但是,這些度量指標(biāo)依然無法揭示性能的提升是得益于新的適應(yīng)性還是之前學(xué)到的技能。最后,使用目標(biāo)運動等特定環(huán)境下的統(tǒng)計數(shù)據(jù)也具有不確定性(比如,追蹤絕對運動并不能明確指出智能體的運動方向),并且設(shè)計充分的度量指標(biāo)將隨著環(huán)境的擴大而變得更加困難,花費也更大。
研究者建議使用一套特定領(lǐng)域的智能測試,其目的在于衡量智能體最終可能獲得的能力。遷移性能在這些設(shè)置中充當(dāng)質(zhì)量或技能表征的定量度量,并且研究者將遷移性能與基于計數(shù)探索的預(yù)訓(xùn)練和從頭訓(xùn)練的基線進行比較。
盡管捉迷藏智能體在很多遷移任務(wù)上表現(xiàn)的更好,但性能或收斂時間并沒有顯著提升。通過觀察智能體在捉迷藏游戲中的表現(xiàn),研究者知道它們具有準(zhǔn)確移動物體和搭建堡壘的潛能。但在接受少樣本訓(xùn)練時,智能體并不能在其他場景中利用這種能力。
研究者認為,混合遷移結(jié)果的原因在于智能體學(xué)習(xí)的技能表征是混亂且難以微調(diào)的。隨著未來環(huán)境變得更加多樣化以及智能體必須在更多場景下使用技能,他們相信將來會基于這種評價方法出現(xiàn)更泛化的技能表征和更有效的信號。此外,研究者還開源了評估任務(wù),用來評估捉迷藏環(huán)境中的學(xué)習(xí)進程。
出乎意料的行為
研究者已經(jīng)證明,智能體能夠在高保真物理模擬器中學(xué)習(xí)使用復(fù)雜工具,但在這一過程中,它們也吸取了一些教訓(xùn)。構(gòu)建環(huán)境非常不容易,而且智能體經(jīng)常以一種人類始料未及的方式探索環(huán)境:
借助盒子滑行:由于智能體可以通過自己施力來移動,他們可以抓住一個盒子并站在盒子上滑行至隱藏者的位置;
不停地奔跑:在不給離開游戲區(qū)域的智能體添加任何額外獎勵的情況下,在極少數(shù)情況下,隱藏著會學(xué)習(xí)待著一個盒子不停地奔跑;
利用斜坡(隱藏方):強化學(xué)習(xí)非常擅長利用一些小的技巧。隱藏方發(fā)現(xiàn),如果它們把坡道推到墻腳處,坡道會莫名穿過墻壁然后消失;
利用斜坡(搜索方):搜索方發(fā)現(xiàn),如果它們在有斜坡的墻上以正確的角度奔跑,則能飛起來。
研究者表示,這些「作弊行為」揭示了算法安全性在機器學(xué)習(xí)中的重要作用。「在問題出現(xiàn)之前你是預(yù)料不到的。這類系統(tǒng)總是存在缺陷。」「我們能做的基本就是觀察,并將策略可視化,這樣我們就會看到奇怪的事情發(fā)生。然后我們再嘗試修復(fù)這些物理問題。」
當(dāng)然,這些意料之外的策略也讓我們看到了解決問題的其他思路。「如果你將這些智能體放進一個足夠豐富的環(huán)境中,而它們又表現(xiàn)出了人類未知的策略,也許它們能為我們提供新的解決方案,」論文作者說道。
微軟 AI 研究員 Katja Hofman 表示,「我發(fā)現(xiàn)游戲或類似游戲中的這種設(shè)置是探索一個安全環(huán)境中現(xiàn)有方法能力和局限性的一種極好方式。這些結(jié)果可以幫助我們更好地理解如何驗證和調(diào)試機器學(xué)習(xí)系統(tǒng),這是通往現(xiàn)實世界應(yīng)用的關(guān)鍵一步。」
參考鏈接:
https://openai.com/blog/emergent-tool-use/
https://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/ai-agents-startle-researchers-with-unexpected-strategies-in-hideandseek
https://syncedreview.com/2019/09/17/why-playing-hide-and-seek-could-lead-ai-to-humanlike-intelligence/
本文為機器之心報道,轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。
總結(jié)
以上是生活随笔為你收集整理的OpenAI智能体上演捉迷藏攻防大战,自创套路与反套路的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人工智能和神经科学之间有什么关系?诺奖得
- 下一篇: AI医疗领域人才需求与培养趋势分析