创建试图 失败_在失败中学习,MIT新研究显示,机器可以像婴儿一样学会理解人类目标...
大數據文摘出品
來源:MIT
編譯:周熙
在Warneken和Tomasello關于人類社會智力的經典實驗中,一個18月大蹣跚學步的幼兒看著一個男人抱著一堆書走向一個未開封的柜子。當男子到達柜子時,他笨拙地將書在柜門上撞了幾下,然后發出疑惑的聲音。
接下來發生了一件不可思議的事情:幼兒提出要幫忙。
在推斷出男子的目標后,幼兒走到柜子前,打開柜門,讓男子把書放在里面。但是,幼兒的生活經驗如此有限,怎么會做出這樣的推斷呢?
最近,計算機科學家把這個問題重新引向了計算機:機器如何做到相同的事情呢?
工程化這種理解的關鍵部分可以說是我們最人性化的地方:我們的錯誤。
就像蹣跚學步的孩子僅僅從他的失敗中就能推斷出這個人的目標一樣,推斷我們目標的機器也需要受到我們錯誤行動和計劃的說明。
為了在機器中捕捉這種社交智能,來自麻省理工學院計算機科學與人工智能實驗室(CSAIL)和大腦與認知科學系的研究人員創造了一種能夠推斷目標和計劃的算法,即使這些計劃可能失敗。
這類研究最終可用于改進一系列輔助技術、協作或護理機器人,以及Siri和Alexa等數字助理。
有關這項研究的新論文主要作者,麻省理工學院電氣工程和計算機科學系的博士生Tan Zhi-Xuan 說:
"這種對錯誤進行解釋的能力對于構建能夠穩健地推斷并按照我們的利益行事的機器來說可能是至關重要的。否則,人工智能系統可能會錯誤地推斷,由于我們未能實現我們的高階目標,這些目標畢竟不是我們想要的。我們已經看到,當算法以我們對社交媒體的反射性和無計劃的使用為食,將我們引向依賴和兩極化的道路時,會發生什么。理想情況下,未來的算法將認識到我們的錯誤、壞習慣和非理性,并幫助我們避免而不是強化它們。"
為了創建他們的模型,該團隊使用了麻省理工學院最近開發的一個新的AI編程平臺Gen,將符號化(人類可讀型)AI規劃與貝葉斯推理相結合。貝葉斯推理提供了一種將不確定信念與新數據相結合的最佳方式,被廣泛用于金融風險評估、診斷測試和選舉預測。
該團隊的模型表現比現有的一種名為貝葉斯逆向強化學習(BIRL)的基礎方法快20到150倍,該方法通過觀察代理的行為來學習代理的目標、價值或獎勵,并試圖提前計算完整的政策或計劃。新模型在推斷目標方面的準確率達到了75%。
加州大學伯克利分校的Smith-Zadeh工程教授Stuart Russell說:"人工智能正處于放棄'標準模式'的過程中,在這種模式下,一個固定的、已知的目標被賦予機器。相反,機器知道它不知道我們想要什么,這意味著如何從人類行為中推斷目標和偏好的研究成為人工智能的核心課題。這篇論文認真對待這一目標,重點是,它的方向是朝著建立模型進而顛覆人類從目標和偏好產生行為的實際過程。"
如何實現
雖然在推斷代理的目標和欲望方面已經有相當多的工作,但這些工作大多假設代理為實現其目標而采取最佳行動。
然而,團隊特別受到一種常見的人類規劃方式的啟發,這種方式基本上是次優的:不是提前把所有的事情都規劃好,而是只形成部分計劃,執行后再從新規劃。雖然這樣做可能會因為 "提前 "思考不足而導致錯誤,但也減少了認知負荷。
例如,想象你正在看你的朋友準備食物,你想通過弄清他們在做什么來幫忙。你猜測你的朋友接下來可能采取的幾個步驟:也許是預熱烤箱,然后做蘋果派的面團。然后,你只 "保留 "與朋友實際做的事情保持一致的部分計劃,然后你再重復這個過程,從那里開始提前計劃幾步。
一旦你看到你的朋友做了面團,你就可以把可能性只限制在烘焙食品上,并猜測他們接下來可能會切蘋果,或者買一些胡桃來做餡餅。最終,你會把你朋友不可能做的菜品計劃全部排除,只保留可能的計劃(即派的配方)。一旦你足夠確定是哪道菜,你就可以主動幫忙了。
該團隊的推理算法被稱為 "順序逆向計劃搜索(SIPS)",按照這個順序來推斷代理人的目標,因為它在每一步都只做部分計劃,并在早期削減不可能的計劃。由于該模型每次只提前幾步進行計劃,所以它也考慮到了代理“你的朋友(前文例子)”可能也在做同樣的事情。這包括由于有限的計劃而導致錯誤的可能性,例如在打開冰箱之前沒有意識到你可能需要兩只手空閑。通過提前檢測這些潛在的故障,該團隊希望這個模型可以被機器用來更好地提供幫助。
"我們早期的一個見解是,如果你想推斷某人的目標,你不需要比他們想得更遠。我們意識到,這不僅可以用來加快目標推斷的速度,還可以用來從過于短視而無法成功的行動中推斷出預期目標,這使得我們從擴大算法規模轉向探索解決當前人工智能系統更根本的局限性的方法。"麻省理工學院首席研究科學家Vikash Mansinghka如是說,他是Tan Zhi-Xuan的聯合顧問之一,同時還有麻省理工學院大腦和認知科學教授Joshua Tenenbaum。"這是我們更大的moonshot的一部分,即對18個月大的幼兒感知進行逆向工程。"
這項工作的概念建立在Tenenbaum小組早期認知模型的基礎上,展示了兒童甚至是10個月大的嬰兒對他人目標所做的較簡單的推斷如何被量化建模為貝葉斯逆向規劃的一種形式。
雖然到目前為止,研究人員只在固定目標集的相對較小的規劃問題中探索推理,但他們計劃通過未來的工作來探索人類目標和計劃的更豐富的層次結構。通過對這些層次結構進行編碼或學習,機器或許能夠推斷出更多種類的目標,以及它們所服務的深層目的。
"雖然這項工作只代表著一小步,但我希望這項研究能夠為構建真正理解人類目標、計劃和價值觀的機器奠定一些必要的哲學和概念基礎,"Xuan說。"這種將人類建模為不完美推理者的基本方法感覺非常有前途。現在,它讓我們能夠推斷出計劃什么時候是錯誤的,也許它最終也會讓我們推斷出人們什么時候持有錯誤的信念、假設和指導原則。"
Zhi-Xuan、Mansinghka和Tenenbaum與電氣工程和計算機科學研究生Jordyn Mann和博士生Tom Silver一起撰寫了這篇論文。他們將在NeurIPS 2020上在線展示他們的成果。
相關報道:
https://www.csail.mit.edu/news/building-machines-better-understand-human-goals
志愿者介紹后臺回復“志愿者”加入我們點「在看」的人都變好看了哦!總結
以上是生活随笔為你收集整理的创建试图 失败_在失败中学习,MIT新研究显示,机器可以像婴儿一样学会理解人类目标...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 原生 遍历_前端原生写js代码还是用vu
- 下一篇: 按钮隐藏_Win10系统:如何隐藏登录界