读后感与机翻《人类因果学习的分解:自下而上的联想学习和自上而下的图式推理》
研究朱松純FPICU體系的第 2 篇文章
《Decomposing Human Causal Learning: Bottom-up Associative Learning and Top-down Schema Reasoning》CogSci?2019,有源碼。
《人類因果學(xué)習(xí)的分解:自下而上的聯(lián)想學(xué)習(xí)和自上而下的圖式推理》
作者 Mark Edmonds,主頁:https://mjedmonds.com/#experience
讀后感
作者干了一件什么事:作者2018年那篇文章說強(qiáng)化學(xué)習(xí)無法學(xué)習(xí)因果,而2019年這篇文章作者成功讓agent實(shí)現(xiàn)了初步的因果推理能力。
作者怎么實(shí)現(xiàn)的:作者采用貝葉斯框架建立了一種因果理論歸納模型,并使用推論因果理論在相似環(huán)境之間讓agent得以傳遞抽象的知識,而之所以這么設(shè)計(jì),是因?yàn)樽髡哒J(rèn)為人類的因果推理能力也基于此方式。(具體模型構(gòu)建的細(xì)節(jié)尚未研究)
效果怎么樣:在OpenLock解謎游戲中,該agent學(xué)習(xí)能力只比人差一點(diǎn)。作者并沒有將此文中新設(shè)計(jì)的agent效果和2018年那個(gè)agent進(jìn)行對比,估計(jì)是因?yàn)槿ツ昴莻€(gè)agent根本沒有學(xué)會(huì)因果知識的實(shí)驗(yàn)跡象。
機(jī)翻。
摘要
遷移學(xué)習(xí)是智力的基礎(chǔ);預(yù)期在新的和不熟悉的環(huán)境中工作的agent必須能夠?qū)⒁郧皩W(xué)到的知識轉(zhuǎn)移到新的領(lǐng)域或問題。然而,知識轉(zhuǎn)移表現(xiàn)在不同的表現(xiàn)層次上。支持不同類型遷移學(xué)習(xí)的基礎(chǔ)計(jì)算機(jī)制尚不清楚。在這篇論文中,我們通過分解自底向上的聯(lián)想學(xué)習(xí)和自頂向下的因果圖式歸納的潛在計(jì)算機(jī)制來探討遷移學(xué)習(xí)的挑戰(zhàn)。我們采用貝葉斯框架來建立因果理論歸納模型,并使用推論因果理論在相似環(huán)境之間傳遞抽象知識。具體來說,我們訓(xùn)練模擬agent通過交互探索問題空間和從觀察到的低層屬性中提取關(guān)系來發(fā)現(xiàn)和轉(zhuǎn)移有用的關(guān)系和抽象知識。建立了一套層次因果圖式來確定任務(wù)結(jié)構(gòu)。我們的agent結(jié)合因果理論和聯(lián)想學(xué)習(xí)來選擇一系列最有可能完成任務(wù)的行動(dòng)。為了評估提出的框架,我們比較了模擬agent與人類在OpenLock環(huán)境中的表現(xiàn)。OpenLock環(huán)境是一個(gè)具有復(fù)雜層次結(jié)構(gòu)的虛擬逃離室,要求agent對控制系統(tǒng)的因果結(jié)構(gòu)進(jìn)行推理。雖然模擬agent比人類參與者需要更多的嘗試,但在學(xué)習(xí)情境中遷移的定性趨勢在人類和我們訓(xùn)練過的主體之間是相似的。這些發(fā)現(xiàn)表明,人類在復(fù)雜、不熟悉的情況下的因果學(xué)習(xí)可能依賴于自下而上的聯(lián)想學(xué)習(xí)和自上而下的圖式推理之間的協(xié)同作用。
簡介
在不熟悉的環(huán)境中推斷因果關(guān)系的能力是人類智力的一個(gè)標(biāo)志,在日常生活中經(jīng)常被認(rèn)為是理所當(dāng)然的。一個(gè)說明性的例子是“逃離房間”,這是一種流行的社會(huì)活動(dòng),一群人在一個(gè)鎖著的房間里一起完成子目標(biāo)(謎題),以達(dá)到逃離房間的目標(biāo)。為了成功,團(tuán)隊(duì)必須:(i)在干擾物中識別與目標(biāo)相關(guān)的實(shí)體,(ii)為個(gè)體的子目標(biāo)發(fā)展因果模型,(iii)與場景組件相互作用,以細(xì)化基于實(shí)體和目標(biāo)的假設(shè)。在本文中,我們提出,在上述情況下的推理依賴于兩個(gè)關(guān)鍵的學(xué)習(xí)組件。首先,通過與場景中實(shí)體的交互來學(xué)習(xí)與候選因果假設(shè)相關(guān)的屬性;其次,基于新編碼的基于屬性的知識來精煉因果假設(shè)。
值得注意的是,上述方法一般與心理學(xué)研究中關(guān)于因果學(xué)習(xí)的早期研究不一致。早期的研究主要集中在動(dòng)物學(xué)習(xí)和條件反射實(shí)驗(yàn)范式上,將因果理解構(gòu)建為主要通過觀察獲得的習(xí)得的刺激-反應(yīng)關(guān)系。考慮到線索-效應(yīng)聯(lián)系的關(guān)聯(lián)權(quán)重,Rescorla-Wagner模型經(jīng)常被用來解釋人類(和非人類)是如何基于共同出現(xiàn)的感知刺激構(gòu)建預(yù)期的。然而,人們對遠(yuǎn)端世界的因果機(jī)制的認(rèn)識已經(jīng)被證明超出了所觀察到的(知覺)變量之間的共變。例如,成年人在與動(dòng)態(tài)的物理場景互動(dòng)時(shí),會(huì)最大限度地獲取與其因果假設(shè)相關(guān)的信息,甚至嬰兒也會(huì)通過探索和實(shí)驗(yàn)來測試他們對物體物理特征的看法。
與聯(lián)想的解釋相反,研究人員已經(jīng)證明,人類在新的(因果)環(huán)境中學(xué)習(xí)和推理很大程度上依賴于抽象因果結(jié)構(gòu)和強(qiáng)度的發(fā)現(xiàn),而不是純粹的聯(lián)想(統(tǒng)計(jì))依賴。最近,因果圖形模型和貝葉斯統(tǒng)計(jì)推斷(即貝葉斯網(wǎng))的集成為如何學(xué)習(xí)這種結(jié)構(gòu)和強(qiáng)度并轉(zhuǎn)移到新的情況提供了一個(gè)一般的代表性框架。在這個(gè)框架下,因果知識在構(gòu)建一個(gè)靈活的世界模型中起著至關(guān)重要的作用,在這個(gè)模型中,環(huán)境狀態(tài)代表著世界上的某種狀態(tài),狀態(tài)之間的聯(lián)系暗示著因果關(guān)系的強(qiáng)度。
我們認(rèn)為,在新的領(lǐng)域創(chuàng)造性發(fā)現(xiàn)依賴于因果結(jié)構(gòu)和關(guān)聯(lián)。因果結(jié)構(gòu)的知識可以使主體模擬干預(yù)將如何影響環(huán)境狀態(tài),如果沒有關(guān)聯(lián)來指導(dǎo)探索,要考慮的因果假設(shè)的數(shù)量將變得棘手。對于可能采取干預(yù)措施的數(shù)量特別高的問題領(lǐng)域,聯(lián)合指導(dǎo)的需要可以大大改善決策。為了解決這個(gè)問題,我們提出了一個(gè)集成了兩種學(xué)習(xí)機(jī)制的計(jì)算模型:(i)一個(gè)自下而上的過程,確定哪些對象屬性是因果相關(guān)的;(ii)一個(gè)自上而下的過程,了解哪些抽象的因果結(jié)構(gòu)完成一項(xiàng)任務(wù)。行動(dòng)的結(jié)果被用來更新因果假設(shè)空間,并且模擬主體學(xué)習(xí)一個(gè)能夠解決具有挑戰(zhàn)性任務(wù)的動(dòng)力學(xué)模型。
我們在一個(gè)虛擬的逃生室環(huán)境中實(shí)現(xiàn)了提出的模型,在這個(gè)環(huán)境中,agent(人類和人工)被困在一個(gè)房間里,房間里只有一扇鎖著的門和一組顯眼的杠桿。這個(gè)房間的門將在agent以特定的順序與杠桿互動(dòng)后打開。放置在這樣一個(gè)房間里的agent可能會(huì)開始隨機(jī)地推或拉杠桿,并根據(jù)觀察到的變化來修正他們關(guān)于鎖門機(jī)制的理論。一旦一個(gè)agent發(fā)現(xiàn)了一個(gè)單一的解決方案,他們就會(huì)被放回同一個(gè)房間,并承擔(dān)尋找下一個(gè)解決方案的任務(wù)。agent在找到所有可以用來開門的方法后,從一個(gè)房間逃逸。
從一個(gè)房間逃出來后,agent會(huì)被安置在一個(gè)類似的房間里,但是有了新的控制桿。盡管杠桿在不同的位置,新的房間和最后的房間一樣由相同的抽象規(guī)則控制(agent不知道)。因此,agent的任務(wù)是識別一個(gè)新房間中每個(gè)杠桿的作用。如果agent使用來自先前試驗(yàn)的一些知識,我們期望觀察到較少的解決問題的嘗試。因?yàn)檫@些規(guī)則是對逃逸空間的潛在狀態(tài)的抽象描述,所以我們將潛在的理論稱為因果圖式(也就是說,一個(gè)確定為因果的事件的概念組織)。一旦學(xué)會(huì)了這個(gè)圖式,agent就可以在房間里不同的杠桿之間進(jìn)行轉(zhuǎn)換。目前的工作模型因果學(xué)習(xí)過程從層次貝葉斯的觀點(diǎn),并作出了三個(gè)主要貢獻(xiàn):
- 利用自下而上的聯(lián)想學(xué)習(xí)范式來確定場景的哪些屬性有助于因果關(guān)系。
- 利用自上而下的環(huán)境通用操作的因果模式模型,快速適應(yīng)類似但新的場景。
- 利用因果假設(shè)來學(xué)習(xí)一個(gè)世界模型,它能夠在看似不同但結(jié)構(gòu)上和因果上相同的環(huán)境之間轉(zhuǎn)移知識。
本文的其余部分結(jié)構(gòu)如下。首先,描述了OpenLock環(huán)境和實(shí)驗(yàn)過程,然后是Edmonds等人(2018)對人類性能的分析。然后,對模型的組成部分進(jìn)行了描述,并給出了相應(yīng)的結(jié)果。最后,對本文的研究結(jié)果和今后的工作方向進(jìn)行了討論。
實(shí)驗(yàn):OpenLock任務(wù)
參與者
本科生160人(女114人;平均年齡=21.6),來自加州大學(xué)洛杉磯分校(UCLA)心理學(xué)系的研究對象,并因他們的參與獲得了學(xué)分。
材料和過程
在本節(jié)中,我們將概述OpenLock任務(wù),該任務(wù)最初在Edmonds等人,2018年提出。在這個(gè)任務(wù)中,代理需要通過打開一扇門從虛擬房間中逃出。按照特定的順序操作杠桿后,門就會(huì)打開(見圖1)。每個(gè)房間都有七個(gè)杠桿,圍繞著一個(gè)機(jī)械臂,可以推或拉每個(gè)杠桿。而杠桿的一個(gè)子集總是涉及到鎖定機(jī)制(例如,主動(dòng)杠桿;,其他杠桿不是因果相關(guān)的(例如,不活動(dòng)的杠桿;顏色白色)。agent觀察杠桿的顏色,并期望了解灰色杠桿而不是白色杠桿永遠(yuǎn)是每個(gè)房間的解決方案的一部分。重要的是,agent的任務(wù)是找到打開房間門的所有可能的解決方案。參與者被明確告知他們的目標(biāo)是打開這扇門,并被告知房間里還有多少解決方案。
圖1
環(huán)境背后的機(jī)制遵循兩種因果圖式中的一種:共同原因(CC)和共同結(jié)果(CE)(見圖2)。要求施動(dòng)者在一個(gè)特定的房間內(nèi)找到所有的解決方案,可以確保施動(dòng)者抽象出CC或CE圖式結(jié)構(gòu)。雖然單個(gè)解決方案對應(yīng)于單個(gè)因果鏈,但模式依賴于在多個(gè)鏈之間共享的節(jié)點(diǎn)。agent在移動(dòng)限制條件下操作,只有三個(gè)動(dòng)作可以用于(i)推或拉杠桿(主動(dòng)或非主動(dòng)),或(ii)推門。這個(gè)約束被放置在agent上,以限制可能解決方案的搜索深度。三個(gè)動(dòng)作之后,不管結(jié)果如何,情節(jié)結(jié)束,環(huán)境恢復(fù)。無論是否找到所有的解決方案,agent也會(huì)在一個(gè)特定的房間里,在有限的劇集(30集)內(nèi)工作。我們提出三個(gè)動(dòng)作作為嘗試,每個(gè)房間作為試驗(yàn)。在完成一次試驗(yàn)后,施動(dòng)者會(huì)帶著相同的潛在因果圖式,但不同的杠桿安排,轉(zhuǎn)到一個(gè)新的試驗(yàn)(即房間)。這種設(shè)置確保了agent不會(huì)將其對環(huán)境的理解過度適用于一次試驗(yàn);例如,如果agent正在形成一個(gè)有用的抽象概念,他們在先前試驗(yàn)中獲得的知識應(yīng)該有助于他們在新的試驗(yàn)中找到所有解決方案的能力。注意,在一個(gè)3杠桿的房間里,一個(gè)最佳a(bǔ)gent應(yīng)該在3次嘗試中產(chǎn)生兩種解決方案。一個(gè)嘗試可以用來確定抽象結(jié)構(gòu)中觀察到的杠桿的角色,其余的嘗試用于每個(gè)解決方案。
Figure 2: Common Cause (CC) and Common Effect (CE) structures used in the OpenLock task, in which L i indicates a lever in the scene, and D indicates the effect of opening the door.?In (a) CC3 and (b) CE3 condition, both include three causal cues but with different causal structures.
圖2:OpenLock任務(wù)中使用的共同原因(CC)和共同效果(CE)結(jié)構(gòu),其中L i表示場景中的一個(gè)杠桿,D表示打開門的效果。在(a) CC3和(b) CE3條件中,兩者都包含三種因果線索,但因果結(jié)構(gòu)不同
人類的結(jié)果
本文所報(bào)告的分析擴(kuò)展了之前的行為發(fā)現(xiàn),通過檢查嘗試尋找每個(gè)解決方案的次數(shù),而不是積累所有的解決方案。本文的目的是分解OpenLock任務(wù)中涉及的各個(gè)學(xué)習(xí)組件。在任何試驗(yàn)中,在分配的最大嘗試次數(shù)中未能找到所有解決方案的參與者將被從分析中刪除(每個(gè)條件中刪除24名參與者)。80名參與者被分配到每種條件下(CC和CE)。
我們首先檢查了在不同的試驗(yàn)中尋找每個(gè)解決方案所需的嘗試次數(shù)是否不同。各實(shí)驗(yàn)條件下的行為數(shù)據(jù)如圖4所示。對于在共同原因(CC)模式下訓(xùn)練的參與者來說,在第一次嘗試之后,尋找第一個(gè)解決方案的嘗試次數(shù)顯著減少(t(55)=6:80;術(shù)中;:001)和第二次試驗(yàn)(t(55)=2:52;p =: 02)。第一次溶液嘗試在第五次試驗(yàn)后也出現(xiàn)了邊際下降(t(55)=1:99;p =: 051)。對于第二種方案,僅在第一次試驗(yàn)后嘗試次數(shù)顯著減少(t(55)=4:40;術(shù);:001)。被分配到共同效應(yīng)(CE)條件下的參與者在第一次試驗(yàn)后發(fā)現(xiàn)了類似的趨勢(t(55)=5:30;和第三次試驗(yàn)(t(55)=2:19;p=:03),僅在第一次試驗(yàn)后,求第二種解的次數(shù)就減少了(t(55)=2:36;p =: 02)。
圖4:共因CC3條件和共效CE3條件下的人和模型結(jié)果比較(a)和(b)比較設(shè)法找到所有解決辦法的總數(shù);(c)和(d)比較尋求第一個(gè)解決辦法的嘗試次數(shù);(e)和(f)比較尋求第二種解決辦法的嘗試次數(shù)。
人類實(shí)驗(yàn)結(jié)果表明,無論參與者接受的是哪種因果圖式訓(xùn)練,在早期的試驗(yàn)中,第一種和第二種解決方案都出現(xiàn)了顯著的學(xué)習(xí)效果。然而,第一個(gè)解決方案的學(xué)習(xí)速度要快得多,而第二個(gè)解決方案的學(xué)習(xí)速度相對不那么明顯。在下一節(jié)中,我們將描述我們的計(jì)算方法,并報(bào)告它是否能夠解釋人類的性能。
模型實(shí)現(xiàn)的細(xì)節(jié)
我們首先描述了agent將自上而下的(抽象的)因果知識與自下而上的(關(guān)聯(lián)的)屬性知識相結(jié)合的過程。agent通過(i)計(jì)算每個(gè)候選因果鏈的后驗(yàn)概率和(ii)使用計(jì)算得到的后驗(yàn)和基于模型的規(guī)劃器進(jìn)行選擇來決定執(zhí)行哪個(gè)行動(dòng)。
因果理論歸納:為了解釋人類行為的趨勢,我們遵循貝葉斯解釋如何從數(shù)據(jù)中歸納出等級因果理論。該框架的關(guān)鍵觀點(diǎn)是,層次結(jié)構(gòu)使抽象成為可能,而理論在最高層次上提供關(guān)于任務(wù)或環(huán)境的一般背景知識。理論由原則組成;例如,物種間的進(jìn)化特征分析可以用分類樹和突變過程來表示。原則導(dǎo)致結(jié)構(gòu);例如,一棵描述靈長類動(dòng)物如何隨著時(shí)間進(jìn)化和分化為不同物種的樹。最后,結(jié)構(gòu)導(dǎo)致數(shù)據(jù);比如靈長類之間的基因共享。
這項(xiàng)工作的目標(biāo)是建立一個(gè)人類決策過程的模型,其中agent需要在不同但相似的環(huán)境中學(xué)習(xí)可轉(zhuǎn)移的知識。我們從主動(dòng)因果理論學(xué)習(xí)的角度來處理這個(gè)問題,我們期望一個(gè)沒有被賦予任何信息的agent通過相互作用來學(xué)習(xí)潛在的抽象機(jī)制和環(huán)境之間的共性。這種方法自然將學(xué)習(xí)任務(wù)的焦點(diǎn)放在了agent如何決定下一步采取的最佳行動(dòng),以及如何有效地將結(jié)果整合到agent的世界模型中。
在這項(xiàng)工作中,我們堅(jiān)持兩個(gè)學(xué)習(xí)的總體原則:(i)因果關(guān)系會(huì)引起環(huán)境中的狀態(tài)變化,而非因果關(guān)系不會(huì)(被稱為自下而上的β理論),以及(ii)先前有用的因果結(jié)構(gòu)將來可能會(huì)有用(我們稱之為自上而下的γ理論)。具體來說,環(huán)境提供了一組屬性,比如位置和顏色,我們的agent會(huì)了解哪些屬性與引發(fā)環(huán)境中狀態(tài)變化的杠桿相關(guān)聯(lián)。我們的agent還學(xué)習(xí)了抽象的因果結(jié)構(gòu)(即圖式)的分布,這些結(jié)構(gòu)提供了任務(wù)結(jié)構(gòu)的概化概念。
我們定義一個(gè)因果鏈假設(shè)空間,Ωc,在可能的因果鏈上,超過可能的因果鏈,c∈Ωc。圖3b顯示了因果鏈的結(jié)構(gòu)。每個(gè)鏈由子鏈的元組定義,c=(c0,,,,ck),每個(gè)子鏈被定義為元組.每個(gè)ai代表agent可以干預(yù)(執(zhí)行)的一個(gè)動(dòng)作節(jié)點(diǎn),以及動(dòng)作空間,ΩA,包括推和拉每一個(gè)杠桿和推門。每個(gè)si代表一個(gè)狀態(tài)節(jié)點(diǎn)。狀態(tài)節(jié)點(diǎn)定義為元組,括號中第一個(gè)元素為定常屬性向量,fi為時(shí)變流向量。狀態(tài)節(jié)點(diǎn)根據(jù)因果關(guān)系采取行動(dòng)ai而受到影響,并可能通過因果關(guān)系受到前一個(gè)狀態(tài)節(jié)點(diǎn)的影響。例如,在圖1a和圖3b中,通過,對最左邊杠桿的動(dòng)作推動(dòng)可以將杠桿從連貫的拉動(dòng)轉(zhuǎn)變?yōu)橥苿?dòng),進(jìn)而根據(jù)將最上面的杠桿從鎖定轉(zhuǎn)變?yōu)榻怄i。
圖3:(a)模型層次結(jié)構(gòu)示意圖。自下而上的聯(lián)想學(xué)習(xí)理論,和自上而下的因果關(guān)系理論,都優(yōu)先于模型的維持。該模型在因果鏈決議中作出決定。(b)原子因果鏈。鏈?zhǔn)怯梢幌盗凶尤蝿?wù)鏈,c,其中每個(gè)c我被定義為:(i)一個(gè)我,一個(gè)活動(dòng)節(jié)點(diǎn),可以干預(yù)的代理,(2)我,捕捉定常狀態(tài)節(jié)點(diǎn)屬性和對象的時(shí)變流感——樹人,(iii) cr我,我和s之間的因果關(guān)系,及(iv) cr年代我,s和s我1之間的因果關(guān)系。
屬性的空間表示為Wf,由位置和顏色組成。fluents的空間,WF,由杠桿狀態(tài)(推或拉)和杠桿鎖定狀態(tài)(鎖定或解鎖)的二進(jìn)制值組成。狀態(tài)空間定義為WS =WfWF。因果關(guān)系空間定義為WCR =WF WF,捕獲前一個(gè)fluent值與下一個(gè)fluent值之間可能的二元轉(zhuǎn)換。
我們假設(shè)主體可以直接干預(yù)(即控制)行為,但不能直接干預(yù)通量。這種區(qū)別顯著地增加了因果鏈假設(shè)空間的復(fù)雜性,但意味著我們不假設(shè)行為的影響,也不假設(shè)代理可以直接干預(yù)特定流暢的價(jià)值。我們假設(shè)一個(gè)行動(dòng)者可以在行動(dòng)空間內(nèi)執(zhí)行任何行動(dòng)(通過對因果鏈中的行動(dòng)節(jié)點(diǎn)的干預(yù)),但必須了解該行動(dòng)是如何影響世界的狀態(tài)的(即,行動(dòng)的效果是了解的)。
將狀態(tài)分解為時(shí)不變屬性和時(shí)變流有助于提高學(xué)習(xí)和推理的計(jì)算復(fù)雜度;我們的代理假設(shè)屬性不能被操作或其他狀態(tài)改變。此外,由于屬性是定時(shí)不變的,屬性提供了agent學(xué)習(xí)知識的基礎(chǔ),而不管執(zhí)行的動(dòng)作順序或杠桿配置如何。與此相反,該通量是時(shí)變的,包含了杠桿內(nèi)鎖機(jī)構(gòu)的潛在狀態(tài);即,鎖定或解鎖。
代理學(xué)習(xí)如何通過觀察哪些屬性與特定流暢相關(guān)聯(lián)的線索來影響這些潛在狀態(tài)。屬性是由物體的底層特征定義的,例如位置、顏色、形狀、方向等。這些低級屬性提供了關(guān)于特定對象在特定操作下如何變化的一般背景知識(例如,可以推或拉哪些杠桿)。
背景理論對可用于歸納或評價(jià)結(jié)構(gòu)表示的一般知識進(jìn)行編碼。我們使用兩個(gè)背景理論,一個(gè)是自下而上的特征,表示b,以學(xué)習(xí)信念,哪些屬性的對象,表明該對象可以相互作用,以產(chǎn)生因果效應(yīng)。這種關(guān)于對象屬性的低級知識和它們參與因果關(guān)系的傾向提供了信息,可以在由共同的基本動(dòng)態(tài)控制的相似但不同的環(huán)境之間傳遞。第二個(gè)背景理論提供了一個(gè)自上而下的抽象概念,用g表示,假設(shè)任務(wù)在略微不同的環(huán)境中具有相似的因果結(jié)構(gòu);也就是說,觀察環(huán)境的變化不會(huì)改變?nèi)蝿?wù)的潛在因果結(jié)構(gòu)。
屬性學(xué)習(xí):屬性提供對象的定常屬性。對象的類別通常具有共同的屬性;例如,所有的杯子都有一個(gè)共同的形狀,所有的停止標(biāo)志都是紅色的,等等。然而,一個(gè)類別中的對象可能在其物理形式上有所不同,但具有共同的功能;例如,電燈開關(guān)有許多形狀和大小,但是所有的例子都共享一個(gè)在狀態(tài)之間傳輸?shù)墓矙C(jī)制。
我們通過貝葉斯學(xué)習(xí)過程了解哪些屬性與我們的因果假設(shè)相關(guān),基于我們假設(shè)的因果關(guān)系會(huì)導(dǎo)致狀態(tài)變化。
因此,一個(gè)對象在一個(gè)動(dòng)作下改變狀態(tài)表明該對象的屬性可能與一種因果關(guān)系有關(guān)。這些屬性為代理提供了泛化線索,例如洞察哪些低級屬性表明相應(yīng)的對象是解決方案的一部分。這種認(rèn)識在試驗(yàn)和因果圖式中是不變的。
agent相信一個(gè)屬性是因果的,這是用q參數(shù)化的多項(xiàng)分布Mult(q)來建模的。q的后驗(yàn)分布給定觀察數(shù)據(jù)X和自底向上理論b遵循狄利克雷分布:p(qjX;b)=Dir(a0),其中a0由一個(gè)極大a后驗(yàn)(MAP)給出。
屬性是在兩種不同的時(shí)間尺度中學(xué)習(xí)的:一個(gè)全局時(shí)間尺度用于學(xué)習(xí)所有試驗(yàn)(試驗(yàn)之間)的屬性,一個(gè)局部時(shí)間尺度用于學(xué)習(xí)特定于此試驗(yàn)(試驗(yàn)中)的屬性。這種分離允許代理快速適應(yīng)試驗(yàn)特定的知識,同時(shí)保持對所有試驗(yàn)的全局理解。在每一個(gè)時(shí)間,我們執(zhí)行這個(gè)屬性學(xué)習(xí)以下步驟:(i)畫一個(gè)樣本(產(chǎn)生觀察通過選擇一個(gè)干預(yù)和觀察結(jié)果),(2)接受樣本如果環(huán)境改變了國家以任何方式(例如,從干預(yù)有效果),和(3)增加每個(gè)屬性的狄利克雷分布根據(jù)觀察到的結(jié)果。
Dirichlet分布Dir(aG)用于建模全局屬性分布的后驗(yàn)。在完成一個(gè)試驗(yàn)后,代理的全球狄利克雷參數(shù),aG,被更新,納入觀察數(shù)據(jù)在一個(gè)試驗(yàn)。
根據(jù)我們的背景理論b,我們引入一個(gè)額外的變量r來表示一個(gè)偶然事件;也就是說,因果事件會(huì)引起環(huán)境中的狀態(tài)變化。在自底向上的聯(lián)想學(xué)習(xí)理論中,我們使用了局部先驗(yàn)優(yōu)于屬性。在給定背景理論b為的情況下,我們計(jì)算特定鏈c的屬性具有因果相關(guān)性的可能性:
回想一下我們的聯(lián)想理論:因果關(guān)系誘發(fā)環(huán)境中的狀態(tài)變化;實(shí)際上,p(rijfi j;b)表示屬性fi j與產(chǎn)生狀態(tài)變化的對象相關(guān)聯(lián)的概率,假設(shè)這些屬性與因果事件獨(dú)立相關(guān)。在我們的領(lǐng)域中,使用這一理論的行動(dòng)者應(yīng)該知道,在因果事件中涉及灰色杠桿,而不是白色杠桿。此外,行為人首先應(yīng)該相信位置是檢測因果關(guān)系的一個(gè)重要屬性。然而,由于agent觀察到灰色杠桿不同位置的多重配置,每一個(gè)位置都會(huì)涉及到因果事件,因此這個(gè)信念應(yīng)該接近均勻分布。
這種自下而上的推斷使代理能夠利用關(guān)于因果關(guān)系的低水平關(guān)聯(lián)信息。然后我們在不同的試驗(yàn)之間轉(zhuǎn)移這種信念,從而使我們的代理能夠利用在一個(gè)試驗(yàn)中獲得的知識轉(zhuǎn)移到下一個(gè)試驗(yàn)中。在每次嘗試之后,行動(dòng)者更新它的信念,關(guān)于它認(rèn)為哪些屬性是因果關(guān)系。
抽象圖式學(xué)習(xí):學(xué)習(xí)與因果線索相對應(yīng)的屬性,對于期望了解環(huán)境如何運(yùn)作的行為人來說是至關(guān)重要的。然而,許多環(huán)境具有共同的高層次抽象因果結(jié)構(gòu)。例如,開關(guān)有各種不同的形狀和大小,為特定的任務(wù)定制,從電燈開關(guān)到斷路器,再到鐵路開關(guān)。這些特定于領(lǐng)域的機(jī)制都共享一個(gè)公共的抽象功能——將某個(gè)對象的狀態(tài)從一種離散狀態(tài)更改為另一種。
我們提出了一個(gè)用于學(xué)習(xí)抽象結(jié)構(gòu)模型的模型,該模型可用于實(shí)例化特定領(lǐng)域的模型,以實(shí)現(xiàn)環(huán)境中的任務(wù)。假設(shè)這種抽象知識跨領(lǐng)域有用,代理可以獲得一組不同功能的有用抽象模型。我們的模型認(rèn)為學(xué)習(xí)抽象知識是一種模型選擇,主體假設(shè)一個(gè)潛在抽象結(jié)構(gòu)的空間,并根據(jù)其在環(huán)境中的經(jīng)驗(yàn)更新這些抽象結(jié)構(gòu)中的信念。更具體地說,我們認(rèn)為一個(gè)抽象的因果圖式gA,來自一個(gè)抽象圖式WGA的假設(shè)空間,是對一些因果關(guān)系的結(jié)構(gòu)描述(見圖2)。即,考慮長度為K =3的N =2軌跡(即因果鏈)的所有可能的結(jié)構(gòu)組合(因?yàn)槊看螄L試都有兩個(gè)解決方案和三個(gè)行動(dòng))。我們引入一個(gè)先于抽象模式,p(gA);g),這是一個(gè)使用來自抽象模式Dirichlet分布的樣本參數(shù)化的多項(xiàng)分布,Dir(aA)。在完成一次試驗(yàn)后,對本次試驗(yàn)中找到的解決方案進(jìn)行編碼的抽象模式在Dirichlet分布中接收到一個(gè)參數(shù)更新,即對解決方案的抽象模式s aA進(jìn)行增加。
這些抽象結(jié)構(gòu)不綁定到任何特定的屬性、狀態(tài)或動(dòng)作實(shí)例。相反,它們在不同的實(shí)例化知識下編碼常見的結(jié)構(gòu)屬性,這些知識在觀察設(shè)置改變時(shí)可能有用。在我們的任務(wù)中,抽象模式對抽象結(jié)構(gòu)進(jìn)行編碼,其中一些對于解決OpenLock(即CC或CE)很有用,我們應(yīng)該預(yù)期代理會(huì)優(yōu)先使用這些結(jié)構(gòu)。
接下來,我們考慮一個(gè)實(shí)例化的模式gI,它是因果鏈c2wc的組成。實(shí)例化的模式與抽象模式共享相同的結(jié)構(gòu),但包含模式中每個(gè)子鏈的每個(gè)ai、si、cra i和crs i的特定賦值。我們根據(jù)圖3a中的層次結(jié)構(gòu)計(jì)算實(shí)例化的模式gI中的信念
其中do(q)表示代理執(zhí)行q的干預(yù)。到目前為止找到的解決方案,一組動(dòng)作序列q=fA0;:::;Ang,其中Ai是一個(gè)動(dòng)作序列。do()操作符是Pearl(2009)提出的干預(yù)操作,它允許代理將自頂向下的推斷偏向于包含已經(jīng)找到的解決方案的實(shí)例化模式。接下來,我們通過對包含該因果鏈的實(shí)例化圖式求和來計(jì)算自頂向下的因果鏈信念。
這些術(shù)語支持自頂向下的推斷,即哪個(gè)鏈最可能遵循反映過去有用的抽象因果結(jié)構(gòu)的實(shí)例化模式。當(dāng)代理面對具有相同的底層抽象機(jī)制管理鎖的新房間配置時(shí),可以了解哪些抽象模式在以前的試驗(yàn)中成功了。
干預(yù)選擇:我們將干預(yù)選擇制定為自上而下和自下而上的因果鏈信念的組合,我們認(rèn)為我們的學(xué)習(xí)機(jī)制g和b是獨(dú)立的。我們根據(jù)自頂向下的信念和自底向上的似然來計(jì)算鏈的后驗(yàn),假設(shè)有一個(gè)一致的先驗(yàn)p(r)
我們的代理對開門任務(wù)的目標(biāo)保持一個(gè)明確的概念。人類參與者也被告知了這項(xiàng)任務(wù)的確切目標(biāo)。因此,我們將干預(yù)選擇過程框架為一種基于模型的規(guī)劃形式。考慮到agent當(dāng)前的環(huán)境模型,我們的agent試圖推斷出最可能實(shí)現(xiàn)打開大門這一目標(biāo)的因果鏈。agent的環(huán)境模型來自于兩種學(xué)習(xí)形式:自下而上的聯(lián)想屬性學(xué)習(xí)和自上而下的抽象圖式學(xué)習(xí)。
p(《;(q);g;b)定義為式5。此狀態(tài)定義與提供給人類參與者的信息相匹配,并將計(jì)劃人員的重點(diǎn)放在實(shí)現(xiàn)任務(wù)級目標(biāo)上。
在滿足約束條件的鏈中,我們依賴后驗(yàn)鏈來確定哪些鏈?zhǔn)呛侠淼摹:篁?yàn)是將自頂向下的結(jié)構(gòu)知識與自底向上的屬性知識相結(jié)合。這種結(jié)合之所以強(qiáng)大,有兩個(gè)原因:(i)自下而上的知識使信念偏向于包含在過去的因果事件中出現(xiàn)過的屬性的結(jié)構(gòu);(ii)自上而下的知識使行動(dòng)者對過去有用的結(jié)構(gòu)有偏見。
模型的結(jié)果
我們以與人類相同的方式訓(xùn)練我們的代理人;具體來說,我們允許該代理在CC和CC中完成80個(gè)試驗(yàn)
CE逃生室(與人類參與者相同數(shù)量)。代理在一次嘗試中被限制為3個(gè)動(dòng)作,在一次嘗試中被限制為30個(gè)動(dòng)作。未完成所有試驗(yàn)的任何代理都將從研究中刪除(與人類參與者數(shù)據(jù)相同,CC條件中未刪除代理;7個(gè)代理被從CE條件中移除)。
圖4比較了人和模型的性能。該模型顯示了與人類相似的趨勢,但在每次試驗(yàn)中表現(xiàn)稍微差一些。對于分配給CC條件的代理,在第一次嘗試后,尋找第一個(gè)解決方案的嘗試次數(shù)顯著減少(t(79)=8:09;和第二次試驗(yàn)(t(79)=4:04;術(shù)中;: 001)。僅在第一次試驗(yàn)之后,CE代理需要較少的嘗試來找到第一個(gè)解(t(72)=6:23;術(shù);:001)。在其余的試驗(yàn)中,第一次和第二次溶液嘗試的減少不顯著。
這些結(jié)果說明我們的模型大致能夠捕捉人類學(xué)習(xí)的參與者,但不捕獲所有所需數(shù)量的顯著變化的嘗試:例如,在CC和CE條件的數(shù)量需要參與者試圖找到第二個(gè)解決方案初審后持續(xù)下降。然而,我們的模型總體上有效地捕捉了人類行為的總體趨勢:尋找所有解決方案所需的嘗試次數(shù)與人類匹配良好,并且?guī)缀鯁握{(diào)地減少,盡管減少的速率更小。
結(jié)論
在這項(xiàng)工作中,我們展示了一個(gè)基于聯(lián)想學(xué)習(xí)和模式推理的層次模型。我們的模型整合了兩種學(xué)習(xí)機(jī)制:(i)自下而上的理論,學(xué)習(xí)哪些屬性在環(huán)境中具有因果關(guān)系;(ii)自上而下的理論,學(xué)習(xí)環(huán)境中有用的抽象結(jié)構(gòu)。我們的agent選擇一個(gè)基于因果鏈后驗(yàn)的干預(yù),并使用干預(yù)的觀察結(jié)果更新其模型。模型結(jié)果表明,我們的混合agent能夠捕獲在人類參與者中觀察到的一般趨勢,并捕獲在人類表現(xiàn)中觀察到的一些統(tǒng)計(jì)意義。這些結(jié)果表明,人類的因果學(xué)習(xí)可能包含一種自下而上的聯(lián)想學(xué)習(xí)和自上而下的因果結(jié)構(gòu)推理的機(jī)制。
這里給出的底層計(jì)算框架可廣泛應(yīng)用于OpenLock環(huán)境之外;它可以應(yīng)用于任何強(qiáng)化學(xué)習(xí)環(huán)境,其中:(i)潛在的動(dòng)力受到一些因果結(jié)構(gòu)的約束;(二)交互要素具有表明因果相關(guān)性的可見特征;(iii)關(guān)鍵要素的物理位置會(huì)隨時(shí)間而改變。在未來,我們希望擴(kuò)展我們的模型來解釋更極端的觀測變化。例如,如果杠桿可以突然旋轉(zhuǎn)而不是推/拉?如果引入了新的顏色,提供了關(guān)于因果關(guān)系的進(jìn)一步線索,會(huì)怎么樣呢?如果環(huán)境開始以概率的方式運(yùn)行,杠桿可能無法正確地啟動(dòng),又會(huì)怎樣呢?未來的行為和計(jì)算工作應(yīng)該檢查這些過程如何在更復(fù)雜的場景中集成,從而提供更接近真實(shí)世界的方法。
討論
還有哪些理論可能對學(xué)習(xí)因果關(guān)系有用?
這里提出的背景理論,即因果關(guān)系引發(fā)狀態(tài)變化和抽象的因果知識可以重用,提供了合理的背景理論。然而,其他背景理論可能也很有吸引力。例如,Pearl(2009)根據(jù)因果關(guān)系是否在有向無環(huán)圖中可識別,對因果關(guān)系定義了更嚴(yán)格的定義。
如何避免假設(shè)空間枚舉?
本文列舉了的空間。假設(shè)空間枚舉可以很快變得棘手的問題增加規(guī)模。雖然這項(xiàng)工作使用了一個(gè)固定的、完全枚舉的假設(shè)空間,但未來的工作將包括檢查基于采樣的方法如何迭代生成因果假設(shè)(例如,見Bramley et al.(2017))。
自底向上關(guān)聯(lián)標(biāo)準(zhǔn)的其他可能性是什么?
我們的方法將低級屬性作為自下而上的聯(lián)想學(xué)習(xí)的標(biāo)準(zhǔn)。然而,其他的可能性也同樣有效。例如,建模者可以將屬性與特定的動(dòng)作配對,并從中了解因果關(guān)系的分布情況。這一決定最終歸結(jié)為所考慮問題的解決方案,以及什么適合正確地對問題建模。
這項(xiàng)工作是如何與強(qiáng)化學(xué)習(xí)(RL)聯(lián)系在一起的?
基于模型的規(guī)劃器與基于模型的RL密切相關(guān)。我們的問題設(shè)置可以按照0-1獎(jiǎng)勵(lì)函數(shù)進(jìn)行設(shè)置,如果門被打開,代理將收到1的獎(jiǎng)勵(lì),否則將收到0。然而,基于模型的RL通常假設(shè)提供了一個(gè)世界模型,但我們的agent通過聯(lián)想學(xué)習(xí)和模式推理迭代地更新世界動(dòng)力學(xué)的概念。
總結(jié)
以上是生活随笔為你收集整理的读后感与机翻《人类因果学习的分解:自下而上的联想学习和自上而下的图式推理》的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 读后感和机翻《人类因果迁移:深度强化学习
- 下一篇: 读后感与机翻《基于理论的因果迁移:结合实