Learning Collaborative Agents with Rule Guidance for Knowledge Graph Reasoning-学习笔记
目錄
問題和初步
問題表述
基于符號的方法
基于步行的方法
提出的方法:RuleGuider
模型架構
Relation Agent
Entity Agent
Policy Network
Model Learning
獎勵設計
培訓程序
實驗
實驗裝置
Datasets
Hyperparameters
結果
消融研究
人工評估
結論
問題和初步
-
問題表述
給定一個查詢:。
KG推理的任務是找到一組對象實體,使得,其中是中缺少的事實三元組。
為了與大多數現有作品保持一致,本文只考慮尾部查詢。
-
基于符號的方法
某些以前的方法是從KG挖掘Horn規則,并通過將這些規則作為基礎來預測缺失的事實。 最近的方法AnyBURL(Meilicke et al.,2019)表現出與基于嵌入技術的最先進方法相當的性能。
但是,這些方法有局限性。 例如,從不同KG提取的規則可能具有不同的質量,這使得推理者難以選擇規則。 圖1顯示了這種差異。 根據預測目標實體的準確性對規則進行排序。 WN18RR的最高規則比FB15K-237的最高價值。
圖1:數據集之間的規則質量差異。 WN18RR存在高質量的規則。
-
基于步行的方法
給定查詢,基于步行的方法訓練RL代理以查找從到期望的對象實體的路徑,該路徑暗含查詢關系。 在步驟t,當前狀態由元組表示,其中是當前實體。然后,代理對下一個關系實體對進行采樣,以從可能的動作中訪問。 代理到達時會收到獎勵。
提出的方法:RuleGuider
RuleGuider由一個基于符號的方法(稱為規則挖掘器)和一個基于步行的方法(稱為代理)組成。
規則挖掘者首先挖掘邏輯規則,然后代理遍歷KG,以在規則的指導下(通過獎勵)學習推理路徑的概率分布。
當代理遍歷關系和實體時,我們建議將代理分為兩個子代理:關系和實體代理。 分離之后,搜索空間將被大幅修剪。 圖2詳細顯示了這兩種代理的結構。
圖2:兩個代理的體系結構。 關系和實體代理相互交互以生成路徑。 在每個步驟,實體代理首先從有效實體中選擇一個實體。 然后,關系代理根據所選實體對關系進行抽樣。 在最后一步,他們將根據最后選擇的實體獲得點擊獎勵,并根據選擇的路徑從預先挖掘的規則集中獲得規則指導獎勵。
-
模型架構
Relation Agent
在步驟是躍點數),關系代理選擇入射到當前實體et-1的單個關系rt,其中e0 = es。 給定一個查詢和一組規則R,可以將該過程表示為其中是關系歷史記錄。 代理首先過濾出與rq頭不同的規則,然后從其余規則主體的第t個原子(即規則模式中的bt(··))中選擇rt。由于規則挖掘者提供了規則的置信度分數,因此我們首先使用RL技術使用分數對該代理進行預訓練。 在訓練期間,代理會應用預訓練的策略(分布),并通過利用嵌入提供的語義信息來不斷調整分布。 換句話說,關系代理既可以利用預先制定的規則的置信度得分,也可以嵌入有形的點擊獎勵。
Entity Agent
在步驟t,代理基于,和實體歷史生成所有候選實體的分布。 給定當前關系rt,此過程可以正式表示為。 代理從所有發生在rt的實體中選擇一個實體。 這樣,實體和關聯代理可以獨立進行推理。在實驗中,我們還嘗試讓實體代理根據關聯代理修剪的實體空間生成分布。 以這種方式,實體代理接受選定的關系,并且可以利用來自該關系代理的信息。 但是,實體空間可能非常小,很難學習。 這會使實體代理的效率降低,尤其是在大而密集的KG上。
Policy Network
通過嵌入rq和來參數化關聯代理的搜索策略。 關系歷史使用LSTM(Hochreiter和Schmidhuber,1997)進行編碼:,其中是最后一個關系的嵌入。 我們初始化,其中rs是一個特殊的開始關系嵌入,與源實體嵌入es形成一個初始的關系實體對。
關系空間嵌入由步驟t的關系空間Rt中所有關系的嵌入組成。 最后,關系代理輸出概率分布并從中采樣一個關系。其中σ是softmax運算符,W1和W2是可訓練的參數。 我們將關系代理的歷史依賴策略設計為。
同樣,實體代理的歷史相關政策為。 實體代理可以獲取其上一步的嵌入,實體空間嵌入Et,其歷史以及實體的概率分布。,其中W3和W4是可訓練的參數。 請注意,實體代理使用不同的LSTM編碼實體歷史。
-
Model Learning
我們通過讓上述兩個代理從特定實體開始并以固定的跳數遍歷KG來訓練模型。 agents在最后一步會收到獎勵。
獎勵設計
給定查詢后,關系代理將首選將路徑定向到正確的對象實體的路徑。 因此,給定一個關系路徑,我們根據從規則挖掘者獲取的信任度給予獎勵,稱為規則指導獎勵Rr。 我們還將Laplace平滑pc = 5添加到最終Rr的置信度分數中。 除Rr之外,代理還將獲得一次命中獎勵Rh,如果預測的三元組為,則為1。否則,我們使用的嵌入 像Lin等人那樣衡量報酬。 (2018)。其中是一個指標函數,是一個使用嵌入進行獎勵整形的合成函數。
培訓程序
我們分四個階段訓練模型。
1)使用基于嵌入的方法訓練關系和實體嵌入。
2)應用規則挖掘器來檢索規則及其相關的置信度分數。
3)通過凍結實體代理并要求關聯代理采樣路徑來對關聯代理進行預訓練。 我們僅使用規則挖掘器評估路徑并根據預先確定的置信度得分計算Rr。
4)聯合訓練關系和實體代理,以利用嵌入來計算Rh。 最終獎勵R包含常數因子λ的Rr和。 使用REINFORCE(Williams,1992)算法訓練了兩個代理的策略網絡,以最大化R。
實驗
-
實驗裝置
Datasets
(1) FB15k-237 (Toutanova et al., 2015)
(2) WN18RR (Dettmers et al., 2018)
(3) NELL-995 (Xiong et al., 2017)
Hyperparameters
-
結果
表1:與基于步行的方法的性能比較。 可解釋方法和基于嵌入的方法中的最佳分數分別為粗體和下劃線。 此外,我們還提供了基于嵌入式技術的最新方法的報告分數作為參考。 我們強調了該類別中表現最好的產品。
基于嵌入的方法不受圖形中嚴格遍歷的影響,有時由于圖形的不完整性而受益于此屬性。 通過利用規則,我們還結合了一些全局信息作為指導,以彌補離散推理過程中潛在的搜索空間損失。
表2:在對預訓練和訓練階段結束時設定的開發進行推斷的過程中,RuleGuider(ComplEx)用于預測(波束0)的規則百分比。
它表明我們的模型放棄了一些規則來進一步提高訓練階段的命中表現。
-
消融研究
表3:Freeze, No and Single代表具有凍結的預訓練關聯試劑,沒有預訓練且沒有分離試劑的模型。
凍結性能較差的經過預訓練的代理程序,表明需要擊中獎勵。 消除性能較差的預訓練表明,基于步行的座席將從邏輯規則中受益。 性能較差的單個代理變量顯示了修剪操作空間的有效性。
-
人工評估
除評估指標外,我們還分析導致正確預測實體的推理路徑是否合理。我們在Amazon Mechanical Turk上進行人工評估。我們使用FB15k-237上的均勻分布從開發集中隨機抽取了300個三元組的評估集。在評估過程中,給定地面實況三元組,要求三名法官在以下兩者之間選擇一條更好的解釋/分解路徑:1.通過我們的方法生成的路徑。 2.通過Multihop方法生成的路徑。 3.開獎或沒有一個是合理的。請注意,有2.6%的預測路徑相同,因此將它們從評估集中排除。對于每個三元組,我們將多數票作為評估結果。由于三名法官可能各自選擇不同的選項,因此每個選項都有一票表決權。在這種情況下,我們不將其計入最終評估結果中(表4)。出乎意料的是,沒有三人在“鐵”上獲得超過一票。與具有ComplEx獎勵整形的Multihop相比,RuleGuider具有更好的性能,并且推理路徑對人類法官更有意義。
表4:Multihop(Lin等人,2018)和ruleGuider之間的人為評估投票,以正確預測FB15K-237開發集上的路徑。 兩種模型都使用ComplEx獎勵整形。
結論
?在未來的工作中,我們想研究如何將非循環規則引入基于步行的系統。
總結
以上是生活随笔為你收集整理的Learning Collaborative Agents with Rule Guidance for Knowledge Graph Reasoning-学习笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从硬件到纯软件,回顾一个老工程师的经历之
- 下一篇: Linux下"/"与