论文学习1-DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning
文章目錄
- 摘要
- Introduction
- 最近工作
- 基于PRA的其他方法
- 其他使用強化學習的方法
- 我們的方法
- 方法介紹(強化學習
摘要
研究了大規模知識圖的學習推理問題。更具體地說,我們描述了一個用于學習多跳關系路徑的新型強化學習框架:我們使用一個基于知識圖嵌入的具有連續狀態的基于策略的代理,該代理通過采樣最有希望的關系來擴展其路徑,從而在KG向量空間中進行推理。與之前的工作相比,我們的方法包含一個考慮準確性、多樣性和效率的獎勵函數。實驗結果表明,該方法優于基于路徑排序的算法
Introduction
- 復雜的自然語言處理問題往往需要多個相互關聯的決策,而賦予深度學習模型學習推理的能力仍然是一個具有挑戰性的問題
最近工作
- Path-Ranking Algorithm(PRA)
- PRA使用基于重啟推理機制的隨機行走來執行多個有界深度優先搜索過程來尋找關系路徑。結合基于彈性網絡的學習,PRA使用監督學習選擇更合理的路徑。
- 缺點:PRA是在一個完全離散的空間中運行的,這使得在KG中評估和比較相似的實體和關系變得困難
- 瓶頸:連接大量表單的超節點(連接大量表單的超節點
- A potential bottleneck for random walk inference is that supernodes connecting to large amount of formulas will create huge fan-out areas that significantly slow down the inference and affect the accuracy.(隨機行走推理的一個潛在瓶頸是連接大量公式的超級節點會產生巨大的扇出區域,這會顯著降低推理速度并影響推理的準確性。)
- 降低速度和準確性
基于PRA的其他方法
- Toutanova等(2015)提出了一種針對多跳推理的卷積神經網絡解決方案。他們構建了一個基于詞法化依賴路徑的CNN模型,該模型存在解析錯誤導致的錯誤傳播問題。
- Guu等(2015)使用KG嵌入來回答路徑查詢。
- Zeng et al.(2014)描述了一種用于關系提取的CNN模型,但是它并沒有明確的對關系路徑進行建模。
- Neelakantan等人(2015)提出了一種遞歸神經網絡模型,用于知識庫完成(KBC)中關系路徑的建模,但是它訓練了太多的獨立模型,并且因此它不具有可伸縮性。
- 注意,最近的許多KG推理方法(Neelakantan et al., 2015;(Das et al., 2017)仍然依賴于首次學習PRA路徑,它只在離散空間中運行。
其他使用強化學習的方法
-
神經符號機器(Liang et al., 2016)是KG推理的最新成果,它也應用了強化學習,但與我們的工作有不同的風格。NSM學習編寫可以找到自然語言問題答案的程序,而為了得到答案,NSM學習生成一個可以組合成可執行程序的操作序列,NSM中的操作空間是一組預定義的令牌
-
使用
我們的方法
- 強化學習
- 策略梯度訓練
- 連續空間:基于TransE
- 首次提出了學習知識圖中關系路徑的強化學習方法;
- 我們的學習方法使用一個復雜的獎勵函數,同時考慮準確性、效率和路徑多樣性,在尋路過程中提供更好的控制和更大的靈活性;
- 我們證明,我們的方法可以擴展到大規模的知識圖,在兩個任務中都優于PRA和KG嵌入方法。
- 優點:與PRA相比,我們的方法是在一個連續的空間中推理,通過在獎勵函數中加入各種標準,我們的強化學習(RL)框架對尋路過程有更好的控制和更大的靈活性。
- 與NSM比:
- 我們的RL模型則嘗試通過現有的KG三元組推理向知識圖(KG)中添加新的事實。
- 在我們的框架中,目標是找到推理路徑,因此動作空間是KG中的關系空間。
- DQN比:
- 與Deep Q Network (DQN) (Mnih et al., 2013)相比,基于策略的RL方法更適合我們的知識圖場景。原因之一是,對于KG中的尋路問題,由于關系圖的復雜性,使得動作空間非常大。這可能導致DQN收斂性差。此外,該策略網絡可以學習一個隨機策略,避免agent陷入中間狀態,而不是學習DQN等基于值的方法中常見的貪婪策略。
方法介紹(強化學習
In this section, we describe in detail our RL-based framework for multi-hop relation reasoning. The specific task of relation reasoning is to find reliable predictive paths between entity pairs. We formulate the path finding problem as a sequential decision making problem which can be solved with a RL agent. We first describe the environment and the policy-based RL agent. By interacting with the environment designed around the KG, the agent learns to pick the promising reasoning paths. Then we describe the training procedure of our RL model. After that, we describe an efficient path-constrained search algorithm for relation reasoning with the paths found by the RL agent.
在本節中,我們將詳細描述基于rl的多跳關系推理框架。關聯推理的具體任務是在實體對之間找到可靠的預測路徑。我們將尋徑問題描述為一個可以用RL代理來解決的順序決策問題。我們首先描述環境和基于策略的RL代理。通過與圍繞KG設計的環境交互,代理學會選擇有希望的推理路徑。然后描述了RL模型的訓練過程。然后,我們描述了一個有效的路徑約束搜索算法,用RL代理找到的路徑進行關系推理。
-
環境:(S,A,P,R)
-
R-獎勵
- 全局精度:走一步-1,到目的地+1
- 因為錯誤決策比正確決策多得多
- path effeciency:希望走短路徑
- reffeciency=1lengthr_{effeciency}=\frac{1}{length}reffeciency?=length1?
- path diversity:希望保證路徑多樣性
- rdiversity=?1∣F∣Σi=1∣F∣cos(p,pi)p=Σi=1nri,r是關系r_{diversity}=-\frac{1}{|F|}\Sigma_{i=1}^{|F|}cos(p,p_i)\\p=\Sigma_{i=1}^nr_i,r是關系rdiversity?=?∣F∣1?Σi=1∣F∣?cos(p,pi?)p=Σi=1n?ri?,r是關系
- 全局精度:走一步-1,到目的地+1
-
S-狀態-實體所在的位置st=(et,etarget?et)s_t=(e_t,e_{target}-e_t)st?=(et?,etarget??et?)
-
A-行動(邊,關系)
-
轉移矩陣:P(si+1∣si,ai)P(s_{i+1}|s_i,a_i)P(si+1?∣si?,ai?)
-
采取行動的概率:π(s,a)=p(a∣s)\pi(s,a)=p(a|s)π(s,a)=p(a∣s)
-
網絡:全連接網絡
-
2個隱層“:relu
-
輸出層:sofmax
-
可能路徑太多
- AlphaGo:AlphaGo首先使用專家棋訓練一個有監督的策略網絡。
- 我們:使用隨機的廣度優先搜索(BFS)訓練監督策略。
-
監督學習部分:
-
對于每個關系,我們使用所有正樣本的子集(實體對)來學習監督策略。對于每個陽性樣本(esource、etarget),將執行一個雙邊BFS,以在實體之間找到相同的正確路徑。對于每條路徑p與關系序列r1→r2→…→rn,我們更新參數θ最大化預期累積獎勵使用蒙特卡羅策略梯度
-
總獎勵:
-
梯度:
-
然而,普通的BFS是一種偏愛短路徑的有偏搜索算法。當插入這些有偏差的路徑時,代理很難找到可能有用的更長的路徑。我們希望這些路徑只由已定義的獎勵函數控制。為了防止偏置搜索,我們采用了一個簡單的技巧,向BFS中添加一些隨機機制。我們沒有直接搜索esource和etarget之間的路徑,而是隨機選擇一個中間節點einter,然后在(esource, einter)和(einter, etarget)之間執行兩個BFS。連接的路徑用于訓練代理。監督學習為agent節省了從失敗行為中學習的大量精力。有了這些經驗,我們就可以訓練代理去尋找合適的路徑。
-
然后再訓練
-
Bi-directional Path-constrained Search減少中間節點個數(驗證)
總結
以上是生活随笔為你收集整理的论文学习1-DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: W玻色子质量实验与理论矛盾,或是十年来最
- 下一篇: 阿里云服务器重启后无法访问的解决