當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文学习1-DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

發布時間：2024/7/5 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了论文学习1-DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

摘要
Introduction
- 最近工作
- - 基于PRA的其他方法
  - 其他使用強化學習的方法
- 我們的方法
方法介紹（強化學習

摘要

研究了大規模知識圖的學習推理問題。更具體地說，我們描述了一個用于學習多跳關系路徑的新型強化學習框架:我們使用一個基于知識圖嵌入的具有連續狀態的基于策略的代理，該代理通過采樣最有希望的關系來擴展其路徑，從而在KG向量空間中進行推理。與之前的工作相比，我們的方法包含一個考慮準確性、多樣性和效率的獎勵函數。實驗結果表明，該方法優于基于路徑排序的算法

Introduction

復雜的自然語言處理問題往往需要多個相互關聯的決策，而賦予深度學習模型學習推理的能力仍然是一個具有挑戰性的問題

我們的方法

強化學習
策略梯度訓練
連續空間：基于TransE
- 首次提出了學習知識圖中關系路徑的強化學習方法;
- 我們的學習方法使用一個復雜的獎勵函數，同時考慮準確性、效率和路徑多樣性，在尋路過程中提供更好的控制和更大的靈活性;
- 我們證明，我們的方法可以擴展到大規模的知識圖，在兩個任務中都優于PRA和KG嵌入方法。
優點：與PRA相比，我們的方法是在一個連續的空間中推理，通過在獎勵函數中加入各種標準，我們的強化學習(RL)框架對尋路過程有更好的控制和更大的靈活性。
與NSM比：
- 我們的RL模型則嘗試通過現有的KG三元組推理向知識圖(KG)中添加新的事實。
- 在我們的框架中，目標是找到推理路徑，因此動作空間是KG中的關系空間。
DQN比：
- 與Deep Q Network (DQN) (Mnih et al.， 2013)相比，基于策略的RL方法更適合我們的知識圖場景。原因之一是，對于KG中的尋路問題，由于關系圖的復雜性，使得動作空間非常大。這可能導致DQN收斂性差。此外，該策略網絡可以學習一個隨機策略，避免agent陷入中間狀態，而不是學習DQN等基于值的方法中常見的貪婪策略。

方法介紹（強化學習

In this section, we describe in detail our RL-based framework for multi-hop relation reasoning. The specific task of relation reasoning is to find reliable predictive paths between entity pairs. We formulate the path finding problem as a sequential decision making problem which can be solved with a RL agent. We first describe the environment and the policy-based RL agent. By interacting with the environment designed around the KG, the agent learns to pick the promising reasoning paths. Then we describe the training procedure of our RL model. After that, we describe an efficient path-constrained search algorithm for relation reasoning with the paths found by the RL agent.
在本節中，我們將詳細描述基于rl的多跳關系推理框架。關聯推理的具體任務是在實體對之間找到可靠的預測路徑。我們將尋徑問題描述為一個可以用RL代理來解決的順序決策問題。我們首先描述環境和基于策略的RL代理。通過與圍繞KG設計的環境交互，代理學會選擇有希望的推理路徑。然后描述了RL模型的訓練過程。然后，我們描述了一個有效的路徑約束搜索算法，用RL代理找到的路徑進行關系推理。

環境：（S,A,P,R)
R-獎勵
- 全局精度：走一步-1，到目的地+1
  - 因為錯誤決策比正確決策多得多
- path effeciency：希望走短路徑
  - $reffeciency=1lengthr_{effeciency}=\frac{1}{length}$
- path diversity:希望保證路徑多樣性
  - $rdiversity=?1∣F∣Σi=1∣F∣cos(p,pi)p=Σi=1nri,r是關系r_{diversity}=-\frac{1}{|F|}\Sigma_{i=1}^{|F|}cos(p,p_i)\\p=\Sigma_{i=1}^nr_i,r是關系$
S-狀態-實體所在的位置 $s_t=(e_t,e_{target}-e_t)$
A-行動（邊，關系）
轉移矩陣： $P(s_{i+1}|s_i,a_i)$
采取行動的概率： $π(s,a)=p(a∣s)\pi(s,a)=p(a|s)$
網絡：全連接網絡
2個隱層“：relu
輸出層：sofmax
可能路徑太多
- AlphaGo：AlphaGo首先使用專家棋訓練一個有監督的策略網絡。
- 我們：使用隨機的廣度優先搜索(BFS)訓練監督策略。
監督學習部分：
對于每個關系，我們使用所有正樣本的子集(實體對)來學習監督策略。對于每個陽性樣本(esource、etarget)，將執行一個雙邊BFS，以在實體之間找到相同的正確路徑。對于每條路徑p與關系序列r1→r2→…→rn,我們更新參數θ最大化預期累積獎勵使用蒙特卡羅策略梯度
總獎勵：
梯度：
然而，普通的BFS是一種偏愛短路徑的有偏搜索算法。當插入這些有偏差的路徑時，代理很難找到可能有用的更長的路徑。我們希望這些路徑只由已定義的獎勵函數控制。為了防止偏置搜索，我們采用了一個簡單的技巧，向BFS中添加一些隨機機制。我們沒有直接搜索esource和etarget之間的路徑，而是隨機選擇一個中間節點einter，然后在(esource, einter)和(einter, etarget)之間執行兩個BFS。連接的路徑用于訓練代理。監督學習為agent節省了從失敗行為中學習的大量精力。有了這些經驗，我們就可以訓練代理去尋找合適的路徑。
然后再訓練
Bi-directional Path-constrained Search減少中間節點個數（驗證）

總結

以上是生活随笔為你收集整理的论文学习1-DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： W玻色子质量实验与理论矛盾，或是十年来最
下一篇：阿里云服务器重启后无法访问的解决

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

论文学习1-DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

文章目錄

摘要

Introduction

最近工作

基于PRA的其他方法

其他使用強化學習的方法

我們的方法

方法介紹（強化學習

總結