论文浅尝 | ADRL:一个基于注意力机制的知识图谱深度强化学习框架
論文筆記整理:譚亦鳴,東南大學博士。
來源:Knowledge-Based Systems 197 (2020) 105910
鏈接:https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839
概要與動機
知識圖譜推理是圖譜構建的關鍵技術之一,它在包括垂直搜索和智能問答等應用場景中有著重要作用。推理的目標是根據已知實體和關系推斷所需的未知實體。現有的推理方法主要基于embedding實現(即對所有的實體和關系做整體embedding,然后利用向量相似度推斷實體間的關系或者給定三元組是否為真)。但是在真實的應用場景中,我們需要一個清晰且可解釋的實體作為輸出。本文提出一種基于注意力機制的知識圖譜深度強化學習框架ADRL,用于學習多跳關系路徑,通過深度學習及強化學習結構化感知,從而提高傳統方法效率,泛化能力及可解釋性。
貢獻
本文的主要貢獻包括:
1.提出了一個面向知識圖譜推理的基于深度學習的新框架,相較傳統方法,該框架科研有效提升性能及可解釋性
2.設計了一個關系模型,作為推理框架的通用插件,其中的self-attention能夠循環推斷實體之間的關系以引導一個model-free的策略,這一做法相對前人工作更有助于agent推斷關系路徑
3.利用actor-critic方法有效解決了獎勵系數問題,其中獎勵取決于價值函數,并將同策略一起被訓練和優化
模型與算法
本文提出框架的整個過程如下圖所示,其過程大體可以描述為:
1.首先將知識圖譜的agent環境輸入卷積神經網絡(CNN);
2.利用深度CNN將其映射到低維向量,且可以在每個級別可以傳遞信息
3.接著使用LSTM(使用校正的線路單ReLU激活函數),用于儲存生成的歷史軌跡,構成策略與價值函數
4.上述步驟的輸出被輸入進一個關系模型,模型中包含一個self-attention模塊用于推斷和分享實體向量及關系向量的權值
5.利用一個特征感知的最大池化層對關系模型的輸出進行聚合,最后傳遞給一個MLP接著是ReLU激活函數用于產生一個策略以及一個基準標量價值函數,可以被用作一個agent獎勵
在優化算法方面,作者考慮到基于梯度下降的方法效率較低,而蒙特卡洛抽樣依賴于大量積極獎勵(尤其是學習初始階段),為了解決這些問題,作者選擇Actor-Critic,一種結合策略梯度和順序差異學習的強化學習方法。Actor-Critic算法可以執行單步更新參數,使用值函數作為基礎函數來減少策略梯度的差異,而無需等待回合結束,并且在訓練過程中可以同時學習策略和價值函數,算法流程如下圖:
實驗與結果
實驗數據:
本文實驗所使用的數據是目前較為流行的KG推理數據集(WN18RR,FB15K-237,NELL-995),其統計信息如表1.
表2是linkprediction實驗結果,本文方法展現出了更好的性能,作者認為是共享的實體及關系權值帶來了更佳的性能表現。
表3是factprediction的結果,作者認為本文方法的優勢在于“the reason is that our model is more complex than the previous model, introducing more state-of-the-art methods”
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | ADRL:一个基于注意力机制的知识图谱深度强化学习框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里P8架构师谈:大数据架构设计(文章合
- 下一篇: 论文浅尝 | 用于低资源条件下知识图谱补