论文浅尝 | 利用 KG Embedding 进行问题回答
論文筆記整理:吳楊,浙江大學計算機學院,知識圖譜、NLP方向。
http://research.baidu.com/Public/uploads/5c1c9a58317b3.pdf
動機
????? 本文主要針對基于知識庫的問題回答中的簡單問題,也就是問題的答案只涉及KG中的一跳,此類問題在KG中找到對應的頭實體和關系以后,獲取到的尾實體即為問題的答案。本文的思路主要是:直接將問題的文本空間向量轉化到KG空間向量,并在預訓練的(通過TransE之類)KG Embedding中查找與該向量最相似的那個實體和關系,利用他們得到問題的答案。本文的主要貢獻在于:
提出了KEQA框架,能夠使用KG Embedding查找問題的實體和關系來解決問題
對預訓練的KG Embedding和文本轉化來的KG Embedding提出了新的距離度量
解釋了KEQA的效率和魯棒性
方法
(1) 概述
???? 對于一個三元組(h, r, t)組成的KG, 我們首先使用KG Embedding模型來對KG中的實體和關系Embedding進行預訓練,通過使用TransE或者TransH等方法,最終的得到實體的表示,和關系的表示。隨后我們通過神經網絡,將問題的單詞Embedding作為輸入,訓練其輸出一個關系的Embedding和實體的Embedding,通過計算這兩個向量與預訓練的關系向量和實體向量的距離,我們取距離最小的兩個,作為最終三元組的頭實體和關系,來獲取到答案。
(2) 轉化到KG Embedding空間部分:
???? 將問題通過Bi-LSTM轉化成為d維度的向量。隨后經過Attention層并與原單詞的Embedding做合并操作,在經過一個全連接層得到該單詞映射到KG空間的Embedding,將所有的向量作加權平均,最終就可以得到問題轉化成為的頭實體向量或者是關系向量(注意轉化到頭實體和轉化到關系使用的是相同的神經網絡架構),該組神經網絡的訓練數據來源于原始QA對中直接取出Answer的頭實體預訓練Embedding和關系預訓練Embedding。損失函數為向量的歐氏距離,涉及到的公式如下:
(3) 頭實體探測:
????? 由于KG中的實體一般非常的多,因此有必要在KG中首先將不相關的實體進行剔除操作得到一個子圖,然后將的得到Embedding與子圖中的實體Embedding進行距離度量已加快速度,在這里,我們首先通過一個神經網絡來探測問題中的各單詞是否是一個實體。在得到的結果中,我們將輸出值為有可能是實體的那些單詞,送入KG做實體的字符串匹配,這樣就可以拿出僅與這些單詞相關的實體了。具體的模型如下:
? 首先,單詞經過一個Bi-LSTM后,直接進入全連接層,再通過SoftMax得到一個二維的向量,其中第一維表示這個單詞是一個實體的概率,第二維表示不是實體的概率。?
?
(4) 度量部分:
? 這一部分需要對神經網絡輸出的實體Embedding和關系Embedding計算其與預訓練的Embedding之間的度量:
?其中,(h, l, t)表示候選的三元組,度量項的前三項分別為輸出的頭實體、關系、尾實體和預訓練的頭實體、關系、尾實體之間的歐氏距離。注意,由于QA中一個頭實體和關系可能對應有多個尾實體,因此這里不直接使用預訓練的尾實體Embedding。而是使用預訓練KG時的(h, l ,t)之間的關系函數t = f(h, l)來表示(對于TransE,其為h + l = t)。第四項和第五項分別表示頭實體和關系的字符串與(3)部分提取出的問題中可能為實體的單詞之間的相似度。至此總的KEQA的流程結束。其算法表示如下:
?
實驗
(1) 在各數據集的數據量:
?? 由于去解決的是簡單問題,因此所用到的數據集為Freebase,其中Freebase的子集FB2M和FB5M以及FB2M的子集SimpleQuestions這三個數據集的數據量以及一些其他特征見下表:
?(2) 性能評測:
? ???? 可以看的出來,本文在簡單問題上的正確率相較于當前的模型還是有一定的提升的。
???? 如果對于使用了不同的預訓練模型,比如TransE/H/R之間的性能區別,以及預訓練的KG Embedding對QA問題的性能提升可以在下表中看出,對于noEmbed,也就是使用隨機初始化的向量值作為實體和關系的Embedding(在距離度量時也采用該Embedding),由于隨機初始化的結果服從均勻分布,因此問題退化為一個基本的分類問題。
????? 最后,這一張圖則體現了新的距離度量函數對性能的影響,其中第一項表示只保留,第二項表示只刪除,第三項則表示依次按順序將當前的度量項目加入到度量函數中得到的新能結果
總結
本文提出了使用預訓練KG Embedding。再使用神經網絡將問題空間映射到KG空間的Embedding,并將這二者進行距離度量,取出距離最小的預訓練Embedding,從而得到問題的答案頭實體和關系的方法。
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 利用 KG Embedding 进行问题回答的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术动态 | 针对复杂问题的知识图谱问答
- 下一篇: 论文浅尝 - EMNLP2020 | 低