论文浅尝 | 基于开放世界的知识图谱补全
Citation: Baoxu Shi and Tim Weninger (2017). Open-World Knowledge Graph Completion 6, AAAI 2018
傳統的知識庫補全算法如TransE等都是基于Close world assumption 的,也是就說補全的實體必須在知識圖譜內。然而事實上大規模的知識圖譜是一直進化的,整個圖譜并不是一成不變的。因此當遇到不存在與以前知識庫中的實體或者關系如何對知識庫進行補全則是一個重要的研究問題。本文提出了一個基于開放世界假設的知識補全算法,該算法可以將未出現在知識庫中的實體進行補全,進而克服傳統知識庫補全算法的問題。
?
整個算法的框架如下圖所示:
該算法分為三個部分
1、? Relationship-Dependent Content Masking
?由于本文的算法是可以抽取不在知識庫中的實體,因此待抽取的實體則可能會在文本中出現。而文本中又會隱含大量的噪聲和補全的三元組無關。為了去掉文本中的噪聲,本文通過一個attention機制來計算文本和關系的相關程度進而獲取關鍵詞。Attention計算的公式如式1所示:
其中表示實體在文本中的描述矩陣,矩陣中的每一行則是實體描述的編碼。如我們要對<Michelle Obama,AlmaMater, ?>這個三元組進行補全。那么高權重的詞則可能是P rinceton, Harvard, 和University雖然這些詞并不是目標實體,但是他們通常會落在目標實體的附近,并對目標實體進行描述。
2、? Target Fusion
Target Fusion主要的作用是對上一步中獲取的信息進行進一步的提純。在這一步中主要采用在遠程監督時據有良好效果的 CNN 模型。該模型如下圖所示。
該模型將上文選出的關鍵詞融合到一個表示向量中
3、? Semantic Averaging
上文只是對文本進行了編碼,但是當出現實體時,模型也需要將他們進行編碼。本文采用了一個非常簡單的編碼模型。通過實體中每個詞編碼的平均值來計算實體的表述。
最終模型通過一個 list-wise ranking 損失函數來計算,公式如下
該公式希望在預測head實體時 Pc 要大于 0.5 而預測 tail 實體時 Pc 要小于 0.5
S 則是一個 sigmoid 函數如下所示
實驗:
本文在四個數據集上進行了實驗
在開放世界的實體預測實驗中實驗結果顯示,本文的算法答復超過基于封閉世界假設的 DKRL,進而可以證明本文算法的有效性
論文筆記整理:高桓,東南大學博士,研究方向為自然語言處理。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
?
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于开放世界的知识图谱补全的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: Docx:docx.opc.except
- 下一篇: 深入理解K-Means聚类算法
