论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
筆記整理:張清恒,南京大學計算機科學與技術系,碩士研究生。
論文鏈接:https://people.eng.unimelb.edu.au/jianzhongq/papers/AAAI2019_EntityAlignment.pdf
發表會議:AAAI 2019
摘要
近來,針對跨知識圖譜(KGs)的實體對齊任務,研究者提出并改進了多種基于embedding的模型。這些模型充分利用實體與實體之間的關系以得到實體之間的語義相似度,換言之,這些模型更關注于關系三元組(relationship triple)。本文發現KG中存在著大量的屬性三元組(attribute triple),本文提出的模型利用屬性三元組生成 attributecharacter embeddings,使其幫助不同KG中的實體映射到同一空間中。與此同時,模型還使用傳遞規則進一步豐富三元組。實驗結果表明,相比于現有方法,本文提出的模型在實體對齊任務上取得了較大的提升。
模型介紹
1.???? 概覽
如圖1所示,該模型由三個核心部分組成,分別是謂詞對齊(predicate alignment)、嵌入學習(embedding learning)和實體對齊(entity alignment)。
2. Predicate Alignment
該模塊通過重命名潛在對齊的謂詞將兩個KG合并成一個KG。通過計算謂詞的名稱(URI的最后一部分)相似度,發現潛在對齊的謂詞對,然后使用統一的命名格式將其重命名。例如,將對其的謂詞對,“dbp:bornIn”和“yago:wasBornIn”重命名成“:bornIn”。
3.???? Embedding Learning
3.1?? Structure Embedding
Structureembedding模塊采用TransE實現,與TransE不同的是,模型希望更關注
已對齊的三元組,也就是包含對齊謂詞的三元組。模型通過添加權重來實現這一目的。Structure embedding的目標函數如下:
其中,count(r) 是包含的三元組的數量,表示合并之后的三元組集合。
3.2 Attribute Character Embedding
與 structure embedding 一樣,attribute character embedding 也借鑒了 TransE 的思想,把謂詞作為頭實體與屬性值之間的轉換媒介。但與 structure embedding 不同的是,對于相同含義的屬性值,在不同的KG中表現形式存在差別。因此,本文提出了三種屬性值組合函數。在組合函數編碼屬性值之后,模型希望屬性三元組滿足 h+r≈f_a(a),其中 f_a(a) 是組合函數,表示屬性值的字符串 a={c_1,c_2,c_3,…,c_t}。三種組合函數如下:
1. Sum compositional function(SUM)
2. LSTM-based compositional function(LSTM)
3. N-gram-based compositional function(N-gram)
Attribute character embedding 模塊的目標函數如下:
3.3 ? Joint Learning of Structure Embedding and Attribute Character Embedding
本文提出的模型旨在使用attribute character embedding h_ce 幫助structure embedding h_se 在同一向量空間中完成訓練,聯合訓練的目標函數如下:
本文提出的模型的整體目標函數如下:
4.???? Entity Alignment
在經過上述訓練過程之后,來自不同KG的相似的實體將會有相似的向量表示,因此可通過獲得潛在的實體對齊對。此外,模型設定相似度閾值來過濾潛在實體對齊對,得到最終的對齊結果。
5.???? Triple Enrichment via Transitivity Rule
本文發現利用傳遞關系可以豐富三元組,從而提升實體對齊效果。給定三元組 ?h_1,r_1,t? 和三元組 ?t,r_2,t_2?,可將 作為頭實體 h_1 和 h_2 尾實體的關系,使其滿足。
實驗分析
1.???? 數據集
本文從 DBpedia (DBP)、LinkedGeoData (LGD)、Geonames (GEO) 和 YAGO 四個 KG 中抽取構建了三個數據集,分別是DBP-LGD、DBP-GEO和DBP-YAGO。具體的數據統計如下:
2.???? 實體對齊結果
本文對比了三個相關的模型,分別是 TransE、MTransE 和 JAPE。試驗結果表明,本文提出的模型在實體對齊任務上取得了全面的較大的提升,在三種組合函數中,N-gram函數的優勢較為明顯。此外,基于傳遞規則的三元組豐富模型對結果也有一定的提升。具體結果如下:
3.???? 基于規則的實體對齊結果
為了進一步衡量 attribute character embedding 捕獲實體間相似信息的能力,本文設計了基于規則的實體對齊模型。本實驗對比了三種不同的模型:以label的字符串相似度作為基礎模型;針對數據集特點,在基礎模型的基礎之上增加了坐標屬性,以此作為第二個模型;第三個模型是把本文提出的模型作為附加模型,與基礎模型相結合。具體結果如下:
4.???? KG補全結果
本文還在KG補全任務上驗證了模型的有效性。模型主要測試了鏈接預測和三元組分類兩個標準任務,在這兩個任務中,模型也取得了不錯的效果。具體結果如下:
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 用于低资源条件下知识图谱补
- 下一篇: 论文浅尝 | 重新实验评估知识图谱补全方