论文浅尝 | 基于图卷积网络的跨语言图谱实体对齐
論文筆記整理:譚亦鳴,東南大學博士生,研究興趣:知識圖譜問答
本文提出了一種基于圖卷積網絡的跨語言實體對齊方法,通過設計一種屬性 embedding 用于 GCN 的訓練,發現GCN能同時學習到特征 embedding 和屬性 embedding 的信息。實驗表明該方法是目前性能最好的的 GCN 對齊模型。
?
來源:IJCAI 2019
鏈接:
https://www.ijcai.org/proceedings/2019/0929.pdf
動機
在近期的研究工作中, GCN被用來處理一些基于圖的學習問題,也有研究者提出基于該模型的跨語言知識圖譜實體對齊工作。但這些工作并沒有有效的利用圖譜的屬性信息,且對整體模型帶來了負面的影響,這主要是因為對于同一實體,在不同語言上,它的屬性存在較大的差異。雖然也有研究者提出異構圖注意力網絡,提供了節點級與語義級的注意力機制。但這個方法依然沒有考慮不同屬性帶來的影響。
基于上述分析,作者提出利用GCN的聚合能力將屬性embedding加入跨語言知識圖譜對齊中。
方法
? ? ? ? ? ? ?
圖1 描述了本文提出模型的主要框架和流程,待對齊的知識圖譜主要提供了兩個角度的信息,其一是圖譜本身的圖結構信息,這個部分被直接輸入到GCN中, GCN包含多層網絡,其卷積運算過程如以下公式:
? ? ? ? ? ? ?
其中,P是一個n×n鄰接矩陣,n表示節點的數量, ,其中 I 是單位陣,是 的 diagonal node degree 矩陣,H(l) 表示頂點特征矩陣,其作為第l層網絡的輸入。
其二,為了提高不同語言實體信息embed到統一的向量空間中的精準性,作者設計了增強的屬性embedding方法,用于減少不同語言對等實體之間的差異性。
?
該方法包含以下幾個部分:
1. 屬性選擇
首先對于實體屬性出現的數量做降序排列(出現頻率越高的屬性對于實體的描述越準確),然后將排序后的不同語言的知識圖譜屬性進行相交。最后,取Top-k的相交屬性用于embedding。
2. 屬性加權
為了區分屬性的重要性程度,通過以下公式對選定屬性進行加權:
? ? ? ? ? ? ?
其中,wβ表示屬性β的權重,nβ和n’β表示不同圖譜中屬性的數量,α表示權重系數,用于在對齊中強化屬性所占的重要性。
實驗
實驗數據
實驗使用的數據集為DBP15K,由DBpedia中生成,實驗的語言對為中英雙語,包含中文->英文方向,及英文->中文方向的對齊。
?
實驗結果
?
評價指標使用Hits@1,Hits@10,及Hits@50進行對比,結果如下表:
? ? ? ? ? ??
可以看到從統計顯著性上取得了的提升,但是從實際匹配準確性上看,距離可視作工具用于雙語知識庫問答等任務還存在明顯不足。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于图卷积网络的跨语言图谱实体对齐的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Restful、SOAP、RPC、SOA
- 下一篇: 论文浅尝 | 用于学习知识图谱嵌入的一种