论文浅尝 | Iterative Cross-Lingual Entity Alignment Based on TransC
論文筆記整理:譚亦鳴,東南大學博士。
來源:IEICE TRANSACTIONS on Information and Systems, 2020, 103(5): 1002-1005.
鏈接:
https://www.jstage.jst.go.jp/article/transinf/E103.D/5/E103.D_2019DAL0001/_pdf
介紹
這篇論文關注的任務是跨語言實體對齊,目標是將不同語言知識庫中具有相同語義的實體相匹配。作者認為不同語言的知識圖譜可能具備相同的本體劃分,這一點對于實體對齊來說可能起到作用。(在作者的了解范圍里,目前還沒有實體對齊工作是基于本體信息的,但是多語言知識圖譜如DBpedia,是先構建了統一的本體劃分,然后再遵循這一劃分構建各個語言版本的知識圖譜,如下圖)
為了驗證這一猜測,本文提出了一個基于TransC的embedding模型:首先由TransC以及參數共享模型將圖譜中所有的實體和關系映射到一個共享的低維語義空間;之后模型迭代通過reinitalization以及soft alignment(軟對齊)策略提升實體對齊的性能。
實驗結果顯示,相對于benchmark算法,本文方法可以有效的利用本體信息,從而得到更好的結果。
P.S. 需要說明的是,本文使用到的本體間關系只有“SubclassOf”這一個。
模型
模型整體可以分為三個部分:
a. Knowledge embedding part
首先是對實例的embedding:TransE被用于對三元組中的實體和關系進行embedding,投影到一個低維空間中
之后是對實體的InstanceOf三元組的embedding:這種三元組的構成為(實體,InstanceOf,實體對應的本體類型),TransC將每個類型對應的向量建模為一個球型空間s(p,m),其中p表示球心,m表示球的半徑,對于一個InstanceOf三元組,其對應的energy function為:
其中e為e的向量表示。
整體三元組的得分計算為:
最后是SubClassOf triple embedding:這個部分主要是反應不同類型的本體之間的相對位置,因此計算的方式通過球形空間的相對位置來衡量,即:
b. Joint embedding part
本文使用的參數共享模型基于MTransE(IJCAI 2017)構成,其目的是基于ILLs(DBpedia提供的已知多語言實體對齊),將已知對齊實體embedding,在訓練過程中強制對等。
c. Alignment part
為了彌補標注數據(已知對齊)的不足,這一步的普遍方案是使用訓練得到的模型對未標注數據進行對齊標注,然后使用新的標注數據作為訓練集迭代的更新模型,但是這種過程必然引入錯誤對齊。作者提出了兩個策略處理這個問題:
1)Reinitialization
在每輪迭代中,首先訓練multilingual knowledge embedding直至驗證集上的效果邊差,而后對于那些embedding相似性高于預設閾值的實體對,將具有最高相似性的樣本選入ILLs,構成新的標注集。之后對knowledge做重新初始化,并且開始新的迭代訓練。
2)Soft Alignment
3)對于更新的標注集中的實體對,這里參照Soft Alignmen(IJCAI 2017)定義的得分函數:
對于不同語言的KG1和KG2,更新的標注集不會被用于參數共享模型,而是僅僅用于對齊訓練
實驗
實驗數據:
作者基于DBpedia構建了一個多語言知識圖譜,包含英-法以及英-德兩種語言對。
其構建過程為:首先隨機的從ILLs中抽取1000個實體對,而后利用這些實體對在ILLs中找到其他包含對齊實體的三元組(但是不在1000樣本中,例如A-B對齊,借助ILLs找到(A, r1, C),(B, r2, D),其中,C和D在ILLs中是對齊實體,這些將被用于測試模型的對齊性能)
數據集的統計信息如下表所示
實驗結果:
跨語言實體對齊實驗結果如下表,其中Ps-TransC(RE+SA)是本文方法,其他Ps為本文方法的變體,作為對照組,參考的其他方法為LM(Linear Mapping)以及MTransE。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | Iterative Cross-Lingual Entity Alignment Based on TransC的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - CVPR2020 | 基于
- 下一篇: 应用实践 | 网络智能运维下的知识图谱