论文浅尝 | 基于属性embeddings的跨图谱实体对齐
論文筆記整理:譚亦鳴,東南大學博士生,研究方向為知識庫問答。
來源:AAAI 2019
鏈接:https://aaai.org/ojs/index.php/AAAI/article/view/3798
?
???? 跨圖譜實體對齊任務的目標是從兩個不同知識圖譜中找出同一 real-world 實體,對于這一任務,目前主流的方法多是利用已有的小規模實體對齊作為橋梁,通過 KG embedding 捕獲圖譜中與之相近的實體,構建新的對齊。作者發現不同知識圖譜的謂詞(或者說關系)設定往往具有一定規律性,和表達的相似性,利用這一點,可以初步構建不同圖譜之間的謂詞對齊。知識圖譜中的三元組可以分為“關系三元組(實體-謂詞-實體)”和“屬性三元組(實體-謂詞-屬性)”,而不同圖譜中對于同一屬性的表達往往差異較小。以此為基礎,便可以將不同圖譜embedding至同一空間,實現同一空間中的實體相似性匹配(對齊)。
?
貢獻
作者認為本文的主要貢獻包括以下幾點:
提出了一種跨圖譜實體對齊框架,有謂詞對齊,embedding學習,實體對齊三個模塊組成;
提出一種新的embedding方法,利用實體embedding和屬性embedding之間的關聯,將兩個不同知識圖譜學習到同一的embedding空間中;
在真實的數據集上評估了本方法的性能為目前最優,在對齊任務上達到了50% 的hits@1(在top1的對齊結果中,命中了50%的正確實體)
?
方法
??????????? 圖1是本文方法的框架概述,包含以下幾個過程:
1.????謂詞對齊(predicate alignment):目標是將兩個圖譜的謂詞對應,并改寫為統一命名,作者發現對于不同的圖譜,其謂詞的命名存在慣例,比如rdfs:label, geo:wgs84pos#lat, and geo:wgs84 pos#long等等。除此之外,還有一些謂詞的描述是局部匹配的,例如:dbp:diedIn vs.yago:diedIn, and dbp:bornIn vs. yago:wasBornIn。因此,作者將這些描述統一(即去除其不相同的部分,比如dbp/yago…),從而構建起圖譜之間的謂詞對齊。
2.????Embedding學習:通過謂詞對齊,兩個知識圖譜的三元組便共享了統一的謂詞空間,因此可以聯合學習兩者的結構embedding和屬性字符embedding,從而生成一個統一的實體向量空間。
結構embedding
這里使用TransE學習知識圖譜的結構embedding,其目標函數形式如下:
其中,,t’表示負樣本,α為控制embedding學習的權值,由以下公式得到:
其中,|T| 為總三元組樣本數,r 為當前謂詞,count(r) 為當前謂詞的出現次數,這一做法增強了“已對齊謂詞”的樣本權值。
屬性 embedding
在TransE模型中,屬性可以看作頭實體(head entity)向量與謂詞向量轉換得到。對于不同知識圖譜的同一屬性,其描述存在一些差異,但大體相同,例如:50.9989 vs.50.9988888889;"BarackObama" vs. "Barack Hussein Obama"。為了使同一屬性的不同描述歸一化,作者提出將屬性識別為字符串,而后投影到同一個空間中,具有相似字符描述的屬性將具有更短的向量距離(這一步作者分別使用SUM/LSTM/N-gram等方法實現,這里不過多贅述,簡寫為fa(t))。
因此屬性embedding的損失函數中, 屬性embedding損失函數為:
Joint learning
在獲取上述兩個embedding后,作者聯合兩者的實體向量,構建目標函數將兩者實體投影到同一個空間中:
并整合上述三個目標函數構成embedding整體目標函數為:
3.????實體對齊
在完成上述embedding學習后,實體對齊的目標就是獲取向量距離較小的實體對,即:
實驗
數據集
? 本文在四個 KG 上測試了框架的性能,包括:DBpedia,LinkedGeoData,Geonames 以及 YAGO;圖譜對齊實驗的匹配組合為(DBpedia- LinkedGeoData),(DBpedia-Geonames),(DBpedia-YAGO),詳細統計信息如下表:
實驗結果
???? 模型性能實驗結果如下表所示,
???? 值得注意的是,當屬性 embedding 采用 N-gram 策略時,性能尤其突出。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的论文浅尝 | 基于属性embeddings的跨图谱实体对齐的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 会议 | CCKS 2019 全国知识图
- 下一篇: 阿里P8架构师谈:深入探讨HashMap