论文浅尝 | BoxE:一种基于Box的知识图谱表示学习模型
筆記整理 |?耿玉霞,浙江大學直博生。研究方向:知識圖譜,零樣本學習等。
論文鏈接:? https://arxiv.org/pdf/2007.06267.pdf
本文是發表在NeurIPS 2020上的一篇基于Box的知識圖譜表示學習模型的文章。在以往知識圖譜表示學習(KG Embedding)的相關工作中,通常將知識圖譜中的實體和關系均映射為n維向量空間中的一個點,而這篇文章提出將圖譜中的關系表示為n維空間中的一個區域,即一個Box,基于Box的關系表示,使得表示學習模型的表達能力更強、能更好地捕獲隱含在圖譜中推理規則,同時可以兼容外來的推理規則。更重要的是,模型支持對圖譜中多元關系(>2)的表達,對于更復雜的知識庫有較強的學習能力。
1. 背景:知識圖譜與知識庫
通常,知識庫由一組facts組成,每個fact表示為 ??,即m個實體??及其關聯關系???。其中關系r依據其關聯實體個數的不同,稱為m元關系。而知識圖譜作為一種特殊的知識庫,其中的關系均為二元關系,即圖譜中的fact為三元組。
一般的表示學習工作主要圍繞圖譜的表示學習展開,而對于帶有多元關系的知識庫的表示學習工作則較少。
2. 模型設計
2.1 實體及關系表示
本文提出的BoxE模型將實體表示為n維向量空間中的一個點,而關系則表示為n維向量空間中的區域,即對于m元關系,它的表示為n維空間中的m個區域(即m個Boxes),如二元關系parentOf,其表示為n維空間中的兩個Boxes。
具體地,每個實體的表示由兩個向量組成:一個是基向量(base position vector);一個是轉移向量(translational bump vector),用于將當前實體的信息轉移到位于同一個fact中的其他實體的表示上;換言之,對于每一個實體,其最終的表示為融合了該實體的基向量與位于同一個fact中的其他實體的轉移向量的向量表示,如對于fact??中的第??個實體,其最終表示為:
其中,??為實體??的基向量,??為其轉移向量。
如對于一個fact??,其中實體??的表示為:,??表示為:。而關系則由兩個Box表示,一個代表為頭實體范圍的Box,另一個為代表尾實體范圍的Box。基于此,作者假設,fact 成立的條件為實體和最終的向量表示將出現在其對應位置的關系Box中。如下圖所示,為其頭實體所在的Box,為其尾實體代表的Box。
1.2 損失函數
?????基于上述假設,作者設計了一個距離函數,用于約束向量空間中的實體位置及其對應的Box的位置:
????? 其中, 表示Box的中心位置,表示Box的寬度,, 分別表示box 的上界和下界。
?????此距離函數的設計,使得實體位于其所在的Box時,函數的值較小,而實體在Box外時,函數值較大,從而產生較大的梯度。
?模型最終訓練的損失函數定義為:
3. 模型能力
?????
3.1 對于圖譜中推理規則的捕捉
????? 一般地,知識庫中蘊含了一些諸如層次性、對稱性的邏輯規則,對于這些邏輯規則的捕捉,可以幫助知識庫進行更好地推理和泛化。如已知某關系有對稱屬性時,對于fact 可以推理得到新的fact 。
? 現有知識圖譜表示學習的方法,如TransE可捕捉Inversion、Composition等推理規則,而對于Symmetry等規則則無法捕捉,本文提出的BoxE利用關系基于Box的表示,通過Box之間的操作實現對圖譜中邏輯規則的捕捉,如對于對稱規則,當關系存在對稱屬性時,其頭尾實體對應的Box為相同的Box;而當關系和為一對反關系時(Inversion規則),關系頭實體對應的Box為關系尾實體對應的Box。
??推理規則的釋義及現有表示學習模型對于其捕捉能力的說明見下圖所示。
????? 其中,泛化的推理規則是指表示學習模型可以同時捕捉相同類型的推理規則的多個實例;除此之外,BoxE還可以同時捕捉不同類型的規則實例,這是以往的表示學習模型無法實現的。
3.2 對于外部引入的推理規則的融合
??一般地,對于一些已知的、先驗的推理規則,以往的模型利用推理機等符號推理的方式,將這些規則應用到知識圖譜的三元組實例數據上,從而推理出更多的圖譜實例。現有的表示學習模型由于其向量化的表示方式,難以將這些先驗規則引入模型。而BoxE中基于Box的關系表示方式,使得模型可以利用Box之間的操作將推理規則融入模型。
3.3 對于多元關系的表示和學習
??如前所述,二元關系在BoxE模型中被表示為兩個Box,而對于包含多元關系的fact ,其關系由m個Box表示。這種表示方式,相比于其他處理多元關系的模型,具有更好的效果。
4. 實驗結果
????? 作者首先在標準的知識圖譜補全(KGC)的數據集如FB15k-237、WN18RR及YAGO3-10等上進行了實驗,實驗結果如下圖所示。
BoxE相比于TransE、RotatE等模型,達到了SOTA或comparable的結果。
隨后,作者在包含多元關系的JF17K、FB-AUTO等數據集上進行了知識庫補全(KBC)的實驗,實驗結果如下圖所示:
最后,為驗證模型對于外來推理規則的融合能力,作者在NELL數據集的子集Sports NELL上驗證了模型的性能,實驗結果如下所示:
相比于BoxE模型,加入了融合模塊(BoxE+RI)的模型,具有非常好的預測結果。
5.總結
(1)本文提出了一個基于Box的表示學習模型,在提升圖譜補全能力的同時,對于圖譜中推理規則進行了有效的捕捉,以及對于外部推理規則進行了有效的融合,同時還可泛化至包含多元關系的知識庫的表示和推理。
(2)對于知識圖譜表示學習等模型來說,對于先驗推理規則的應用是非常重要的,其對于模型推理能力的提升可提供有效的幫助,尤其是在圖譜樣本稀缺、低資源的情況下;
(3)而在深度學習的背景下,BoxE這類基于區域的表示學習模型,對于圖譜中實體及關系的表示提供了豐富的表達能力,這些表達更豐富的實體及關系對于其相關符號化知識(推理規則等)的引入提供了方便。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | BoxE:一种基于Box的知识图谱表示学习模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 研究综述 | 多关系知识图谱表示学习综述
- 下一篇: 开源开放 | 细粒度可循证医学文档知识融