论文浅尝 | Convolutional 2D knowledge graph embedding
筆記整理 | 孫悅,天津大學
1. 介紹:
知識圖的鏈接預測是預測實體之間缺失關系的任務。先前有關鏈接預測的工作集中在淺,快速的模型上,這些模型可以縮放到大型知識圖例如基于基于平移變換的 TransE 系列。但是,這些模型比深層次的多層模型學習的表達功能要少,這可能會限制性能。本文中提出了一種多層卷積網絡模型ConvE(用于鏈路預測)。該模型在建模具有高度關聯性的節點時非常有效,而高度關聯的復雜知識圖(例如Freebase和YAGO3)非常常見。
2.背景:
知識圖譜中的鏈接預測模型通常由簡單的操作組成,例如內積和嵌入空間上的矩陣乘法,并使用數量有限的參數,其特征在于嵌入參數之間的三向交互,每個參數產生一個特征。使用這種簡單,快速,淺層的模型可以使人們按比例縮放到較大的知識圖,而代價是學習較少的表達特征導致最終連接預測的效果堪憂。
增加淺層模型中特征的數量(從而提高其表達能力)的唯一方法是增加嵌入大小。但是,這樣做導致無法縮放到較大的知識圖,因為嵌入參數的總數與圖中實體和關系的數量成比例。解決淺層架構的縮放問題以及完全連接的深層架構的過擬合問題的一種方法是使用參數有效的快速運算符,該運算符可以組成深層網絡。基于此作者想到了卷積操作
通常在計算機視覺中使用的卷積運算符具有這些特性:由于高度優化的GPU實現,它具有高效的參數和快速的計算能力。此外,由于其無處不在的使用,在訓練多層卷積網絡時已經建立了魯棒的方法來控制過度擬合。
在本文中提出了ConvE,該模型在嵌入上使用2D卷積來預測知識圖中的缺失鏈接。ConvE 是用于鏈接預測的最簡單的多層卷積體系結構:它由單個卷積層,嵌入尺寸的投影層和內部乘積層定義。
文章的貢獻如下:本文的貢獻如下:
1)引入了一個簡單的,競爭性的2D卷積鏈接預測模型ConvE。
2)開發了一個1-N 的評分過程,將訓練速度提高三倍,并將評估速度提高300倍。
3)確定本文的模型具有很高的參數效率,在參數減少8倍和17倍的情況下,在FB15k-237上比DistMult和R-GCN得分更高。
4)表明對于以indegree和PageRank衡量的日益復雜的知識圖,本文的模型與淺層模型之間的性能差異與圖的復雜度成比例地增加。
5)系統研究跨常用鏈接預測數據集報告的逆關系測試集泄漏,并在必要時引入可靠的數據集版本,以便使用簡單的基于規則的模型無法解決它們。
對于給出一個三元組,再利用模型對他們的表示進行嵌入后的評分函數,本文給出了一個總結
3.Convolutional 2D Knowledge Graphs Embeddings
模型架構如下所示:
訓練過程:首先,先通過預訓練方法得到頭節點和關系的初始表示。按照把這兩個一維向量reshape成二維,再通過若干個卷機核,得到相應的feature map。將這些feature map展開成一維向量,再通過一個全連接層獲得到我們最終的關于這個頭節點和關系的嵌入表示。最后和所有entity表示構成的entity matrix相乘,得到對應于每一個尾節點的得分。加上一個sigmoid層即得到預測分數。scoring function為
訓練過程中,使用logistic sigmoid function來計算評分,之后最小化二分類損失函數:
快速評估:與其他將實體對和關系作為三元組(s,r,o)并對其進行評分(1-1評分)不同。可以看到這個模型一次性和多個尾節點比較,可以得出多個三元組的評分(1-N得分)。因此該方法適用于大型知識圖譜。
4.實驗:
1)參數有效性:
2)模型表現:
3)測試集中逆關系的泄露問題:
為了系統研究此問題的嚴重性,本文構建了一個簡單的基于規則的模型,該模型僅對逆關系建模,稱之為逆模型。該模型自動從訓練集中提取逆關系:給定兩個關系對r1,r2∈R,我們檢查(s,r1,o)是否隱含(o,r2,s),反之亦然。
在測試時,我們檢查三元組是否在測試集之外具有逆匹配項:如果找到了k個匹配項,則對這些匹配項的前k個排名進行排列;如果找不到匹配項,則為測試三元組選擇一個隨機排名。
如上表3,4,逆模型在FB15k和WN18的許多不同指標上都達到了最新水平。但是,它未能適應YAGO3-10和FB15k-237的逆關系。但在去除了逆關系的數據集上,表現就很差了。
4)消融分析:
???
5)為什么在WN18RR數據集上的表現欠佳
本文提出的方法在YAGO3-10和FB15k-237等數據集上與WN18RR相比具有良好的性能。作者發現使發現WN18RR和其它數據集相比其結點入度要小很多,認為表示如此高入度的節點需要捕獲所有入度邊關聯結點之間的差異,作者假設更深層的模型(即學習多層特征的模型(例如ConvE))比淺層模型(例如DistMult)在捕獲所有這些約束方面具有優勢。但是,更深的模型更難以優化,因此我們假設,對于平均關系特定度數較低的數據集(例如WN18RR和WN18),像DistMult這樣的淺層模型可能足以準確表示網絡的結構。具體的,用使用pagerank(原來用于度量網頁的重要性,這里用來度量每個節點的重要性)。對這幾個數據集分析,可以看到DistMult和ConvE之間在Hits@10方面的性能差異與平均測試集PageRank大致成比例,即平均PageRank越高與DistMult相比,測試集節點中的ConvE效果更好,反之亦然。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | Convolutional 2D knowledge graph embedding的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 消息中间件系列(二):Kafka的原理、
- 下一篇: 论文浅尝 - ICLR2022 | On