论文浅尝 - ICLR2020 | You Can Teach an Old Dog New Tricks!关于训练知识图谱嵌入
論文筆記整理:譚亦鳴,東南大學博士生。
來源:ICLR2020
鏈接:https://openreview.net/pdf?id=BkxSmlBFvr
????????KG embedding(KGE)模型的目標是學習知識圖譜中實體和關系的向量表示。近年來眾多的KGE方法被提出,不斷刷新state-of-the-art。這些方法在在模型架構,訓練策略以及超參數優化上各有不同。這篇文章以目前較為流行的模型架構及訓練策略為主體,分析了上述這些條件對于模型性能的影響。實驗發現,當訓練得當時,模型之間的性能差異相對以往的結果來說相對縮小,甚至反轉。作者發現好的模型配置能夠通過大型參數空間中的少量隨機樣本找到。論文的結論是:研究者們應該重新審視那些先進的方法和技術,從而準確評估這些方法各自的實際優勢。
動機
????????現有的KGE模型根據實體和關系的embedding聯合方式的差異主要分為:factorization models(以RESCAL, DistMult,ComplEx,TuckER為代表);translationalmodel(主要指TransE,RotatE);以及比較新的卷積模型例如ConvE。很多情況下,一個新的模型的提出往往伴隨著新的訓練策略:新的訓練類型(例如負采樣),新的損失函數,新的正則化形式等等。表1總結了目前具有代表性的方法的訓練策略整理。這些五花八門的模型訓練使得很難橫向對比各自KGE模型的性能,在基于前人的工作進行模型復現和改進時,我們往往會沿用前人已知“效果較好”的參數設定,而不同的模型所適用的參數設定往往是不同的(模型A的最優參數可能是B的次優)。
針對上述情況,作者決定總結并對不同模型方法,訓練策略對模型性能的影響進行經驗性量化(在一個commonexperiment setup中,實現不同的模型方法和訓練策略)。不同于前人的工作。
KGE:模型,訓練,評估
作者選取了具有代表性的模型和訓練策略(表1),用于本文的對比。
在評估方案方面:
1.知識圖譜中的多關系鏈接預測是一個典型的被用于KGE性能測試的任務,即對于給定的實體集與關系集,通過預測實體之間的鏈接(關系)構建出一個完整的KG。
2.KGE,知識圖譜嵌入的目標是將實體和關系映射到低維向量空間中,并保持實體之間的相對結構穩定。因此三元組表示學習之后的得分則可以量化得到,從而反映圖譜表示學習的質量。
3.另一個最常用的KGE評估任務是實體的排序:對于給定的確實了頭/尾實體的三元組,排序找到最合適的缺失實體。
KGE模型可以粗分為:可分解模型以及整體模型兩類。前者僅允許(具有特定關系的)主體和客體的交互,后者則以內需任意交互,兩者的評分函數不同。
訓練類型
目前有三種常用的方法訓練KGE模型,主要的差異在于負例的生成方式:1.隨機替換正例中的元組得到負例;2.1vsALL,打亂頭尾實體的位置,利用單個三元組批量生成負例;3.首先批量構建非空三元組(缺頭或尾實體),將非空三元組標為正例或負例。
損失函數
目前KGE已經引入了幾個損失函數:RESCAL最初使用各三元組得分與正負例的平方差;Trans系列模型則使用的marginrank with hinge loss(MR)
Reciprocal relations
ConvE方法在KGE模型訓練中引入了Reciprocal relations技術,相比之前方法僅對主體或客體進行打分,該技術分別為主體和客體建立的獨立的打分函數。所有的打分函數共享實體的embedding但不共享關系embedding,這種方式可能可以減少計算成本。
正則化
在embedding向量上最流行的正則化規范是L2。TransE則是在每次更新之后將embedding標準化為單位標準。ConvE在它的隱層中使用dropout。在本文的工作中,作者將共同考慮L1和實體/關系embedding的dropout。
超參數
前人的工作中已經提出了很多的超參數設定,包括不同的初始化模型參數的方法,不同的優化算法,包括學習率和批量規模等優化參數,負例的規模,實體和關系的正則權重等。
實驗研究
數據集方面:作者使用FB15K-237(Freebase的一個子集),以及WNRR(來自WordNet)。使用這些數據集的主要理由是:它們被許多前人工作所使用;它們具有難度(專門面向多關系鏈接預測);相關模型性能上具有多樣性;數據規模適用性。數據集的統計信息如下表:
模型方面:
RESCAL, TransE, DistMult, ComplEx以及ConvE(基于它們的知名度且涵蓋過去和現在的模型)
評估方面:這里主要使用MRR以及HITS@10.
超參方面:作者使用了一個大型超參數空間,用于確保不會遺漏每個模型適用的(前人提出的)超參數設定。實驗涵蓋了所有主流的訓練類型,使用Reciprocal relations,損失函數考慮了MR,BCE,CE,正則化技術則涉及到無/L2/L3以及dropout的全部設定。優化算法包含Adam和Adagrad。作者考慮了128,256,512三種維度的embedding,并且對實體和關系的建立獨立權重用于dropout和正則化。(按照作者的描述,目前尚未有一個工作涉及到使用如此大的超參數搜索空間)
訓練方面:epoch的上限被設定為400,每5個epoch進行一次MRR驗證,earlystop的patience為50epoch。訓練的終止條件為50次epoch中模型在MRR驗證上沒有超過5%的提升。
模型選擇:這里是使用了一個Ax框架https://ax.dev/通過Sobol序列進行準隨機超參數搜索。對于每個數據集和模型,作者生成了30個不同的配置。在超參數搜索之后,作者添加了貝葉斯Bayesian optimization phase做進一步的調試。
可復用性:所有的模型訓練策略,超參數都基于PyTorch構建,框架具備可擴展性且開源。
模型性能對比
1.模型的Firstreported性能與作者得到的實驗性能的對比:(如表2 First)作者發現單個模型的性能差異非常大;在作者的實驗中(表2 Ours),許多模型的性能相比First reported有了巨大提升,包括RESCAL, TranE等都達到了相同方法的最佳。
2.而后作者比較了本研究使用的模型之間的性能(表2 Ours),發現相比First reported中的結果,許多模型之間的性能差距明顯縮小甚至反超。這反映出訓練策略對于模型的影響之大。
3.表2(Recent)同時展現了最近最佳模型以及大型模型的性能,但與Ours中的最優模型相比而言,差距也并不是非常大。
超參數的影響:
圖1描述了各個模型在不同超參數設置情況下的MRR驗證得分分布(可以看到不同配置情況下模型的性能上下限非常明顯,而大多數模型的性能上界接近)
最優配置分析(詳情請看原文附錄表6,7,涵蓋了全部超參數):
下表中給出了MRR上最優的超參數配置實驗對比
1.quasi-random hyperparameter search得到的最優配置(表3)
2.貝葉斯調優后得到的最優配置(表8)
本文是難得的針對模型性能本質,涵蓋大量詳細實驗分析的扎實工作,建議相關領域研究者詳細閱讀原文。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 - ICLR2020 | You Can Teach an Old Dog New Tricks!关于训练知识图谱嵌入的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | NumNet: 一种带有数
- 下一篇: 论文浅尝 | 基于深度强化学习将图注意力