NeurIPS 2020 | 面向张量分解知识图谱补全的对偶诱导正则
簡介
近年來,張量分解模型憑借模型簡潔、計算速度快等優點在知識圖譜補全任務上取得了令人矚目的成就。但是,這些模型較易受到過擬合的影響,在性能上通常落后于其他類型的模型。為解決過擬合問題,包括 L2 正則,N3 正則 [1] 在內的多種正則項被提出,但這些正則項又在性能或者適用范圍上存在明顯缺陷。
為此,我們基于知識圖譜補全模型之間的對偶性,為張量分解模型提出了一種新的正則項——DURA。該正則項可以廣泛地應用于多種不同的張量分解知識圖譜補全模型,且能夠顯著提升模型性能。
論文標題:
Duality-Induced Regularizer for Tensor Factorization Based Knowledge Graph Completion
論文鏈接:
https://papers.nips.cc/paper/2020/hash/f6185f0ef02dcaec414a3171cd01c697-Abstract.html
代碼鏈接:
https://github.com/MIRALab-USTC/KGE-DURA
知識圖譜補全
知識圖譜由大量的事實三元組構成,其存儲了結構化的人類知識。例如,下圖中的(金庸,筆下人物,云中鶴)和(金庸,姑父,蔣百里)都是事實三元組。
盡管常用的知識圖譜具有十億乃至以上級別的三元組,但其中仍會存在大量的三元組缺失。例如,下圖中”蔣英“和”錢學森“之間缺失了”丈夫“關系,”金庸“和”蔣英“之間缺失了”表姐“關系。因知識圖譜的規模通常極為龐大,人工對圖譜進行補全代價高昂。因此,基于知識圖譜中的已知三元組來自動預測缺失三元組的知識圖譜補全(Knowledge Graph Completion, KGC)技術近年來備受關注。
形式化描述
給定一個由實體構成的集合?和一個由關系構成的集合,一個知識圖譜 是一個三元組的集合,其中 是第 個實體, 是第 個關系。通常 和 也分別稱為頭實體和尾實體,有時也會被寫成 ?(head) 和 (tail)。知識圖譜補全的目標是根據 中已知的三元組來預測未知的正確三元組。
我們通常將知識圖譜補全問題建模成一個給定頭(尾)實體和關系的尾(頭)實體預測問題。如在問題 中給定 來預測尾實體。
知識圖譜補全模型通常先將每個實體 與關系 映射為低維嵌入 和 (knowledge graph embeddings,可為向量/矩陣/張量),然后通過一個以低維嵌入為輸入的打分模型 為給定三元組 進行打分,從而確定任意三元組真實存在的概率(即置信度)。如果一個補全模型足夠好,那在 這一問題中,能夠使得三元組成立的尾實體 得分應該高于其他實體。
知識圖譜補全模型
4.1 兩類重要模型
「基于距離的模型」 (distance-based models) 和「基于張量分解的模型」 (tensor factorization-based models) 是兩類重要的知識圖譜補全模型。
基于距離的模型使用閔可夫斯基距離來度量三元組的合理性,其一般具有如下形式。
其中 是與模型相關的函數。
雖然這類模型能夠達到較好的性能,但在建模復雜的關系模式(如一對多和多對一關系)時仍然存在困難。
基于張量分解的模型將知識圖譜視為部分可觀測的三階張量 ,當 是正確三元組時,,否則 。因此,知識圖譜補全被建模為一個張量補全問題。
假設 表示 的第 個前向切片,即第 個關系的鄰接矩陣。一般情況下,基于張量分解的知識圖譜補全模型將 近似分解為 ,其中 的第 行是 , 是第 個關系對應的嵌入矩陣, 和 分別是復矩陣的實部和共軛(實矩陣的實部和共軛是它本身)。也就是說,打分函數被定義為 。基于張量分解的模型的目的是尋找矩陣 ,使得 可以近似 。
從理論上講,張量分解模型表現力強,能夠很好地處理復雜的關系。然而,它們的往往面臨「嚴重的過擬合」問題,無法達到最佳性能。因此,我們通常會在訓練模型時加入「正則」入。
令 ,而? 是一個第 個前向切片為 的張量,則正則化后的基于張量分解的知識圖譜補全模型可以寫成
其中 是固定參數, 衡量 與 之間的差異,而 是正則函數。
4.2 面向張量分解知識圖譜補全的正則
針對張量分解模型,目前流行的正則項主要包括 正則和 正則。
正則是最常用的正則項,具有如下形式
其又被稱為平方 Frobenius 正則。從上式這可以看出, 正則能夠應用于絕大部分張量分解模型,但實驗表明,其并不一定能夠帶來穩定的性能提升 [2]。
正則 [1] 即張量 3 階核范數 (tensor nuclear-3 norm) [3] 正則,其適用于 為對角矩陣的模型,具有如下形式
其中 和 分別是矩陣 和 的第 列。假設 是一個由 的對角元組成第 行的矩陣,則? 是矩陣 的第 列。實驗表明, 正則在? 為對角矩陣時(如 CP 和 ComplEx)能帶來穩定的性能提升,但其不適用于 為非對角陣的更一般情況(如 RESCAL)。
因此,我們還需要一個適用范圍廣且能帶來穩定性能提升的正則項。
對偶誘導正則 DURA
5.1 Basic DURA
考慮一個知識圖譜補全問題 ,即已知頭實體和關系來預測尾實體。假設用 來衡量給定三元組 的置信度,則上一節中提到的基于張量分解的模型的打分函數可以寫成
它首先通過一個線性變換 對實體嵌入 做一個映射,然后使用內積的實部來度量 和 之間的相似性。我們可以用另一個常用的相似性度量歐幾里德距離可以代替上述等式中的內積相似性. 從而得到一個與之對應的基于距離的模型:
因平方打數函數和無平方的形式是等價的,我們事實上得到了以下「對偶性」:對于現有的基于張量分解的知識圖譜補全模型(原模型),通常還有另一個與之相對應的基于距離的知識圖譜補全模型(對偶模型)。具體地,原始模型和對偶模型之間的「對偶關系」又可以表示為
假設 是所有已知正確三元組的集合。當我們訓練一個基于距離的模型時,我們通常會在 上最大化 ,而從上式我們知道
很顯然, 恰好是未加正則的張量分解模型的目標。因此,對偶關系為我們提供了如下正則項
我們稱上述正則項為 Basic DURA。
很明顯,Basic DURA 適用與 為非對角陣的傾向,適用范圍相較 正則更廣。
5.2 Basic DURA 為何有效
我們將從直覺上給出 Basic DURA 為何能夠有效提升張量分解知識圖譜補全模型的性能。如果多個尾實體能夠使得三元組 成立,那么DURA將促使它們具有相似的嵌入(embeddings)。
首先,我們可以斷言,如果多個尾實體能夠使得三元組 成立,他們應該具有相近的語義。如在下圖中,我們已知(貓科動物,包含,老虎)和(貓科動物,包含,獅子)兩個三元組,則實體”老虎“和”獅子“在語義上是相近的。
進一步,我們可以斷言,如果兩個實體具有相近的語義,那么它們應該具有相似的嵌入。如果”老虎“和”獅子“具有相似的嵌入,我們又已知(老虎,是,哺乳動物)這一三元組,那么我們就可以對(獅子,是,哺乳動物)這一未知三元組進行補全。
然而,由于內積相似度度量的特性,在一個基于張量分解的知識補全模型中,即使尾實體具有完全不同的嵌入,三元組 也可以具有相同的打分(如下左圖所示)。這在一定程度上會影響對未知三元組的預測。
在加入 DURA 之后,我們事實上通過歐氏距離引入了 和 應該較為相近的先驗,因此尾實體的嵌入會被限制在一個較小的范圍內(如下右圖所示),從而有利于知識圖譜的補全。
5.3 DURA
由內積的性質我們可知 ,利用與 Basic DURA 相似的推導過程,我們可以從對偶性中得到另一個正則項
類似地,當多個頭實體能夠使得三元組 成立時,該正則項能夠使得這些頭實體的嵌入較為接近。
將兩個不同方向的正則項相結合,我們得到「對偶誘導正則」(「DU」ality-induced「R」egul「A」rizer, 「DURA」)的最終形式
5.4 DURA的理論性質
當我們放寬正則項的求和條件 至所有可能的實體和關系,DURA 具有如下形式
其中 和 分別是實體和關系的數目。
如果我們進一步假設關系嵌入矩陣 為對角陣,我們有如下定理
在上述定理中, 是張量 的 2 階核范數(nuclear 2-norm)[引用nuclear],即矩陣跡范數(trace norm)在張量情形下的推廣。
上述定理說明,在給定一些假設的情況下,DURA 事實上給出了張量 的 2 階核范數的一個上界。
實驗結果
6.1 知識圖譜補全任務
我們在三個常用知識圖譜補全數據集 WN18RR、FB15k-237、YAGO3-10 上驗證了 DURA 的有效性。所考慮的基于張量分解的知識圖譜補全模型包括目前流行的 CP、ComplEx [4] 和 RESCAL [5]。所采用的評價指標包括 MRR(Mean Recipocal Rank),H@N(Hits at N, N=1,10),越高的 MRR 和 H@N 代表越好的性能。實驗結果如下表所示。
可以看出,DURA 為三個模型帶來了穩定的性能提升。尤其值得一提的是,RESCAL 作為最早被提出的知識圖譜補全模型之一(2011年),因其參數量較大而較易過擬合,在過去的幾年中表現一直較差。但在加入 DURA 后,RESCAL 在 WN18RR 上取得了 MRR 為 0.498 的好成績,超越了之前的所有模型。
6.2 與其他正則的對比
我們在 CP、ComplEx 和 RESCAL 三個模型上對比了 DURA、(即 FRO)、 三種正則的性能,結果如下表所示。注意 無法應用于 RESCAL 模型。
從上表中可以看出,相比 和 正則,DURA 在適用范圍和有效性上都具有明顯優勢。
6.3 可視化
為驗證”如果多個尾實體能夠使得三元組 成立,那么 DURA 將促使它們具有相似的嵌入(embeddings)”這一描述,我們利用 T-SNE 對加入 DURA 前后的實體嵌入進行了可視化。結果如下圖所示,其中每一個數據點代表一個尾實體,而相同顏色的數據點代表這些尾實體能夠使得同一 成立。
從上圖可以看出,在加入 DURA 后,能夠使得同一 成立的尾實體將傾向于擁有更為相似的嵌入。
總結
在知識圖譜補全任務上,基于張量分解模型和基于距離的模型之間具有對偶性質,利用該對偶性,我們提出了一種面向張量分解模型的對偶誘導正則 DURA。DURA 能夠廣泛應用于多種不同的張量分解模型,且能夠帶來穩定而又顯著的性能提升。
關于作者
張占秋,2018 年畢業于中國科學技術大學數學科學學院,獲得理學學士學位。現于中國科學技術大學電子工程與信息科學系的 MIRA Lab 實驗室攻讀博士生,師從王杰教授。研究興趣包括知識圖譜與自然語言處理。
參考文獻
[1] Lacroix, T., Usunier, N. & Obozinski, G.. (2018). Canonical Tensor Decomposition for Knowledge Base Completion. Proceedings of the 35th International Conference on Machine Learning, in PMLR 80:2863-2872
[2] Ruffinelli, D., Broscheit, S., & Gemulla, R. (2019). You CAN teach an old dog new tricks! on training knowledge graph embeddings. In International Conference on Learning Representations.
[3] Friedland, S., & Lim, L. H. (2018). Nuclear norm of higher-order tensors. Mathematics of Computation, 87 (311), 1255-1281.
[4] Trouillon, T., Welbl, J., Riedel, S., Gaussier, E. & Bouchard, G.. (2016). Complex Embeddings for Simple Link Prediction. Proceedings of The 33rd International Conference on Machine Learning, in PMLR 48:2071-2080.
[5] Nickel, M., Tresp, V., & Kriegel, H. P. (2011). A three-way model for collective learning on multi-relational data. Proceedings of the 28th International Conference on Machine Learning, in PMLR 11:809-816
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的NeurIPS 2020 | 面向张量分解知识图谱补全的对偶诱导正则的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 工商局变更地址何时生效(到工商局 办理公
- 下一篇: 申请专利的条件和流程图(申请专利的条件)