论文浅尝 | TuckER:基于张量分解的知识图谱补全
?
筆記整理:孫澤群,南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,博士研究生。
論文鏈接:https://arxiv.org/abs/1901.09590
?
背景
知識(shí)圖譜是圖結(jié)構(gòu)的數(shù)據(jù)庫(kù),以三元組(es, r, eo)的形式存儲(chǔ)事實(shí),其中es和eo分別表示主語(yǔ)和賓語(yǔ)實(shí)體,r表示它們之間的關(guān)系。然而,知識(shí)圖譜中的事實(shí)是不完備的,人工補(bǔ)全費(fèi)時(shí)費(fèi)力,這就需要開發(fā)自動(dòng)化補(bǔ)全知識(shí)圖譜的算法。知識(shí)圖譜可以表示為一個(gè)三階二值張量,其中每一個(gè)元素表示一個(gè)三元組,1表示真實(shí)三元組,0表示未知三元組(或錯(cuò)誤或丟失)。因此,很多基于張量分解的補(bǔ)全模型被提出。本文基于Tucker decomposition, 它可以將一個(gè)三階張量分解為一個(gè)核心張量每一維度乘上一個(gè)矩陣。令是一個(gè)三階張量,Tucker decomposition 會(huì)產(chǎn)生一個(gè)核心張量和三個(gè)矩陣,。其計(jì)算公式如下:
其中,表示沿著第n維的張量乘法,表示向量?jī)?nèi)積。
?
模型
根據(jù) Tucker decomposition 的計(jì)算方式,TuckER模型可以表示如下:
其中,es 和 eo 表示實(shí)體向量,wr 表示關(guān)系向量,de 和 dr 分別表示實(shí)體和關(guān)系的向量維數(shù),W是Tucker decomposition得到的核心張量。則TuckER的得分函數(shù)定義如下:
為了得到概率分布,作者又在該得分函數(shù)外面套了一個(gè) sigmoid 函數(shù)。關(guān)于訓(xùn)練,作者沒(méi)有使用傳統(tǒng)的 margin-based 損失函數(shù),而是使用了 log 似然損失函數(shù):
其中,p 表示預(yù)測(cè)三元組真假的概率,y 是標(biāo)簽。
?
理論分析
??????????? 本文的亮點(diǎn)在于它的理論分析證明了 TuckER 有完全表現(xiàn)力:給定任意在實(shí)體集E和關(guān)系集R上的真實(shí)三元組(ground truth),TuckER 在 de=ne, dr=nr 的時(shí)候(ne 表示實(shí)體數(shù)量,nr 表示關(guān)系數(shù)量),可以完全表示這些ground truth三元組。證明過(guò)程很簡(jiǎn)單,作者給了一個(gè)啟發(fā)式的解:讓實(shí)體和關(guān)系向量取one-hot形式,然后讓核心張量W的維數(shù)是 ne* nr* ne 和原始的三階張量相等,并且,如果其中一個(gè)元素對(duì)應(yīng)的三元組是 ground truth,則置其為 1,否則置為 0。根據(jù)得分函數(shù)的定義,這種情況下計(jì)算得到的預(yù)測(cè)概率,正好可以準(zhǔn)確表示真實(shí)概率。這個(gè)達(dá)到完全表現(xiàn)力的維度下界是遠(yuǎn)小于ComplEx和SimplE的,體現(xiàn)了 TuckER 的優(yōu)越性。此外作者還分析了TuckER和之前一些張量分解模型的關(guān)系,證明了 RESCAL、DistMult、ComplEx 和 SimplE 都是 TuckER 的一種變體。
?
實(shí)驗(yàn)結(jié)果
本文的主要實(shí)驗(yàn)任務(wù)是 link prediction。數(shù)據(jù)集采用了當(dāng)前流行的 FB15K-237 和 WN18RR,同時(shí)也測(cè)試了傳統(tǒng)的 FB15K 和 WN18。作者開源了基于 PyTorch 的代碼https://github.com/ibalazevic/TuckER。實(shí)驗(yàn)結(jié)果如下表所示。可以看見(jiàn),在目前主流的FB15K-237 和 WN18RR 數(shù)據(jù)集上,TuckER 取得了 SOTA 的效果,并且比第二名領(lǐng)先較多。而在傳統(tǒng)的 FB15K 和 WN18 上面,TuckER 在主要指標(biāo)上,也取得了最優(yōu)結(jié)果。基本可以認(rèn)為,TuckER 是當(dāng)前 link prediction 的 SOTA 模型。
OpenKG
開放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | TuckER:基于张量分解的知识图谱补全的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 论文浅尝 | Data Intellig
- 下一篇: 论文浅尝 | 神经网络是如何外推的:从前