ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答
一只小狐貍帶你解鎖 煉丹術(shù)&NLP?秘籍
作者:舒意恒(南京大學(xué)碩士生,知識(shí)圖譜方向)
背景
什么是知識(shí)圖譜問答?
知識(shí)圖譜(KG)是一個(gè)多關(guān)系圖,其中包含數(shù)以百萬計(jì)的實(shí)體,以及連接實(shí)體的關(guān)系。知識(shí)圖譜問答(Question Answering over Knowledge Graph, KGQA)是利用知識(shí)圖譜信息的一項(xiàng)研究領(lǐng)域。給定一個(gè)自然語言問題和一個(gè)知識(shí)圖譜,通過分析問題和 KG 中包含的信息,KGQA 系統(tǒng)嘗試給出正確的答案。
多跳知識(shí)圖譜問答指的是,該問答系統(tǒng)需要通過知識(shí)圖譜上的多條邊執(zhí)行推理,以獲得正確答案。
一般而言,針對一個(gè)簡單的事實(shí)類問題,KGQA 嘗試找到一個(gè)三元組來回答這一問題。具體而言,KGQA 需要分析自然語言問題,將自然語言問題中的實(shí)體描述和關(guān)系描述分別鏈接到知識(shí)圖譜中的實(shí)體和關(guān)系。如果知識(shí)圖譜中存在三元組,則是潛在的答案。這一過程可以稱作單跳問答,一個(gè)問題的查詢通過找到獨(dú)立的三元組完成,而沒有涉及多個(gè)有關(guān)聯(lián)的三元組。
多跳知識(shí)圖譜問答面臨的挑戰(zhàn)
知識(shí)圖譜作為一種知識(shí)存儲(chǔ)的形式,其中最重要的缺陷之一是它們通常都是不完整的,而這給 KGQA 提出了額外的挑戰(zhàn),尤其是多跳 KGQA。如上圖所示,多跳 QA 需要一個(gè)長路徑,而該路徑上任意三元組的缺失都將導(dǎo)致真正的答案無法被搜索到。因此,采取某種方式預(yù)測知識(shí)圖譜中缺失的鏈接,對于提升多跳 QA 的表現(xiàn)是有幫助的。當(dāng)前緩解知識(shí)圖譜不完整性的方法主要有:將 KG 與外部文本語料庫結(jié)合,或者對知識(shí)圖譜內(nèi)的三元組進(jìn)行補(bǔ)全等。
鏈接預(yù)測
鏈接預(yù)測的任務(wù)即預(yù)測知識(shí)圖譜中缺失的鏈接,以減緩知識(shí)圖譜的稀疏性。知識(shí)圖譜嵌入是一種常見的鏈接預(yù)測方法,它為知識(shí)圖譜中的實(shí)體和關(guān)系學(xué)習(xí)高維向量表示,但作者發(fā)現(xiàn)它尚未應(yīng)用于多跳 KGQA 中。作者首次將嵌入用于多跳 KGQA,其目的在于充分利用嵌入方法在應(yīng)對知識(shí)圖譜稀疏性上的良好表現(xiàn),增強(qiáng)模型的多跳推理能力。
論文題目:Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings
論文鏈接:https://arxiv.org/abs/1910.03262v1
Arxiv訪問慢的小伙伴也可以在訂閱號(hào)后臺(tái)回復(fù)關(guān)鍵詞【0616】下載論文PDF。
技術(shù)簡介
如下圖所示,該文將其 KGQA 方法稱為 EmbedKGQA。其中包含三個(gè)關(guān)鍵模塊。
KG 嵌入模塊:為 KG 中所有實(shí)體構(gòu)建嵌入。
問題嵌入模塊:為問題找到嵌入。
答案選擇模塊:減小候選答案實(shí)體的集合,并選擇最終的答案。
KG 嵌入模塊
作者直接選擇了 ComplEx [1] 作為嵌入模型。實(shí)體嵌入被用于學(xué)習(xí)頭實(shí)體、問題和答案實(shí)體構(gòu)成的三元組評(píng)分函數(shù)。作者沒有在 KG 嵌入模塊進(jìn)行過多關(guān)注和額外設(shè)計(jì)。
問題嵌入模塊
該模塊的目標(biāo)是將一個(gè)自然語言問題? 嵌入到一個(gè)固定維度的復(fù)向量?。使用復(fù)向量的原因是匹配 KG 嵌入的 ComplEx 方法。作者使用了現(xiàn)有方法 RoBERTa [2] ?將自然語言問題? 嵌入到 768 維的向量中,其中包含 4 個(gè)全連接線性層,使用 ReLU 激活函數(shù)。
給定一個(gè)自然語言問題?,一個(gè)查詢實(shí)體?,和一個(gè)答案實(shí)體集合?,該模塊學(xué)習(xí)問題嵌入以達(dá)到以下目標(biāo):
其中, 是 ComplEx 的評(píng)分函數(shù), 是之前學(xué)習(xí)到的實(shí)體嵌入。對于每個(gè)問題,評(píng)分函數(shù)? 通過所有候選答案實(shí)體? 計(jì)算得到。但哪些實(shí)體可以被認(rèn)為是候選答案實(shí)體,作者在此處并沒有明確闡述,而是在答案選擇模塊中講解了如何對候選答案實(shí)體進(jìn)行修剪操作。
讀到這里,不禁疑惑該文對多跳問題的處理有什么特別之處?和單跳問題的處理是否有不同?我們發(fā)現(xiàn)問題嵌入和 KG 嵌入并沒有特殊的設(shè)計(jì),而實(shí)際上多跳 QA 的能力就來源于嵌入方法本身的性質(zhì)。作者在實(shí)驗(yàn)部分對此進(jìn)行了解釋,
答案選擇模塊
在進(jìn)行推斷時(shí),模型根據(jù) (head, question) ?頭實(shí)體-問題對,對所有可能的答案? 計(jì)算分?jǐn)?shù)。對于較小的知識(shí)圖譜,例如后文實(shí)驗(yàn)部分所述的 MetaQA,該模塊直接選擇具有最高分?jǐn)?shù)的實(shí)體作為答案,即從整個(gè)知識(shí)圖譜的所有實(shí)體中選擇最高分?jǐn)?shù)的實(shí)體。此處實(shí)際上已經(jīng)通過嵌入的方式,完全避免了任何形式的檢查某個(gè)結(jié)點(diǎn)的鄰居結(jié)點(diǎn)的過程,或者說克服了生成某種局部子圖的方法的弊端,實(shí)現(xiàn)了多跳。
然而對于較大的知識(shí)圖譜,作者認(rèn)為需要對候選實(shí)體進(jìn)行修剪以提升性能。修剪的方式即關(guān)系匹配。
關(guān)系匹配
為了在眾多實(shí)體中選擇符合期望的候選答案實(shí)體并計(jì)算分?jǐn)?shù),作者利用了知識(shí)圖譜中實(shí)體之外的信息,即關(guān)系。作者利用類似于 PullNet [3] ?的方法,學(xué)習(xí)一個(gè)評(píng)分函數(shù),它能夠在給定一個(gè)問題時(shí)對所有關(guān)系進(jìn)行排序。
首先,對于一個(gè)自然語言問題?,將它作為輸入得到它在 RoBERTa 最后一個(gè)隱藏層的輸出:
然后,根據(jù) KG 嵌入模塊學(xué)習(xí)到的關(guān)系嵌入?,我們可以計(jì)算一個(gè)度量關(guān)系和問題二者的評(píng)分:
在所有的關(guān)系中,作者選擇分?jǐn)?shù)? 的關(guān)系,將這個(gè)關(guān)系集合記為?. 這些關(guān)系是我們認(rèn)為的與問題比較相關(guān)的關(guān)系。
然后,對于每個(gè)候選實(shí)體?,我們找到頭實(shí)體? 和? 之間的最短路徑的關(guān)系,將這個(gè)關(guān)系集合稱為?. 這些關(guān)系是我們認(rèn)為的與頭實(shí)體最相關(guān)的關(guān)系。每個(gè)候選答案實(shí)體在給定問題時(shí)的關(guān)系分?jǐn)?shù)可以通過這兩個(gè)集合的交集的大小來計(jì)算:
通過線性組合關(guān)系分?jǐn)?shù)和 ComplEx 分?jǐn)?shù),我們就可以找到答案實(shí)體。
值得注意的是,這里的候選答案實(shí)體僅僅是?,而其具體含義并未被作者直接說明。
效果
數(shù)據(jù)集
實(shí)驗(yàn)所用數(shù)據(jù)集是 MetaQA 和 WebQuestionsSP。
MetaQA 是一個(gè)大規(guī)模多跳 KGQA 數(shù)據(jù)集,包含電影領(lǐng)域中超過四十萬個(gè)問題。在 QA 之外,該數(shù)據(jù)集包含 13.5 萬項(xiàng)三元組和 4.3 萬個(gè)實(shí)體,以及 9 種關(guān)系。
WebQuestionSP 是一個(gè)較小的 QA 數(shù)據(jù)集,包含 4737 個(gè)問題,問題為 1 跳或 2 跳,可通過 Freebase 回答。作者選取了 Freebase 的子集用于該數(shù)據(jù)集的實(shí)驗(yàn),其中包含 180 萬個(gè)以上的實(shí)體和 570 萬項(xiàng)以上的三元組。
顯然,后者所用的知識(shí)圖譜規(guī)模要遠(yuǎn)大于前者。在實(shí)驗(yàn)部分中重點(diǎn)關(guān)注后者,可以窺見該模型能否良好地適應(yīng)較大規(guī)模的知識(shí)圖譜。
競爭算法
作者將 EmbedKGQA 與 Key-Value Memory Network[4] 、VRN[5] 、GraftNet[6] 、PullNet[7] ?進(jìn)行了對比。這些算法都實(shí)現(xiàn)了多跳 KGQA。其中,PullNet 限制答案實(shí)體在抽取的問題子圖中,這種抽取問題子圖的方法在本質(zhì)上限制了長路徑的多跳推理能力。而 EmbedKGQA 本質(zhì)上可以應(yīng)對頭實(shí)體和答案實(shí)體不連通的情況,統(tǒng)一的嵌入空間在某種程度上已經(jīng)包含了任意實(shí)體之間的關(guān)系,這超越了 PullNet 局部子圖的思路。
實(shí)驗(yàn)結(jié)果
下圖是 MetaQA 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,KG-50 表示知識(shí)圖譜的 50%. 評(píng)價(jià)指標(biāo)是 hit@1. 括號(hào)中的數(shù)字表示文本被用于增強(qiáng)不完整的 QA 時(shí)的實(shí)驗(yàn)結(jié)果。
作者使用 50% 的知識(shí)圖譜進(jìn)行測試,其目標(biāo)是測試模型在不完整知識(shí)圖譜上進(jìn)行鏈接預(yù)測的能力。MetaQA KG-50 實(shí)際上很稀疏,導(dǎo)致結(jié)點(diǎn)間的路徑很可能變得更長。
下圖是 WebQSP 數(shù)據(jù)集上的實(shí)驗(yàn)。EmbedKGQA 在鏈接預(yù)測上展現(xiàn)出非常好的表現(xiàn),但 KG-Full 上尚未取得超過 SOTA。
總結(jié)
EmbedKGQA 構(gòu)建方法簡單且有效,充分利用了現(xiàn)有嵌入方法在應(yīng)對知識(shí)圖譜稀疏性與實(shí)現(xiàn)鏈接預(yù)測方面的良好表現(xiàn),實(shí)現(xiàn)了多跳 QA。
不過,個(gè)人認(rèn)為該文的瑕疵是,由于關(guān)系匹配部分中,候選答案實(shí)體選擇的方法細(xì)節(jié)并未在文中被闡述清楚,在大型知識(shí)圖譜上的多跳 QA 效果可能值得深究。
重磅驚喜:賣萌屋小可愛們苦心經(jīng)營的?自然語言處理討論群?成立三群啦!掃描下方二維碼,后臺(tái)回復(fù)「入群」即可加入。眾多頂會(huì)審稿人、大廠研究員、知乎大V以及美麗小姐姐(劃掉?????♀?)等你來撩噢~(手慢無
可
能
喜
歡
ICLR2020滿分論文 | 為什么梯度裁剪能加速模型訓(xùn)練?
賣萌屋算法工程師思維導(dǎo)圖part3—深度學(xué)習(xí)篇
萬能的BERT連文本糾錯(cuò)也不放過
面試必備!賣萌屋算法工程師思維導(dǎo)圖—統(tǒng)計(jì)機(jī)器學(xué)習(xí)篇
告別自注意力,谷歌為Transformer打造新內(nèi)核Synthesizer
夕小瑤的賣萌屋
_
關(guān)注&星標(biāo)小夕,帶你解鎖AI秘籍
訂閱號(hào)主頁下方「撩一下」有驚喜哦
參考文獻(xiàn)
[1] The ?o Trouillon, Johannes Welbl, Sebastian Riedel, Eric Gaussier, and Guillaume Bouchard. 2016. Com- plex embeddings for simple link prediction. In In- ternational Conference on Machine Learning, pages 2071–2080.
[2] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Man- dar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. Roberta: A robustly optimized bert pretraining ap- proach. arXiv preprint arXiv:1907.11692.
[3] Haitian Sun, Tania Bedrax-Weiss, and William W Co- hen. 2019a. Pullnet: Open domain question answer- ing with iterative retrieval on knowledge bases and text. arXiv preprint arXiv:1904.09537.
[4] Alexander Miller, Adam Fisch, Jesse Dodge, Amir- Hossein Karimi, Antoine Bordes, and Jason Weston. 2016. Key-value memory networks for directly read- ing documents. arXiv preprint arXiv:1606.03126.
[5] Yuyu Zhang, Hanjun Dai, Zornitsa Kozareva, Alexan- der J Smola, and Le Song. 2018. Variational reason- ing for question answering with knowledge graph. In Thirty-Second AAAI Conference on Artificial In- telligence.
[6] Haitian Sun, Bhuwan Dhingra, Manzil Zaheer, Kathryn Mazaitis, Ruslan Salakhutdinov, and William W Co- hen. 2018. Open domain question answering using early fusion of knowledge bases and text. arXiv preprint arXiv:1809.00782.
[7] Haitian Sun, Tania Bedrax-Weiss, and William W Co- hen. 2019a. Pullnet: Open domain question answer- ing with iterative retrieval on knowledge bases and text. arXiv preprint arXiv:1904.09537.
總結(jié)
以上是生活随笔為你收集整理的ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 哈工大博士历时半年整理的《Pytorch
- 下一篇: Facebook提出生成式实体链接、文档