论文浅尝 - EMNLP2020 | 图结构对于多跳问答而言必要吗?
筆記整理 | 陳卓,浙江大學計算機科學與技術系,博士研究生
研究方向 | 知識圖譜,圖神經網絡,多模態
論文鏈接:https://www.aclweb.org/anthology/2020.emnlp-main.583.pdf
發表會議:EMNLP 2020
背景提要
抽取式閱讀理解,指的是要求機器在閱讀一段文本后,來回答一個問題。而回答這個問題的答案來自原文中的一段連續的序列(也就是連續的幾個詞)。
其中的多跳推理,近年來引起了關注。ACL2019的一篇論文提出用圖的方法解該問題,使用動態圖網絡建模實體之間的聯系。
具體思路如下:
其中的共現關系按如下表示:
對與同一個句子中同時出現的實體間建立邊的連接。
對于同樣的實體在Context中出現多次,則他們直接有邊的連接。eg. 如“美利堅合眾國”這個實體可能在文章中被多次提及,每次出現則圖中會新建一個節點,這些節點直接都是互相連接的。
文章標題中出現的實體與其對應正文中的所有實體都有連接
本文思路
本文的改進主要在于檢索和預訓練模型兩部分:
使用RoBERTa large模型來計算每個問題與候選段落之間的相關性。過濾掉所有得分低于0.1的段落。且每個問題對應的最大檢出段落為3
Encoding:把query和context拼接,送到另一個RoBERTa,再經過bi-attention
基線模型與DFGN的主要區別在于該模型以Fine-tuning的方式使用了預訓練模型,最后發現簡單的Fine-tuning可以把模型效果提高到另一個程度。并且在finetune的前提下圖結構添加與否沒有那么必要(效果提升有限)
所以猜測:圖結構可能不是解決多步推理問題所必要的結構
為了進一步理解圖結構,作者猜測:自注意力或者Transformer可能更加擅長處理多步推理問答任務,為此做了如下測試,同時提出如下觀點:
圖結構會限制模型使得其只能基于實體進行推理——忽略實體之外的信息(盡管有時是噪音)
鄰接矩陣幫助模型忽視非鄰接的節點
即使沒有這些先驗知識,模型也可能學到這種實體到實體的注意力模式
全連接圖時graph-attention可以認為是self-attention的特殊形式
實驗
預訓練模型使用Feature-based的方法
graph-attentionself-attentionTransformer(Without Graph Structure)
自注意力使用了與圖注意力相同的形式,唯一的不同在于自注意力將所有的節點視作全連接的
最后發現哪怕不使用圖結構,transformer也可以達到和self-attention,graph-attetion相同的效果。并且隨著圖的密度增大,這一過程中graph attention也沒有顯示出和self attention很大的差距
最后作者探討了,預訓練與transformer的方法定位預訓練模型中包含基于實體的注意力的頭(attention head)的可能性:
最后發現,該方法可以很好地捕捉和識別出相對于特定實體的其他概念注意力(四種情況,而后三種情況是graph方法所做不到的)
總結
適當使用預訓練的模型,多跳推理某些情況下可能不需要圖結構
圖結構在某些情況下也是對于任務的一種制約/限制
鄰接矩陣和圖結構可以看作是某種與任務相關的先驗知識
一些情況下graph attention和graph structure都可以被self-attention所代替
圖上的mask可以控制信息在圖上傳播的路徑
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - EMNLP2020 | 图结构对于多跳问答而言必要吗?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 领域应用 | 大众点评搜索基于知识图谱的
- 下一篇: 阿里P8架构师谈:MySQL行锁、表锁、