SIGIR 2019 | 基于人类阅读行为模式的机器阅读理解
作者丨張琨
學校丨中國科學技術大學博士生
研究方向丨自然語言處理
論文動機
機器閱讀理解一直是自然語言處理領域的一個非常重要的研究方向,目前雖然在一些給定條件下,機器學習的方法可以取得和人類類似甚至好于人類的效果,但在實際的閱讀條件下,兩者之間還存在比較大的差異。人類的閱讀習慣在一定程度上仍對機器閱讀理解模型有啟發(fā)作用。
基于這樣的一個出發(fā)點,本文的作者通過收集眼動數(shù)據(jù)對人類的閱讀行為模式進行分析,并嘗試通過回答以下三個問題對人類的閱讀行為模式進行分析:
1. 在閱讀理解任務中,人類是如何閱讀和尋找答案的?
2. 在閱讀理解任務中,什么因素影響著人類的注意力分配機制?
3. 人類的閱讀行為是否有助于提高機器學習模型在閱讀理解任務上的表現(xiàn)?
用戶研究分析
為了回答以上問題,對用戶行為進行詳細分析,本文首先對用戶進行了相關研究,整體的數(shù)據(jù)手機過程如下圖所示:
首先,作者將閱讀理解數(shù)據(jù)集中的問題根據(jù)類型分為不同的類型,每個任務集包含 15 個問題,涵蓋 Description, Entity and Yesno (5 questions for each), cover both Fact (8 questions) ,and Opinion (7 questions) categories,然后每個參與者經(jīng)過培訓之后,獨立回答這些問題,如上圖所示,每個用戶回答問題需要經(jīng)過一下四個階段:
1. 首先看到一個問題,在閱讀完問題之后,他們被要求復寫問題,并對問題進行評價(預先定義的 5 個評價標準);
2. 閱讀對應文檔,并在文檔中找到最適合的答案,在該過程中用戶不能再看到問題;
3. 寫出對應的答案,答案需要精準,并且來自文檔或者被文檔中的片段支持,該過程不能引入用戶自己的先驗知識;
4. 再次提供問題和文檔,用戶需要標注出答案對應的證據(jù),同時還需要標注出每個證據(jù)的有用程度(預先定義)如果文檔中沒有答案,則不需要標出任何內(nèi)容。
在 1,2 階段,作者還通過眼動儀來收集用戶的注意力分配信息數(shù)據(jù),通過這些方法,作者就收集到了用戶在閱讀理解中的行為數(shù)據(jù),并通過對這些數(shù)據(jù)的分析回答之前提出的三個問題。
問題1:在閱讀理解任務中,人類是如何閱讀和尋找答案的?
上圖展示了人類在閱讀過程中的注意力分配,從這個圖中可以看出,無論文檔中是否有答案,用戶更習慣于從頭到尾進行閱讀。之前已有研究表明了人類的閱讀行為包含三類:down,up 和 skip,down 就是順序閱讀,up就是往回讀,skip就是跳過一些內(nèi)容讀。作者也對用戶的這三種行為進行了分析:
從上圖中可以看出,用戶更傾向于在剛開始閱讀時按順序閱讀,在之后的閱讀中跳過不重要的內(nèi)容,只關注最重要的內(nèi)容。同時在上圖中的 c 中可以看出,用戶會花費更多的時間在用候選答案的部分,更少的關注沒有答案的文本。當文檔中包含答案時,可以看到 up 和 skip 的行為會更常見,也就是用戶需要對答案進行驗證。但當文檔中沒有答案時,只有 down 的行為會增加。
問題2:在閱讀理解任務中,什么因素影響著人類的注意力分配機制?
為了回答該問題,作者分別對影響用戶行為的四種主要因素進行了分析:答案,位置,詞的類別和匹配信號。
從這個表中可以看出,用戶會更傾向于關注包含答案的內(nèi)容,而在不包含答案的部分,用戶的關注時間都相對比較短。
該圖展示了答案詞出現(xiàn)的位置對用戶造成的影響,可以看出,答案更多的出現(xiàn)的文章的前部。對不存在答案的文檔,可以看出用戶的關注在文檔前 80% 變動并不大,而在文檔結(jié)尾有比較大的下降。而當文檔中有答案時,可以看出注意力的分布和答案在文檔中的分布是類似的,也就是答案最終影響了用戶的關注位置。
詞的屬性上,作者通過研究 IDF 和詞性進行了相關的分析,可以看出1)一個詞的 IDF 越大,受到的關注度越大,因為 IDF 越大,這個詞出現(xiàn)的頻率閱讀,說明用戶更關注那些不常見的詞;2)在用戶的閱讀過程中,用戶更關注名詞,主要是名詞包含了更有用的信息。
在匹配信號中可以看出,那些和問題語義相似度更高的詞會收獲更多的用戶關注。
問題3:人類的閱讀行為是否有助于提高機器學習模型在閱讀理解任務上的表現(xiàn)?
在該問題中,作者提出了一種兩階段的模型,在第一階段搜索可能的答案,在第二階段通過比較和驗證生成最后的答案,具體模型效果如下圖所示:
總結(jié)
本文針對用戶的閱讀行為模式進行了詳細分析,通過具體的行為數(shù)據(jù)解釋了用戶的復雜閱讀習慣,這其中還是有很多值得我們借鑒的,由于本文主要針對用戶的閱讀行為進行分析,因此相關的模型部分相對少。但文中總結(jié)出的相關內(nèi)容信息還是有很多可以學習的,還是很有意思的。
點擊以下標題查看更多往期內(nèi)容:?
資源:10份機器閱讀理解數(shù)據(jù)集 | 論文集精選
基于CNN的閱讀理解式問答模型:DGCNN
利用GAN進行故事型常識閱讀理解
近期值得讀的知識圖譜論文,這里幫你總結(jié)好了
SIGIR 2019?| 結(jié)合答案信息的重復問題檢測方法
后BERT時代的那些NLP預訓練模型
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結(jié)
以上是生活随笔為你收集整理的SIGIR 2019 | 基于人类阅读行为模式的机器阅读理解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2019 IROS—终生机器视觉数据集全
- 下一篇: ICCV 2019 | 基于关联语义注意