论文浅尝 - TACL2020 | TYDI QA:Google 发表一个多语言的问答语料库
論文筆記整理:吳林娟,天津大學碩士。
鏈接:
https://arxiv.org/ftp/arxiv/papers/2003/2003.05002.pdf
動機
具有挑戰(zhàn)性、值得信賴的評估數(shù)據(jù)可以促進多語言模型的發(fā)展,為了鼓勵對多語言問答技術(shù)的研究,作者提出了數(shù)據(jù)集TyDi QA,這是一個涵蓋了 11 種不同類型語言和204K個問答對的問答語料庫。其中的11種語言在類型上是多種多樣的,作者期望在這個數(shù)據(jù)集上表現(xiàn)良好的模型,能推廣運用到世界上的眾多其他語言。
簡介
問答系統(tǒng)給人們獲取信息帶來了極大的方便,現(xiàn)有的先進的問答系統(tǒng)主要都是通過了英文的數(shù)據(jù)集測試,但是很多能從問答系統(tǒng)中受益的人并不會英語。世界上的語言展現(xiàn)出驚人的語言現(xiàn)象,用以表達意義?!妒澜缯Z言結(jié)構(gòu)圖集》按照192種類型特征對2600種語言進行了分類,其中包括詞序(word order)、重疊(reduplication)、按照句法編碼的語法含義、格標記(case marking)、復(fù)數(shù)系統(tǒng)、問題標記、相對化(relativization)等現(xiàn)象。如果想要構(gòu)建能夠準確地表示所有人類語言的模型,那么必須根據(jù)能夠證明這種多樣性的數(shù)據(jù)來評估這些模型。
本文數(shù)據(jù)構(gòu)建的目標:
1.使研究工作朝著建立大約世界前100種語言的高質(zhì)量問答系統(tǒng)的方向發(fā)展;
2.鼓勵研究能夠很好地跨越世界語言的語言現(xiàn)象和數(shù)據(jù)場景的模型。
作者描述了TYDI-QA語言的類型特征,并提供了從數(shù)據(jù)中提取的一些相關(guān)現(xiàn)象的隱藏示例,以使研究人員了解非英語文本中存在的挑戰(zhàn),然后在模型中去處理這些挑戰(zhàn)。作者也提供了一個開源的基線模型和帶有隱藏測試集的公共排行榜(https://ai.google.com/research/tydiqa),用于跟蹤社區(qū)的進展。
任務(wù)要求
TYDI QA提出了一個模型,其中包含一個問題以及一篇維基百科文章的內(nèi)容,并要求它做出兩個預(yù)測:
段落選擇任務(wù):給定文章中段落的列表,如果存在答案則返回的包含答案的段落索引,如果不存在此類段落,則返回空。
最小答案跨度任務(wù):給定一篇文章的全文,返回答案的最小跨度的開始和結(jié)束字節(jié)索引;如果問題需要的答案是“是/否”,并且可以從文章中得出結(jié)論,則返回“是”或“否”;如果無法生成最小答案,則返回空。
數(shù)據(jù)集問答對的實例如下圖:
數(shù)據(jù)收集程序
問題引出:只給人類標注員Wikipedia內(nèi)容的一小部分去提出自己真正感興趣問題,以及無法從文本中得到答案提示的問題。例如當人類標注員看到文本中寫道“蘋果是一種水果...”,可能會寫下“史蒂夫·喬布斯死于什么疾病?”這樣由好奇心激發(fā)出的問題。這使得標注員可以更自由地詢問他們真正感興趣的主題,包括提示文章中沒有涉及的主題。
文章檢索:通過對問題文本執(zhí)行Google搜索,將Wikipedia文章與每個問題配對,僅限于每種語言的Wikipedia域,并選擇排名最高的結(jié)果。為了啟用將來的用例,文章文本是從每種語言的原子Wikipedia快照中提取的。
答案標注:最后,給注釋者提供問題/文章對,并首先要求他們選擇最佳段落答案(文章中包含答案的段落),否則表明不可能回答(或沒有滿足答案的單獨的段落)。如果找到這樣的段落,則注釋者將被要求選擇一個最小的答案:盡可能短的字符跨度,同時能形成令人滿意的答案;理想情況下,這些詞的長度為1-3個字,但在某些情況下可以覆蓋句子的大部分內(nèi)容(例如,對于“什么是原子?”這樣的定義)。如果問題要求布爾回答,則注釋者選擇是或否。如果沒有這樣的最小答案,則注釋者也指出這一點。
數(shù)據(jù)集沒有使用翻譯的方法,將其從英語擴充到其他的語言,一個是避免翻譯帶來的錯誤,還有就是防止通過翻譯后每一個問題都有英語的影子,這可能會使遷移學習的方法收益增加。
數(shù)據(jù)描述
數(shù)據(jù)類型多樣性
作者選擇數(shù)據(jù)集中語言的主要標準是類型多樣性-即它們使用不同的語言手段表達含義的程度,換句話說,作者希望選定的語言不僅數(shù)量多,還能代表許多語言家族。此外,作者選擇了具有與建模相關(guān)的多種數(shù)據(jù)特征的語言。例如,某些語言可能只有很少的單語數(shù)據(jù)。有許多語言的并行翻譯數(shù)據(jù)很少,并且?guī)缀鯖]有經(jīng)濟動機在不久的將來產(chǎn)生大量昂貴的并行數(shù)據(jù)。因為過于依賴高質(zhì)量機器翻譯的方法將無法在世界各地的語言中推廣。因此,我們選擇一些具有并行訓(xùn)練數(shù)據(jù)的語言(例如日語,阿拉伯語)和一些具有很少并行訓(xùn)練數(shù)據(jù)的語言(例如孟加拉語,斯瓦希里語)。盡管以這些語言收集數(shù)據(jù)涉及更大的困難,但作者希望它們的多樣性將使研究人員能夠更可靠地得出有關(guān)其模型在各種語言中的泛化程度的可靠結(jié)論。
數(shù)據(jù)統(tǒng)計
問答系統(tǒng)評估
系統(tǒng)評估方法
TYDI-QA任務(wù)的主要評估指標是F1,它是精確性和召回率的調(diào)和平均值,每一項都是通過語言中的示例計算出來的。然而,任務(wù)之間確實存在某些細微差別,其中主要時針對空處理的評估。首先,每個例子的分數(shù)在一種語言中計算平均值;然后對所有非英語語言進行平均,得到最終的F1分數(shù)。對英語的測量被視為調(diào)試的有用手段,而不是TYDI QA任務(wù)的目標,因為在現(xiàn)有的數(shù)據(jù)集中已經(jīng)有大量的英語評估覆蓋。
人類表現(xiàn)的評估
作為一個思維實驗,考慮將評價框架定為“正確答案被接受為正確答案的可能性有多大?”
作者提出了一個有首選答案的游戲:目標是為用戶提供他們喜歡的答案。如果注釋者正確選擇了這些首選答案,作者則希望多路注釋數(shù)據(jù)包含圍繞這些首選答案的峰值分布。然后,玩家的最佳策略是預(yù)測那些答案,這些答案既是用戶首選的,就更可能出現(xiàn)在評估數(shù)據(jù)集中。作者希望有大量的人工注釋者或經(jīng)過良好優(yōu)化的機器學習系統(tǒng)來學習這種分布,這將有助于人類表現(xiàn)評估的提升。
主要任務(wù):與基準模型的結(jié)果比較
提供了使用最新發(fā)布的多語言BERT(mBERT)的基線的結(jié)果。與Alberti等設(shè)置類似,其中所有語言都在一個模型中共同訓(xùn)練(表5)。此外,由于基線還沒有經(jīng)過訓(xùn)練,作者包含了始終預(yù)測第一段通過的系統(tǒng)的結(jié)果,因為Wikipedia文章的第一段經(jīng)常總結(jié)其最重要的事實。在所有語言中,我們都看到mBERT與較大的人類績效估計之間存在較大差距。
我們可以比較各種語言的分數(shù)嗎?抱歉不行。每種語言都有自己獨特的問題集,維基百科內(nèi)容的質(zhì)量和數(shù)量各不相同,注釋者的質(zhì)量也不同,以及還存在其他變量。
黃金段落:一個簡化版的任務(wù)
在這個任務(wù)中,只提供了標準答案所在的段落而不是整個維基百科文章,并且社區(qū)了不可回答的問題,類似于MLQA和XQuAD,評估也參考類似XQuAD中的。臺語和日語被刪除了,因為語言中沒有空格可能不利于一些現(xiàn)有的工具使用。
基于簡化版任務(wù)的基線結(jié)果如表7。
總結(jié)及展望
作者預(yù)見了幾個研究方向,這些數(shù)據(jù)將使研究者能夠推動新的邊界,包括:
研究形態(tài)學和問答匹配之間的相互作用;
評估遷移學習的有效性,無論是對于有或沒有并行數(shù)據(jù)的語言;
考慮到不同的數(shù)據(jù)場景和語言挑戰(zhàn),機器翻譯在數(shù)據(jù)擴充和作為運行時組件的問答中的有用性;
通過顯式地不在所提供的語言的子集上進行訓(xùn)練來研究零資源QA。
最后作者寫到,回答問題所需的內(nèi)容常常沒有用更多的其他語言寫下來。對于這些語言,我們矛盾地面臨著需要跨語言答案檢索和翻譯的前景,同時資源貧乏的語言也缺少了可信賴的翻譯系統(tǒng)所需的并行數(shù)據(jù)。期待著研究界找到更多方法來提高多語言模型的質(zhì)量。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - TACL2020 | TYDI QA:Google 发表一个多语言的问答语料库的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术动态 | 去中心化知识图谱协作平台建
- 下一篇: 论文浅尝 | 基于异质图交互模型进行篇章