问题生成的多样性会在多大程度上帮助下游QA任务?
?PaperWeekly 原創(chuàng) ·?作者|Maple小七
學(xué)校|北京郵電大學(xué)碩士生
研究方向|自然語(yǔ)言處理
TL;DR:問(wèn)題生成(Question Generation, QG)的重要應(yīng)用之一是輔助提升 QA 模型的性能,那么問(wèn)題生成的多樣性會(huì)在多大程度上幫助下游 QA 任務(wù)?本文通過(guò)實(shí)驗(yàn)證明了促進(jìn) QG 多樣性對(duì) QA 模型提升的有效性。
同時(shí),作者發(fā)現(xiàn)目前廣泛使用的評(píng)估指標(biāo)(BLEU、ROUGE、METEOR)不能準(zhǔn)確衡量 QG 模型實(shí)際的生成質(zhì)量,因此作者進(jìn)一步提出了一種能夠綜合評(píng)估 QG 模型綜合性能的指標(biāo),該指標(biāo)綜合考慮了 QG 的準(zhǔn)確性和多樣性,并且與下游 QA 模型的性能指標(biāo)高度正相關(guān)。
論文標(biāo)題:
On the Importance of Diversity in Question Generation for QA
收錄會(huì)議:
ACL 2020
論文鏈接:
https://www.aclweb.org/anthology/2020.acl-main.500.pdf
Question Generation based on Pretrained LM
自 2017 年端到端問(wèn)題生成任務(wù)被提出以來(lái),問(wèn)題生成的多樣性就得到了廣泛的研究,但是提高問(wèn)題生成的多樣性對(duì)問(wèn)答系統(tǒng)的幫助到底有多大?
下面是作者構(gòu)建的基于 RoBERTa+UniLM 的問(wèn)題生成模型,可以看出,生成的問(wèn)題不但在詞匯層面上具有多樣性,在語(yǔ)義層面上也具有多樣性,也就是提出的問(wèn)題在針對(duì)答案實(shí)體的疑問(wèn)方面上均有所不同,甚至引入了上下文沒(méi)包含的世界知識(shí)(原文沒(méi)有提到 Tesla 有 mad scientist 的名聲)。
世界知識(shí)的來(lái)源很有可能來(lái)自于預(yù)訓(xùn)練模型本身,在開(kāi)放域文本生成中,以 GPT 系列為代表的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型已經(jīng)展現(xiàn)出了非常穩(wěn)健的文本生成能力,因此我們不妨將 QG 任務(wù)看作是既受限又開(kāi)放的文本生成任務(wù)。
借助于強(qiáng)大的語(yǔ)言模型,QG 模型可以生成更多樣,更準(zhǔn)確的問(wèn)題,從而提升 QA 模型的性能,這也可以看作是一種間接引入隱式外部知識(shí)的方式,這些隱藏在預(yù)訓(xùn)練 RoBERTa 上億個(gè)參數(shù)內(nèi)的外部知識(shí)能夠從多方面提升 QG 模型的性能。
Evaluation / Diversity
目前的 QG 模型的構(gòu)建都依賴(lài)于 beam search 解碼生成,以極大似然估計(jì)的方式擬合人類(lèi)標(biāo)注的問(wèn)題(Ground Truth, GT),并使用基于 n-gram 相似度的 BLEU 來(lái)評(píng)價(jià)模型,然而,人類(lèi)標(biāo)注的問(wèn)題常常很少,不具有多樣性,而多樣性希望可以生成與 GT 不同的問(wèn)題,這導(dǎo)致以極大似然作為目標(biāo)的 QG 模型的多樣性是受到抑制的。
Schlichtkrull, et al., 2020 [1] 也指出面向機(jī)器翻譯的 BLEU、ROUGE、METEOR 這些指標(biāo)不能準(zhǔn)確地反映問(wèn)題生成模型的多樣性,因?yàn)檫@些指標(biāo)的潛在假設(shè)是參考問(wèn)句具有相同的表達(dá),也就是假設(shè)只有詞匯上的多樣性,而沒(méi)有內(nèi)容上的多樣性。
Question Generation using RoBERTa
促進(jìn)問(wèn)題生成的多樣性有很多解決方案,總體來(lái)說(shuō)可以分為兩類(lèi),一類(lèi)是以 CVAE 為代表的在訓(xùn)練階段引入潛變量來(lái)促進(jìn)多樣性的方法,另一類(lèi)是以隨機(jī)解碼為代表的在推斷階段優(yōu)化解碼方式的方法。
本文采用的是 Holtzman et al., 2020 [2] 提出的 top-p 核采樣方法(nucleus sampling) ,因?yàn)樵摲椒ê?jiǎn)單,高效,并且解碼速度比 beam search 更快。
3.1 Model
作者訓(xùn)練了基于 RoBERTa+UniLM 的 QG 模型,具體做法是將文章和答案作為 prompt,以語(yǔ)言模型的方式生成問(wèn)題,訓(xùn)練數(shù)據(jù)格式為 ,Attention 矩陣為 UniLM 中的 seq2seq LM 模式。
3.2?Fine-Tuning
采用 tearcher-forcing 的方式訓(xùn)練模型,最小化掩碼部分的負(fù)對(duì)數(shù)似然函數(shù):
其中 是 Ground Truth 的第 個(gè)詞, 是模型給出的預(yù)測(cè)。
3.3 Inference
top-p 核采樣的思想是截?cái)嗖蓸涌臻g,即設(shè)定 ,針對(duì)每個(gè)時(shí)間步 ,保留 softmax 概率最高且累積概率和剛好大于 的候選 token 子集 并重新標(biāo)準(zhǔn)化為概率分布:
這相當(dāng)于將每一個(gè)時(shí)間步的候選 token 范圍限制為高置信度區(qū)間,相比于 top-k 采樣,top-p 核采樣減小了生成低概率詞的可能性。當(dāng) 時(shí),核采樣就退化為了貪心解碼。
Experiments and Results
4.1 In-Domain Experiments
作者利用 SQuAD 訓(xùn)練集訓(xùn)練問(wèn)題生成模型,并為 SQuAD 開(kāi)發(fā)集生成問(wèn)題,然后在生成的問(wèn)題集上訓(xùn)練基于 BERT-wwm 的 QA 模型,最后在 SQuAD 測(cè)試集上測(cè)試問(wèn)答模型。下表給出了在不同訓(xùn)練集大小、不同模型大小和不同解碼方式下問(wèn)題生成模型的 BLEU-1、ROUGE-4 和 METEOR 分?jǐn)?shù),以及對(duì)應(yīng)的 QA 模型的 分?jǐn)?shù)。
可以發(fā)現(xiàn),top-p 核采樣的 值越高,QG 模型的 BLEU 分?jǐn)?shù)越低,但對(duì)應(yīng)的 QA 模型的 分?jǐn)?shù)卻越高,這說(shuō)明多樣性與 BLEU 這類(lèi)自動(dòng)評(píng)估指標(biāo)是反相關(guān)關(guān)系。
另外,盡管 beam search 在 QG 自動(dòng)評(píng)價(jià)指標(biāo)上取得了最高分,但對(duì)應(yīng) QA 模型的 分?jǐn)?shù)卻不高,這進(jìn)一步說(shuō)明了這些自動(dòng)評(píng)價(jià)指標(biāo)無(wú)法準(zhǔn)確衡量 QG 模型的質(zhì)量,而?beam search 的偏好是和這些評(píng)價(jià)指標(biāo)的偏好是相同的,也就是以最大似然的方式擬合 Ground Truth,而無(wú)法生成 Ground Truth 以外的問(wèn)題。
4.2 Out-of-Domain Experiments
為了測(cè)試 QG 模型的域外泛化能力,作者用上面在 SQuAD 訓(xùn)練集上訓(xùn)練的 QG 模型為 NewsQA 訓(xùn)練集生成問(wèn)題,然后訓(xùn)練對(duì)應(yīng)的 QA 模型并測(cè)試,測(cè)試結(jié)果進(jìn)一步支持了上述結(jié)論,也就是隨著核采樣 值的增大,多樣性越大,BLEU、ROUGE 分?jǐn)?shù)越低,QA 越高。
4.3?Comparison with and Augmentation of Human Generation
為了評(píng)估 QG 模型(large-100%-NS@0.95)生成的問(wèn)題的質(zhì)量,作者將人類(lèi)標(biāo)注的問(wèn)題和模型生成的問(wèn)題做了對(duì)比。
如下表所示,可以發(fā)現(xiàn)在 SQuAD 數(shù)據(jù)集上,用生成的問(wèn)題(SYNTH)和人類(lèi)標(biāo)注的問(wèn)題(GT)訓(xùn)練的 QA 模型的表現(xiàn)非常接近(86.1 vs. 86.3),當(dāng)為每個(gè)答案生成5個(gè)問(wèn)題時(shí),QA 超越了 GT (86.4 vs. 86.3),這很大程度上是由多樣性帶來(lái)的增益。
值得注意的是,利用在 SQuAD 上訓(xùn)練的 QG 模型為 NewsQA 生成的問(wèn)題(SYNTH)來(lái)訓(xùn)練 QA 模型,比起利用人類(lèi)標(biāo)注的問(wèn)題(GT)訓(xùn)練的 QA 模型的 分?jǐn)?shù)僅僅差了 4 個(gè)點(diǎn)(63.8 vs. 67.9),這說(shuō)明訓(xùn)練出的 QG 模型具有不錯(cuò)的零樣本遷移能力。
作者也評(píng)估了將生成的問(wèn)題用于增強(qiáng) QA 模型的效果,作者在大量的 Wikipedia 文章上生成了四百萬(wàn)個(gè)問(wèn)題(SYNTH*)來(lái)微調(diào)? QA ?模型,然后在 SQuAD/NewsQA 數(shù)據(jù)集上進(jìn)一步微調(diào)該模型,這個(gè)過(guò)程類(lèi)似于領(lǐng)域預(yù)訓(xùn)練的增強(qiáng),模型的最終表現(xiàn)得到了約兩個(gè)點(diǎn)的提升。
這表明在大規(guī)模數(shù)據(jù)集上訓(xùn)練的 QG 模型,能夠很大程度上實(shí)現(xiàn)零樣本的領(lǐng)域問(wèn)題生成,或是在原始問(wèn)答數(shù)據(jù)集的基礎(chǔ)上進(jìn)一步提升 QA 模型的表現(xiàn)。
Intrinsic Evaluation of Diverse QG
前面已經(jīng)多次提到目前的評(píng)估指標(biāo)不能準(zhǔn)確評(píng)估 QG 模型的真實(shí)性能,因?yàn)樗魂P(guān)注是否準(zhǔn)確擬合了人工標(biāo)注的問(wèn)題,為了進(jìn)一步說(shuō)明 ROUGE 指標(biāo)不能反映多樣性,作者將上面訓(xùn)練好的 32 個(gè)基于核采樣的問(wèn)題生成模型作為一個(gè)集合。
然后隨機(jī)生成十萬(wàn)個(gè)子集,每個(gè)子集包含 個(gè)模型,按子集大小分箱,計(jì)算每個(gè)分箱內(nèi)的子集的模型的 ROUGE 指標(biāo)和 QA 指標(biāo)的 Spearman 相關(guān)系數(shù)的平均值,結(jié)果如下圖紅色部分所示,這說(shuō)明在統(tǒng)計(jì)意義上,ROUGE 指標(biāo)與 QA 指標(biāo)的相關(guān)性是比較弱的。
那么如何設(shè)計(jì)能夠準(zhǔn)確度量 QG 模型的生成質(zhì)量的指標(biāo)呢?我們可以將問(wèn)題生成的質(zhì)量評(píng)價(jià)分解為兩部分:準(zhǔn)確度、多樣性,并分別將這兩方面指標(biāo)數(shù)學(xué)化,再將兩者結(jié)合起來(lái)。
Accuracy:和語(yǔ)言模型的困惑度類(lèi)似,我們可以將 對(duì)所有 取平均作為模型的準(zhǔn)確度指標(biāo) ,其中 為人工標(biāo)注問(wèn)題 的第 的詞的似然概率。
Diversity:雖然可以考慮用解碼步驟候選 token 分布的平均熵來(lái)量化多樣性,但熵是一個(gè)非線(xiàn)性增長(zhǎng)且無(wú)界的度量指標(biāo),不容易與上面的準(zhǔn)確度組合起來(lái)。而作者發(fā)現(xiàn),當(dāng)我們?cè)黾硬蓸娱撝? 時(shí),采樣空間 的基數(shù)也隨之增大,因此 也增大,作者的實(shí)驗(yàn)表明這個(gè)度量指標(biāo)和 的熵有非常強(qiáng)的線(xiàn)性相關(guān)性(0.98),另外,注意到這個(gè)指標(biāo)不像 ,在每個(gè)時(shí)間步 上, 是一個(gè)布爾值,也就是 要么在 中,要么不在,而對(duì)時(shí)間步取平均后,該指標(biāo)就是一個(gè)取值為 的概率值,因此可以將該指標(biāo)和準(zhǔn)確度簡(jiǎn)單地做加權(quán)線(xiàn)性組合。
因此,作者最后提出的綜合指標(biāo)是上述兩個(gè)指標(biāo)的加權(quán):
其中 為可調(diào)節(jié)的參數(shù),反映了評(píng)估者對(duì)模型的偏好。在作者的實(shí)驗(yàn)中,該指標(biāo)與QA 指標(biāo)具有極強(qiáng)的正相關(guān)關(guān)系,不過(guò)要注意該指標(biāo)只適用于問(wèn)題生成,而不適用于更廣泛的文本生成。另外這個(gè)指標(biāo)有一定的實(shí)驗(yàn)性質(zhì),真實(shí)效果如何還需要進(jìn)一步驗(yàn)證。
Conclusion
面向多樣性的評(píng)價(jià)指標(biāo)在以對(duì)話(huà)為代表的 NLG 任務(wù)上得到了廣泛的研究,然而多樣性的定義依舊不夠具體,如何衡量、促進(jìn)甚至控制生成文本不同方面的多樣性也是一個(gè)值得關(guān)注的研究方向。
參考文獻(xiàn)
[1] https://arxiv.org/abs/2008.07291
[2] https://arxiv.org/abs/1904.09751
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的问题生成的多样性会在多大程度上帮助下游QA任务?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 京东 | AI人才联合培养计划
- 下一篇: 目标跟踪从0到1:算法与实践