论文浅尝 | 问题多样性对于问答的帮助
筆記整理 |? 畢勝 東南大學在讀博士,研究方向:自然語言處理 知識圖譜
問題生成通過生成一些合成的問題作為訓練語料有效提高了問答系統的效果,本文的研究點是:在QG中,生成問題的文本多樣性是否對下游的QA有幫助?
直觀上來看,多樣的問題確實是能夠提升QA的效果。
背景
現有QG大部分采用beam search試圖產生多樣性的問題,同時采用如BLEU、ROUGE等metric作為評估方式。這樣做存在兩個問題:1、BLEU、ROUGE這類評估方式都傾向于讓生成的結果與Ground Truth (GT)更加相似,而多樣性是希望生成的結果和GT更加不同,這兩個指標的趨勢是相反的;2、我們希望對于一個答案有更多的標注數據,這樣就能模型學習生成更多的多樣性問題,但是通常沒有足夠的標注數據。
于是,作者希望提出一種新的metric,既能夠使得生成的問題準確、又兼具多樣性。在此之前,作者做了大量的實驗,來驗證多樣性對于下游任務QA的重要性。
方法
方法上,作者并沒有太多的創新,直接使用了RoBERTa進行Fine-Tuning,inference時采用了top-p nucleus sampling[1]。其實還有很多種采樣方式,作者認為NS有效、簡單、速度快。Top-p nucleus sampling (NS@p),簡單來說,就是從nucleus N中采樣詞。
以一個例子來說明:假設詞典中存在1k個詞,p設置為0.5,在每一個時間步,通過softmax我們會得到一個詞分布,我們從中選取一個最小的子集(在實驗部分,作者說明這個自己的最大數量為20),滿足:(1)、子集中的詞的概率和大于p;(2)、在所有滿足條件(1)的子集中,其概率最大:
與top-k采樣相比,通過將采樣池限制在詞匯表的一個更大可能性區域,當原始分布在一個或幾個項目達到峰值時,NS減少了生成低概率詞的可能性。
實驗
首先,在SQuAD1.0 上,對比了beam seach(b=5)和NS@p的結果,p=0.1,0.5,0.75,0.95。對比的評估指標包括 BLEU-1, ROUGE-4,METEOR。同時,還對比了將該生成結果用于QA 模型(基于BERT)的fine-tuning,得到的QA模型在測試時的F1值,以此來對比不同方式生成的問題對于QA的提升程度。實驗使用的數據量分別為原始training data的5%,20%,50%,100%。采用的RoBERTa分別為base和large。一共進行了四組實驗,每組訓練10個模型。
如上圖,綠色代表每個指標中最優結果,紅色代表最差結果。可以看出:盡管beam search在不同數據量的訓練中,所有QG metrics都高于NS@p的方式,但是在QA的表現上,只有在數據量為5%時高于NS@p。上述實驗對于每個答案只生成一個問題,作者還增加了一個實驗,在RoBERTa-large,數據量100%,p=0.95,每個答案生成5個問題時,QA F1=86.4。
其次,作者增加了四組實驗,這四組實驗是將上面訓練好的模型,直接對NewsQA的數據進行測試(zero-shot),結果如下圖:
結論與前面的實驗類似。隨著p的提高,BLEU、ROUGE的值越低,意味著問題的多樣性越大,同時,QA F1隨之升高。
最后,文章對比了生成的問題和GT對于QA系統的效果。作者采用上述最好的QG模型(large-100%-NS@0.95),來對比手動標注的結果,即GT。實驗結果如下圖:
可以看出,在SQuAD上,GT的效果86.3略高于SYNTH(合成問題)86.1,但是當使用該模型對每個答案生成5個問題時,其QA F1達到了86.4,高于GT。將合成結果和GT合并后,其效果1+1>2。在NewsQA也出現類似的結論。
通過上面三次實驗可以看出,(1)、多樣性QG確實能夠提升QA的訓練;(2)、總是生成類似的問題(beam seach)用處很小;(3)、常用的QG meitrics并不足以評估生成的問題對于QA模型訓練的有效性。
因此,作者探索了新的QG評估方式。
新的指標
通過前面的實驗可以看出,現有的metrics并不充分,因為它們只關注和GT有關的準確性。作者提出兩個metrics:
Accuracy:類似于語言模型的困惑度評估,在時間步t,給定標準答案和前t-1步的標準結果,把生成正確詞匯的概率當作時間t的準確率,最后求均值作為當前整個問題的Accuracy P(GT)。
Diversity:衡量問題多樣性最符合直覺的方式就是評估所有時間步生成的詞的平均熵,但是首先熵是一個無界度量,另一點就是它和Accuracy的趨勢是相反的。也就是說,需要存在一種度量方式,在Accuracy提高的同時,Diversity也是提高的。回到前面的實驗數據,通過觀察可以發現,對著p的增大,多樣性也隨之提升,subset N也是增加的,因此,標準詞(GT)在N中的概率也增加了。由于GT是否在N中是一個bool值,因此統計全部時間步GT在N中的概率。
綜上,最后的metric為:
w∈[0,1],是一個微調參數。
結論
整體來說,本文論證了問題多樣性對于QA模型訓練的重要性,通過實驗證明了top-p的采樣方式在QG中的有效性,同時通過實驗提出了一個新的metric。
文章還是挺有意思的,但是存在一些疑問。首先文章沒有做case study,我們也看不出生成的問題到底長什么樣子,通過BLEU、ROUGE來看,可能效果不是很好,存在語法、邏輯錯誤等問題。如果QG的目的不是為了提升QA那么將會有很大問題。當然,作者題目中也說明了for QA,也沒啥好說的。但即便如此,如果生成的問題很糟糕,這些實驗就變成地一種數據增強,按照這種思路,不考慮生成問題的可讀性、語法、語義等,直接進行數據增強是不是也能達到類似的效果呢?上述實驗中對于QA的提升到底是來源于問題的多樣性還是來源于BERT呢?
?
?
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 问题多样性对于问答的帮助的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 应用实践 | 网络智能运维下的知识图谱
- 下一篇: 技术动态 | 针对复杂问题的知识图谱问答