ACL’22 | 为大模型定制的数据增强方法FlipDA,屠榜六大NLU 数据集!
文 | ZenMoore
編 | 小軼
今天由一篇清華大學發(fā)表于 ACL'22 的最新論文說起,一起探討一下:大模型時代,我們該如何進行數(shù)據(jù)增強?
大家可能都多少了解一些傳統(tǒng)的數(shù)據(jù)增強方法,比如回譯、對抗生成等等。但考慮到這些方法提出的年份較早,它們只在一些傳統(tǒng)的(如今看來比較弱的)基準模型上證明有效。而且,大多數(shù)據(jù)增強的工作也都只針對一些比較簡單的任務場景進行實驗,比如簡單的句子分類任務。
時過境遷,在如今大模型當?shù)赖臅r代背景下,我們可能得重新審視一下現(xiàn)有的數(shù)據(jù)增強方法。要知道,這些大規(guī)模語言模型性能遠超傳統(tǒng)模型;它們在簡單的分類數(shù)據(jù)集上,刷到95%以上的準確率完全不在話下。今天要分享的這篇文章中,作者也通過實驗證明了:對于大規(guī)模預訓練模型,采用的傳統(tǒng)數(shù)據(jù)增強方法最多只能獲得極小的邊際收益,甚至有時會使性能下降。
為此,作者想要探究:針對大規(guī)模語言模型,在較為困難的任務場景下,有什么更為有效且魯棒的數(shù)據(jù)增強方法嗎?所謂有效(effectiveness) ,就是要能顯著提升性能。所謂 魯棒(robustness),就是要能在所有場景下都能夠穩(wěn)定提升。
簡單來說,本文的核心觀點在于:標簽翻轉(zhuǎn) (label-flipped)的增強樣本對大模型的性能提升最為明顯。基于此,他們提出了數(shù)據(jù)增強方法 FlipDA。
標簽翻轉(zhuǎn):即增強后的新樣本標簽與原樣本的標簽不同。
論文標題:
FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning
論文作者:
Jing Zhou, Yanan Zheng, Jie Tang, Jian Li, Zhilin Yang
論文鏈接:
http://keg.cs.tsinghua.edu.cn/jietang/publications/ACL22-Zhou-et-al-FlipDA.pdf
代碼鏈接:
https://github.com/zhouj8553/FlipDA
標簽翻轉(zhuǎn)的增強樣本
作者首先通過人工設(shè)計了少量標簽翻轉(zhuǎn) (label-flipped) 的數(shù)據(jù)樣本和標簽保留 (label-preserved) 的樣本,然后比較兩者在多個任務上的效果:
結(jié)果發(fā)現(xiàn),標簽翻轉(zhuǎn)在多個任務上,竟然能超出將近 10 個點!雖然這部分實驗只采用了一小部分人工設(shè)計的增強樣本,結(jié)論有一定局限性,但顯然還是值得進一步分析和研究的。
經(jīng)過分析,作者認為標簽保留的數(shù)據(jù)增強主要有兩個問題:
(1) 數(shù)據(jù)增強導致語法錯誤(這一點尤其重要)
(2)數(shù)據(jù)增強導致關(guān)鍵信息丟失
作者認為,這是由于標簽翻轉(zhuǎn)的增強樣本,更能夠使模型學習到哪些才是文本中的關(guān)鍵部分。
▲標簽翻轉(zhuǎn)的增強樣本示例總之,基于以上實驗結(jié)果和分析,作者認為可以假設(shè):相比于標簽保留的數(shù)據(jù)增強方式,標簽翻轉(zhuǎn)的方式更加有效且魯棒。于是,他們根據(jù)這一假設(shè)提出了 FlipDA 的數(shù)據(jù)增強方法,并進行了大量實驗分析。
FlipDA
首先使用 BERT 等訓練一個標簽分類器
然后,使用 T5 模型生成新的增強數(shù)據(jù):將使用類似于[1]中的 prompt 的方式拼接起來作為 input, 隨機 mask 掉一些 input tokens, 使用 T5 模型預測這些 mask 從而生成新的樣本(這種方法稱為:Pattern-based Data Cloze)。這樣,對于每個訓練樣本 ,可以生成一個新樣本集合
在分類器 的幫助下篩選新樣本:對于原樣本 , 我們有了新樣本集, 這個 里面包含了一些標簽翻轉(zhuǎn)數(shù)據(jù)(即:), 我們分類器 把它們挑出來得到
402 Payment Required
。最后再挑出置信度最高的那部分 ,就是針對原樣本 生成的增強樣本。實際操作中,除了標簽翻轉(zhuǎn)的增強數(shù)據(jù),再加少量標簽保留的增強數(shù)據(jù)也是有益的。
使用原樣本+增強樣本重新訓練分類器。
實驗
實驗任務
實驗主要在 FewGLUE([1], 也就是 SuperGLUE 的 few-shot 版本) 上進行。包含 question answering, textual entailment, co-reference resolution, causal reasoning and word sense disambiguation 等 7 項任務。
Baseline
同義詞替換:使用 WordNet 中的同義詞替換
KNN 替換:使用 GloVe 選擇最相似的單詞之一進行替換
EDA(Easy Data Augmentation) : 同時使用同義詞替換、隨機插入、隨機置換、隨機刪除
回譯(back translation)
TinyBERT : 使用 BERT 預測出的 token 或者 GloVe 導出的詞匯進行替換
T5-MLM : 和本文方法大體相同,但是該方法是標簽保留的數(shù)據(jù)增強,而且沒有后面的篩選步驟
MixUP : 在特征空間進行增強(如采用特征空間中兩個樣本之間的線性插值)
模型
ALBERT-xxlarge-v2
DeBERTa-xxlarge-v2
評測指標
有效性:accuracy,f1, em (exact-match)
魯棒性:MaxDrop (MD)
這里作者提出了 MaxDrop 專門用來衡量魯棒性:
對于多個任務 、待測方法 method 以及 baseline :
402 Payment Required
這個值越小,代表模型越魯棒。
對比實驗
可以看到,FlipDA 方法無論在有效性上還是魯棒性上都有 SOTA 的性能。
消融實驗
FlipDA 主要核心是下面兩步:
Pattern-based Data Cloze:本文采用該方法生成增強樣本。
使用分類器進行數(shù)據(jù)篩選。
下面分別進行消融實驗:
可以看到,
Pattern-based Data Cloze 在所有任務上都是有效的,因為它可以有效減少語法錯誤,更加兼容標簽翻轉(zhuǎn)方式。
分類器篩選在大多數(shù)任務上有效,但是對于下面這些任務或增強樣本生成方式,需要另外的思考:
使用 BT (回譯)數(shù)據(jù)進行增強,缺少數(shù)據(jù)多樣性,使用分類器篩選會進一步降低多樣性,因此不一定有效
對于詞義消歧或者因果推理任務,因為需要預測多個 tokens, 所以生成標簽翻轉(zhuǎn)數(shù)據(jù)會更加困難一些,也不一定有效。
另外,標簽翻轉(zhuǎn)+標簽保留相比于只使用標簽保留的數(shù)據(jù)增強具有更好的效果:
標簽翻轉(zhuǎn)的方向
標簽翻轉(zhuǎn)的方向也是需要考慮的點,比如對于是否類的問答任務,生成答案為“否”的數(shù)據(jù)相對更加容易一些。但是,只有同時具有多個方向的標簽翻轉(zhuǎn)增強數(shù)據(jù),才更有可能超越 baseline 的性能。
樣本選擇策略
Default : 即上文所述的樣本選擇方法。
Global TopK : 選擇概率最大的前 K 個樣本
Global TopP : 選擇概率大于閾值 P 的樣本
Diverse TopK : 先在每個原樣本對應的增強樣本中選擇 top-1, 然后依次選擇 top-2, top-3 等等,一直選到 top-k,這個策略主要出于原樣本上的數(shù)據(jù)平衡的考量。
實驗表明,默認策略或者 Diverse TopK 更好一些。
寫在后面
不得不說,這種標簽翻轉(zhuǎn)的數(shù)據(jù)增強方法,其實和對比學習多少有些神似。只不過,前者是在數(shù)據(jù)端進行對比增強,后者更多的是在損失端進行對比增強。
也許,這會給我們發(fā)揚光大對比學習思想帶來新的啟發(fā)~ 也會促進我們思考更加適配于大模型的一些訓練、數(shù)據(jù)增強策略。
萌屋作者:ZenMoore
北航本科生🧐,愛數(shù)學愛物理愛 AI🌸 想從 NLP 出發(fā)探索人工認知人工情感的奧秘🧠🤖!個人主頁🌎 zenmoore.github.io 知乎🤔 ZenMoore, 微信📩 zen1057398161 嚶其鳴矣,求其友聲?!
作品推薦
一文跟進Prompt進展!綜述+15篇最新論文逐一梳理
圖靈獎大佬+谷歌團隊,為通用人工智能背書!CV 任務也能用 LM 建模!
以4%參數(shù)量比肩GPT-3!Deepmind 發(fā)布檢索型 LM,或?qū)⒊蔀?LM 發(fā)展新趨勢!?
后臺回復關(guān)鍵詞【入群】
加入賣萌屋NLP、CV與搜推廣與求職討論群
后臺回復關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1] T. Schick and H. Schutze. It’s not just size that matters: Small language models are also few-shot learners. ArXiv, abs/2009.07118, 2021
總結(jié)
以上是生活随笔為你收集整理的ACL’22 | 为大模型定制的数据增强方法FlipDA,屠榜六大NLU 数据集!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PAT乙类1014 福尔摩斯的约会 (2
- 下一篇: mysql new map_使用构造器模