最新综述:用于文本分类的数据增强方法
?PaperWeekly 原創(chuàng) ·?作者?|?王馨月
學(xué)校?|?四川大學(xué)本科生
研究方向?|?自然語言處理
概要
數(shù)據(jù)增強(qiáng),即通過轉(zhuǎn)換為機(jī)器學(xué)習(xí)人工創(chuàng)建訓(xùn)練數(shù)據(jù),是跨機(jī)器學(xué)習(xí)學(xué)科廣泛研究的研究領(lǐng)域。它不僅對于提高模型的泛化能力很有用,也可以解決許多其他挑戰(zhàn)和問題,從克服有限數(shù)量的訓(xùn)練數(shù)據(jù)到規(guī)范目標(biāo)到限制用于保護(hù)隱私的數(shù)據(jù)量。
基于對數(shù)據(jù)增強(qiáng)的目標(biāo)和應(yīng)用的精確描述以及對現(xiàn)有工作的分類,本篇綜述關(guān)注用于文本分類的數(shù)據(jù)增強(qiáng)方法,旨在為研究人員和從業(yè)者提供簡明而全面的概述。根據(jù)分類法,我們將 100 多種方法分為 12 個不同的組,并提供了最先進(jìn)的參考資料,闡述了哪些方法非常有前途。最后,給出了可能構(gòu)成未來工作基石的研究觀點。
論文標(biāo)題:
A Survey on Data Augmentation for Text Classification
論文鏈接:
https://arxiv.org/abs/2107.03158
引言
訓(xùn)練數(shù)據(jù)的增加并不總是導(dǎo)致學(xué)習(xí)問題的解決方案。盡管如此,數(shù)據(jù)對于監(jiān)督分類器的質(zhì)量仍然是決定性的。計算機(jī)視覺領(lǐng)域中就存在著許多不同的方法來人工創(chuàng)建此類數(shù)據(jù),稱為數(shù)據(jù)增強(qiáng)。對于圖像,RGB 通道的旋轉(zhuǎn)或變化等變換是合理的,這些模型應(yīng)該是不變的。與計算機(jī)視覺類似,語音識別使用改變聲音或速度的程序。相比之下,自然語言處理(NLP)中的數(shù)據(jù)增強(qiáng)研究難以為文本數(shù)據(jù)的轉(zhuǎn)換建立通用的可以在保持標(biāo)簽質(zhì)量的同時自動執(zhí)行規(guī)則。這就是為什么盡管存在廣泛的應(yīng)用領(lǐng)域,在 2019 年之前該領(lǐng)域的研究還是十分有限。
如今,這一挑戰(zhàn)仍然存在,但許多科學(xué)家正在不同的研究方向中解決。在這些方向中,遵循著各種目標(biāo),例如,為低數(shù)據(jù)制度生成更多數(shù)據(jù)、平衡不平衡的數(shù)據(jù)集類別或針對對抗性示例的安全性。
因此,文本數(shù)據(jù)增強(qiáng)有許多對比形式,在本次綜述中進(jìn)行了分組和解釋。我們進(jìn)行了深入分析,并嘗試將這些方法與最先進(jìn)的方法聯(lián)系起來。由于遷移學(xué)習(xí)的興起,這些方法面臨著另一個挑戰(zhàn)。
例如,Longpre 等人表明,許多數(shù)據(jù)增強(qiáng)方法在使用大型預(yù)訓(xùn)練語言模型時無法獲得收益,因為它們本身已經(jīng)對各種變換保持不變。他們假設(shè)數(shù)據(jù)增強(qiáng)方法只有在創(chuàng)建以前從未見過的新語言模式時才能真正有益。需要牢記,本綜述以對方法的元視角結(jié)束。因此,本次調(diào)查追求以下方面的貢獻(xiàn):
目標(biāo)和應(yīng)用:我們強(qiáng)調(diào)了從綜合回顧中得出的數(shù)據(jù)增強(qiáng)的目標(biāo)和應(yīng)用。這些在以前的研究論文中僅在有限且不完整的程度上進(jìn)行了介紹。
分類法和分類:文本分類數(shù)據(jù)增強(qiáng)方法將根據(jù)高級分類法進(jìn)行聚類,然后細(xì)分為更細(xì)粒度的組。這也存在于 Shorten 和 Khoshgoftaar 以及 Wen 等人的調(diào)查中,現(xiàn)在適用于文本分類領(lǐng)域。
概述和深入細(xì)節(jié):對文本數(shù)據(jù)增強(qiáng)方法以清晰的形式進(jìn)行了解釋,并提供了分隔和相互比較所需的細(xì)節(jié)。與其他作品相比,我們廣泛的研究包含 12 個組,其中包含 100 多種不同的方法。
最先進(jìn)的綜述:在文獻(xiàn)調(diào)查中,我們試圖檢索最新的最先進(jìn)的考慮因素,例如,使用大型預(yù)訓(xùn)練模型的文本數(shù)據(jù)增強(qiáng)方法的有限好處,這些在當(dāng)前工作中經(jīng)常被忽視的點。
未來的研究前景。我們確定了未來的研究機(jī)會,這些機(jī)會要么是SOTA的比較所必需的,要么是由于當(dāng)前文本數(shù)據(jù)增強(qiáng)的挑戰(zhàn)所需要的研究機(jī)會。
數(shù)據(jù)增強(qiáng)方法分類
如圖,是不同數(shù)據(jù)增強(qiáng)方法的分類和分組:
用于文本分類的的數(shù)據(jù)增強(qiáng)方法集合
如圖,是一些最先進(jìn)的文本分類數(shù)據(jù)增強(qiáng)技術(shù)的集合:
總結(jié)
這篇綜述概述了適用于文本領(lǐng)域的數(shù)據(jù)增強(qiáng)方法。數(shù)據(jù)增強(qiáng)有助于實現(xiàn)許多目標(biāo),包括正則化、最小化標(biāo)簽工作、降低敏感領(lǐng)域中真實世界數(shù)據(jù)的使用、平衡不平衡的數(shù)據(jù)集以及提高對抗對抗性攻擊的魯棒性。在高層次上,數(shù)據(jù)增強(qiáng)方法分為應(yīng)用于特征空間和數(shù)據(jù)空間的方法。然后將這些方法細(xì)分為更細(xì)粒度的組,從噪聲誘導(dǎo)到全新實例的生成。
此外,我們提出了幾個與未來工作相關(guān)的有前景的研究方向。尤其是在這方面,需要對當(dāng)前技術(shù)水平進(jìn)行全面了解。例如,隨著遷移學(xué)習(xí)方法的使用越來越多,一些數(shù)據(jù)增強(qiáng)方法已經(jīng)過時,因為它們遵循類似的目標(biāo)。因此,需要更復(fù)雜的方法,例如 Longpre 等人所建議的那樣,引入在預(yù)訓(xùn)練期間未見過的新語言模式。
雖然數(shù)據(jù)增強(qiáng)得到越來越多的研究并且非常有前途,但它也有一些局限性。例如,許多數(shù)據(jù)增強(qiáng)方法只有在原始數(shù)據(jù)量足夠大的情況下才能創(chuàng)建高質(zhì)量的增強(qiáng)數(shù)據(jù)。此外,就像 Shorten 和 Khoshgoftaar 描述的那樣,數(shù)據(jù)增強(qiáng)無法涵蓋所有轉(zhuǎn)換可能性并消除原始數(shù)據(jù)中的所有類型的偏差。
以 Shorten 和 Khoshgoftaar 的例子為例,在沒有包含體育文章的新聞分類任務(wù)中,標(biāo)準(zhǔn)數(shù)據(jù)增強(qiáng)方法肯定也不會創(chuàng)建體育文章,即使這是必要的。相比之下,數(shù)據(jù)增強(qiáng)可能會導(dǎo)致新的不良偏差。例如,像 GPT-2 這樣的語言模型可以包含偏差,然后將偏差傳播到數(shù)據(jù)集中。各種各樣的技術(shù)和一些非常復(fù)雜的方法也帶來了另一層需要理解的復(fù)雜性。
此外,數(shù)據(jù)增強(qiáng)可能需要大量時間,因此并非所有方法都適用于時間關(guān)鍵的機(jī)器學(xué)習(xí)開發(fā)領(lǐng)域,例如,在危機(jī)信息學(xué)的某些領(lǐng)域。隨著數(shù)據(jù)增強(qiáng),也需要更多資源,尤其是在訓(xùn)練生成模型的背景下。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點剖析、科研心得或競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的最新综述:用于文本分类的数据增强方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自监督学习新思路!基于蒸馏(distil
- 下一篇: 葡萄酒为什么是红色的?