ACL 2021 | ConSERT:基于对比学习的句子语义表示迁移框架
?PaperWeekly 原創(chuàng) ·?作者?|?張琨
學校?|?中國科學技術大學博士生
研究方向?|?自然語言處理
Motivation
從 BERT,GPT 被提出來之后,自然語言處理領域相關研究進入了一個全新的階段:預訓練+微調。而且這種學習框架也取得了非常好的效果,成為現在 NLP 相關研究的標配。但這種框架也不是沒有問題,預訓練階段還好,我們可以選擇各種大廠推出的預訓練模型,為具體任務尋找到一個好的初始點。
但這些預訓練好的模型并不能完美適應下游任務,如下圖,作者通過研究發(fā)現,BERT 的輸出結果如果不經過微調的話,那么這些向量表示為坍縮在一個比較小的區(qū)域內,還會受到高頻詞的影響,這些都是損害了 BERT 的效果,因此需要在具體任務中進行微調。
但微調階段仍需要和具體的任務數據結合起來,最好還得是有監(jiān)督數據,涉及到對大模型的微調,這些監(jiān)督數據也得有比較大的量。但在真實世界中,對數據進行標注仍然是個大工程,費時費力,有時還需要專家知識。因此如何在下游任務中減小對監(jiān)督數據量的需求是一個比較重要的研究方向。針對這些問題,本文展開了自己的工作。
論文標題:
ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer
論文作者:
Yuanmeng Yan, Rumei Li, Sirui Wang, Fuzheng Zhang, Wei Wu, Weiran Xu
論文鏈接:
https://arxiv.org/abs/2105.11741
代碼鏈接:
https://github.com/yym6472/ConSERT
Preliminary
在介紹這個工作之前,首先介紹一個背景知識,對比學習:即通過對比不同樣本,讓相似的樣本距離更近,不相似的樣本距離更遠,從而實現對輸入數據的準確表征。其基本情況可以通過下圖展示,這是近兩年來非常熱門的一個研究方向:
Model
為了解決以上問題,作者基于對比學習和預訓練模型,提出了一個基于對比學習的句子語義表示遷移框架,具體框架圖如下所示:
具體而言,作者提出的框架包含三部分,數據增強,BERT 編碼層,對比損失層。接下來將進行詳細分析:
3.1 數據增強
和之前的一些方法,例如回譯,通過翻譯模型翻譯一遍再翻譯回來等不同,在本文中,作者主要將數據增強部分放在了 embedding 層。因為自然語言處理中的數據增強本就是一個非常復雜的問題,在圖像中,可以通過簡單的裁剪,旋轉,變色,縮放等操作實現數據增強,且能夠保證原始標簽的絕對正確。但在 NLP 中,通過打亂詞序,替換詞,刪掉某些詞等都會造成語義的變化。
因此,作者就不再輸入層進行數據增強了,而是將目光放在 embedding 層,這樣原始輸入是不變的,那么一定是與原始標簽一致的。具體而言,作者選擇了如下幾種數據增強方式:
對抗攻擊:通過梯度反傳生成對抗擾動,將該擾動加到原本的 Embedding 矩陣上,得到增強后的樣本;
打亂詞序:和之前討論的打亂原始詞的詞序不同,這里作者通過利用 Transformer 中沒有位置概念的特點,通過將每個 token對應的position id進行打亂,就實現了位置的打亂,這個還是很有意思的;
裁剪:這里分為兩種,一種是 token 級別的,通過將選擇到的 token 對應的 embedding 全部置為 0 得到,另一種是特征裁剪,通過將 embedding 中的某些維度整列置為 0,實現了特征的裁剪,這個也很有意思;
Dropout:這種有點類似于 SimCES,通過利用 dropout,隨機將某些輸入置為 0,相當于加了對應的噪聲,從而得到數據增強之后的樣本。
相關的數據增強方法示意圖如下圖所示:
通過這些方法實現對數據進行增強后,參考 SimCLR 的思路,針對一個 Batch 中的 N 個樣本做兩次數據增強,這樣就得到了 2N 個樣本,然后這2N個樣本經過 BERT 進行編碼,輸出,得到句子的語義表示,接著使用 InfoNCE 的變種 NT-Xent 損失函數作為目標,來實現對比的約束。以上就是本文的整個技術部分和主要貢獻。個人覺得最有意思的地方在于數據增強部分,作者巧妙避開了直接對輸入做數據增強會造成語義變化的問題,而是從 embedding 入手,進行數據增強。非常巧妙,很有意思。
Experiments
為了驗證提出的方法的效果,作者在文本語義匹配 STS 任務上進行了充分的實驗,驗證了 7 個不同的 STS 數據集,這個任務主要是用于驗證兩個句子之間的語義相似度(-1,1)。
4.1 無監(jiān)督+有監(jiān)督
首先是無監(jiān)督和有監(jiān)督實驗結果,從實驗結果中,作者在其他條件一致的情況下都去了非常好的效果,而且在融入監(jiān)督信息的實驗中,作者發(fā)現 joint-unsup 方法取得了最好的效果。
4.2 embedding空間的對比
在前文中作者提到 BERT 未經微調時其對句子語義的編碼會坍縮在一個小范圍內,為了驗證作者提出的方法是否解決這個問題,作者進行了embedding空間的對比,實驗結果證明作者提出的方法確實有效。
4.3 數據增強方式的效果對比
既然使用了數據增強,那就要驗證哪種數據增強的效果好,作者也進行了相關的實驗,實驗結果正式,單純從數據增強的方式進行對比的話,Token Shuffle > Token Cutoff >> Feature Cutoff ≈ Dropout >> None.
4.4 少樣本實驗
既然本文的目的是為了解決微調階段對標注數據的依賴,那么就要驗證在少標注樣本的條件下,作者提出的方法方法是否有效,從實驗結果看,還是有不錯的效果的。
Conclusion
這篇文章還是一篇很有意思的文章,作者首先在使用數據增強方式上使用了一個很巧妙的思路,避開了使用數據增強對及自然語言句子語義的改變問題。其次,作者為了驗證所提出的方法的有效性,進行了大量的實驗,實驗結果也充分證實了作者提出的方法的有效性。非常值得一讀的一篇文章。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質內容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的ACL 2021 | ConSERT:基于对比学习的句子语义表示迁移框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 股票池是什么意思
- 下一篇: 直播 | ICML 2021论文解读:满