对比学习有多火?文本聚类都被刷爆了…
文 | 花小花Posy
大家好,我是小花。
對比學習的大火???? 越來越旺了,已然從CV蔓延到NLP了。今天給大家介紹的正是一篇將對比學習應用到文本聚類上的工作,NAACL21新鮮出爐的paper——《Supporting Clustering with Contrastive Learning》。該工作在8個短文本聚類數據集上取得了顯著提升(比如正確率提升3%~11%)。
所謂對比學習,重點在于對比,那對比的對象是誰?
答曰:增強的數據。假設如果兩個增強句子的原句子一樣,那么拉近它們,否則推遠它們。
在CV領域,對比學習是和攜數據增強一起出道的。給定一張圖片,生成不同的變體去增強它,然后用對比思想去學習。NLP領域也如法炮制。給一個句子,使用數據增強去生成和原句子語義相似的句子。比如下面的例子[1]:
如果兩個增強句子來自同一個原句子,那么它們是同源的,否則是不同源的。本文發現,利用對比學習的特性,即拉近同源句子、拉遠不同源句子,可以解決短文本聚類問題中一個令人頭疼的問題——如果學習過程開始時,不同類別在表示空間中就彼此重疊,那么不管怎么學習都很難將各個類別區分開。
下圖是原文中對比的原始數據的分布(Original) 和使用聚類(Clustering)模型學習后的分布。
可以看到,Clustering整體效果還不錯,但相鄰類別黏在一起、無法區分的現象仍然是存在。
而本文發現,使用對比學習(Instance-CL)可以很好地解決該問題。對比學習可以將各個重疊的類別分散開。
更進一步,本文發現將對Instance-CL和Clustering結合(SCCL),不僅可以可以更好地區分不同類別;而且通過顯示地拉近同一類的數據的距離,可以促使類內分布更加緊湊,從而達到更優質的聚類效果。
簡單講,本文提出了一個訓練框架SCCL,它結合了bottom-up的實例對比學習和top-down的聚類學習,收獲了更好的類內距離和類間距離。
論文題目:
Supporting Clustering with Contrastive Learning
論文鏈接:
https://arxiv.org/pdf/2103.12953.pdf
Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞 【0422】 下載論文PDF~
對比學習掃盲
對比學習的目標是區分兩個實例是否是由同一個源數據采樣/增強得來,如果是,讓它們在表示空間中越接近;如果不是,讓它們在表示空間中遠離。 早在2006年,Hadsell等人[2]就提出了通過對比正負例來學習表示的思想,但其真正火起來是始于谷歌在19年提出的SimCLR[3]框架。下圖展示了SimCLR中對比學習思想的示例圖,可以更加直觀理解整個流程。具體來說,對于一個源數據, 使用某種數據增強的方式,給它生成一對增強數據和,然后對它們哥倆進行編碼、映射,接著最大化它們的相似度。
對比學習的一個關鍵點是如何生成增強數據。在CV中,數據增強依賴圖片的空間不變性,通過旋轉、縮放、裁剪等方式去給圖片增強。在NLP領域中,數據增強主要依靠的是語義不變性,常用方法有詞匯替換、回譯、字面轉換、隨機噪聲注入等等[3]。本文嘗試了3種不同的替換方式,分別是:
WordNet Augmenter:使用WordNet中的同義詞對輸入進行替換。
Paraphrase via back translation:使用回譯的方式生成輸入的復述。
Contextual Augmenter:對于輸入, 利用預訓練Transformer找到其中N個候選位置,對其進行插入或替換。
說完了對比學習,接下來我們聊一聊本文是如何使用對比學習及它的效果如何。
SCCL的訓練框架
上圖展示了SCCL的訓練框架,相比以前的聚類方法(藍色部分),SCCL使用了數據增強,并利用了對比學習去優化增強的數據。相對應的,模型針對Clustering有一個損失函數對源數據進行優化,Instance-CL有一個損失函數對增強數據進行優化。
模型概念了解起來相對簡單,就不放公式了。想看公式加深理解的朋友們可以去看原論文。下面看看實驗結果如何。
簡單的模型,大大的提升
文中使用 ACC(Accuracy)和 NMI(Normalized Mutual Information)兩個評價指標來衡量聚類性能。下圖展示了SCCL在8個短文本聚類的數據集上的實驗結果(幾乎完爆所有數據集):
除了大規模的SOTA外,文中還總結了SCCL相比其它模型的優點:
訓練更簡單:SCCL只需要端到端的訓練,有的模型(STCC)卻需要分多步訓練,或者使用了垂直領域的特征進行增強(比如HAC-SD)。
對數據噪聲更魯棒:SCCL不需要任何的數據預處理,其它大部分模型都對數據進行了預處理,比如移除停用詞、標點符號、小寫化處理。
對比學習加在什么階段?
SCCL模型包含了兩個損失函數:一個負責Clustering的優化,一個負責Instance-CL的優化。那么對于有多個損失函數時,是選擇pipeline的方式去一個一個訓練呢?還是使用jointly訓練的方式更好呢?
本文對比了兩種方式的區別,并與單獨使用其中一個進行對比。下圖顯示了使用Accuracy作為指標時各個模型的表現:
可以看出,相比單獨使用Instance-CL或者Clustering,結合兩者使用的兩個模型在各個數據集上都取得了提升,而且jointly訓練(SCCL)取得的提升一致優于pipeline訓練(SCCL-Seq,先訓練Instance-CL在訓練Clustering)。
數據增強哪家好?
上文提到,本文使用了三種數據增強的方法,那么哪一種最優? 下圖展示了三種方法在各個數據集上的實驗結果:
整體來講,Ctxt在各個數據集上的性能都是最好的,也就是說利用預訓練Transformer作為增強器是最好的。同時也可看到,有一部分數據集在不同增強方法下表現差別很大,比如SearchSnippers和GooglenewsS,而有一部分的敏感度則較低,比如AgNews、Biomedical和GooglenewsTS。
說明在我們實際使用過程中,到底使用哪種增強方式有效還是需要做做對比實驗才曉得。
這里我們接著問一個問題。要是我們使用多個增強器呢?效果會變得更好嗎?文中對比了使用1個增強器和2個增強器的區別,以及當選擇替換不同比例的源句子時的區別。
上圖中藍色表示使用1個增強器和橘色表示使用2個增強器。可以看出:
2個增強器在GoogleNewTS上有輕微的提升,并且沒有隨著增強數據中被替換詞的比例上升而下降;
stackoverflow上的表現卻截然不同,隨著替換比例的增高,使用兩個增強器反而導致性能大幅度下降。
為了探究原因,文中對比了在不同替換比例和不同增強器下(1個或2個),原始文本和增強文本在訓練之初時的cosine相似度:
可以看出,當使用2個增強器(橘色)時,增強文本與原始文本之間的相似度逐漸降低,從而解釋了為什么使用2個增強器并不一定能使模型性能變好。
小結一下
本文提出了一種簡單、有效的無監督聚類的模型SCCL,在基于距離的聚類方法上,使用逐例對比學習區分不同類別。通過聯合優化逐例對比學習的損失和聚類的損失,使得模型在拉開距離的同時保證類內距離更近。SCCL在8個短文本聚類數據集上進行測試,大部分實驗結果都取得了SOTA,Accuracy提升了3% ~ 11%,NMI提升了4%~15%,證明了模型的有效性。
最后的最后,大家不妨思考下,為什么聚類+對比學習可以帶來如此大的提升呢?小花的理解是,聚類關注高層級的語義概念,而實例對比的研究對象往下滲透了一層,它的目標是讓相似的實例距離更近,不同的實例距離更遠。將它們結合起來,可以:
增加細粒度的對比。
數據增強帶來了更多的數據,將更多先驗知識告訴了模型。
頂層抽象和底層細節的結合,就像我們人學習的時候既需要具體案例的學習,又需要抽象理解。二者搭配,效果更佳。
有趣的是,在CV中,對比學習是為了讓模型不關注像素細節,學習高級特征來區分不同對象。但是在NLP中卻是反過來了,希望模型學習實例級別的特征。
尋求報道、約稿、文案投放:
添加微信xixiaoyao-1,備注“商務合作”
萌屋作者:花小花Posy
目前在墨爾本大學NLP組讀Ph.D.,主要感興趣方向包括常識問答,知識圖譜,低資源知識遷移。期待有生之年可見證機器真正理解常識的時刻! 知乎ID:花小花Posy
作品推薦:
1.我拿樂譜訓了個語言模型!
2.一句話超短摘要,速覽752篇EMNLP論文
3.Facebook提出生成式實體鏈接、文檔檢索,大幅刷新SOTA!
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1].A Visual Survey of Data Augmentation in NLP https://amitness.com/2020/05/data-augmentation-for-nlp/
[2].Dimensionality Reduction by Learning an Invariant Mapping https://cs.nyu.edu/~sumit/research/assets/cvpr06.pdf
[3].A Simple Framework for Contrastive Learning of Visual Representations. https://arxiv.org/pdf/2002.05709.pdf
總結
以上是生活随笔為你收集整理的对比学习有多火?文本聚类都被刷爆了…的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 巨省显存的重计算技巧在TF、Keras中
- 下一篇: 打破情感分类准确率 80 分天花板!更加