再介绍一篇Contrastive Self-supervised Learning综述论文
文 | 黃浴
源 | 知乎
之前已經(jīng)介紹過三篇自監(jiān)督學(xué)習(xí)的綜述:《怎樣緩解災(zāi)難性遺忘?持續(xù)學(xué)習(xí)最新綜述三篇!》。這是最近2020年10月arXiv上的又一篇論文"A Survey On Contrastive Self-supervised Learning"。
論文地址:
https://arxiv.org/pdf/2011.00362.pdf
Arxiv訪問慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號后臺回復(fù)關(guān)鍵詞【1222】下載論文PDF~
自監(jiān)督學(xué)習(xí)能避免注釋大型數(shù)據(jù)集帶來的成本,即采用自定義pseudo-labels作為監(jiān)督,并將學(xué)習(xí)的表示形式用于多個下游任務(wù)。具體而言,contrastive learning最近已成為在計算機視覺、自然語言處理(NLP)和其他領(lǐng)域中自監(jiān)督學(xué)習(xí)方法的主要部分。
本文對contrastive learning方法的自監(jiān)督方法進行了綜述,包括contrastive learning中常用的pretext任務(wù),以及提出的不同體系結(jié)構(gòu),并對多種下游任務(wù)(例如圖像分類、目標(biāo)檢測和動作識別)的不同方法進行性能比較。最后,對方法的局限性以及未來方向做了介紹。
自監(jiān)督學(xué)習(xí)方法
如圖是示意contrastive learning的直覺基礎(chǔ):推進原圖像和其增強positive更近,而推開原圖像和其negative更遠(yuǎn)。
自監(jiān)督學(xué)習(xí)方法集成了generative方法和contrastive方法,利用未標(biāo)數(shù)據(jù)來學(xué)習(xí)基礎(chǔ)表示。pseudo-labels是一個普遍技術(shù),幫助在各種pretext任務(wù)中學(xué)習(xí)特征。目前已經(jīng)看到,在image-inpainting, colorizing greyscale images, jigsaw puzzles, super-resolution, video frame prediction, audio-visual correspondence等任務(wù)中,學(xué)習(xí)好的表示方式已經(jīng)很有效。
generative方法,如GAN,已經(jīng)是不錯的結(jié)果,但訓(xùn)練不容易:(a)不收斂;(b)鑒別器過于成功而無法繼續(xù)學(xué)習(xí)。contrastive learning (CL)是discriminative方法,如圖所示:用于自監(jiān)督學(xué)習(xí)。
pretext任務(wù)是自監(jiān)督類,用pseudo-label來學(xué)習(xí)數(shù)據(jù)的表示形式。這些pseudo-label根據(jù)數(shù)據(jù)屬性自動生成。從pretext任務(wù)中學(xué)習(xí)的模型可用于計算機視覺下游任務(wù),例如分類、分割、檢測等。此外,這些任務(wù)可用任何類型數(shù)據(jù),例如圖像、視頻、語音、信號等。對于一個contrastive learning (CL)中的pretext任務(wù),原始圖像充當(dāng)錨點,其增強(轉(zhuǎn)換)版充當(dāng)positive樣本,而其余批處理或訓(xùn)練數(shù)據(jù)中的圖像充當(dāng)negative樣本。大多數(shù)常用的pretext任務(wù)分為四個主要類別:顏色轉(zhuǎn)換、幾何轉(zhuǎn)換、基于上下文任務(wù)和基于模式交叉任務(wù),如下圖所示。基于要解決的問題,這些pretext任務(wù)已在各樣方案中使用。
顏色/幾何變換如下:
如下基于上下文:
Jigsaw puzzle
Spatiotemporal contrastive video representation learning
Contrastive Predictive Coding: Representation learning
cross modal-based如下:view prediction
Learning representation from video frame sequence
pretext任務(wù)確定
pretext任務(wù)依賴對所解決問題的類型,所以需要任務(wù)確定。如下圖這個fined grain recognition例子,不適合用colorization。
DTD數(shù)據(jù)集樣本(如圖所示)例子,rotation不合適紋理圖像。
Contrastive learning方法依靠negative樣本的數(shù)量來生成高質(zhì)量的表示。如同字典查找任務(wù),字典有時是整個訓(xùn)練集,而其他時候就是某些子集。一種有趣的分類方法是,基于訓(xùn)練過程中針對positive數(shù)據(jù)點來收集negative樣本的方式,如圖分成四個主要架構(gòu):(a)兩個編碼器的E2E訓(xùn)練,一個生成positive樣本的表示,另一種生成negative樣本的表示(b)使用memory bank存儲和檢索negative樣本的編碼結(jié)果(c)使用momentum encoder 作為訓(xùn)練中負(fù)樣本編碼的動態(tài)字典查找(d)clustering機制:采用端到端架構(gòu),從兩個編碼器獲得的表示做交換預(yù)測。
編碼器
編碼器的角色如圖所示:一個contrastive learning加編碼器構(gòu)成的自監(jiān)督學(xué)習(xí)流水線。
在編碼器中,來自特定層的輸出池化,獲取每個樣本的一維特征向量。有方法的不同,可以上采樣或下采樣。
為訓(xùn)練編碼器,使用pretext任務(wù),其用contrastive損失進行反向傳播(BP)。contrastive學(xué)習(xí)的中心思想是使相似的例子靠的更近,使相異的例子彼此遠(yuǎn)離。實現(xiàn)的一種方法是使用相似性度量,該度量計算兩個樣本嵌入之間的緊密度(closeness)。
在contrastive設(shè)置中,最常用的相似度度量是余弦相似度,作為不同contrastive損失函數(shù)的基礎(chǔ)。Noise Contrastive Estimation (NCE)定義如下
如果negative樣本很大,一個改進版InfoNCE,定義為
下游任務(wù)在計算機視覺中包括classification、detection、localization、segmentation、future prediction等。如圖是一個概覽:pretext任務(wù)的知識,被遷移到下游任務(wù);遷移學(xué)習(xí)的性能,決定了學(xué)習(xí)的特征具備怎樣的泛化能力。
衡量pretext任務(wù)對下游任務(wù)的效果,常常采用:kernel visualization、feature map visualization和nearest-neighbor based 等方法。
如圖是Attention maps的可視化,包括監(jiān)督和自監(jiān)督方法:
還有top-K retrieval用來分析好壞。
Benchmark
如下是ImageNet的比較:
這是在Places數(shù)據(jù)的表現(xiàn):
下面還有目標(biāo)檢測的表現(xiàn)比較:
視頻數(shù)據(jù)性能如下:
以及NLP比較:
討論和方向
缺乏理論基礎(chǔ)
數(shù)據(jù)增強和pretext任務(wù)的選擇困難
訓(xùn)練中合適的negative樣本采樣難
數(shù)據(jù)集biases存在
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復(fù)關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結(jié)
以上是生活随笔為你收集整理的再介绍一篇Contrastive Self-supervised Learning综述论文的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从前馈到反馈:解析循环神经网络(RNN)
- 下一篇: 聊聊推荐系统中的偏差