NeurIPS 2020 | 聚焦自监督学习
?PaperWeekly 原創 ·?作者|張一帆
學校|華南理工大學本科生
研究方向|CV,Causality
知乎ID|yearn
本文梳理了四篇來自 NeurIPS 2020 和對比學習相關的文章,其中兩篇為 spotlight。
InvP
論文標題:
Unsupervised Representation Learning by Invariance Propagation
論文鏈接:
https://arxiv.org/abs/2010.11694
Conclusion: 學習 category-level 的不變性表示。
傳統的 contrastive learning 是屬于 instance-level 的不變性表示,即每個圖片單獨為一類,該圖片與其 argumented images 包含的類別信息保持不變,但是不能保證同一類的兩張圖片在隱空間相互接近(如何保證同一類的兩張圖片在隱空間相互接近:有監督對比學習可以在有 label 的情況下實現 category-level 的不變性表示。)。
Smoothness Assumption [1]:文章的立足點,在一個高密度區域內,如果兩個 image 的特征 接近,那么他們的語義信息(或者標簽)相似。
Contributions:
Positive sample discovery:
基于連續性假設,一個 high-density region 往往是同一類。進行 步以下過程:每一步中,將當前已經發現的正樣本的所有 最近鄰加到正樣本集中。比起使用傳統的 KNN 選擇 個最近鄰,這里將 設置的比較小,因此不會選到 這種不在同一個 high-density region 的點,以此在無標簽的情況下挖掘同一類別的不同實例,有了這些 category-level 的正樣本,我們就能更容易得到 category-level 的不變性表示。
Hard sampling mining:
對于正樣本和負樣本,這里都進行了難例挖掘,對于一個樣本 ,他的挖掘損失定義為 , 是其正樣本難例挖掘結果, 則是難負樣本集,分別定義如下
Hard positive sampling:在上述找到的正樣本集合 中選 個與 相似度最小的構成集合 (上圖中 C 相對于 A 即最難正樣本)
Hard negative sampling:找 的 近鄰構成 ,?要足夠大使得 ,然后難負樣本集合為 。
這里最重要的 insight 即已經很近的正樣本和已經很遠的負樣本(不屬于近鄰的難樣本已經離和 很遠了)我們無需再優化,重要的是進一步拉近離得遠的正樣本,推開那些模糊的負樣本。
訓練總體損失為 ,第一項可以看作傳統對比學習的 instance discrimination 損失,第二項即挖掘損失,在開始的 T 個 epoch, ,否則為 1,因為在訓練的開始網絡隨機初始化,因此挖掘的難例不可信,
Experiments:
在 Imagenet 上訓練模型,在分類,半監督,trainsfer learning,目標檢測四個任務上進行了實驗與比較,得到了不錯的結果,看起來比起 Moco 和 SimCLR 還是有提升的。對 category-level 不變性帶來的效果也進行了單獨的分析,顯然這種方法正負樣本相似度的分布比 instance discrimination 帶來的分布差別更大,更好分辨。也能找到一些難正樣本,這在傳統 instance-level 的對比學習中是很難得到的。
Opinions:
迭代式的 KNN 真的比傳統 KNN 好嗎?并不見得!如果兩個 high-density region 很靠近,或者相互重疊,那么多次迭代的結果會選擇更多的語義信息不相同的數據點。當然這只是我的看法,作者的實驗中這樣的方法還是有改善的。
整體來看還是比較 Heuristics。
MoCHi
論文標題:
Hard Negative Mixing for Contrastive Learning
論文鏈接:
https://arxiv.org/abs/2010.01028
Conclusion:通過在特征空間進行 mixup 的方式產生更難的負樣本
Motivation:難樣本一直是對比學習的主要研究部分,擴大 batch size,使用 memory bank 都是為了得到更多的難樣本,然而,增加內存/ batch size 并不能使得性能一直快速提升:更多的負樣本并不一定意味著帶來更難的負樣本(文章對這類問題做了詳盡的實驗,有興趣的可以查閱原文),那么我們能否在不增大內存的情況下得到更多更難的樣本?
Contributions
我們有 K 個負樣本特征 ,選與 query 特征 距離最小的 個作為難樣本集合 。
Mixing the hardest negatives:隨機在難樣本集合中選擇兩個特征 ,我們可以將其混合產生一個更難的 ,我們隨計選擇 生成 個難樣本, 保證了計算效率的提升。
Mixing for even harder negatives:上一步與傳統的 mixup 并沒有太大差別,這里提出的正負樣本特征混合是比較 novel 的地方。隨機在難樣本集合中選擇一個特征 ,我們可以將其與 query 混合產生一個更難的 , 確保了 query 的貢獻小于負樣本,這里總共產生 個負樣本,需要滿足 。
Opinions:
新瓶舊酒刷性能,不過對問題的分析非常非常透徹,提供了不同的 insight,這點很值得學習。
DCL
論文標題:
Debiased Contrastive Learning
論文鏈接:
https://arxiv.org/abs/2007.00224
Conclusion: 克服 sample bias:在沒有 label 的情況下,盡可能減少負樣本中的 false negative samples。
Sampling bias:假設數據分布為 ,我們從分布中取出 ,他們有相同的類別 ,假設類別分布為 , 是均勻的(該屬于每類的概率是先驗知識,既可以從數據中估計,也可以作為一個超參數),即觀察到樣本是該類的概率是均勻的 ,屬于每類的概率是先驗知識,既可以從數據中估計,也可以作為一個超參數。 是觀察到不同類樣本的概率。
現在的問題是,因為我們沒有 label,因此得不到負樣本的分布 ,因此大家都是直接從 中抽取負樣本,那么這些樣本 就有 的概率其實是正樣本,這被稱為取樣偏差 (Sampling bias)。
Contributions:
文章的宗旨:找不到 我就近似他,怎么近似呢,我們先將數據分布展開得到 ,簡單移項得到:
經過一些數學變化,給定 ,我們可以將損失函數寫為:
其中重點在于這個 函數,其形式如下:
可以看到雖然我們依然從 分布中采樣得到了這些 ,但是我們使用額外的正樣本 對他們進行了修正,可以看作是一次 reweighting。通過一系列的分析,文章證明了 debiased 損失與真正 unbiased 損失之間的差距。
Experiments
在一些常見數據集上做了實驗,可以看到通過 unbiased 的損失帶來了不小的提升。
通過增加正樣本的數目,我們從 采樣得到的負樣本得到逐漸強烈的修正, debiased 將會和 unbiased 的結果越來越接近,如下圖所示:
Opinions:很不錯的文章,推導太扎實了,從 motivation 到 implementation 一路都有扎實的理論基礎,不愧是 spotlight。
CSI
論文標題:
CSI: Novelty Detection via Contrastive Learning on Distributionally Shifted Instances
論文鏈接:
https://arxiv.org/abs/2007.08176
Conclusion: 將 anchor 進行數據增強得到的 image 作為負例來提升 OOD 檢測性能。
給定 ,其中 是一組數據增強策略(在本文特指正樣本的增強策略),在本文特指正樣本的增強策略,記 為傳統的 infomax 損失,那么 SimCLR 定義如下:
SimCLR 的作者發現了一些增強策略 (例如,旋轉) 有時會降低 SimCLR 的區分性能。該文的一個重要發現是,這種降低區分性能的增強策略可以提升 OOD 檢測的能力。
Contributions
文章主要有兩個貢獻:
與 SimCLR 將增強后的數據看作正例不同,該文將增強后的數據看作負例,考慮一組增強策略 ,將 batch 中所有樣本(包括 anchor 圖像與其他負樣本)依次通過 后形成新的負樣本集合進行對比學習。
除了這個損失之外,作者定義了一個 pretext task,預測每個被增強數據施加的是哪種增強策略,具體形式為:
二者相加就是文章的整體損失:
Why it works?這里的關鍵之處在于如何選擇 ,直觀來講, 要能產生盡可能 OOD 的樣例,作者設計了相應的 score funtion,對各種增強策略進行了實驗,發現 rotate 產生的 OOD 樣本更好,使用其作為負樣本的增強策略這個結果與文章 [2] 的發現很類似。
當然這種策略相比于 SimCLR 很難獲得下游任務上性能的提升,畢竟是把正樣本看作負例了。作者在 CIFAR-10 上訓練一個線性分類器來評估學到的 representation,CSI 獲得了 的準確率,而 SimCLR 則是 ,不過 CSI 進行 OOD 檢測的能力強得多。
參考文獻
[1] https://ieeexplore.ieee.org/abstract/document/4787647
[2] https://arxiv.org/abs/1906.12340
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的NeurIPS 2020 | 聚焦自监督学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么大家都在吹捧Python?
- 下一篇: 工商局变更地址何时生效(到工商局 办理公