CVPR 2022|MLP才是无监督学习比监督学习迁移性能好的关键因素
?作者 |?王逸舟
單位 |?浙江大學
研究方向 |?計算機視覺,無監督學習
在這里和大家分享一下我們被 CVPR 2022 錄用的工作"Revisiting the Transferability of Supervised Pretraining: an MLP Perspective"。
論文標題:
Revisiting the Transferability of Supervised Pretraining: an MLP Perspective
作者單位:
浙江大學,悉尼大學,商湯,上海交大清源研究院
收錄會議:
CVPR?2022
論文鏈接:
https://arxiv.org/abs/2112.00496
開篇定性,作為一篇學術宣傳稿,不需要受制于固定的格式,因此我們希望和大家討論的更加自由放飛一些,分享有趣的現象和背后的洞見(insight),而不是簡單的堆砌各種實驗結果和“由此可得”。
遷移能力(transferability)的定義很簡單,模型在相同數據下,如何在各種下游任務表現的更好。形象的來說,就是門派內有著大量的弟子(pretraining methods),基于門派內共同的修煉資源(pretraining data),修煉著不同的功法(with different supervision),以期讓自己在未來在不同類型的江湖比武(various downstream tasks, various dataset)上都能拔得頭籌。而我們想要講述的是,一個資質平凡的監督學習(supervised learning method,SL),修著最普通的功法(the cross-entropy loss),通過“自我審視”(revisit)和取長補短,總結經驗教訓(theoretical analysis),在各種遷移任務上成功擊敗早已聲名鵲起的后起之秀(unsupervised learning methods, USL),最終脫穎而出的故事。
相比于之前的對監督學習和無監督學習的分析,這次針對遷移性能的 revisit,從監督學習和無監督學習在訓練時結構上的差異出發,指出了之前被大家忽視的 MLP projector 是其中的關鍵因素。
我們從“回看監督學習/無監督學習的差距分析”,“新視角下的監督學習/無監督學習遷移能力差距”,“SL-MLP:MLP 帶來的有趣現象”,“對實驗現象的理論分析”,“SL-MLP 的遷移性能”五個章節,講一下如何挖掘監督學習的遷移能力,以及怎樣的特征才更適應下游任務。
回看監督學習/無監督學習的差距分析
首先,明確我們的目標:找到監督學習(SL)在遷移能力上真正劣于無監督學習(USL)的原因。只有找到監督學習真正的短板,才能針對性補強,從而完成逆襲。
圍繞這一目標,現有的分析和實踐性質的文章,主要從兩個角度出發:(1)無監督放棄了標簽中的語義信息 [1,2],避免模型在訓練過程中對標簽的過擬合,從而更好保留了 instance-specific 的特征,使其對下游任務的適應性更好。(2)Contrastive loss 的設計讓模型學到了對下游任務更友好的中低層的特征 [3,4]。
但是,監督學習方案和現有無監督學習方案在結構上的不同,卻一直被大家忽視。從 SimCLR [5]?開始,在 encoder 后引入一個 multi-layer perceptron(MLP) projector 的方案,就被無監督學習廣泛的用于提升當前數據集的表征能力。MLP 帶來的提升是那么的簡單有效,以至于我們當前在設計對比式的無監督學習方案時,都會默認的加入 MLP。從而導致在對監督學習和無監督學習遷移性比較上出現了結構上的 unfair,得到了不夠準確的結論。比如,在提升監督學習遷移能力的方案中,SupContrast [4] 在把 contrastive loss 引入監督學習的同時,MLP projector 也被一并引入,但在 [3] 的進一步分析比較中,卻單一地把性能提升歸功于 contrastive loss 設計上的優勢。
而實際上,通過這次的 revist,我們發現之前被大家忽視的 MLP projector 才是其中的關鍵因素。
新視角下的監督學習/無監督學習遷移能力差距
找到了一個新的視角后,要做的自然是用實驗驗證這個視角觀察的可信度。具體來說,就是要首先從模型結構的視角上凸顯出監督學習與無監督學習的遷移能力差距。
Concept generalization task [6] 給我們提供了一個值得參考的方案,并指出各種模型之間的遷移性差異隨著 pretraining dataset 和 evaluation dataset 之間的語義差距(semantic gap)的變大而變大。而 ImageNet 作為一個包含多種語義的分類數據集,能被劃分成語義差距較大的兩類——652類(主要是生物類)的預訓練集(pre-D),以及 358 類(工具類)的測試集(eval-D)。讓所有的模型都在 pre-D 上預訓練,再在 eval-D 上進行 linear eval 從而體現各種方案間的 transferability gap。
▲(左)Stage-wise eval的實驗示意 (右)現有SL、USL方案及其MLP variant的stage-wise eval結果
既然我們從一個結構差異(MLP)的視角出發,我們自然就需要按照 encoder 層級結構的劃分,做一個 stage-wise 的測試。Stage-wise evaluation 的結果是出乎意料的:
1. 監督學習(SL)在前 4 個 stage 有著比無監督學習(BYOL,MoCov1,MoCov2)更高的遷移能力,說明標簽中的語義信息能夠增益中底層特征的遷移能力;
2. BYOL 和 MoCov2 在 stage4 到 5 保持了遷移能力的提升,而 SL 和 MoCov1 則出現了性能的下降,而這兩組實驗中一個關鍵的差異就是:BYOL 和 MoCov2 在 stage5 之后插入了一個只用于預訓練的 MLP 層,而 SL 和 MoCov1 沒有;
3.?對 MoCov1、MoCov2、BYOL 分別進行 with/without MLP 的 ablation 后,發現在無監督方案上增加 MLP 能提升其遷移性能,并避免出現類似 MoCov1 的 stage4 到 5 的遷移能力下降。
說句題外話,實際上可能存在一些其他的非線性結構同樣能增加遷移性能,但僅僅從 MLP projector 的角度出發,也能給我們帶來更多有趣的結論。
SL-MLP: MLP帶來的有趣現象
把競爭對手無監督學習在遷移能力上的情況剖析的差不多了,下一步自然就是修煉學到的知識。具體來說,參照無監督學習常用的做法,在預訓練時,我們在 SL 的 encoder 和分類層之間加入了一個 MLP,并在遷移到下游任務時丟棄掉,僅使用 encoder 進行遷移。
▲ SL-MLP的訓練和測試方式
我們在以下的實驗中默認使用與 BYOL 完全相同的 MLP projector,給定 encoder 得到的圖像特征 ,MLP projector 將其映射為 ,其中的 MLP 選擇與 BYOL 相同的結構(2 個 fc,1 個 bn,1 個 relu),具體為 。
這種簡單的設計帶來了十分有效且有趣的現象。
現象1. SL-MLP 避免了監督學習(SL)在 stage4-5 上的遷移能力下降。
用從無監督學習那偷師來的 MLP 修煉自身后,監督學習(SL)成功彌補了自己在 stage-wise eval 上的最大劣勢,讓 stage5 的存在真正對下游任務有了增益。
現象2. MLP增大了預訓練模型的 intra-class variation。
所謂修煉,只有不在單一方面過度拘于小節,才能適應廣泛的任務要求。不是一味專注在減小 intra-class variation,才能讓模型保留更豐富的特征。
比較 SL、SupContrast、BYOL(及其 MLP 變體)在預訓練集的特征分布,帶有 MLP 的方案擁有更大的 intra-class variation。參照 LDA [7],模型在數據集 上的 discriminative ratio 可以用 來表示,其中 和 分別代表模型特征的類間距離和類內距離。因此 與 pre-D 上的 intra-class variation 反相關。
BYOL 和 SL-MLP 在 比 SL 低,但是在 eval-D 的 linear eval 顯著的比 SL 高。此外,隨著 SL 的 一直上升,在 eval-D 上的性能先上升后下降(210 epoch 后)。那么,這是不是說明了我們在做 SL 遷移任務的時候,并不應該一味的追求在訓練集上的精度呢?
▲(左)Linear eval on eval-D (右) Discriminative ratio of pre-D
現象3. MLP 拉近了 pre-D 和 eval-D 特征分布間的距離
所謂修煉,除了與他人競爭水平高低,更重要的在于內心對萬事萬物的理解是否有所精進。測試精度只能說明方法的最終結果,而學習到的特征分布,才真正代表了增加了 MLP 后的監督學習,對語義的表征做出了哪些改變。
根據 Jennifer Wortma 對于 domain adaption 的分析 [8],拉近預訓練域 pre-D 和遷移域 eval-D 特征分布間的距離對于針對遷移域 eval-D 的遷移學習是有幫助的。我們用藍色系和橙色系代表可視化預訓練域 pre-D 和遷移域 eval-D 上不同類別。SL 的預訓練域 pre-D 特征彼此分散,且與遷移域 eval-D 的特征產生較大的距離。相對的,SL-MLP 和 BYOL 在保持了預訓練域 pre-D 特征可分的基礎上,預訓練域 pre-D 和遷移域 eval-D 的特征在特征空間中混合的更好。
直覺上來說,我們可以用特征在 pre-D 和 eval-D 之間的混合程度 Feature mixtureness(兩個 set 中不同類中心周圍 topk 中同 set 的比例),來定量計算 pre-D 和 eval-D 特征分布間的距離:
雖然 SL,SL-MLP,BYOL 在開始時的 Feature mixtureness 都較高,隨著訓練的進行,SL 專注在預訓練域 pre-D 上的表征,預訓練域 pre-D 和遷移域 eval-D 特征分布間的距離開始拉遠,而 SL-MLP 和 BYOL 的預訓練域 pre-D 和遷移域 eval-D 特征分布間的距離則一直保持在一個很高的狀態。自然,SL-MLP 和 BYOL 就更容易適應新的遷移數據集。
現象4. MLP能減低特征冗余
所謂修煉,就是去除內部的蕪雜。對于模型來說,則是特征通道間的冗余度,避免特征的重復讓模型受限于當前的任務。
在 Barlow Twins [9] 中提到,特征通道間的高冗余會限制特征的表征能力,我們用 Resnet50 輸出的 2048-d 特征維度間的 Pearson 相關度來衡量特征冗余。SL-MLP,BYOL 以及 MoCov1 w/ MLP,相比他們對應的無 MLP 變體,有更高的遷移性能與更小的特征冗余度,說明了 MLP 能減低特征冗余。
▲ R代表模型的特征冗余度
對實驗現象的理論分析
在發現了這些有趣的觀察之后,我們當然需要對所學到的經驗進行一次歸納總結,通過理論分析提煉出成功的關鍵,為我們研究下一門針對 transferability 的功法打好基礎。
實際上,我們可以總結 pre-D 的 discriminative ratio 和 eval-D 的 discriminative ratio 間的關系滿足如下的趨勢并給出理論證明。
▲ Insights of transferability. 更高的 代表更高的遷移性能. 更高的 代表pre-D上更小的intra-class variation.
用數學的語言來說:
給定 ,當 時, ,其中 t 是一個正的閾值,并與 pre-D 和 eval-D 之間的特征分布距離成反比。t 的計算以及詳細的公式證明我們在論文的 supplementary.C 部分給出。
上述理論說明了:
1)當我們在 pre-D上一直優化其辨別能力直到超過一個固定的閾值 t 之后,進一步優化 pre-D 會導致模型在 eval-D 上的遷移能力下降;
2)當 pre-D 和 eval-D 之間的語義差距更大時(此時,在相同的模型下兩者的特征分布距離容易更大),t 會更小。
那么在應對 transfer learning 時,
1)在設計模型結構或者優化函數時,為了更好的遷移能力,我們不能把模型在預訓練集的 intra-class variation 優化的過小,導致模型對于預訓練集的 overfit。(可以考慮增加 MLP 來完成)
2)當被遷移域 eval-D 和預訓練域 pre-D 的語義差距(semantic gap)更大時,我們需要保留更大的 intra-class variation 來做應對。
SL-MLP的遷移性能
學成歸來,自當從容應對各種挑戰,不卑不亢,一鳴驚人。
我們在 concept generalization task 任務上驗證了 SL-MLP 對多個模型結構的效果。SL-MLP 對 SL 有明顯的提升,甚至在相同 epoch 數下超過了 BYOL 的遷移性能。同樣的,MLP 在 Swin-ViT 上也有一樣的效果。在 Swin-ViT 上的提升較低主要是因為不加 MLP 的 Swin-ViT 已經有了和 SL-MLP 類似的高混合程度(Feature mixtureness)。
我們在 cross domain 的其他分類數據集上驗證了 MLP 對于 SL-MLP 和 SupContrast 的重要性。在 linear eval,finetune 和 few-shot learning 任務上,增加 MLP 都表現出了提升,說明 MLP 相比于 contrastive loss 對于有監督的遷移能力提升更加重要。
▲ 從ImageNet-1K遷移到cross domain的分類數據集
SL-MLP 在檢測任務上也能觀察到性能的提升。SL-MLP 在較少 epoch 下的性能甚至超過了用更多 epoch 的無監督方案。
▲ Mask R-CNN on COCO
尾聲
至此,監督學習通過研究自身與無監督學習之間存在的結構差異,成功掌握了一項提升 transferability 的關鍵因素(MLP),用 SL-MLP 證明了自身有取得與無監督相似或更好的結果的實力。但是,未來的道路還在不斷延伸,其他有效簡單的非線性模塊,亦或是把 knowledge 直接化用到 supervision 里,修煉的道路沒有盡頭。
參考文獻
[1] Nanxuan Zhao, Zhirong Wu, Rynson WH Lau, and Stephen Lin. What makes instance discrimination good for transfer learning? arXiv preprint arXiv:2006.06606, 2020.
[2] Linus Ericsson, Henry Gouk, and Timothy M Hospedales. How well do self-supervised models transfer? In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5414–5423, 2021
[3] Ashraful Islam, Chun-Fu Chen, Rameswar Panda, Leonid Karlinsky, Richard Radke, and Rogerio Feris. A broad study on the transferability of visual representations with contrastive learning. arXiv preprint arXiv:2103.13517, 2021.
[4] Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, Ce Liu, and Dilip Krishnan. Supervised contrastive learning. arXiv preprint arXiv:2004.11362, 2020.
[5] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. In International conference on machine learning, pages 1597–1607. PMLR, 2020
[6] Mert Bulent Sariyildiz, Yannis Kalantidis, Diane Larlus, and Karteek Alahari. Concept generalization in visual representation learning. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 9629–9639, 2021
[7] Balakrishnama S, Ganapathiraju A. Linear discriminant analysis-a brief tutorial[J]. Institute for Signal and information Processing, 1998, 18(1998): 1-8.
[8] John Blitzer, Koby Crammer, Alex Kulesza, Fernando Pereira, and Jennifer Wortman. Learning bounds for domain adaptation. Advances in Neural Information Processing Systems, 20:129–136, 2007
[9] Jure Zbontar, Li Jing, Ishan Misra, Yann LeCun, and St′ephane Deny. Barlow twins: Self-supervised learning via redundancy reduction. arXiv preprint arXiv:2103.03230, 2021.
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的CVPR 2022|MLP才是无监督学习比监督学习迁移性能好的关键因素的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《壶口瀑布》的生字怎么读??
- 下一篇: 高‏端‏