震惊!三个万引大佬嘴仗,原来是为了他……?
文|白鹡鸰想把小軼掛到三作
編|小軼已把白鹡鸰掛到三作
這本應是白鹡鸰在小軼追殺下游刃有余拖稿的一天,結果小軼再次把一篇新論文喂到了我的嘴邊。象征性地打開論文,草草掃過去,嗯,遷移學習,嗯,新SOTA,嗯,計算需要的儲存資源是fine-tuning的1%。哇哦,厲害,厲害,但這不影響我不想寫呀?下拉,看看附件部分圖表漂不漂亮,然而,首先看到的卻是:
作者貢獻:
……
Mike (四作):參與每周例會;由于對文獻不夠熟悉,把事態搞得更為復雜;堅持認為本文的核心想法不可能行得通;為研究的框架作出貢獻;在寫作方面提供了相當的幫助。
鑒于這是 Google Brain 的文章,四個作者全是實習生亂編故事的概率不大。白鹡鸰隨手一搜,哇,不得了啊,這 Vincent,Hugo,Mike 都是萬引大佬,就連“萌新”一作,也是2017年至今快700被引了的“大佬寶寶”啊!所以,這篇文章到底在干什么,居然會讓大佬們發生爭論,最終導致 Mike 受到如此待遇呢?
論文題目:
Head2Toe: Utilizing Intermediate Representations for Better Transfer Learning
論文鏈接:
https://arxiv.org/abs/2201.03529
代碼鏈接:
https://github.com/google-research/head2toe
大膽推測
在遷移學習里,有著兩種常見的做法:linear probe和fine-tune。linear probe不對訓練好的模型做變動,只是用它從下游數據集提取特征,然后利用邏輯回歸擬合標簽;相對的,fine-tune則是利用下游數據再次微調預模型中的所有參數。在目前大多數的實踐中,哪怕下游數據集體量很小,fine-tuning的遷移效果都會比linear probing要好。但是由于fine-tuning在處理每個下游任務時,都需要重新運算,然后存儲一組新的參數,成本極高,缺乏實用性。換言之,遷移學習現在面臨著性能和成本難以兼得的問題。
而這篇論文的靈感,正是來自作者對fine-tune和linear probe的觀察。為什么即使下游數據集很小,fine-tune的遷移效果還能這么好?這個過程中,模型到底學到了什么?它真的在學嗎?或者……有沒有這樣的可能:預訓練的時候模型已經學會了下游數據集需要的特征,fine-tune過程中,有很多操作其實是多余的?
為了進一步地挖掘fine-tune和linear probe之間原理的差異性,作者們做了這樣一個實驗:首先,針對一系列的下游數據集,分別從零開始訓練一個新模型(learning from scratch, 簡稱SCRATCH);然后,利用linear probe和fine-tune將在ImageNet-2012上預訓練的模型遷移到各個數據集上;圖1展示的是三種方式獲得的模型的精度對比情況。在這里,因為linear probe沒有改變預訓練模型提取特征的方式,只是針對下游數據集調整了不同特征分布對應的分類,linear probe和SCRATCH的精度差異可以用來衡量預訓練用的數據集和下游數據集中特征的分布差異情況,即
▲圖1 在域偏移程度不同的下游數據集上,linear probe和fine-tune的遷移效果比較圖1中,從左到右展示了域偏移程度從最大到最小的情況。當下游數據的域分布基本被預訓練數據的域分布包含時(最右),linear probe和fine-tune都可以取得不錯的效果。但當域偏移程度嚴重時(最左),linear probe的效果會出現顯著下降,相比之下,fine-tune卻依然穩坐釣魚臺,甚至在一些數據集上的精度超越了SCRATCH。這樣的情況引出了更為具體的猜測:fine-tune在out-of-distribution情況下,表現突出的關鍵既不是調整特征分布與其對應分類的參數,也不是在學習新的特征,而重點是調整已存在的中間特征。
接著,作者用公式進一步描述了這個猜測:將記作輸入,記作權重,網絡的輸出則是,那么我們經典的神經元輸入和輸出可以寫作和,接著,對于fine-tune的神經網絡,由于只是權重發生變化,我們可以記作,做一個泰勒一級展開:
402 Payment Required
基于鏈式規則,這個式子可以進一步寫成
402 Payment Required
此處通過linear probe的同款操作就可以獲得。
以上推導意味著,可能在fine-tune當中效果最大的部分是中間特征的線性組合。而這個猜測是有一定依據的,近兩年的研究中[1,2],有觀察到在fine-tune過程中,預訓練模型的參數變化確實不大,而fine-tune模型的線性逼近版本,也能在遷移學習中取得不錯的效果。
但是,如果這就是真相,豈不是顯得大家這么多年來執行整個fine-tuning流程的操作很憨嗎?如果這就是兼得性能和成本的方法,真的這么久沒有人發現嗎?白鹡鸰揣測,Mike可能就是在這個時候提出了質疑,以從業多年專家的角度,覺得這個理論不會成功。他的質疑也不是毫無道理,畢竟公式展示的只是理論近似,數據上能不能實現完全兩說。總之,打再多的嘴仗也沒有用,實踐才是檢驗真理的唯一標準,那么接下來壓力給到實驗環節~
小心求證
實驗的第一步,相信大家都能想到:把fine-tune的中間特征想個辦法摳出來,套到一個naive的方法上,然后對比一波現有方法。行的話就發paper,不行的話就當無事發生過,或者是在未來其他工作中輕描淡寫提上一段🌚。
具體來說,論文中將預訓練的ResNet-50主干網絡中倒數第二層的特征和額外的一層中間特征拼接在一起,再用linear probe的方法在下游數據集上進行訓練。為了能夠找到這種方法的表現上限,這額外的一層選用的是能讓模型精度提升最顯著的一層(不愧是有資源的google,這得試多少個模型啊),最終,在不同的下游任務上,平均下來精度提升為3.5%。
為了證明這個提升是因為加入了中間特征,而不是拼接不同層,靠矩陣變大帶來的效果,作者們加入了控制組,把倒數第二層的特征和另一個預訓練的ResNet-50的中間層特征拼在一起,在維數和前者一致的情況下,對模型精度的提升并不如前者。由此證明了,模型的中間特征確實能提升模型遷移學習的效果。嚴謹一點說,當下游數據集和預訓練數據間域偏移越大,中間特征在遷移學習中起的作用也就越大。這是基于截止現在觀察到的現象和推理過程能夠得到的結論。
Head2Toe
驗證了這個想法之后,大佬們并沒有停下腳步,而是一鼓作氣,基于這個觀點設計了新的遷移算法Head2Toe。一般的神經元,輸入輸出是
到了Head2Toe當中,就變得暴力起來:
當然,直接這么做了,運算成本顯然會變得非常離譜,所以不能一股腦地加權所有中間層,而是要對中間特征篩選一下。因此,論文中采用了group-lasso regularization對特征的重要性進行排序和過濾,過濾的比例由下游任務的訓練效果決定。
▲圖2 Head2Toe中神經元鏈接情況示意圖(與Linear probe比較)由于Head2Toe只是對特征進行篩選,特征本身不會發生變化。與fine-tune相比,在每次迭代過程中,不會對特征進行頻繁的改寫。在計算成本上,Head2Toe和linear probe是一個數量級的,比fine-tune小了很多。==在這種情況下,Head2Toe的效果卻能和fine-tune不相上下,甚至常有超越==。圖三展示了linear probe加上不同的中間特征配置、Head2Toe、fine-tuning三類遷移學習方法,以及從頭訓練(SCRATCH)的模型的精度對比。行標題中Natural,Specialized,Structured是指圖片數據的分布情況:真實圖像,針對特定品種的真實圖像,經過處理的人工合成圖像。列標題中,+All-版本的Head2Toe,雖然也通過group lasso排序了所有中間特征,但沒有執行篩選操作,而是照單全用,是指group lasso中選擇的范數版本。可以看出,Head2Toe的總體表現不錯。
▲圖3 模型效果對比總結
通過一系列的推導、實驗,論文成功證明中間特征在遷移學習的過程中起了關鍵性的作用,并提出了新的遷移學習方法Head2Toe,在下游任務數據分布與預訓練集相差大的情境中,精度能與fine-tune不相上下甚至有所超越,成本上僅需fine-tune模型0.6%的FLOPs和1%的存儲空間。除此之外,論文還對fine-tune情況下的Head2Toe性能進行了分析,調查了不同下游數據集選擇特征的偏好情況,以及等等。限于篇幅此處不多加展開,感興趣的朋友可以自行翻閱正文、附件和代碼。
碎碎念
最后又到了慣例的夸獎論文結構的環節。每次看Google的論文,我都會忍不住寫上一段來夸他們的論文結構,這一次特別想強調善用論文的Appendix章節。最近白鹡鸰在審稿的時候,發現有些論文的中心放在實驗部分,公式十幾二十個,圖表很多很多,把結果和討論摳出來,還擺不滿一頁。結果讀者不一定能完全跟上作者的思路,閱讀不斷被圖表打斷,理解過程簡直是跨越崇山峻嶺。這種行為本質上是作者偷懶:“數據擺出來了,你自己分析原理、總結結論吧”。論文中最重要的內容應當是:問題聲明、問題意義、貢獻聲明、方法(簡要)說明、創新點闡述、原理分析,公式和圖表都只是輔助手段。非原創性的公式、和核心結論沒有直接關聯的圖表,是應當放到Appendix作為輔助材料的。而且現在互聯網如此發達,開個網頁/傳個視頻堆demo很香啊。
咳咳,最近被論文折磨多了,忍不住多說幾句。接下去就是新年了,祝大家新年快樂,也祝我自己能成功摸魚,下次拖稿的時候不被小軼干掉。
萌屋作者:白鹡鸰
白鹡鸰(jí líng)是一種候鳥,浪形的飛翔軌跡使白鹡鸰在賣萌屋中時隱時現。已在上海交大棲息四年,進入了名為博士的換毛期。目前蹲在了駕駛決策的窩里一動不動,爭取早日孵出幾篇能對領域有貢獻的論文~
知乎ID也是白鹡鸰,歡迎造訪。
作品推薦:
NLP太卷,我去研究蛋白質了~
谷歌40人發表59頁長文:為何真實場景中ML模型表現不好?
學術&工業界大佬聯合打造:ML產品落地流程指南
兩個月,刷了八千篇Arxiv,我發現……
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1] Maddox, Wesley, et al. "Fast Adaptation with Linearized Neural Networks." International Conference on Artificial Intelligence and Statistics. PMLR, 2021.
[2] Mu, Fangzhou, Yingyu Liang, and Yin Li. "Gradients as features for deep representation learning." arXiv preprint arXiv:2004.05529 (2020).
總結
以上是生活随笔為你收集整理的震惊!三个万引大佬嘴仗,原来是为了他……?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 斯坦福CS224n追剧计划【大结局】:N
- 下一篇: 刷新SOTA!Salesforce提出跨