彩票假设 (Lottery Ticket Hypothesis) 在CV、NLP和OOD领域的应用
?PaperWeekly 原創 ·?作者?|?張一帆
學校?|?中科院自動化所博士生
研究方向?|?計算機視覺
本文用三篇論文稍微普及和解讀一下最近 Lottery Ticket Hypothesis 在 CV, NLP, OOD 上的應用。
什么是彩票假設?
彩票假設的核心就是如下一句話:
A randomly-initialized, dense neural network contains a subnetwork that is initialized such that — when trained in isolation — it can match the test accuracy of the original network after training for at most the same number of iterations
簡單理解一下就是我們就是在找一個子網絡,通過修剪他的權重我們可以得到匹配整個網絡的性能。所謂的子網絡就是原網絡的一部分權重被設置為 0 剩下的那些權重。為了識別中獎彩票,該算法在每次迭代中使用由最小值權值的位置得到的掩碼對網絡進行修剪。其余未修剪的權重組成中獎彩票,可用于下游任務。這個過程可以用幾個步驟來描述:
均勻的初始化一個網絡
保存原有的權重
訓練網絡
確定最小權重的位置,創建一個剪枝掩碼(pruning mask)
使用初始權值重新初始化網絡,并應用步驟 4 中的掩碼進行修剪
步驟 3-5 可以迭代地重復以修剪更高比例的權重,直到我們對大小感到滿意(或者直到性能的下降變得明顯)。彩票假設表明,在圖像識別任務中網絡可以被修剪高達 90% 同時保持相對相似的性能。
彩票假設用于BERT fine-tune
論文標題:
The Lottery Ticket Hypothesis for Pre-trained BERT Networks
收錄會議:
NeurIPS 2020
論文鏈接:
https://arxiv.org/abs/2007.12223
代碼鏈接:
https://github.com/VITA-Group/BERT-Tickets
本文來定義兩種不同的子網絡
matching network:一個在特定任務上比原網絡不差的子網絡。
universal subnetwork:一個在多個任務上比原網絡性能都不差的子網絡,也就是說有很好的遷移能力。
本文的目標在于尋找 matching 和 universal subnetwork,最重要的是尋找 universal subnetwork。本文的核心貢獻在于:
本文使用非結構化的剪枝方法,在稀疏度 的 BERT 模型之間發現了傳統 GLUE 和 SQuAD 任務上的 matching network。
和以往的工作不同,本文發現上述 subnetwork 出現在預訓練的初始化階段,而不是經過一段時間訓練之后。和以往的工作一樣的是,這些子網絡比隨機剪枝和隨機重新初始化的子網絡好很多。
在大多數下游任務中,上述的子網絡不能遷移到其他任務。也就是說這個稀疏模式是任務特定的。
稀疏度 的模型使用 MLM 進行訓練可以遷移到其他任務并保持準確度。
總的來說本文是一個實驗性的文章,來看一看他們的實驗大概是如何的
Setting:本文使用一個 BERT 模型參數為 ,一個任務特定的分類層參數為 ,模型的輸出記作 。每個數據集的訓練樣本以及一些超參數總結如下:
接下來我們將 matching network 公式化描述一下。
對一個網絡 ,子網絡可以記作 ,這里的 是一個剪枝掩碼 ( 是逐元素相乘)。記 是針對任務 ,訓練到第 步的訓練算法(AdamW),這里的網絡被訓練成了 。 是 BERT 預訓練得到的參數,記 是評估模型 在任務 上性能的指標。
matching subnetwork:一個子網絡被稱為 matching 的,當且僅當我們使用算法 訓練 得到的結果不弱于 ,也即:
winning ticket:一個子網絡被稱為算法 的 winning ticket 如果他是對于 的 matching network 而且 。
universal subnetwork: 對于任務 是 universal 的當他對于每個 在任務特定的配置 下都是 matching network。
整體學習的算法如下:
使用該算法找到的稀疏子網絡性能如下:
上表中 表示隨機剪枝, 表示隨即權重, 表示預訓練權重隨機打亂后的權重。
本文最核心的一個實驗如下所示:
這個表描述了不同 task 之間進行遷移時的性能變化,比如第一行第二列表示了從 MNLI 得到的稀疏度為 70 的子網絡在 QQP 上進行訓練得到的性能(89.2)的高分,藍色表示這是一個 winning ticket。
彩票假設用于OOD泛化
論文標題:
Can Subnetwork Structure be the Key to Out-of-Distribution Generalization?
收錄會議:
ICML 2021
論文鏈接:
https://arxiv.org/abs/2106.02890
本文基于彩票假設,即使我們整體的模型是有偏的(偏向背景,上下文而不是物體本身),這個網絡中也存在一些子網絡他們是無偏的,可以實現更好的 OOD 性能。文中提供了模塊風險最小化 MRM 來尋找這些“彩票”。
MRM 算法理解起來也并不困難:
給定數據,完整的網絡,子網絡的 logits ,logit 是一個用于產生 mask 的隨機分布,比如網絡第 層有 個參數,那么 。該層的 mask 通過從 中采樣得到,mask 將完整網絡轉化為子網絡(=0 即忽略第 層的第 個參數);
我們對模型進行初始化然后使用 ERM 的目標進行訓練 個 step;
我們從整個網絡中采樣子網絡,結合交叉熵和稀疏正則化作為損失函數來學習有效的子網結構;
最后只需要簡單地只使用所得到的子網中的權值重新進行訓練,并將其他權值固定為零。
文章最大的亮點就在于 MRM 和目前主流的研究方向(修改目標函數)是正交的,無論目標函數是什么,MRM 都能找到這么些泛化能力更強的子網絡。
彩票假設用于視覺模型預訓練
論文標題:
The Lottery Tickets Hypothesis for Supervised and Self-supervised Pre-training in Computer Vision Models
收錄會議:
CVPR 2021
論文鏈接:
https://arxiv.org/abs/2012.06908
代碼鏈接:
https://github.com/VITA-Group/CV_LTH_Pre-training
在 imagenet 進行預訓練的特征提取器在 CV 中非常的常見,這種預訓練方式對下游的視覺分類任務,few-shot learning 以及檢測,分割等任務都有很大幫助。最近自監督的預訓練模型取得了非常不錯的效果。SimCLRv2 顯示深度和寬度都足夠大的模型是預訓練和微調成功的重要組成部分,標簽越少,越需要大模型。大模型預訓練的額外成本可以通過轉移到許多下游任務來攤銷。
然而,這種預先訓練過的模型的爆炸式大小甚至可能使微調計算要求很高。本文就提出了這樣一個問題:“我們能否在不損害其下游任務遷移性的情況下,大量地削減預訓練模型的復雜性”。這和模型壓縮看起來好像有點類似,但是其實完全不一樣。模型壓縮是在模型訓練好之后在同一個數據集上進行壓縮,而本文的目標和前幾篇論文一致,是想找到一個更小的初始化的預訓練模型,同時保證他在各個任務上的遷移性。本文和第一篇文章相似度很高,formulation 基本一樣,我們主要看看本文的 setting 和得到的一些結論。
下表是各種預訓練模型以及下游任務的 setting:下面五點是本文得到的結論:
對于 ImageNet pretraining,simCLR,MoCo 三個預訓練范式,使用迭代的 IMP 算法本文識別出了稀疏度達到 67.23,59.04 以及 95.60 的 matching subnetwork。對于分類,檢測,以及分割等任務,本文發現了稀疏度處于 73.79 到 98.2 之間的 matching subnetwork。
同樣對于上面三種預訓練范式,稀疏度分別達到 67.23,59.04,59.04 的 subnetwork 保持了對分類任務的可遷移性,即在各種分類任務中使用它們作為初始化模型比起原有的預訓練模型不會掉點。
對于上面三種預訓練范式,稀疏度達到 73.79%/48.80%,48.80%/36.00%和73.79%/83.22% 的 subnetwork,可以無損遷移到檢測/分割任務上。
與之前在隨機初始化或訓練早期發現的 matching subnetwork 不同,本文表明,那些在預訓練初始化時識別的子網絡對結構擾動更敏感。此外,不同的預訓練方式往往產生不同的掩模結構和擾動敏感性。
大模型兼職得到的 subnetwork 性能更好。
總的來說,這項工作為用較小的子網替代大型預訓練模型邁出了第一步,從而在不抑制泛化性能的情況下實現更有效的下游任務優化。隨著預訓練在 CV 領域變得越來越重要,本文的研究結果闡明了 LTH 在這個新范式中的相關性。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的彩票假设 (Lottery Ticket Hypothesis) 在CV、NLP和OOD领域的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 小户型怎么存钱?
- 下一篇: 牛毛毡可以铁皮屋顶防水吗?