ICLR 2021 | 美团、上交大等:鲁棒的可微分神经网络搜索DARTS-
?PaperWeekly 原創 ·?作者|陸順
學校|中科院計算所碩士
研究方向|神經網絡架構搜索
注:該工作由作者在美團實習期間由初祥祥(美團 Mentor,前小米 AutoML 負責人)指導參與。
論文標題:
DARTS-: Robustly Stepping out of Performance Collapse Without Indicators
論文作者:
初祥祥、王曉星、張勃、陸順、魏曉林、嚴駿馳
論文鏈接:
https://openreview.net/forum?id=KLH36ELmwIB
彩蛋:
團隊正在招聘實習生,詳情見 :美團視覺智能中心實習生招聘
簡介
可微分方法(DARTS)是神經網絡架構搜索(NAS)中最流行的方法。現有不少方法都致力于解決性能崩塌的問題,從而提升其穩定性。RobustDARTS [1] 提出了用超網的特征根作為判別是否進入崩塌的標志,而我們在本篇工作發現了反例,即在特征根不斷增大的情形下,搜索出的模型性能仍在提升。我們受 FairDARTS [2] 中跳躍連接存在不公平競爭優勢的啟發,使用了一個額外的跳躍鏈接(auxiliary skip),簡單有效地提升了 DARTS 的魯棒性,且不使用額外的超參數和指示標志。
研究動機
可微分神經網絡搜索(DARTS)存在普遍的性能崩塌,現有提升方法使用了先驗知識或用指示信號來判別崩塌是否發生,而計算指示信號非常耗時,我們的出發點是能否不通過人為先驗或需要耗費算力的指示信號來解決該問題。
創新和貢獻
1. 我們提出了一種不需要指示信號來提升 DARTS 穩定性的方法,只需要通過增加一個額外的跳躍連接,既能消除不公平競爭優勢,也能穩定超網的優化過程。
2. 在 7 種搜索空間和 3 種數據集上進行了實驗,來驗證本方法的魯棒性。
3. 本方法可以與其他 DARTS 的變體方法相結合。去掉人為先驗后,在 CIFAR-10 數據集上本方法可分別將 P-DARTS [3] 和 PC-DARTS [4] 準確率再提升 0.8% 和 0.25%。
方法
4.1?動機分析
(1)從梯度流動的角度,跳躍連接可以減輕梯度消失的問題。假設第 i+1 層的殘差連接塊 Xi+1 可以表示為 Xi+1=fi+1(Xi, Wi+1)+Xi,損失函數為 L,那么對 Xi 求導為:
可以看出,淺層的梯度總是包含了深層,用公式表示為:
為了分析跳躍連接的作用,為所有的跳躍連接引入一個超參數 β,那么 Xi?的導數變為:
一旦 β 小于 1,那么深層的梯度反向傳播到淺層將會逐漸消失。這里β可以表征在反向傳播中,訓練過程的梯度是如何得到穩定的。
(2)對 ResNet50 的跳躍連接進行參數化訓練。分別初始化 β 為 0,0.5 和 1.0,并繪制其變化曲線如下。可以看出,在 40 個 epoch 時,無論 β 初始值為多少,其都能收斂至1。因此,證明殘差結構可以學習將 β 推向一個較大值來減輕梯度消失的問題。
(3)DARTS 同樣為跳躍連接分配了一個可訓練參數 βskip,搜索過程中其也會變得很大從而導致了搜索模型的性能崩塌。本文分析其原因主要有以下兩點。
一方面,超網學習將 βskip 收斂至一個較大值來防止梯度消失;
另一方面,跳躍連接是目標網絡的一個重要操作,在離散化時應該被保留。
因此可以看出跳躍連接在 DARTS 中扮演了兩種角色:穩定超網訓練、作為構建最終模型的候選操作。如果能區分 DARTS 搜索過程中跳躍連接的不同角色,那么就可以穩定 DARTS 的搜索過程。
4.2?本文方法
方法:提出在每兩個節點間添加一個額外的跳躍連接。
作用:額外的跳躍連接可以起到穩定超網訓練的作用,并消除候選操作中跳躍連接的不公平競爭優勢,從而使得候選操作中的跳躍連接只需要表征該候選操作重要性這一種角色。
影響:為了在搜索過程結束后,與其他方法保持一致,本文為這個額外的跳躍連接引入一個超參 β,并使其逐漸衰減至 0。因此,DARTS 混合操作的形式變為:
其中 β 表示額外跳躍連接的權重,βskip 表示候選操作中跳躍連接的權重。
4.3?作用機制分析
根據 PR-DARTS [5] 論文分析,網絡權重 W 的收斂極大依賴于跳躍連接的權重 βskip。具體來講,假設只有三種操作(none,skip-connect 和 convolution),并使用 MSE 損失進行訓練。同時固定每種操作的權重,只優化網絡權重W。那么在每一步,訓練損失可以以 (1-λη/4) 比率下降。其中 η 是學習率,λ 符合下式:
其中 h 表示超網的層數。從上式可以看出,相比于 βconv,λ 更加依賴于 βskip。當引入了額外的跳躍連接后,上式變為:
當 β>>βskip 時,λ 就不會對 βskip 那么敏感,此時網絡權重 W 將更加依賴于 βconv。因此,結合 PR-DARTS [5] 的分析,可以看出:額外的跳躍連接可以減輕 βskip 的優勢并使得架構參數的競爭更加公平。即使 β 逐漸衰減時,由于網絡權重 W 已經逐漸收斂,因此依然能保證公平的競爭。綜上所述,DARTS- 可以提升 DARTS 搜索階段的魯棒性。
實驗結果
1. 搜索空間(S0-S6):
S0:DARTS 原生搜索空間
S1-S4:R-DARTS 中提出的搜索空間(S0 的子集,但是限制更多,相對較難)
S5:ProxylessNAS 搜索空間,用于直接在 ImageNet上搜索
S6:NAS-Bench-201 搜索空間
2. CIFAR-10 和 ImageNet 數據集的實驗結果對比。本文方法具有很好的穩定性,準確率也達到同類方法中最優。
3. 在通用 NAS 基準評測集 NAS-Bench-201 的實驗結果
4. 主干網絡遷移到檢測任務 COCO 的實驗結果
5. 與 P-DARTS 和 PC-DARTS 結合的實驗結果(表格中 P-DARTS 去掉了跳躍連接數量為 2 的限制,PC-DARTS 設置其超參 K=2)
6. 消融實驗:
對于 βskip 的衰減策略:使用 cosine 和 step 分別進行對比,多次重復試驗平均準確率分別為 97.33%±0.09 和 97.30%。
在 CIFAR-10 和 CIFAR-100 的 S0-S4 空間進行多次搜索實驗,結果如下
分析和討論
1. DARTS- 搜索過程的特征根:優化過程中特征根(eigvenvalue)的增大,并不一定意味著模型性能會變差。以前方法用特征根作為性能崩塌的指示標志,我們找到了如圖的幾組反例。
2. 驗證集準確率的地貌分析(landscape):下圖可以看出,添加額外的跳躍連接可以使其更平滑,這樣可以讓優化過程更穩定。
3. 額外的分支選擇:將額外的跳躍連接替換為 1x1 卷積,并初始化為單位陣,我們使用 CIFAR-10 數據集在 S3 空間進行多次試驗,獲得了 97.25%±0.09 的準確率。ResNet 中同樣分析了 projection convolution 和跳躍連接的工作機制類似,因此再次印證了跳躍連接的必要性。
4. 使用更長的搜索輪數:Amended-DARTS [6] 中提到使用更長的搜索輪數能使得超網更充分地收斂。而 DARTS 以及很多 DARTS 方法的變體在使用更長的搜索輪數時,會由于跳躍連接聚集而導致性能崩塌。為了驗證該問題,我們將搜索輪數從 50 分別延長至 150 和 200。在 S0、S2 和 S3 三個搜索空間分別進行三次搜索實驗,同時設置 β 只在最后 50 個 epoch 衰減。實驗結果見下表。可以看出,經過更長的搜索輪數后,并沒有出現明顯的性能崩塌。我們同時也發現超網的收斂程度和搜索網絡的性能之間的關系并不簡單,尚待深入分析。
參考文獻
[1] Zela et al. Understanding and Robustifying Differentiable Architecture Search, ICLR 2020
[2] Chu et al. FairDARTS: Eliminating unfair advantages in differentiable architecture search, ECCV 2020
[3] Chen et al. Progressive Differentiable Architecture Search: Bridging the Depth Gap between Search and Evaluation, ICCV 2019
[4] Xu et al. PC-DARTS: Partial Channel Connections for Memory-Efficient Architecture Search, ICLR 2020
[5] Pan et al. Theory-Inspired Path-Regularized Differential Network Architecture Search, NuerIPS 2020
[6] Bi et al. Stabilizing DARTS with Amended Gradient Estimation on Architectural Parameters, 2019
招聘
團隊現招實習生 2 名
詳情見:【美團】視覺智能中心實習生
簡歷投遞至 zhangbo97@meituan.com
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的ICLR 2021 | 美团、上交大等:鲁棒的可微分神经网络搜索DARTS-的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 旷厂练习生 | 小白进阶之三个月发表一篇
- 下一篇: 论NLP可解释的评估:什么才是“好”的解