发布可伸缩超网SCARLET,小米AutoML团队NAS三部曲杀青
作者丨江渚碧
學校丨武漢大學
研究方向丨智能計算
昨天,小米 AutoML 團隊(初祥祥、張勃、李吉祥、李慶源、許瑞軍等)發布最新成果 SCARLET,超過了 Google Brain 首席科學家 Quoc Le 和 Tan Mingxing 共同完成的 EfficientNet 同量級模型 (ICML 2019)。
SCARLET 論文探究了 One-shot 路線自動化神經網絡搜索中沒有被深入考察的可伸縮性問題,首次提出并證明線性等價變換可以使超網具備可伸縮功能。
論文發布的 SCARLET 系列模型超過當前大火的 EfficientNet,并且相比 EfficientNet 的純強化路線相比用了更少的計算資源,更短的搜索時間。SCARLET 模型在 ImageNet 1k 分類任務中達到 76.9% 的 top-1 精度,目前是近 400 M FLOPs 量級的 SOTA。
至此,小米 AutoML 團隊在短短兩月間寫就 FairNAS、MoGA、SCARLET 三部曲,依次超過 Google 頂級團隊的 MnasNet、MobileNetV3、EfficientNet。
模型地址:
https://github.com/xiaomi-automl/SCARLET-NAS
One-shot路線之優劣
雖然 one-shot 由于權重共享,一次超網訓練,評估子網時可以多次收益,足夠快也足夠有效。但相比 Google Brain 的 RL 路線(NASNet、MnasNet 等)或其他路線,one-shot 的靈活性大打折扣。其中一點就是不能自由伸縮。
一般地講,更深的網絡有更好的表征能力。但事實是,稍淺的網絡能力也不是很弱,有時還反而更好。這就好比在矮個子有時也比高個子力量大,高度(深度)不是評判一個人力量的唯一標準。考慮到我們部署時的限制,我們不僅要小個子,還要發掘優秀的小個子。在太空任務中,矮個子楊利偉反而成了優勢。?
之前的 one-shot 方法比如 ProxylessNAS 曾引入了跳接 (skip connection)來給超網帶來伸縮性,但由于沒有展示中間結果,以及并沒有展開理論探討,跳接在什么程度上影響了超網訓練和最后的模型搜索均難以評估。
引入恒等變換
恒等變換(Identity mapping,ID)即跳接,在當前層的可選擇運算模塊(Choice block)中加入這個操作,可以從上一層直接越過連到當前層的下一層,從而實現層數的壓縮,聽上去很靠譜,但當引入 ID 后 one-shot 超網訓練如何呢?
根據 SCARLET 做的實驗看,單單加上 ID 就直接導致了超網訓練的大幅波動,在選擇了 ID 的那條路徑,模型能力迅速下降,嚴重影響了整個超網的參數更新。
增加線性等價變換
恒等變換能幫我們實現層數的壓縮,但又是個搗亂分子。怎么解決呢?SCARLET 提出給這個搗亂分子進行一些教育改良,由于之前的 ID 并沒有學習功能,只完成連接,那最常見的學習單元就是帶參數的卷積層。但問題來了,加了卷積層的路徑和原有路徑有什么不同呢?我們最后采樣的模型,能否取掉這個卷積層來完成層間的跳接,實現我們期待的壓縮呢??
▲?Fig 2. ?線性等價變換示意圖
幸運地是,加了線性的卷積層(即不含激活單元)的采樣模型在表征能力上是和原有網絡是等價的。SCARLET 對此進行了分情形的嚴格證明。在下一層運算單元是 FC 或 Conv 的情況下,給搗亂分子 ID 配備了學習單元 Conv 以后,表征能力并沒有改變。這樣的改良文中稱作線性等價變換(Linearly Equivalent Transformation, LET)。
所以超網訓練過程要開啟 LET 來補足別的 block 都在學習,ID 不學習的弱點,而訓練結束后,去掉 LET 完成瘦身,本文叫做 SCARLET,扼要概括了本次的方法創新(SCAlable supeRnet with Linearly Equivalent Transformation)。
▲?Fig 3.??情形一,線性等價變換前后表征能力等價的證明
加入了 LET 之后,超網訓練就平和了許多。訓練過程的模型采樣來看,沒有開 LET 前主要分布在兩個區域,而開啟之后,都集中在得分比較高的這個區間。
▲?Fig 4.??引入 LET 前后超網訓練對比
與當前最好模型對比
從表中看出,SCARLET 這次打的是 EfficientNet 同量級模型 B0,SCARLET-A、B 均用了明顯更少的 FLOPs,大幅超過或齊平 B0。而 SCARLET-C 又是超過了自己三部曲第一部中提出的 SOTA 模型 FairNAS-A。
▲?Fig 5. 當前 SOTA 模型在 ImageNet 數據集上的對比
模型結構分析
▲?Fig 6.?SCARLET A,B,C 模型
與以往發布的 FairNAS 和 MoGA 模型不同,這次系列模型中有了更淺的層級,這也呼應了本次方法的要點,就是要找出淺一點但也很不錯的模型,展示了超網的可伸縮性。?
參考文獻
Chu et al., FairNAS: Rethinking Evaluation Fairness of Weight Sharing Neural Architecture Search?
https://arxiv.org/abs/1907.01845?
Chu et al., MoGA: Searching Beyond MobileNetV3?
https://arxiv.org/abs/1908.01314?
Chu et al., ScarletNAS: Bridging the Gap Between Scalability and Fairness in Neural Architecture Search?
https://arxiv.org/abs/1908.06022?
Zoph et al. Learning Transferable Architectures for Scalable Image Recognition?
https://arxiv.org/pdf/1707.07012?
Cai et al: ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware?
https://arxiv.org/abs/1812.00332?
Tan et al., MnasNet: Platform-Aware Neural Architecture Search for Mobile?
https://arxiv.org/abs/1807.11626
點擊以下標題查看更多往期內容:?
KDD Cup 2019 AutoML Track冠軍團隊技術分享
神經網絡架構搜索(NAS)綜述 | 附資料推薦
小米拍照黑科技:基于NAS的圖像超分辨率算法
深度解讀:小米AI實驗室最新成果FairNAS
自動機器學習(AutoML)最新綜述
MoGA:超過MobileNetV3的移動端GPU敏感型搜索
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的发布可伸缩超网SCARLET,小米AutoML团队NAS三部曲杀青的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: @即将开学的你,请收好这份必读论文清单
- 下一篇: 抢票 | AI未来说学术论坛第八期 深度