小米9拍照黑科技:基于NAS的图像超分辨率算法
作者:Xiangxiang Chu, Bo Zhang等 丨
機器之心編譯丨
雷軍表示:這是一篇小米最新出爐的論文,基于彈性搜索在圖像超分辨率問題上取得了令人震驚的結果,該模型已開源。
本篇是基于 NAS 的圖像超分辨率的文章,PaperWeekly 社區(qū)用戶 @figo 在該文公布后迅速跟進,發(fā)表分析稱「屬于目前很火的 AutoML / Neural Architecture Search,論文基于彈性搜索(宏觀+微觀)在超分辨率問題上取得了非常好的結果。這種架構搜索在相當的 FLOPS 下生成了多個模型,結果完勝 ECCV 2018 明星模型 CARNM,這應該是截止至 2018 年可比 FLOPS 約束下的 SOTA(涵蓋 ICCV 2017 和 CVPR 2018)。?
而達到這樣的效果,論文基于一臺 V100 用了不到 3 天時間。需要指出的是,該項技術具有一定的普適性,理論上可以應用于任何監(jiān)督學習,值得我們關注和學習。」?
作為計算機視覺中的經典任務,單幀超分辨率(SISR)旨在基于低分辨率圖像重構出對應的高分辨率圖像。目前大多數 SISR 算法都借助深度學習的非線性擬合能力,并大幅超越了傳統(tǒng)視覺算法。直觀而言,圖像超分辨率是一種提煉并擴展圖像信息的方法,模型需要根據圖像的整體語義信息重構出欠缺的細節(jié)。因此與一般的圖像銳化或清晰度調整不同,圖像超分辨率任務有著更高的要求。?
目前已有的超分辨率模型大多數都是人工設計的,它們很難進行壓縮或者微調。與此同時,神經架構搜索已經在分類任務中取得了極好的效果。根據這一趨勢,Chu et al., 2019 提出了使用強化遺傳搜索方法處理 SISR 任務,該方法優(yōu)于 VDSR [Kim et al., 2016a] 等流行網絡。?
在該論文中,作者基于彈性神經架構搜索探討 SISR 任務,提出的方法已經達到與 CARN 和 CARN-M 相當的效果。作者表示他們最主要的貢獻可以總結為以下四點:?
1. 發(fā)布了幾種快速、準確和輕量級的超分辨率架構和模型,它們與最近的當前最優(yōu)方法效果相當;?
2. 通過在 cell 粒度上結合宏觀和微觀空間來提升彈性搜索能力;?
3. 將超分辨率建模為受限多目標優(yōu)化問題,并應用混合型控制器來平衡探索(exploration)和利用(exploitation);
4. 生成高質量模型,其可在單次運行中滿足給定約束條件下的各種要求。?
此外,研究者還開放了預訓練的模型和評估代碼,他們在 GitHub 中提供了 FALSR A、B 和 C 三個預訓練模型,同時也提供了一些示例數據集,包括 B100、Set14 和 Urban100 等。發(fā)布的模型基于 TensorFlow。如果想要使用預訓練模型看看效果,直接復制 GitHub 項目,并運行以下命令行就行了:
流程架構
與大部分 NAS 方法類似,本研究提出的方法包含三個主要模塊:彈性搜索空間、混合模型生成器和基于不完全訓練的模型評估器。?
與 [Lu et al., 2018; Chu et al., 2019] 類似,本研究也使用 NSGA-II [Deb et al., 2002] 來解決多目標問題。但該研究的特點在于,它會使用混合型控制器和基于 cell 的彈性搜索空間(可支持宏觀和微觀搜索)。?
該研究在處理超分辨率任務時考慮了三個目標:?
反映模型性能的量化度量指標(PSNR)?
評估模型計算成本的量化度量指標(mult-adds)?
參數量?
此外,該研究還考慮了以下約束:?
滿足人類視覺感知的最小 PSNR?
資源限制下的最大 mult-adds
彈性搜索空間
本研究的搜索空間旨在執(zhí)行微觀和宏觀搜索。微觀搜索用于在每個 cell 的搜索空間的中選擇有潛力的單元,可看作是特征提取器。而宏觀搜索旨在搜索不同 cell 的跳接,其作用是結合選定層級的特征。此外,研究者使用 cell 作為最小搜索元素有兩個原因:設計靈活性、通用的表征能力。?
通常,超分辨率任務可分為三個子步驟:特征提取、非線性映射和重建。由于大部分深度學習方法主要關注第二部分,因此該研究將其搜索空間設計用于描述非線性映射,其他部分保持不變。圖 1 展示了該研究中提出的超分辨率任務主要基礎結構。一個完整的模型包括預定義的特征提取器(具備 32 個 3 × 3 卷積核的 2D 卷積)、來自微觀搜索空間的 n 個單元塊和來自宏觀搜索空間的跳接、上采樣和重建。
▲?圖1:本研究采用的基礎超分辨率神經架構(cell間的箭頭表示跳接)
▲?圖2:控制器結構
與當前最優(yōu)超分辨率方法的對比?
該模型訓練完成后,研究者在常用超分辨率任務測試數據集上將其與當前最優(yōu)方法進行了對比(見表 1 和圖 5)。公平起見,本研究僅考慮 FLOPS 相當的模型。因此,太深和太大的模型(如 RDN [Zhang et al., 2018b]、RCAN [Zhang et al., 2018a])均不包括在內。研究者按照慣例選擇 PSNR 和 SSIM 作為度量標準。對比在兩倍超分辨率任務上進行,所有 Mult-Adds 均基于 480 × 480 的輸入衡量。
▲?表1:在×2超分辨率任務上對比本文提出的方法和當前最優(yōu)方法
▲?圖5:FALSR-A、FALSR-B、FALSR-C(鮭紅色)vs. 其他模型(藍色)
在 FLOPS 相當的模型對比中,本研究提出的 FALSR-A 模型優(yōu)于 CARN [Ahn et al., 2018](圖 3)。此外,FALSR-A 模型還在四個數據集和三個目標上超過 DRCN [Kim et al., 2016b] 和 MoreMNAS-A [Chu et al., 2019]。它的 PSNR 和 SSIM 值高于 VDSR [Kim et al., 2016a]、DRRN [Tai et al., 2017a] 等,且 FLOPS 低于后者。?
研究者還創(chuàng)建了一個更輕量級的版本——FALSR-B(圖 4),它超越了 CARN-M,這意味著更少 FLOPS 與參數量的情況下,FALSR-B 的得分堪比甚至超越 CARN-M。此外,它的架構更吸引人,連接之間的復雜度介于稀疏和密集連接(dense connection)之間。這表示密集連接不總是信息傳輸的最優(yōu)方法。來自更低層的無用特征可能會給高網絡層重建超分辨率結果造成麻煩。
點擊以下標題查看更多往期內容:?
Airbnb實時搜索排序中的Embedding技巧
圖神經網絡綜述:模型與應用
近期值得讀的10篇GAN進展論文
F-Principle:初探理解深度學習不能做什么
自然語言處理中的語言模型預訓練方法
兩行代碼玩轉Google BERT句向量詞向量
AI Challenger 2018 機器翻譯參賽總結
Google BERT應用之紅樓夢對話人物提取
深度長文:NLP的巨人肩膀(上)
NLP的巨人肩膀(下):從CoVe到BERT
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質內容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結
以上是生活随笔為你收集整理的小米9拍照黑科技:基于NAS的图像超分辨率算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 能量视角下的GAN模型(二):GAN=“
- 下一篇: 2018明星学术公众号TOP 10重磅发