FSRNet:端到端深度可训练人脸超分辨网络
作者丨左育莘
學校丨西安電子科技大學
研究方向丨計算機視覺
這篇文章 FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors 是 CVPR 2018 的文章(spotlight),主要思想是通過人臉圖像的特殊性,從人臉圖像中提取幾何先驗信息來提高超分辨率的效果,同時,為了生成更逼真的人臉圖像,作者還提出了“人臉圖像超分辨率生成對抗網絡”。
面部超分辨率(SR)是特定的一類圖像超分辨率問題。目前大多數人臉圖像超分辨算法是由通用的圖像超分辨算法加以適當修改得到的。文章提出,可以利用特定的面部先驗知識來獲得更好的超分辨面部圖像。
文章提出了一個端到端的深度可訓練面部超分辨網絡,充分利用人臉圖像的幾何先驗信息,即面部 landmark 的 heatmap 和人臉解析圖,來對低分辨率人臉圖像進行超分辨率。
網絡結構及思想
具體而言,文章提出的網絡的整體結構如下:首先構建粗的 SR 網絡來生成粗的 HR 圖像。然后,粗的 HR 圖像會被送到兩個分支去:?
1. 精細的SR 編碼器,提取圖像特征。?
2. 先驗信息預測網絡,估計 landmark heatmap 和解析圖。?
最終,圖像特征和先驗信息會送到一個精細的 SR 解碼器來恢復 HR 圖像。?
整個網絡的結構如下圖所示:
▲?整體網絡結構,標號解釋:k3n64s1:kernel size:3×3,number of channels:64,stride:1
這里主要有兩個思想:?
1. 為什么不直接從低分辨率圖像得到人臉的幾何先驗信息呢??
由于直接從 LR 輸入中估計面部的 landmark 以及解析圖是有一定復雜度的,所以首先構建一個粗糙的 SR 網絡,來生成粗糙的 HR 圖像。然后粗糙的 SR 圖像就會被送到一個精細的 SR 網絡,這個網絡中,一個精細的 SR 編碼器和一個先驗信息的估計網絡會共同以粗糙的 HR 圖像作為輸入,然后后面接上一個精細的 SR 解碼器。?
精細的 SR 編碼器提取圖像特征,而先驗信息的估計網絡則通過多任務學習同時估計 landmark heatmap 和解析圖,這樣操作的話,得到的效果會更好。?
2. 幾何先驗特征的選取?
任何真實世界的物體在其形狀和紋理上都有不同的分布,包括臉部。比較面部形狀和紋理,我們選擇建模并利用形狀先驗信息基于兩個考慮因素。
第一,當圖像從高分辨率到低分辨率時,相比于紋理信息,形狀信息會更好地保存下來,因此更有可能被提取出來促進超分辨率的效果。
第二,形狀先驗信息比紋理先驗信息更容易表現。例如,面部解析估計不同面部組件的分割,landmark 則提供面部關鍵點的準確位置。兩者都可以表示面部形狀,而面部解析則帶來更多粒度。相反,目前尚不清楚如何對一張特定的人臉的高維度紋理先驗進行表示。
網絡細節
粗糙的SR網絡(第一階段)
▲?3個殘差單元,kernel size和stride的設置使得特征圖的大小始終不變
精細的SR網絡(第二階段)
▲?第二階段網絡,HG Block指的就是HourGlass結構
1. 先驗信息估計網絡?
從最近成功的疊加熱圖回歸在人體姿勢估計中受到啟發,文章提出在先驗信息估計網絡中使用一個 HourGlass 結構來估計面部 landmark 的 heatmap 和解析圖。因為這兩個先驗信息都可以表示 2D 的人臉形狀,所以在先驗信息估計網絡中,特征在兩個任務之間是共享的,除了最后一層。
為了有效整合各種尺度的特征并保留不同尺度的空間信息,HourGlass block 在對稱層之間使用 skip-connection 機制。最后,共享的 HG 特征連接到兩個分離的 1×1 卷積層來生成 landmark heatmap和解析圖。?
2. 精細的SR編碼器?
受到 ResNet 在超分辨任務中的成功的啟發,文章使用 residual block 進行特征提取??紤]到計算的開銷,先驗信息的特征會降采樣到 64×64。為了使得特征尺寸一致,編碼器首先經過一個 3×3,stride為 2 的卷積層來把特征圖降采樣到 64×64。然后再使用 ResNet 結構提取圖像特征。
3. 精細的SR解碼器?
解碼器把先驗信息和圖像特征組合為輸入,首先將先驗特征 p 和圖像特征 f 進行 concatenate,作為輸入。然后通過 3×3 的卷積層把特征圖的通道數減少為 64。然后一個 4×4 的反卷積層被用來把特征圖的 size 上采樣到 128×128。然后使用 3 個 residual block 來對特征進行解碼。最后的 3×3 卷積層被用來得到最終的 HR 圖像。
損失函數
FSRNet?
FSRNet 包含四個部分:粗糙的 SR 網絡,精細的 SR 編碼器,先驗信息估計網絡,精細的 SR 解碼器。設 x 為輸入的低分辨率圖像,y 和 p 是高分辨率圖像和估計得到的先驗信息。?
由于直接從低分辨率圖像中得到圖像的先驗信息的效果不是那么好,所以首先構建一個粗糙的 SR 網絡來得到一個粗糙的 SR 圖像:
C 代表映射(LR 輸入到粗糙的 HR 圖像輸出之間的映射)。然后,Yc 會被送入先驗信息的估計網絡 P 和精細的 SR 編碼器 F:?
f 為從網絡 F 提取得到的特征。在編碼以后,SR 解碼器則會利用圖像特征 f 和圖像先驗信息 p 得到最終的 HR 圖像 y:
給定訓練集,FSRNet的損失函數如下(和為 ground truth):
FSRGAN
對于 FSRGAN(人臉超分辨生成對抗網絡),作者參考 CVPR 2017 用于圖像轉換的條件生成對抗網絡 cGAN [1]:
并引入了感知域損失(high-level 的特征圖之間的損失,文章使用預訓練的 VGG-16 來得到高層特征圖):
得到最終的損失函數為:
訓練設置
Dataset:Helen & celeA
對于 Helen 數據集,2330 張圖像,后 50 張圖像作為測試,其他作為訓練,并且使用數據增強(旋轉 90°,180°,270°,以及水平翻轉,所以每張圖都有 7 張數據增強圖),Helen 數據集的每張圖像都有 194 個 landmark 和 11 個解析圖。?
對于 celeA 數據集,用前 18000 張圖像進行訓練,后 100 張圖像進行評價。celeA 數據集的 ground truth landmark 數只有 5 個,所以要用一些方法得到 68 個 landmark,以及使用 GFC 方法來估計解析圖的 ground truth。
訓練設定
根據面部區域粗略裁剪訓練圖像,在沒有任何預先對齊的情況下裁剪到 128 × 128,彩色圖像訓練。低分辨率圖像首先經過bicubic插值到高分辨率圖像大小,再進行訓練。?
框架:Torch 7?
優化器:RMSprop?
初始學習率:
Mini-batch size:14
在 Helen 數據集上訓練 FSRNet 大約需要 6 小時(Titan X)。
相關實驗(8倍放大)
先驗信息對人臉超分辨率的影響:
人臉圖像的先驗信息真的對超分辨有用嗎?
不同的人臉先驗信息帶來的提升有什么不同??
首先,文章證明了人臉先驗信息對人臉超分辨是很重要的,即使沒有任何提前處理的步驟。?
作者把先驗信息估計網絡移除以后,構建了一個 Baseline 網絡。基于 Baseline 網絡,引入 ground truth 人臉先驗信息(landmark heatmap 和解析圖)到拼接層,得到一個新的網絡。
▲?Baseline網絡 + ground truth人臉先驗信息
為了公平進行比較,拼接層的特征圖通道數量和其他兩個網絡的通道數量是一樣的。得到不同網絡的性能對比:
▲?網絡性能對比
可以看到,用了先驗信息的模型有提高,分別提高了 0.4dB(加入 landmark heatmap),1.0dB(加入解析圖),1.05dB(兩個都加)。?
設定不同的 landmark 數,以及使用局部解析圖或者全局解析圖。得到的性能比較結果(上圖右半部分)。?
通過上面結果的比較,得出以下結論:?
1. 解析圖比 landmark heatmap 含有更多人臉圖像超分辨的信息,帶來的提升更大;
2. 全局的解析圖比局部的解析圖更有用;
3. landmark 數量增加所帶來的提升很小。?
估計得到的先驗信息的影響:
Baseline_v1:完全不包含先驗信息?
Baseline_v2:包含先驗信息,但不進行監督訓練?
性能比較:
結論:?
1. 即使不進行監督訓練,先驗信息也能幫助到 SR 任務,可能是因為先驗信息提供了更多的高頻信息;
2. 越多先驗信息越好;
3. 最佳性能為 25.85dB,但是使用 ground truth 信息時,能達到 26.55dB。說明估計得到的先驗信息并不完美,更好的先驗信息估計網絡可能會得到更好的結果。
Hourglass數量的影響:
強大的先驗信息預測網絡會得到更好的結果,所以探究 Hourglass 數量 h 對網絡性能的影響。分別取 1,2,4,結果為 25.69,25.87,25.95。
不同的 Hourglass 數量對 landmark 估計的影響:
▲?第一行h=1,第二行h=2
可以看到 h 數量增加時,先驗信息估計網絡結構越深,學習能力越強,性能越好。
與SOTA方法的比較
放大 8 倍后的性能比較,雖然 FSRGAN 的兩項指標(PSNR/SSIM)都不如 FSRNet,但是從視覺效果上看更加真實。
這也與目前的一個共識相對應:基于生成對抗網絡的模型可以恢復視覺上合理的圖像,但是在一些指標上(PSNR , SSIM)的值會低。而基于 MSE 的深度模型會生成平滑的圖像,但是有高的 PSNR/SSIIM。
總結
本文提出了深度端到端的可訓練的人臉超分辨網絡 FSRNet,FSRNet 的關鍵在于先驗信息估計網絡,這個網絡不僅有助于改善 PSNR/SSIM,還提供從非常低分辨率的圖像精確估計幾何先驗信息(landmark heatmap 和解析圖)的解決方案。實驗結果表明 FSRNet 比當前的 SOTA 方法要更好,即使在未對齊的人臉圖像上。?
未來的工作可以有以下幾個方面:1)設計一個更好的先驗信息估計網絡;2)迭代地學習精細的 SR 網絡;3)調研其他有用的臉部先驗信息。
參考文獻
[1] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros, Image-to-Image Translation with Conditional Adversarial Networks, CVPR 2017.
點擊以下標題查看更多往期內容:?
Airbnb實時搜索排序中的Embedding技巧
圖神經網絡綜述:模型與應用
近期值得讀的10篇GAN進展論文
F-Principle:初探理解深度學習不能做什么
自然語言處理中的語言模型預訓練方法
兩行代碼玩轉Google BERT句向量詞向量
AI Challenger 2018 機器翻譯參賽總結
Google BERT應用之紅樓夢對話人物提取
深度長文:NLP的巨人肩膀(上)
NLP的巨人肩膀(下):從CoVe到BERT
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的FSRNet:端到端深度可训练人脸超分辨网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Byte Cup 2018国际机器学习竞
- 下一篇: 我是一名普通程序员,通过自己的努力,我的