CVPR 2021 | 五官复原效果惊艳,腾讯ARC利用GAN人脸先验来解决
作者|機(jī)器之心編輯部
?來源|機(jī)器之心
人臉復(fù)原 (Face Restoration) 是指從低質(zhì)量的人臉中復(fù)原得到高清的人臉。真實(shí)世界中的人臉復(fù)原是一個(gè)很有挑戰(zhàn)的任務(wù),因?yàn)榻蒂|(zhì) (degradation) 過程復(fù)雜且不盡相同。來自騰訊 PCG 應(yīng)用研究中心 (ARC) 的研究者們提出了利用預(yù)先訓(xùn)練好的人臉生成模型提供的先驗(yàn),來指導(dǎo)人臉復(fù)原的任務(wù)。
真實(shí)世界的人臉復(fù)原是一個(gè)盲問題,即我們不清楚降質(zhì)過程, 在實(shí)際應(yīng)用中,同時(shí)也面臨著各種各樣降質(zhì)過程的挑戰(zhàn)。對(duì)于人臉這個(gè)特定的任務(wù), 之前的工作往往會(huì)探索人臉特定的先驗(yàn), 并且取得了較好的效果。常見的人臉先驗(yàn)有兩類:
幾何人臉先驗(yàn), 比如人臉關(guān)鍵點(diǎn)、人臉分割圖、人臉熱力圖。然而從低質(zhì)量的圖片中很難取得比較準(zhǔn)確的幾何信息。此外, 它們很難提供紋理方面的信息。
參考圖,即從數(shù)據(jù)庫中取得相同或者相似的人臉作為參考 (Reference) 來復(fù)原。但是這樣的高質(zhì)量的參考圖在實(shí)際中很難獲取。ECCV20 提出的 DFDNet 工作進(jìn)一步構(gòu)建了一個(gè)人臉五官的字典來作為參考, 它可以取得更好的效果, 但是會(huì)受限于字典的容量, 而且只考慮了五官, 沒有考慮整個(gè)臉。
與此同時(shí), 生成對(duì)抗網(wǎng)絡(luò) GAN 的蓬勃發(fā)展, 特別是 StyleGAN2 能夠生成足夠以假亂真的人臉圖像給來自騰訊 PCG 應(yīng)用研究中心 (ARC) 的研究者們提供了一個(gè)思路: 是否可以利用包含在人臉生成模型里面的「知識(shí)」來幫助人臉復(fù)原呢?
論文地址:?
https://arxiv.org/abs/2101.04061?
研究核心利用了包含在訓(xùn)練好的人臉生成模型里的「知識(shí)」, 被稱之為生成人臉先驗(yàn) (Generative Facial Prior, GFP)。它不僅包含了豐富的五官細(xì)節(jié), 還有人臉顏色, 此外它能夠把人臉當(dāng)作一個(gè)整體來對(duì)待, 能夠處理頭發(fā)、耳朵、面部輪廓。基于預(yù)訓(xùn)練好的生成模型, 研究者們提出了利用生成人臉先驗(yàn) GFP 的人臉復(fù)原模型 GFP-GAN。先來看看它做到的效果:
?
相比于近幾年其他人臉復(fù)原的工作, GFP-GAN 不僅在五官恢復(fù)上取得了更好的細(xì)節(jié), 整體也更加自然, 同時(shí)也能夠?qū)︻伾幸欢ǖ脑鰪?qiáng)作用。
研究方法
首先來看 StyleGAN2 生成模型,它從一個(gè)可學(xué)習(xí)的常數(shù)向量開始, 不斷地提高分辨率。其中的 latent code 向量用來調(diào)制 (Modulate) 各個(gè)卷積層的權(quán)重,最后生成真實(shí)且多樣的人臉。
GFPGAN
下圖是該研究的主要框架, 輸入一張低質(zhì)量的人臉, 首先經(jīng)過 UNet 結(jié)構(gòu), 在這里有復(fù)原 loss 的 L1 約束 (灰色箭頭),用以粗略地去除 degradations, 比如噪聲、模糊、JPEG 等。同時(shí)更重要的是, 得到提取的 latent 特征向量 (綠色箭頭) 和空間特征 (黃色箭頭)。
?
在人臉復(fù)原中, 與其他工作不同, 僅僅通過調(diào)制 StyleGAN 的 latent codes, 因?yàn)闆]有考慮局部的空間信息會(huì)極大影響人臉的 identity。因此也要利用空間的特征來調(diào)制 StyleGAN 里面的特征。
GFP-GAN 基于現(xiàn)有的高效的空間特征變換 (Spatial Feature Transform,SFT) 層來達(dá)到這個(gè)目的。它能夠根據(jù)輸入的條件(這里是提取的低質(zhì)量的圖像特征), 生成乘性特征和加性特征,對(duì) StyleGAN 的特征做仿射變換。為了進(jìn)一步平衡輸入圖像的信息和 StyleGAN 中的信息, GFP-GAN 進(jìn)一步將通道拆分為兩部分, 一部分用來調(diào)制, 一部分直接跳躍過去。這樣的調(diào)制會(huì)在由小到大的每個(gè)空間尺度上進(jìn)行, 提高調(diào)制的效果。
損失函數(shù)
除了一般的 L1 和 Perceptual 復(fù)原損失函數(shù)外, GFP-GAN 的訓(xùn)練還使用了:
全局的 Discriminator, 判斷人臉是否是真實(shí)的;
人臉五官的 Discriminators, 用來判斷局部的人臉五官是否清晰, GFP-GAN 還考慮了紋理細(xì)節(jié)多且較難恢復(fù)的左右眼睛和牙齒;
為了保持人臉 identity 的一致, 使用了人臉 identity 一致?lián)p失函數(shù), 即在人臉識(shí)別模型的特征空間中去拉近。
訓(xùn)練數(shù)據(jù)
和之前大部分工作類似,GFP-GAN 采用了 Synthetic 數(shù)據(jù)的訓(xùn)練方式。研究者們發(fā)現(xiàn)在合理范圍的 Synthetic 數(shù)據(jù)上訓(xùn)練, 能夠涵蓋大部分的實(shí)際中的人臉。GFP-GAN 的訓(xùn)練采用了經(jīng)典的降質(zhì)模型, 即先高斯模糊, 再降采樣, 然后加噪聲, 最后使用 JPEG 壓縮。
?
實(shí)驗(yàn)結(jié)果
研究者們首先在 CelebA-Test 上做了測(cè)試:
在 Synthetic 的量化指標(biāo)上, 該研究提出的方法在 LPIPS、FID、 NIQE 都能夠取得最好的結(jié)果,Deg. 是指人臉識(shí)別模型 ArcFace 的 Cosine 距離, 較小的值, 說明 identity 也保持的很好。?
?
研究者們收集了多個(gè)不同來源的真實(shí)世界的人臉測(cè)試集, 都取得了不錯(cuò)的視覺效果。
?
在實(shí)際人臉測(cè)試指標(biāo)上, GFP-GAN 也具有較好的 FID 和 NIQE:
??
研究者們還做了對(duì)比實(shí)驗(yàn), 說明 CS-SFT、GFP、 pyramid loss 以及針對(duì)五官的 component loss 帶來的效果提升。
當(dāng)然, 現(xiàn)實(shí)世界的人臉多種多樣, 降質(zhì)模型也非常復(fù)雜, 即使 GFP-GAN 取得了很好的效果, ?但也存在局限性。感興趣的讀者可以閱讀論文原文了解更多實(shí)驗(yàn)細(xì)節(jié)。
研究團(tuán)隊(duì)
該方法是由騰訊 PCG 應(yīng)用研究中心(ARC)的研究者提出的。應(yīng)用研究中心被稱為騰訊 PCG 的「?jìng)刹毂埂ⅰ柑胤N兵」,站在騰訊探索挑戰(zhàn)智能媒體相關(guān)前沿技術(shù)的第一線。
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的CVPR 2021 | 五官复原效果惊艳,腾讯ARC利用GAN人脸先验来解决的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 管中窥“视频”,“理解”一斑 —— 视频
- 下一篇: 红酒箱里送的工具都是做什么用的?