arXiv热文解读 | 不懂Photoshop如何P图?交给深度学习吧
人臉編輯可以在大多數圖像編輯軟件上得到實現,但是這都需要專業知識,例如了解在特定情況下使用哪些特定工具,以便按照想要的方式有效地修改圖像,同時操作圖像編輯軟件也是耗時的。
基于深度學習下圖像編輯得到越來越多的重視和應用,在 GAN 的推動下,圖像風格轉換、圖像修復、圖像翻譯等等在近幾年有了長足的發展。這篇文章將介紹基于 GAN 損失的端到端可訓練生成網絡,在人臉修復上取得了很棒的結果,同時該模型也適用于有趣的人臉編輯。
作者丨武廣
學校丨合肥工業大學碩士生
研究方向丨圖像生成
論文引入
提到圖像編輯,一定要說的就是 Photoshop 這款軟件,近乎可以處理日常所有的照片,但是 PS 不是這么容易操作的,精通 PS 更是需要專業知識了。如何讓小白完成在圖像上勾勾畫畫就能實現圖像的編輯?這個任務當然可以交給深度學習來實現了。?
生成對抗網絡(GAN)的發展,促進了圖像生成下一系列研究的發展。圖像編輯下圖像修復是一個難點,這對于圖像編輯軟件來說也是很困難的。近幾年在深度學習發展下,圖像修復在不斷進步,最典型的方法是使用普通(方形)掩模,然后用編碼器-解碼器恢復掩蔽區域,再使用全局和局部判別器來估計結果的真假。
然而,該系統限于低分辨率圖像,并且所生成的圖像在掩蔽區域的邊緣不能很好的與原圖銜接。盡管 Deepfillv2 [1]、GuidedInpating [2]、Ideepcolor [3]、FaceShop [4] 在不斷改進實現結果,但是對于深度學習處理圖像修復上的難點還是依舊存在,總的來說主要的挑戰有兩個:1)圖像在恢復的部分上具有不和諧的邊緣;2)如果圖像太多區域被覆蓋,修復的圖像將會不合理。?
本文要解讀的論文為了解決上述限制,提出了 SC-FEGAN,它具有完全卷積網絡,可以進行端到端的訓練。提出的網絡使用 SN-patchGAN [1] 判別器來解決和改善不和諧的邊緣。該系統不僅具有一般的 GAN 損失,而且還具有風格損失,即使在大面積缺失的情況下也可以編輯面部圖像的各個部分。
這篇論文發布在 arXiv 不到10天,其源碼便已標星破千。文章的人臉編輯效果十分逼真,先一睹為快。
總結一下 SC-FEGAN 的貢獻:?
1. 使用類似于 U-Net [5] 的網絡體系結構,以及 gated convolutional layers [1]。對于訓練和測試階段,這種架構更容易,更快捷,與粗糙網絡相比,它產生了優越而細致的結果。?
2. 創建了解碼圖,顏色圖和草圖的自由格式域數據,該數據可以處理不完整圖像數據輸入而不是刻板形式輸入。?
3. 應用了 SN-patchGAN 判別器,并對模型進行了額外的風格損失。該模型適應于擦除大部分的情況,并且在管理掩模邊緣時表現出穩健性。它還允許生成圖像的細節,例如高質量的合成發型和耳環。
訓練數據處理
決定模型訓練好壞的一個重要因素就是訓練數據的處理,SC-FEGAN 采用 CelebA-HQ [6] 數據集,并將圖片統一處理為 512 x 512 大小。?
為了突顯面部圖像中眼睛的復雜性,文章使用基于眼睛位置掩模來訓練網絡。這主要用在掩碼的提取上,當對面部圖像進行訓練時,隨機應用一個以眼睛位置為起點的 free-form mask,以表達眼睛的復雜部分。此外,文章還使用 GFC 隨機添加了人臉頭發的輪廓。算法如下:
文章的又一個創新是在提取圖像的草圖和顏色圖,使用 HED 邊緣檢測器 [7] 生成與用戶輸入相對應的草圖數據,之后,平滑曲線并擦除了小邊緣。創建顏色域數據,首先通過應用大小為 3 的中值濾波,然后應用雙邊濾波器來創建模糊圖像。之后,使用 GFC [8] 對面部進行分割,并將每個分割的部分替換為相應部分的中間顏色。最后還提取噪聲表示。最終處理完得到的數據可由下圖展示,上面一行作為真實標準,下面一行為處理得到的輸入數據。
模型結構
SC-FEGAN 采用的網絡設計結構與 U-Net 類似,上采樣的思路是 U-Net 的那一套,通過 Concat 連接下采樣的特征提取完成上采樣,整體框架如下所示:
網絡的整體很好理解,圖示也很清晰,我們強調一下網絡的輸入。?
不像傳統的圖像到圖像的模型輸入是 512 x 512 x 3 的 RGB 輸入,這篇論文的輸入是尺寸為 512 × 512 × 9 的張量,這個張量是由 5 張圖片圖片構成的。
首先是被覆蓋殘缺的 RGB 圖像,也就是我們在圖片上勾勾畫畫的圖像,其尺寸為 512 x 512 x 3;其次是提取得到的草圖 512 x 512 x 1;圖像的顏色域 RGB 圖 512 x 512 x 3;掩碼圖 512 x 512 x 1;最后就是噪聲對應的 512 x 512 x 1。按照通道連接的話得到最終的模型輸入 512 x 512 x 9。?
卷積層采用的是 gated convolution,使用 3 x 3 內核,下采樣采取 2 個步幅內核卷積對輸入進行 7 次下采樣,上采樣通過 U-Net 思路進行解碼得到編輯好的圖像。解碼得到的圖像依舊是 5 張圖片,包括修復的 RGB 圖像、草圖、顏色圖、掩碼圖、噪聲圖。通過判別器和真實的 5 張圖片進行 SN-patchGAN 結構設計進行真假判斷,優化模型。
在整個網絡的卷積層后應用局部信號歸一化(LRN),生成器采用 Leaky Relu,判別器通過 SN 限制,并且施加梯度懲罰。SC-FEGAN 的損失函數由 5 部分組成,像素損失、感知損失、感知損失、風格損失、風格損失、總方差損失、總方差損失以及 GAN 的對抗損失。
先來看一下 GAN 的對抗損失,文章采用的 WGAN 的損失設計:
其中是生成器輸出的的完成圖像(包括草圖和顏色圖以后的),也就是送入判別器判別的輸入,最后判別器加上梯度懲罰項。
對于生成器希望判別器判錯,故生成器損失最小值為 -1,判別器則希望真實判為真,生成判為假,上述損失還是很好理解的。生成器完整的損失為:
像素損失保證圖像編輯生成與真實的一致性:
其中 Na 是特征 a 的數字元素,M 是二元掩模圖,用于控制修復圖像的像素,達到生成與真實的一致性。公式后一項給予擦除部分損失更多的權重。對于大區域下的擦除圖像的修復時,風格損失和感知損失是必要的。感知損失在 GAN 中的應用已經很多了,就是對中間層進行特征差異損失,這里不做贅述。
風格損失使用 Gram 矩陣比較兩個圖像的內容,風格損失表示為:
其中,,Θ 為網絡的中間層,Gq(x) 是用于在中間的每個特征圖上執行自相關的 Gram 矩陣,Gram 矩陣的形狀是 Cq×Cq。總方差損失,反應的是相鄰像素間是相似的,記為。其中:
對于列 row 也是一樣,自此整體的損失函數構建完成,在實際實驗中參數設置為 σ=0.05,β=0.001,γ=120,v=0.1,?=0.001,θ=10。
實驗
實驗首先對比了使用 U-Net 框架設計的優勢,對比的框架是 Coarse-Refined。論文測試了 Coarse-Refined 結構網絡,并注意在一些需要精確輸出的卻是模糊的。
FaceShop 已經顯示出難以修改像整個頭發區域那樣的巨大擦除圖像。由于感知和風格損失的加入,SC-FEGAN 在這方面表現更好。下圖顯示了有和沒有 VGG 損失(感知和風格損失)的結果。
實驗還與最近的研究 Deepfillv1 進行了比較,下圖顯示模型在使用自由形狀的掩模在結構和形狀的質量方面產生更好的結果。意味著沒有附加信息,如草圖和顏色,面部元素的形狀和位置具有一定的依賴值。因此,只需提供附加信息即可在所需方向上恢復圖像。
此外,即使輸入圖像被完全擦除,我們的 SC-FEGAN 也可以生成僅具有草圖和顏色自由形式輸入的人臉圖像(感興趣的可以參看論文中更多結果)。
下圖顯示了草圖和顏色輸入的各種結果,它表明模型允許用戶直觀地編輯臉部圖像功能,如發型,臉型,眼睛,嘴巴等。即使整個頭發區域被刪除,它也能夠產生適當的結果。
文章還做了給人物加上耳環的有趣實驗,這種人臉編輯確實蠻有意思:
實驗
SC-FEGAN 提出了一種新穎的圖像編輯系統,用于自由形式的蒙版,草圖,顏色輸入,它基于具有新穎 GAN 損失的端到端可訓練生成網絡。與其他研究相比,網絡架構和損失功能顯著改善了修復效果。
論文基于 celebA-HQ 數據集進行了高分辨率圖像的訓練,并在許多情況下顯示了各種成功和逼真的編輯結果。實驗證明了系統能夠一次性修改和恢復大區域,并且只需要用戶細致的勾畫就可以產生高質量和逼真的結果。
模型的框架采用 U-Net 思想,在 Decoder 端結合 Encoder 端特征實現上采樣過程下精確圖像的生成。引入感知損失和風格損失更是幫助模型實現了大區域擦除的修復。
在判別器采用 SN-patchGAN 思想,使得恢復的圖像在邊緣上更加和諧,生成器和判別器都結合了圖像的草圖、顏色圖和掩模圖進行判斷,使得修復的圖像更加逼真,同時也是論文的一個創新。實驗上的炫彩也是使得源碼得到了廣泛的關注。
參考文獻
[1] J. Yu, Z. Lin, J. Yang, X. Shen, X. Lu, and T. S. Huang.Free-form image inpainting with gated convolution. arXiv preprint arXiv:1806.03589, 2018. 2, 3, 4, 6, 7?
[2] Y. Zhao, B. Price, S. Cohen, and D. Gurari. Guided image inpainting: Replacing an image region by pulling content from another image. arXiv preprint arXiv:1803.08435, 2018. 2?
[3] R. Zhang, J.-Y. Zhu, P. Isola, X. Geng, A. S. Lin, T. Yu, and A. A. Efros. Real-time user-guided image colorization with learned deep priors. arXiv preprint arXiv:1705.02999, 2017.2, 3?
[4] T. Portenier, Q. Hu, A. Szabo, S. Bigdeli, P. Favaro, and M. Zwicker. Faceshop: Deep sketch-based face image editing. arXiv preprint arXiv:1804.08972, 2018. 2, 3, 4, 6, 7?
[5] O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing andcomputer-assisted intervention, pages 234–241. Springer,2015. 2, 3, 4?
[6] T. Karras, T. Aila, S. Laine, and J. Lehtinen. Progressive growing of gans for improved quality, stability, and variation.arXiv preprint arXiv:1710.10196, 2017. 3, 4?
[7] S. ”Xie and Z. Tu. Holistically-nested edge detection. In Proceedings of IEEE International Conference on Computer Vision, 2015. 3?
[8] Y. Li, S. Liu, J. Yang, and M.-H. Yang. Generative face completion. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), volume 1, page 3, 2017. 1,3, 4
點擊以下標題查看更多往期內容:?
Airbnb實時搜索排序中的Embedding技巧
圖神經網絡綜述:模型與應用
近期值得讀的10篇GAN進展論文
F-Principle:初探理解深度學習不能做什么
基于深度學習和心臟影像預測生存概率
異構信息網絡表示學習論文解讀
小米拍照黑科技:基于NAS的圖像超分辨率算法
深度思考 | 從BERT看大規模數據的無監督利用
FSRNet:端到端深度可訓練人臉超分辨網絡
超詳綜述:GAN在圖像生成上的應用
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的arXiv热文解读 | 不懂Photoshop如何P图?交给深度学习吧的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Nature论文解读 | 基于深度学习和
- 下一篇: F-Principle:初探深度学习在计