S2FGAN论文阅读
S2FGAN: Semantically Aware Interactive Sketch-to-Face Translation
我們的方法只需指定要更改的屬性,就可以操作單個或多個人臉屬性。
生成性對抗網絡[7]是一種新興的圖像合成技術,在圖像到圖像(I2I)的翻譯中取得了巨大成功?,F在,通過使用條件GANs學習像素對應關系,從草圖生成照片逼真的人臉成為可能。 盡管這些技術仍然成功地讓新手藝術家從草圖中恢復人臉,但它們往往無法控制特定面部屬性的強度。
本文研究了GAN模型如何提高此類用戶從簡單草圖編輯屬性的可解釋性和靈活性。
對于從草圖到人臉的生成,方法廣泛使用編碼器-解碼器GAN結構[31,20,3]。
For attribute editing on the generated face, we per-
form conditional manipulation of desired facial attributes
without affecting the rest attributes of interests
對于人臉生成的屬性編輯,我們對所需的人臉屬性執行條件操作,并且不影響其他屬性。
- 我們提出了S2FGAN框架,用于草圖到圖像的轉換,該框架具有人臉重建、屬性編輯和屬性強度的交互操作功能。我們的模型可以處理單屬性和多屬性的編輯和操作問題。此外,用戶可以僅通過指定/更改目標屬性(語義)和保留人臉身份來控制屬性的強度。
- 為了提高草圖到圖像的翻譯質量,我們提出了一種語義層面的感知損失。我們的屬性編輯模型使用潛在的語義丟失,它以更廣泛的控制、多樣性和平滑度校準人臉屬性。
- 我們比較了最先進的草圖到圖像轉換模型和屬性編輯模型(AttGAN[9]、STGAN[22]和替代基線)(DeepFaceDrawing[3]、DeepFacePencil[20]、Deep[33]、Pix2PixHD[31])。我們的模型能夠通過檢測所需的面部結構(見圖3)來翻譯繪制糟糕的人體草圖,然后執行屬性編輯和強度控制。
Sketch-to-Image Generation.
然而,他們沒有考慮通過包括來自用戶的語義描述來改進生成過程。因此,它們無法控制圖像屬性的多樣性。本文旨在通過提供控制屬性強度的機會,幫助草圖到圖像生成過程。
Attribute Editing.
基于關鍵字的編輯的一個已知問題是,它需要手動指定要編輯和保留的兩個屬性。
最近,STGAN[22]通過改進AttGAN的生成過程[9]解決了這個問題。然而,他們沒有考慮通過涉及語義屬性來輔助各種圖像到圖像翻譯問題的生成過程。
Method
Attribute Editing on Latent Code
屬性編輯與保留身份可能是一個悖論
有兩種屬性編輯的方法:
我們學習了一個分離的潛在空間,它的集合A中的所有屬性彼此正交。通過簡單的添加來編輯中的屬性子集不會影響其他屬性。
屬性編輯可以通過語義分解來完成。
在集合A中的所有屬性都要相互正交,編輯一個屬性則不會影響其他的屬性。
我們可以操作一部分屬性在 S + S^+ S+里面,并且保留其他的屬性在 S ? S^{-} S?
S2FGAN Framework
S2FGAN由4個部分組成: E i E_i Ei?圖像潛層編碼器、 E s E_s Es?草圖潛層編碼器, M M M屬性映射網絡, D D D風格識別解碼器, F F F一個判別器
我們用 G i G_i Gi?和 G s G_s Gs?表示重構圖像分支: D ( M ( E i ( I g t ) , a ) ) D(M(E_i(I_{gt}),a)) D(M(Ei?(Igt?),a))
和素描到圖像的分支 D ( M ( E s ( I i ) , a ) ) D(M(E_s(I_{i}),a)) D(M(Es?(Ii?),a))
編碼和操作潛層代碼,我們的解碼器和判別器采用styelGAN作為骨架。
Encoder
素描往往無法描述這樣的面部紋理。 為了解決這一問題,我們設計了一種圖像潛在編碼器 。用 E i E_i Ei?圖像潛層編碼器、 E s E_s Es?草圖潛層編碼器,去輔助構造草圖生成一個真實的圖像。我們的編碼器是一個簡單的ResNet。
考慮到不同的人臉屬性需要不同大小的卷積特征圖,我們在每次下采樣操作之前將特征圖合并并將匯總后的特征傳遞給多層感知器(MLP) 。
然后,我們對來自不同編碼器層次結構的處理特征求和,并通過另一個MLP細化這些特征 。這些操作可以讓編碼器從空間中識別人臉特征。蒼白皮膚將更合理的出現在編碼器的早期卷積特性中。
Attribute Mapping Network.
一些方法通過使用鉛筆素描作為輸入來編輯照片真實感人臉的屬性[13,33]。其他人則通過關鍵詞描述(例如男性和年輕人)編輯面部屬性[4,9,18,22]。由于它需要較少的手動交互,本文將探討后一種方法。
基于關鍵字的編輯的一個老生常談的問題,它需要手動指定要編輯和保留的兩個屬性
最近,STGAN[22]通過改進AttGAN的生成過程來解決這個問題
然而,他們沒有考慮通過涉及語義屬性來輔助各種圖像到圖像翻譯問題的生成過程。
在另一項工作中,InterfaceGAN[29]通過編輯StyleGAN[15]或PGGAN[14]中提出的潛在代碼,成功地控制了不同的圖像生成。它們的GAN反演結果很弱,并且缺乏對不希望更改的多個屬性的分析和保留效果。
通過補償草圖、面具等有限的表現力,可以幫助用戶表達他們的抽象想法。
我們使用引理3.1和引理3.2描述了屬性映射網絡的兩個不同版本。
在通過確保感興趣的屬性語義相互正交來分離它們之后,屬性編輯任務變成了一個簡單的加法操作。
我們按照圖2(a)中的等式6進行屬性編輯
r i ′ = r i + ∑ j ∈ [ 1 … ∣ A ∣ ] a j w j \mathbf{r}_{i}^{\prime}=\mathbf{r}_{i}+\sum_{j \in[1 \ldots|\mathbf{A}|]} a_{j} \mathbf{w}_{j} ri′?=ri?+∑j∈[1…∣A∣]?aj?wj? (6)
這個嵌入層Direction(圖2中的方向)也可以是屬性超平面 [ w 1 … w ∣ a ∣ ] [w_1…w _{| a |}] [w1?…w∣a∣?]的副本。
δ表示多層卷積塊,用于建模語義分解.
b i = δ ( concat ? ( e ? a , r i ) ) , c i = Norm ? ( f 1 ( b i ) ) r i ′ = f 2 ( c i c i T f 3 ( b i ) ) + f 4 ( concat ? ( e ? a , r i ) ) \begin{aligned} \mathbf_{i} &=\delta\left(\operatorname{concat}\left(\mathbf{e} \cdot \mathbf{a}, \mathbf{r}_{i}\right)\right), \quad \mathbf{c}_{i}=\operatorname{Norm}\left(f_{1}\left(\mathbf_{i}\right)\right) \\ \mathbf{r}_{i}^{\prime} &=f_{2}\left(\mathbf{c}_{i} \mathbf{c}_{i}^{T} f_{3}\left(\mathbf_{i}\right)\right)+f_{4}\left(\operatorname{concat}\left(\mathbf{e} \cdot \mathbf{a}, \mathbf{r}_{i}\right)\right) \end{aligned} bi?ri′??=δ(concat(e?a,ri?)),ci?=Norm(f1?(bi?))=f2?(ci?ciT?f3?(bi?))+f4?(concat(e?a,ri?))?
Multi-Objective Learning
用 u i \mathbf{u}_i ui?表示地面真相圖像 I g t I_{gt} Igt?的屬性
語義層面的知覺損失(不太懂)
與直接在合成 I o u t I_{out} Iout?和地面真實 I g t I_{gt} Igt?圖像之間施加 L 1 L_1 L1?損失[12,11,9,4,22]、感知損失[31,33]和特征匹配損失[31,33,3,20]不同,我們建議在潛在空間上匹配合成和地面真實圖像的語義。
隨著輸入圖片分辨率的增加,模型輸出的大小呈指數增長。
在這種情況下,使用 L 1 L_1 L1?、感知和特征匹配損失進行優化變得更具挑戰性。
我們GAN的潛在空間計算低維圖像特征的有區別的總結。它維護特定領域的感知上下文,并確保更快的優化 我們定義可語義層面的損失:
L s e m = E [ ∥ E i ? ( I g t ) ? E s ( I i ) ∥ 2 ] \mathcal{L}_{s e m}=\mathbb{E}\left[\left\|\mathbf{E}_{i}^{*}\left(I_{g t}\right)-\mathbf{E}_{s}\left(I_{i}\right)\right\|_{2}\right] Lsem?=E[∥Ei??(Igt?)?Es?(Ii?)∥2?]
判別器 Q Q Q使草圖編碼器 E s Es Es正則化。
為了避免兩階段對抗性訓練,GRL層[6]用于在訓練期間更新草圖編碼器Es之前反轉梯度。
為了發現地面真實圖像Igt的潛在代碼,我們使用圖像重建作為輔助任務
另一種直覺是,圖像重建比從草圖到圖像的轉換更簡單。
我們使用 L 1 L_1 L1?損失 L r e c L_{rec} Lrec?和感知損失 L p e r c e p t L_{percept} Lpercept?進行圖像重建。
潛在語義損失(不太懂)
這里,我們分別描述了引理3.1和引理3.2對應的屬性重建損失。
其中“*”表示反向傳播期間從計算圖中刪除的組件。
或者引理3.1,我們專注于學習一個分離的潛在空間,其中a中的所有屬性彼此正交。損失是:
L o r t h o = E [ ∥ E i ( I g t ) W T ? u i ∥ 2 2 ] + ∥ W W T ? 1 ∥ 2 \mathcal{L}_{ortho}=\mathbb{E}[\|\mathbf{E}_{i}(I_{gt})W^T-\mathbf{u}_i\|^2_2]+\|WW^T-\mathbb{1}\|_2 Lortho?=E[∥Ei?(Igt?)WT?ui?∥22?]+∥WWT?1∥2?
為了防止 L r e c L_{rec} Lrec?和 L o r t h o L_{ortho} Lortho?的共同適應,我們必須為潛在代碼保持適當的維數 d d d。
L decom? = E [ ∥ E i ? ( I g t ) W T ? u i ∥ 2 2 ] + E [ ∥ M ( E i ? ( I g t ) , a ) ? E i ? ( I g t ) ( W ? ) T ? a ∥ 2 2 ] + E [ ∥ M ( M ( E i ? ( I g t ) , a ) , ? a ) ? E i ? ( I g t ) ∥ 2 ] \begin{aligned} \mathcal{L}_{\text {decom }}=& \mathbb{E}\left[\left\|\mathbf{E}_{i}^{*}\left(I_{g t}\right) \mathbf{W}^{T}-\mathbf{u}_{i}\right\|_{2}^{2}\right] \\ &+\mathbb{E}\left[\left\|\mathbf{M}\left(\mathbf{E}_{i}^{*}\left(I_{g t}\right), \mathbf{a}\right)-\mathbf{E}_{i}^{*}\left(I_{g t}\right)\left(\mathbf{W}^{*}\right)^{T}-\mathbf{a}\right\|_{2}^{2}\right] \\ &+\mathbb{E}\left[\left\|\mathbf{M}\left(\mathbf{M}\left(\mathbf{E}_{i}^{*}\left(I_{g t}\right), \mathbf{a}\right),-\mathbf{a}\right)-\mathbf{E}_{i}^{*}\left(I_{g t}\right)\right\|_{2}\right] \end{aligned} Ldecom??=?E[∥∥?Ei??(Igt?)WT?ui?∥∥?22?]+E[∥∥∥?M(Ei??(Igt?),a)?Ei??(Igt?)(W?)T?a∥∥∥?22?]+E[∥M(M(Ei??(Igt?),a),?a)?Ei??(Igt?)∥2?]?
第一個組件學習從潛在代碼中分類屬性。
第二個組件強制屬性映射網絡以所需的強度操縱屬性。
第三個組件確保屬性編輯的識別變量,即,潛在代碼應該用兩種反向編輯行為重建 。
在我們的實驗中,Ldecom的圖像質量更好,Lortho在屬性編輯方面更強。
Lortho消除了與數據分布相矛盾的屬性語義。相比之下,Ldecom允許關聯屬性
我們使用[15,16]中帶有梯度懲罰LR1的常規對抗損失Ladv來訓練我們的模型。
他們使用相同的語義水平知覺損失、對抗損失和梯度懲罰,但與上述不同的潛在語義損失相對應。
Conclusion
本文提出了兩種以草圖圖像為輸入的真實感人臉生成模型S2F-DEC和S2F-DIS。它們可以在生成的臉上賦予屬性,并包括對屬性強度的滑動操作。此外,考慮到單屬性和多屬性編輯情況,我們生成的人臉保留了主體身份。通過采用所提出的語義層感知損失和潛在語義損失,我們可以靈活地變換所需的人臉屬性,構造出具有照片真實感的人臉。在大型人臉采集數據集上的實驗表明,S2F-DEC和S2F-DIS能夠以更出色的可控性準確編輯人臉屬性,即使是非真實感輸入 。
總結
以上是生活随笔為你收集整理的S2FGAN论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 哄她开心的圣诞树html源码,复制粘贴就
- 下一篇: mac php 连接 mssql 200