MaskGAN:Towards Diverse and Interactive Facial Image Manipulation翻译
(原文中圖有點亂,全部貼在本博客末尾)
摘要
近年來,人臉圖像處理取得了很大的進展。然而,以前的方法要么對預先確定的一組面部屬性進行處理,要么讓用戶幾乎沒有交互處理圖像的自由。為了克服這些缺點,我們提出了一個新的框架,稱為MaskGAN,實現了多樣性和互動的面部處理。我們的核心思想是:語義上的面部掩膜是對靈活的面部操作以及可靠的面部細節保存的的一個中間表示。MaskGAN主要由兩部分組成:1)密集映射網絡(DMN)和2)編輯行為模擬訓練(EBST)。具體來說,DMN學習任意形式的用戶掩膜與目標圖像之間的樣式映射,這使得可以生成多種多樣的結果。EBST對用戶在原始掩膜上的編輯進行建模,使整個框架對各種操作輸入更加魯棒。具體來說,它引入了雙重編輯一致性作為輔助監督信號。為了便于廣泛的研究,我們構建了一個大規模的高分辨率人臉數據集,該數據集具有細粒度的掩膜注釋,名為CelebAMask HQ。MaskGAN在兩個具有挑戰性的任務:屬性轉換和樣式復制上進行了綜合評估,顯示出優于其他最先進方法的性能。代碼、模型、數據集從如下鏈接獲得:https://github.com/switchablenorms/CelebAMask-HQ。
1.介紹
人臉圖像處理是計算機視覺和計算機圖形學中的一項重要任務,它可以實現自動的面部表情和風格(如發型、膚色)轉換等許多應用。此任務大致可分為兩類:語義級處理和幾何級處理。然而,這些方法要么對預先定義的屬性集進行處理,要么讓用戶幾乎沒有交互處理面部圖像的自由。為了克服上述缺點,我們提出了一個名為MaskGAN的新框架,旨在實現多樣性和交互式的面部處理。我們的核心思想是:語義上的面部掩膜是對靈活的面部操作以及可靠的面部細節保存的的一個中間表示。MaskGAN沒有直接變換像素空間中的圖像,而是將面部處理過程學習為在掩膜上的轉化,從而在面部組成、形狀和姿勢方面產生更多樣的結果。?MaskGAN的另一個優點是,它為用戶提供了一種直觀的方式來指定形狀、位置和面部組成等用于交互式編輯。
MaskGAN主要由兩部分組成:1)密集映射網絡和2)編輯行為模擬訓練。前者學習語義掩膜和渲染圖像之間的映射,后者學習建模用戶處理掩膜時的行為。具體來說,密集映射網絡由圖像生成主干網和空間感知樣式編碼器組成。空間感知樣式編碼器以目標圖像及其對應的語義標簽掩模作為輸入;它為圖像生成主干生成空間感知樣式特征。在接收到用戶修改之后的掩膜后,圖像生成骨干學習根據空間感知樣式特征合成人臉。通過這種方式,我們的密集映射網絡能夠學習用戶修改的掩膜和目標圖像之間的細粒度樣式映射。
編輯行為模擬訓練是一種建模用戶在原掩碼上編輯行為的訓練策略。它引入了雙重編輯一致性作為輔助監督信號。其訓練流程由存在的密集映射網絡、預訓練的MASKVAE和alpha混合子網絡組成。核心思想是將兩個局部擾動的輸入掩膜(由MASKVAE學習)混合在一起的生成結果應該保留主觀的外觀和身份信息。具體來說,具有編碼解碼架構的MaskVAE負責建模幾何結構先驗的流形。alpha混合子網絡學習執行alpha混合作為圖像合成,這有助于保持處理的一致性。經過編輯行為模擬訓練后,密集映射網絡對推理過程中用戶輸入掩碼的各種變化具有更強的魯棒性。
MaskGAN在屬性轉換和風格復制兩個具有挑戰性的任務上進行了綜合評估,與其他最先進的方法相比,顯示出優越的性能。為了便于大規模的研究,我們構建了一個大規模的高分辨率人臉數據集,該數據集帶有細粒度的掩膜標簽,名為CelebAMask HQ。具體來說,CelebAMask HQ由超過30000張512×512分辨率的人臉圖像組成,每張圖像都用19個面部組成類別的語義掩膜進行注釋,例如眼睛區域、鼻子區域、嘴巴區域。
總之,我們的貢獻有三方面:
1) 我們提出的MaskGAN實現了多樣的和互動的面部處理。在MaskGAN框架下,進一步提出了密集映射網絡,為用戶提供了一種使用其語義標簽掩膜進行人臉操作的交互方式。2) 提出了一種新的訓練策略,稱為編輯行為模擬訓練,增強了密集映射網絡對推理過程中用戶輸入掩膜形狀變化的魯棒性。3) 我們貢獻了CelebA Mask HQ,一個大規模的高分辨率人臉數據集,帶有掩膜注釋。我們相信這個面向幾何學的數據集將為人臉編輯和處理方向開辟新的研究方向。
2.相關工作
生成對抗網絡。GAN通常由相互競爭的生成器和鑒別器組成。由于GAN可以生成逼真的圖像,因此它在圖像到圖像的轉換、圖像修復和虛擬試穿等任務中具有廣泛的應用。
語義層面的人臉操作。深層語義層面的人臉編輯已經研究了幾年。包括[2,25,31,20,23,22]在內的許多著作都取得了令人印象深刻的成果。IcGAN引入了一個編碼器來學習條件GAN的逆映射。DIAT利用對抗損失轉遷移屬性,并且學習混合預測臉和原始臉。Fader Network利用對抗性訓練從潛在空間中分離出與屬性相關的特征。StarGAN提出了一種基于目標域標簽的單網絡多域圖像翻譯方法。然而,這些方法不能通過示例生成圖像。
幾何層面的人臉操作。最近的一些研究開始討論從實例層面轉移面部特征的可能性。例如,ELEGANT提出通過交換兩個人臉的潛在碼來交換兩個人臉之間的屬性。然而,ELEGANT無法準確地從示例中傳遞屬性(例如“微笑”)。對于基于3D的人臉操作,盡管基于3D的方法在正常姿勢下取得了令人滿意的結果,但是它們通常在計算上是昂貴的,并且在大的和極端的姿勢下它們的性能可能會降低。
3.我們的方法
總體框架。我們的目標是使用MaskGAN實現結構化適用的人臉操作,給定一張目標圖像,目標圖像的語義掩膜和原圖像的語義掩膜(用戶修正之后的掩膜)。當用戶操作的結構時,我們的模型能夠合成一個處理后的臉,其中C是語義標簽的類別數。
?
訓練流程。如圖11所示,MaskGAN由三個關鍵元素組成:密集映射網絡(DMN)、MaskVAE和Alpha混合器,Alpha混合器通過編輯行為模擬訓練(EBST)進行訓練。DMN(見第3.1節)為用戶提供了一個面向語義標簽掩膜的人臉操作界面,該界面可以學習人臉與之間的樣式映射。MaskVAE負責對結構先驗的流形進行建模(見3.2節)。Alpha混合器負責保持操作的一致性(見3.2節)。為了使DMN在推理的時候對用戶定義的掩膜的變化更為魯棒,我們提出了一種新的訓練策略EBST(見第2節3.2)它可以模擬用戶在上的編輯行為。這種訓練方法需要一個訓練有素的DMN、一個重構誤差很小的MaskVAE和一個從頭開始訓練的Alpha混合器。訓練流程可分為兩個階段。在訓練階段,我們用來代替作為輸入。在第一階段,我們首先用和更新DMN。在第二階段中,我們使用MaskVAE生成了兩個與有微小差異的和,并生成了兩個人臉和。然后Alpha混合器把這兩張臉混合成來保持操作一致性。經過EBST后,DMN對在推理階段的變化具有更強的魯棒性。目標函數的詳細信息見3.3節。
推理過程。在測試中我們只需要DMN。在圖12中,與訓練階段不同的是,我們簡單地將圖像生成骨干網的輸入替換為,其中可以由用戶定義。
?
3.1.密集映射網絡
密集映射網絡采用Pix2PixHD為骨干的體系結構,我們采用一個外部編碼器對其進行擴展,輸入為和。詳細的架構如圖12所示。
空間感知樣式編碼器。我們提出了一種空間感知的樣式編碼網絡,它同時接收樣式信息和相應的空間信息。為了融合這兩個域,我們用了SFT-GAN[39]中的空間特征變換(SFT)。SFT層學習一個映射函數,其中仿射變換參數由先驗條件獲得,如式。在獲取了之后,SFT層對特征圖F同時進行特征層面和空間層面的調制,如式:,其中F的維度和相同,代表元素層面的結果。我們從的特征獲得先驗條件,并且從獲得特征圖F。因此,我們以風格信息作為空間信息的條件,并且用以下方式生成。
其中是包含空間感知樣式信息的仿射參數。為了將空間感知樣式信息傳輸到目標掩膜輸入中,我們在DMN中的殘差塊中使用AdaIN。AdaIN時風格遷移上最好的最好的方法,其定義為:
其與實例歸一化類似,但是用條件樣式信息代替IN的仿射參數。
DMN是一個生成器,定義為,其中。通過空間感知樣式編碼器,DMN根據提供的空間信息學習和之間的樣式映射。因此,的樣式(例如發型和皮膚樣式)會轉換到上的相應位置,以便DMN可以合成最終的處理過的臉部。?
3.2編輯行為模擬訓練
編輯行為模擬訓練可以在訓練期間模擬用戶在上的編輯行為。這種訓練方法需要一個訓練有素的密集映射網絡,一個訓練到低重構誤差的MaskVAE,和一個從零開始訓練的Alpha混合器。MaskVAE由和組成,負責結構先驗流行的建模。Alpha混合器B負責保持操作的一致性。我們把定義為另一個生成器,把MaskVAE、DMN和Alpha 混合器當作,其中。整個訓練流程如圖11,詳細算法在算法一中展示。訓練流程能分為兩階段。首先我們需要加載預訓練模型,,。在第一階段,我們更新一次。在第二階段,給定,我們通過微小的結構上的內插和外插得到兩個新的掩膜和,內插和外插是在掩模的潛在空間上加上兩個方向相反的平行矢量實現。那些向量通過計算得到,其中是任意選擇的掩膜的潛在表示。設為2.5,用于合適的混合。在用DMN生成兩個人臉之后,Alpha混合器學習將兩個圖像混合到目標圖像中,目標圖像保持與原始圖像的一致性。然后,我們迭代更新和。(圖11中的1,2階段)直到模型收斂。在EBST之后,DMN會在推理過程中對用戶修改的掩模上的變化具有更強的魯棒性。
MaskVAE提供的結構先驗。類似于變分自編碼器,學習MaskVAE的目標函數包括兩部分:(i) ,它控制了像素級語義標簽差異,?(ii) ,它控制著潛在空間的平滑度。總體目標是最小化以下損失函數:
式中,設為1e-5,通過交叉驗證獲得。編碼網絡輸出潛在向量的均值和協方差。我們使用KL散度損失來最小化先驗P(z)和學習分布之間的差距,即:
其中表示向量第j個元素的(原文就是這樣的,感覺少了什么內容)。然后在訓練階段我們采樣潛在向量:,其中~,是一個隨機變量,代表元素級的乘法。
解碼器網絡輸出重構語義標簽,并且計算像素級的交叉熵損失:
圖13示出了兩個掩模之間的線性插值的樣本。MaskVAE可以在掩膜上執行平滑轉換,EBST依賴于平滑的潛在空間來操作。
通過Alpha混合器操作一致性。為了保持和之間的操作一致性。我們通過基于alpha混合器B的深度神經網絡實現了用于圖像合成的Alpha混合,它用兩張輸入圖像和學習了alpha混合輸入權重。。在學習了合適的之后,alpha混合器混合了和:。正如圖11的第二階段展示的那樣,Alpha混合器與兩個共享加權密集映射網絡聯合優化。模型組定義為。
3.3多目標許學習
學習和的目標函數由三部分組成:(i) ,這是條件對抗性損失,使得生成的圖像更加真實,并根據條件掩模修正生成結構,(ii) ,它鼓勵生成器在多個尺度上生成自然統計,(iii),它用ImageNet訓練的Vgg19從低頻到高頻細節產生在感知上提神內容生成。為了提高高分辨率圖像的合成質量,我們利用多尺度鑒別器來增加接收場并減少生成圖像中出現的重復模式。我們使用兩個相同網絡結構的鑒別器在兩個不同的尺度下工作。總體目標是最小化以下損失函數:
其中和設置為10,通過交叉驗證獲得。是條件判別損失,定義為:
是特征匹配損失,它用來自判別器的中間層特征計算真實圖像與生成圖像之間的L1損失:
是感知損失它用來Vgg19的中間層特征計算真實圖像與生成圖像之間的L1損失。
4.數據集
5.實驗
不翻譯了
?
總結
以上是生活随笔為你收集整理的MaskGAN:Towards Diverse and Interactive Facial Image Manipulation翻译的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 儿童吹泡泡水简单配方_请问儿童吹泡泡液如
- 下一篇: 卡特彼勒CAT SIS 售后服务系统3D