ReenactGAN: Learning to Reenact Faces via Boundary Transfer 论文翻译
隨便發(fā)的
有些機(jī)翻 有些 地方加入了自己的理解(少)
ReenactGAN: Learning to Reenact Faces via Boundary Transfer Abstract:
我們提出了一種新穎的基于學(xué)習(xí)的面部重現(xiàn)框架。 該提議的方法稱為ReenactGAN,它能夠?qū)⒚娌窟\(yùn)動和表情從任意人的單眼視頻輸入傳輸?shù)侥繕?biāo)人的視頻。與其在像素空間中執(zhí)行直接轉(zhuǎn)移(這可能會導(dǎo)致結(jié)構(gòu)偽影),我們首先將源面映射到邊界潛在空間上。 隨后使用transformer將源面的邊界調(diào)整為目標(biāo)面的邊界。最后,使用特定于目標(biāo)的decoder生成重新制定的目標(biāo)面孔。 由于有效和可靠的基于邊界的傳輸,我們的方法可以執(zhí)行逼真的面部重現(xiàn)。 此外,ReenactGAN的吸引力在于,整個重新制定過程都是純前饋,因此重新制定過程可以實時運(yùn)行(一個GTX 1080 GPU上為30 FPS)。
數(shù)據(jù)集和模型已經(jīng)開源:[https://wywu.github.io/projects/ReenactGAN/ReenactGAN.html]
Introduction:
面部重現(xiàn)旨在將一個人的面部表情和動作轉(zhuǎn)移到另一目標(biāo)人的面部。真實的、逼真的面部重現(xiàn)可以找到廣泛的應(yīng)用,包括電影制作,視頻會議和增強(qiáng)現(xiàn)實(例如虛擬YouTuber)。近年來,由于RGB-D和RGB相機(jī)上越來越精確,可靠的3D面部模型擬合和界標(biāo)檢測技術(shù),提出了許多令人印象深刻的面部重現(xiàn)方法。大多數(shù)現(xiàn)有方法將人臉表示為參數(shù)已經(jīng)預(yù)定義好的3D模型。這些方法通常涉及跟蹤和優(yōu)化,將源視頻放入一組具有限制的面部姿態(tài)和表情參數(shù)空間,然后呈現(xiàn)經(jīng)過處理的目標(biāo)輸出。一般來說,基于優(yōu)化的方法可以更好地處理背景區(qū)域,而基于前饋的方法只能支持人臉周圍的像素生成。盡管如此,預(yù)定義的參數(shù)3D模型幾乎無法捕獲人臉的所有細(xì)微運(yùn)動。此外,這些工作需要大量的努力和復(fù)雜的參數(shù)擬合的精細(xì)設(shè)計。考慮到這些方法的算法復(fù)雜性,很少有開源的。
生成式對抗網(wǎng)絡(luò)(GAN)方法的出現(xiàn),如Pix2Pix和CycleGAN,為面部重現(xiàn)提供了一種吸引人且簡潔的選擇。然而,盡管GAN在許多圖像到圖像的轉(zhuǎn)換應(yīng)用中取得了成功,但訓(xùn)練一種純粹的基于學(xué)習(xí)的面部重現(xiàn)方法并非易事:
(1)面部圖像是在非常不同的姿態(tài)、表情和光照條件下捕捉的。因此,學(xué)習(xí)基于 有限樣本但涵蓋所有方差的 直接面對面的映射是困難的。傳統(tǒng)的最先進(jìn)的GAN,如CycleGAN,在極端條件下會產(chǎn)生非自然的圖像,如較大的姿態(tài),或在未看到的圖像上失敗,如圖1所示。
(2)沒有兩兩配對的數(shù)據(jù),對于任意一組源視頻和目標(biāo)視頻,我們很難匹配不同的表達(dá)式。
(3)我們希望執(zhí)行多對一的映射,即,只用一個給定的源面模型來重新設(shè)定一個特定的目標(biāo)。這個場景違反了CycleGAN的假設(shè),因為不存在逆映射(一對多)。
ReenactGAN能夠通過從任意一個人的視頻中傳輸動作和面部表情來操縱視頻中的目標(biāo)人臉。與CycleGAN[57]不同,ReenactGAN可以輕松地支持面部大動作的重現(xiàn)。如最后三列所示,CycleGAN不可能傳輸不可見的數(shù)據(jù)。
為了解決前兩個挑戰(zhàn),我們需要定義一個空間或媒介,允許一個有效和強(qiáng)大的面部運(yùn)動和表情的轉(zhuǎn)移。受之前面部模型擬合方法的啟發(fā),我們提出使用面部輪廓或邊界作為緊湊的媒介來捕捉面部幾何變異。具體地說,我們將一個源面映射到一個潛在的邊界空間,我們希望這個邊界空間能夠忠實地保留面部運(yùn)動和表情。然后我們調(diào)整空間,以適應(yīng)特定的目標(biāo)人物和解碼的外觀。
將面部邊界作為潛在空間引入,有利于面部重現(xiàn)。首先,人臉圖像與人臉邊界空間的映射 關(guān)系到 人臉對齊問題。由于采用了現(xiàn)代的人臉標(biāo)志檢測方法,在較大的姿態(tài)、多樣的表情和極端的光照條件下,可以準(zhǔn)確、穩(wěn)健地獲取人臉邊界。這是直接基于原始像素的映射所沒有的獨特優(yōu)勢。其次,簡化了用非配對數(shù)據(jù)傳遞不同表達(dá)式的過程。大規(guī)模人臉對準(zhǔn)訓(xùn)練集的可用性提供了高質(zhì)量的成對訓(xùn)練數(shù)據(jù),這些訓(xùn)練數(shù)據(jù)包括人臉圖像和相應(yīng)的邊界。無配對數(shù)據(jù)的學(xué)習(xí)只發(fā)生在定義好的邊界空間,同時輸入人臉編碼和目標(biāo)人臉解碼過程可以充分利用成對人臉對齊 數(shù)據(jù) 的功能。(借用大規(guī)模數(shù)據(jù)集提升模型對人臉圖像及其邊界的檢測能力)?
我們最后的挑戰(zhàn)是解決多對一的映射問題。為了解決這一問題,我們設(shè)計了一個基于GAN-based的Transformer,使輸入的面部的邊界空間與目標(biāo)的面部相適應(yīng)。為了保證轉(zhuǎn)換的質(zhì)量,我們在PCA空間中使用循環(huán)損失、對抗性損失和形狀損失來約束過程。使用特定于目標(biāo)的Transformer,我們可以根據(jù)來自任意來源的圖像或視頻重新生成目標(biāo)面部。總的來說,提出ReenactGAN取決于三個組件:
(1)編碼器編碼輸入的臉變成一個潛在的邊界空間
(2)特定于目標(biāo)的Transformer,使任意源邊界空間適應(yīng)于特定目標(biāo)的邊界空間
(3)目標(biāo)特定解碼器,將潛在空間解碼到目標(biāo)面部。
ReenactGAN易于重新實現(xiàn)和分發(fā),因為框架中的每個組件都是一個前饋網(wǎng)絡(luò),唯一的培訓(xùn)材料是源目標(biāo)視頻和面部對準(zhǔn)訓(xùn)練集。
我們的貢獻(xiàn)總結(jié)如下:
-我們引入了面部重現(xiàn)的“邊界潛空間”概念。我們發(fā)現(xiàn),面部邊界擁有足夠的幾何信息,可以用豐富的表情重現(xiàn)一張臉,但與直接用原始像素映射相比,它相對“身份不可知”。重要的是,邊界空間對于具有挑戰(zhàn)性的姿勢、表情和照明條件更加健壯。
-基于邊界潛在空間的概念,我們提出了一種新的基于學(xué)習(xí)的人臉再現(xiàn)框架。所有組件都是前饋的。與傳統(tǒng)的基于模型的方法相比,ReenactGAN更易于訓(xùn)練和實現(xiàn)。
-我們向空間中引入特定于目標(biāo)的Transformer,以實現(xiàn)多對一的面部重現(xiàn),否則,使用傳統(tǒng)的基于GAN的圖像到圖像的傳輸方法是不可能實現(xiàn)的。
Related Work:
Face Reenactment: 大多數(shù)現(xiàn)有的研究可以歸類為“基于模型”的方法。這些方法通常包括三個步驟:
(1)人臉捕捉,例如跟蹤人臉模板,使用光流作為外觀和速度測量來匹配數(shù)據(jù)庫中的人臉,或者使用RGB或RGB- d相機(jī)來捕捉人臉運(yùn)動。近年來,人臉標(biāo)記檢測技術(shù)的發(fā)展使得我們能夠有效地跟蹤輸入的面部成分,如眼睛和嘴巴。
(2)一旦捕捉到面部運(yùn)動,許多研究將隨后在參數(shù)空間或模型中擬合該運(yùn)動,包括頭部姿態(tài)、眼睛注視、或3D模型基上的PCA系數(shù),甚至詳細(xì)的3D人臉網(wǎng)格。
(3)模型擬合完成后,下一步是重新渲染一個新的視頻。Garrido等人直接從目標(biāo)視頻中獲取與源視頻相似的姿態(tài),并通過變形渲染新視頻。采用相似的策略優(yōu)化內(nèi)口生成過程。基于檢索的方法具有較低的計算效率。
最近,CycleGAN為face reenactment提供了一個新的可行的解決方案。據(jù)我們所知,盡管文獻(xiàn)中沒有發(fā)表過經(jīng)過同行評審的論文,但在社區(qū)中發(fā)布或展示了一些有趣的工作。與CycleGAN只能處理一個源人員和一個目標(biāo)不同,我們的框架旨在解決更困難的多對一問題,這允許更多的實際應(yīng)用。
Generative Adversarial Network (GAN) and CycleGAN: 生成式對抗網(wǎng)絡(luò)(GAN)已被廣泛應(yīng)用于包括人臉圖像在內(nèi)的圖像生成領(lǐng)域。通過采用對抗性損失,可以將低維噪聲向量輸入、時尚設(shè)計編碼、不真實的面部圖像或文本描述映射到真實的圖像。Zhu等人的研究表明,通過加入一個循環(huán)一致性損失,CycleGAN在學(xué)習(xí)兩個域之間的轉(zhuǎn)換函數(shù)方面取得了令人印象深刻的結(jié)果。最近,Mueller等人利用幾何一致性損失來保持基于CycleGAN的手部姿勢。我們的方法不同于直接在幾何潛在空間上進(jìn)行圖像到圖像的平移,而不是添加一個輔助的幾何約束。Xu等人應(yīng)用CycleGAN來研究特定的一對人之間的轉(zhuǎn)換。他們在不同的面部成分上添加了特定的鑒別器,以提高每個局部的表現(xiàn)。與此相反,ReenactGAN首先將所有面孔映射到一個邊界潛在空間中,然后將其解碼到每個特定的人。利用所提出的特定于目標(biāo)的Transformer,每個解碼器可以根據(jù)所適應(yīng)的邊界空間將任意的人重新設(shè)定為特定的目標(biāo),從而高效、方便地實現(xiàn)多對一的重新設(shè)定。引入邊界空間也提高了面部動作的一致性和極端姿態(tài)的魯棒性。
Face Reenactment via Boundary Transfer:
ReenactGAN的框架:有三個主要組件,它們都是前饋網(wǎng)絡(luò)。在測試階段,一個Encoder φ編碼圖像x到邊界空間b。Transformer ρ適應(yīng)任意的邊界到目標(biāo)。一個解碼器ψ解碼適應(yīng)邊界ρ(b)到目標(biāo)的臉t。
提出的框架ReenactGAN如圖2所示。ReenactGAN可以分為三個組件:邊界encoder、特定于目標(biāo)的多對一Transformer和特定于目標(biāo)的decoder。每個組件都是一個前饋網(wǎng)絡(luò)。在測試階段,將向前通過每個組件傳遞一個查詢面。本節(jié)其余內(nèi)容組織如下:3.1節(jié)給出編碼器、解碼器和聯(lián)合重建損耗;第3.2節(jié)描述了邊界層潛伏層;
3.3節(jié)解釋了特定于目標(biāo)的多對一Transformer的詳細(xì)信息。(數(shù)學(xué)公式有空更新)
3.1 Encoder and Decoder
3.2 Boundary Latent Space
3.3 Boundary Transformer
Experiments:
我們從兩個方面對面部重現(xiàn)進(jìn)行了評估:
(1)圖像質(zhì)量——在第4.1節(jié)中展示了定性結(jié)果之后,我們在第4.2節(jié)中報告了一個用戶研究。
(2)面部動作一致性——為了測量生成的輸出是否正確捕獲了輸入面部的表情,我們比較了4.3節(jié)中面部動作單元的響應(yīng)。第4.4節(jié)最后對Transformer的損耗進(jìn)行了ablation研究。
總結(jié)
以上是生活随笔為你收集整理的ReenactGAN: Learning to Reenact Faces via Boundary Transfer 论文翻译的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: s3cmd 安装使用指南
- 下一篇: 12色彩环三原色