CVPR 2020 | 以局部焦点进行渐进式面部表情编辑
?PaperWeekly 原創(chuàng) ·?作者|薛潔婷
學校|北京交通大學碩士生
研究方向|圖像翻譯
論文介紹
人臉表情編輯通常涉及較大的幾何變化,并且需要同時修改多個面部區(qū)域。雖然基于生成式對抗網(wǎng)絡(GAN)的人臉表情編輯模型已取得了顯著性成果,但是在處理大幅度表情變換時如從憤怒到笑等,當前模型依舊會產(chǎn)生偽影和模糊問題。
針對這一問題作者提出了以局部區(qū)域為重點的漸進式表情轉換模型 Cascade EF-GAN。不同于針對整張圖像的表情變換模型,該模型將表情變換細分為眼睛,鼻子和嘴巴的局部區(qū)域獨立地進行表情變換,并采用漸進的方式訓練模型。實驗表明該模型有助于抑制重疊偽影以及模糊問題,并能產(chǎn)生逼真自然的效果。
?
論文標題:Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2003.05905
?
模型架構
從圖 2 中可以看出 Cascade EF-GAN 由多個 EF-GAN ?組成,它們以級聯(lián)的方式進行表情變換,并且每個 EF-GAN 的網(wǎng)絡架構是一致的,都包含表情轉換模塊和微調模塊,下面具體展開介紹。
▲ 圖1. 模型架構
相信很多訓練過深度模型的研究者都會有這樣的體會,我們在整圖上使用一組卷積核去提取特征時通常會遺漏大量的細節(jié)特征,如果針對局部區(qū)域去提取特征會有助于保留細節(jié)信息。根據(jù)這一經(jīng)驗作者設計了一個由針對整圖的全局生成器和三個分別針對眼睛、鼻子以及嘴巴區(qū)域的局部生成器構成的表情轉換模型。
?
表情轉換模型以原人臉圖以及目標表情標簽作為輸入,輸出為表情變換后的圖像。作者采用了 Facial Action Coding System(FACS)將表情編碼為 Action Units(AUs)來獲取目標表情標簽,并使用 Open-Face 獲取人臉關鍵點從而剪裁出眼睛、鼻子和嘴巴區(qū)域,之后再將這些圖像分別輸入特定的生成器中。
每個生成器均使用相同的網(wǎng)絡架構,為了更好的捕獲細節(jié)以及抑制偽像,作者借鑒了 GANimation 中的注意力機制,具體來說該機制在解碼器中分出兩個分支,一個用于解碼出注意力映射圖另一個用于解碼出顏色映射圖,通過對注意力映射圖進行約束引導編碼器能夠更關注于表情相關的顯著性區(qū)域,如圖 2 所示。
最終每個生成器輸出顏色特征映射 以及注意力映射 ,作者將 作為每個分支的初級輸出,其中 表示輸入圖像。
?
▲ 圖2. 注意力映射
微調模型是用于融合表情分類模型中不同分支的輸出結果并輸出表情變換后的最終結果。首先根據(jù)關鍵點位置信息將三個局部生成器的輸出融合到單個圖像中,然后該圖與全局生成器的輸出連接后輸入微調模型,該微調模型具體由多個 Residual Blocks 組成,輸出為最終的表情轉換結果。
當表情變化幅度過大時,單個的 EF-GAN 可能會在變化幅度過大的區(qū)域產(chǎn)生重疊偽影,因此作者設計了級連的 EF-GAN 降低每個單獨 EF-GAN 的轉換壓力,如圖 3 所示。
?
對于每個中間 EF-GAN 的監(jiān)督,首先通過線性插值生成偽目標,然后提取偽目標和原始 AUs 標簽之間的殘差。之后將原始的 AUs 標簽和殘差輸入到插值模型中產(chǎn)生中間層的 AUs 標簽。為了使得插值模型輸出的 AUs 標簽更逼真,作者還訓練了一個鑒別器使真實和插值模型輸出的 AUs 標簽之間的 Wasserstein 距離最大,而插值模型的目標與之相反。
?
通常相同架構的級連式模型不會采用同時訓練的模式,因為這樣會非常耗時且要求大量的計算資源。因此在訓練 Cascade EF-GAN 時,作者也采用了漸進式的方案去進行訓練,具體來說就是先訓練好一個 EF-GAN 網(wǎng)絡并將該網(wǎng)絡的參數(shù)初始化級連后的 EF-GAN。
?
通過這種訓練方式,級聯(lián)中的每個 EF-GAN 模塊都將具有良好的初始化效果。如圖 3 所示,這里展示了 3 層級連表情轉換網(wǎng)絡的輸出結果對比,可以看出漸進式訓練有助于抑制重疊的偽影,并在處理變化幅度較大的表情時產(chǎn)生更逼真的效果。
▲ 圖3. 中間層以及最終的輸出結果
實驗
作者在兩個公開數(shù)據(jù)集 RaFD 以及 CFEED 上驗證模型的有效性,并與 StarGAN 以及 GANimation 進行對比,結果如圖 4。相比于其他兩個模型 GANimation 的確可以有效的抑制重疊偽影并且在細節(jié)上能獲取更逼真的效果。
??????
為了更全面的評估生成圖像的質量作者設計了兩個分類方案:1)使用原始訓練圖像訓練表情分類器,并應用分類器對通過不同的表情變換模型生成的圖像進行分類;2)結合真實和生成的表情圖像訓練分類器,并用該分類器去分類原始測試集圖像。
表 1 為實驗結果,其中 R 表示使用原始訓練集訓練分類器其在真實測試集上的分類正確率,G 表示復用 R 中的分類器其在生成數(shù)據(jù)集上的分類正確率,R+G 表示使用原始訓練集以及生成訓練集去訓練分類器其在真實測試集上的分類正確率。
總結
這篇文章提出了級連式表情轉換模型,每個表情轉換模型 EF-GAN 都針對全局以及眼睛,鼻子和嘴巴的局部區(qū)域進行表情變換。通過這種方式能有助于在一定程度上保留與身份高度相關的特征和細節(jié),從而使面部表情更加清晰。
另外,提出的 Cascade EF-GAN 以漸進的方式進行訓練,這有助于將大幅度的表情變化分解為多個小的變化,降低了每個表情變化模型的壓力,這也是目前大部分表情分類模型的局限。
為了給每個中間的 EF-GAN 提供監(jiān)督,作者還設計了插值網(wǎng)絡來提取中間級的表情 AUs 標簽,意味著可以通過調整不同階段的中間 AUs 標簽生成連續(xù)的中間結果,這使得模型的應用場景也更加豐富。
?
更多閱讀
?
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質內容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的CVPR 2020 | 以局部焦点进行渐进式面部表情编辑的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 重庆十一大员年审流程
- 下一篇: 【面试必备】通俗易懂的XGBoost、T