AAAI 2019 Oral | 让TA说你想听的—基于音/视频特征解离的讲述者人脸生成
你是否希望照片上的偶像、男神女神,甚至動畫人物對著你說出你想聽的那句話?又或是希望偽造明星說他們沒說過話的視頻?
作者丨Lovely Zeng
學校丨CUHK
研究方向丨Detection
香港中文大學 MMLab 提出通過解離的聽覺和視覺信息進行說話人臉視頻的生成,使得生成高分辨率且逼真的說話視頻成為可能,而系統的輸入可以僅僅是一張照片和一段任何人說話的語音,無需先對人臉形狀建模。
論文的效果如下:
甚至對于動畫人物和動物也能取得很好的效果:
論文已經被 AAAI 2019 收錄為 Oral Presentation,接下來就將對論文進行詳細的講解,在此將著重于本文的背景和技術,細節部分詳見論文,本文代碼已經開源,長按識別下方二維碼即可查看論文和源碼。
背景介紹
多數研究基于音頻的說話人臉視頻生成問題都是基于圖形學的方法,比如在論文 [1] 中,超逼真的奧巴馬說話視頻已經被成功的合成出來。但是這類方法通常需要對特定的目標對象的大量視頻進行訓練和建模。
而最近基于深度學習的方法 [2]?和 [3] 使用了 Image-to-Image 的方式,通過單張圖像生成整個人臉說話的視頻。這種方式已經足以得到很好的與提供的語音匹配的唇形,但是生成圖像的質量卻大打折扣,生成的結果不但分辨率不高,甚至可能出現人物的面部特征丟失或是出現色差等問題。
問題出現的原因則是因為,由于人臉的身份特征和唇形的語義特征沒有完全解離,所以當身份特征被保存完好,也就是希望輸出高質量圖像的時候,其原來的唇形特征也會被保存下來,難以受音頻信息影響。
本文旨在生成與音頻完美契合,同時對人臉的細節特征保存完好的高質量的說話視頻。因為在方法中同時編碼了視頻和音頻信息,從而使一個單獨的模型獲得了既可以使用音頻又可以使用視頻進行進行說話人視頻生成的特性。
文章解決的問題如圖 1 所示:
▲?圖1
解決方案
在本文中,解決問題的思路是將一段說話的視頻映射到兩種互補的人臉信息表示空間上,一種是人臉身份特征的表示空間(PID),另一種就是說話內容的表示空間(WID)。
如果能有方法將這兩種表示所在的空間的信息解離開,則保持身份特征信息不變,使說話內容空間的信息根據音頻流動,再將兩個空間的信息組合就可以達到任意 PID 說任意 WID 的目標。大體思路如下圖所示:
其核心思想在于使用聯合視覺的語音識別(Audio-Visual Speech Recognition)(帶音頻的唇語識別)任務進行空間的編碼和解離。包含說話人臉視頻,音頻和所說詞語標簽的唇語識別數據集天然的目標,由此文章提出了一種“協同與對抗(associate-and-adversarial)”的訓練方式。?
通過使用音頻和視覺信息同時訓練語音識別任務,有關說話內容的特征空間就可以被找到。而在此空間中,一組對應的視頻和音頻因為表達的是同樣的信息,所以理應映射到同一個位置。
因此文章通過協同訓練找到一個聽視覺信息融合的表示空間(joint audio-visual representation),也就是上圖中的 Word-ID space。而這樣的協同空間中無論是視覺信息還是音頻信息映射的特征,都可以拿來進行人臉和重構,由此又巧妙地達到了使用一個模型統一使用視頻或者音頻生成說話視頻。?
有了詞語的標簽之后,更有趣的是可以通過詞語標簽對編碼人臉身份特征的網絡進行對抗訓練(adversarial training),將語言信息也就是唇形信息從中解離出來。同時,找到映射人臉的空間因為有大量標有人身份標簽的數據集的存在,本身是一件很簡單的事情。
通過使用額外的帶有身份信息的數據進行訓練既可以通過分類任務找到映射人臉的空間,又可以通過對抗訓練將人臉信息從語言空間解離出來。?
簡單總結一下文章的貢獻:
1. 首先通過音頻和視頻協同訓練唇語識別,將兩種信息向語言空間融合映射,協同訓練的結果顯示甚至相比基線可以提升唇語識別的結果;
2. 因為通過了使用識別性的任務進行映射,充分利用可判別性,使用對抗訓練的方式進行了人臉特征和語言信息的解離;
3. 通過聯合訓練上述任務,任意一張照片都可以通過一段給定的音頻或者視頻,生成高質量的說話視頻。
技術細節
方法的整個流程圖如下,文章的整個方法被命名為“解離的音-視頻系統”,Disentangled Audio-Visual System (DAVS):
本文使用了單詞級別的唇語識別數據集 LRW。在此數據集中每段定長的視頻擁有其所含的主要單詞的 label,所以映射的說話內容空間,被命名為 Word-ID(wid)空間(詞空間),對應于人臉的 Peron-ID (pid) 空間(身份空間)。
整個系統包含視頻對詞空間的編碼網絡,音頻對詞空間的編碼網絡,和視頻對身份空間的編碼網絡;通過網絡,人臉空間被劃分成 wid 和 pid 兩個互斥的空間,并使用對抗訓練的方式解離開。同時 wid 空間是音頻和視頻協同映射的聯合空間,通過同步兩個空間的信息,要求對應的音頻和視頻映射到空間的同一位置。
音頻視頻聯合空間映射
聯合空間的映射通過三個監督聯合完成,這三個監督分別是:共享視頻和音頻映射到詞標簽的分類器;通常用于排序的 contrastive 損失函數;和一個簡單的用于混淆兩個空間的對抗訓練器。?
共享分類器這一方法,本質在于讓數據向類中心靠攏,可以稱之為“中心同步”[4]。而排序 Contrastive loss 用于音頻和視頻同步最早源于 VGG 組提出的 SyncNet [5]。
利用這一體系進行聯合空間映射,所以聯合空間映射模塊也適用于將音-視頻同步這一任務。而本身使用唇語識別這一任務做監督又意味著可以同時將唇語識別這一任何融入其中。
對抗訓練空間解離
為了將身份空間和詞空間解離,文章首先依托唇語識別數據集的標簽,對身份空間的編碼器進行語言信息的解離。在保持身份編碼器權重不變的情況下,通過訓練一個額外的分類器,將編碼的視頻特征,映射到其對用的詞標簽上。這一步驟的意義在于盡可能的將已編碼的身份特征中的語言信息提取出來。然后第二步保持分類器的權重不變,訓練編碼器,此時詞標簽則取成總類別數的平均值。由此我們期望映射的特征向量中含有的詞信息不足以讓分類器成功分類。?
對于詞編碼器,文章使用額外的人臉識別數據 MS-Celeb-1M [6],使用同樣的方式對稱的提純映射的詞空間信息,完成身份空間和詞空間的解離。
實驗結果
文章中進行了一些數值的對比實驗證明其提出的每一個模塊的有效性,但對于此任務,最重要的生成的效果。Gif 結果附在了本文開頭,而長視頻結果請見主頁:
https://liuziwei7.github.io/projects/TalkingFace
參考文獻
[1] Suwajanakorn, S., Seitz, S. M., & Kemelmacher-Shlizerman, I. (2017). Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (TOG), 36(4), 95.?
[2] Chung, J. S., Jamaludin, A., & Zisserman, A. (2017). You said that?. BMVC 2017.?
[3] Chen, L., Li, Z., Maddox, R. K., Duan, Z., & Xu, C. (2018). Lip Movements Generation at a Glance. ECCV 2018.?
[4] Liu, Y., Song, G., Shao, J., Jin, X., & Wang, X. (2018, September). Transductive Centroid Projection for Semi-supervised Large-Scale Recognition. ECCV 2018.?
[5] Chung, J. S., & Zisserman, A. (2016, November). Out of time: automated lip sync in the wild. In ACCV workshop 2016.?
[6] Guo, Y., Zhang, L., Hu, Y., He, X., & Gao, J. (2016, October). Ms-celeb-1m: A dataset and benchmark for large-scale face recognition. ECCV 2016.
點擊以下標題查看更多往期內容:?
Airbnb實時搜索排序中的Embedding技巧
圖神經網絡綜述:模型與應用
近期值得讀的10篇GAN進展論文
自然語言處理中的語言模型預訓練方法
從傅里葉分析角度解讀深度學習的泛化能力
兩行代碼玩轉Google BERT句向量詞向量
AI Challenger 2018 機器翻譯參賽總結
Google BERT應用之紅樓夢對話人物提取
深度長文:NLP的巨人肩膀(上)
NLP的巨人肩膀(下):從CoVe到BERT
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的AAAI 2019 Oral | 让TA说你想听的—基于音/视频特征解离的讲述者人脸生成的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NLP、CV、ML全覆盖,这份私藏论文清
- 下一篇: 新的一年,想发有关对话系统的paper?