【ECCV 2018】Facebook开发姿态转换模型,只需一张照片就能让它跳舞(视频)
DensePose 是 Facebook 研究員 Natalia Neverova、Iasonas Kokkinos 和法國 INRIA 的 R?za Alp Guler 開發的一個令人驚嘆的人體實時姿勢識別系統,它在 2D 圖像和人體3D 模型之間建立映射,最終實現密集人群的實時姿態識別。
具體來說,DensePose 利用深度學習將 2D RPG 圖像坐標映射到 3D 人體表面,把一個人分割成許多 UV 貼圖(UV 坐標),然后處理密集坐標,實現動態人物的精確定位和姿態估計。
DensePose 模型以及數據集已經開源,傳送門:
http://densepose.org/
最近,該團隊更進一步,發布了基于 DensePose 的一個姿勢轉換系統:Dense Pose Transfer,僅根據一張輸入圖像和目標姿勢,創造出 “數字化身” 的動畫效果。
在這項工作中,研究者希望僅依賴基于表面(surface-based)的對象表示(object representations),類似于在圖形引擎中使用的對象表示,來獲得對圖像合成過程的更強把握。
研究者關注的重點是人體。模型建立在最近的 SMPL 模型和 DensePose 系統的基礎上,將這兩個系統結合在一起,從而能夠用完整的表面模型來說明一個人的圖像。
下面的視頻展示了更多生成結果:
具體而言,這項技術是通過 surface-based 的神經合成,渲染同一個人的不同姿勢,從而執行圖像生成。目標姿勢(target pose)是通過一個 “pose donor” 的圖像表示的,也就是指導圖像合成的另一個人。DensePose 系統用于將新的照片與公共表面坐標相關聯,并復制預測的外觀。
我們在 DeepFashion 和 MVC 數據集進行了實驗,結果表明我們可以獲得比最新技術更好的定量結果。
除了姿勢轉換的特定問題外,所提出的神經合成與 surface-based 的表示相結合的方法也有希望解決虛擬現實和增強現實的更廣泛問題:由于 surface-based 的表示,合成的過程更加透明,也更容易與物理世界連接。未來,姿勢轉換任務可能對數據集增強、訓練偽造檢測器等應用很有用。
Dense Pose Transfer
研究人員以一種高效的、自下而上的方式,將每個人體像素與其在人體參數化的坐標關聯起來,開發了圍繞 DensePose 估計系統進行姿勢轉換的方法。
我們以兩種互補的方式利用 DensePose 輸出,對應于預測模塊和變形模塊(warping module),如圖 1 所示。
圖 1:pose transfer pipeline 的概覽:給定輸入圖像和目標姿勢,使用 DensePose 來執行生成過程。
變形模塊使用 DensePose 表面對應和圖像修復(inpainting)來生成人物的新視圖,而預測模塊是一個通用的黑盒生成模型,以輸入和目標的 DensePose 輸出作為條件。
這兩個模塊具有互補的優點:預測模塊成功地利用密集條件輸出來為熟悉的姿勢生成合理的圖像;但它不能推廣的新的姿勢,或轉換紋理細節。
相比之下,變形模塊可以保留高質量的細節和紋理,允許在一個統一的、規范的坐標系中進行修復,并且可以自由地推廣到各種各樣的身體動作。但是,它是以身體為中心的,而不是以衣服為中心,因此沒有考慮頭發、衣服和配飾。
將這兩個模塊的輸出輸入到一個混合模塊(blending module)可以得到最好的結果。這個混合模塊通過在一個端到端可訓練的框架中使用重構、對抗和感知損失的組合,來融合和完善它們的預測。
如圖 3 所示,在修復過程(inpainting process),可以觀察到一個均勻的表面,捕捉了皮膚和貼身衣服的外觀,但沒有考慮頭發、裙子或外衣,因為這些不適合 DensePose的表面模型。
實驗和結果
我們在 DeepFashion 數據集上進行實驗,該數據集包含 52712 個時裝模特圖像,13029 件不同姿勢的服裝。我們選擇了 12029 件衣服進行訓練,其余 1000 件用于測試。
表1:根據結構相似度 (SSIM)、 Inception Score(IS)[41] 和 detection score(DS)指標,對DeepFashion 數據集的幾種 state-of-the-art 方法進行定量比較。
我們首先將我們的框架與最近一些基于關鍵點的圖像生成或多視圖合成方法進行比較。
表 1 顯示,我們的 pipeline 在結構逼真度(structural fidelity)方面有顯著優勢。在以IS 作為指標的感知質量方面,我們模型的輸出生成具有更高的質量,或可與現有工作相媲美。
定性結果如圖 4 所示。
圖 4:與最先進的 Deformable GAN (DSC) 方法的定性比較。
密集人體姿態轉換應用
在這項工作中,我們介紹了一個利用密集人體姿態估計的 two-stream 姿態轉換架構。我們已經證明,密集姿勢估計對于數據驅動的人體姿勢估計而言是一種明顯優越的調節信號,并且通過 inpainting 的方法在自然的體表參數化過程中建立姿勢轉換。在未來的工作中,我們打算進一步探索這種方法在照片級真實圖像合成,以及處理更多類別方面的潛力。
作者:
●?Natalia Neverova,Facebook AI Research
●?Iasonas Kokkinos,Facebook AI Research
原文發布時間為:2018-09-10
本文作者:肖琴
本文來自云棲社區合作伙伴新智元,了解相關信息可以關注“AI_era”。
原文鏈接:【ECCV 2018】Facebook開發姿態轉換模型,只需一張照片就能讓它跳舞(視頻)
總結
以上是生活随笔為你收集整理的【ECCV 2018】Facebook开发姿态转换模型,只需一张照片就能让它跳舞(视频)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于c++ template的branc
- 下一篇: 【自动化测试】Python 读取 .in