数字人正走进现实!AI大脑+高颜值
首屆數字人開發大會召開,虛擬數字人成為新熱門詞匯。
虛擬數字人,是存在于數字世界的“人”,通過動作捕捉、三維建模、語音合成等技術高度還原真實人類,再借助AR/MR/VR等終端呈現出來的立體“人”。在人工智能、虛擬現實等新技術浪潮的帶動下,虛擬數字人制作過程得到有效簡化、各方面性能獲得飛躍式提升,開始從外觀的數字化逐漸深入到行為的交互化、思想的智能化。以虛擬主播、虛擬員工等為代表的數字人成功進入大眾視野,并以多元的姿態在影視、游戲、傳媒、文旅、金融等眾多領域大放異彩。
?
近日,首屆數字人開發者大會在北京召開。首屆數字人行業盛會由國家互聯網信息辦公室信息化發展局和中關村科技園區管理委員會作為指導單位,中國信息通信院、浦發銀行以及中關村數智人工智能產業聯盟主辦,凌云光技術協辦。
會上,中國人工智能產業發展聯盟(簡稱“AIIA 聯盟”)和中關村數智人工智能產業聯盟(簡稱“ZAI 聯盟”)數字人工作委員會首次發布了《2020 年虛擬數字人發展白皮書》,白皮書回顧了虛擬數字人發展歷程,重點分析了虛擬數字人關鍵技術和產業發展現狀,對虛擬數字人的未來發展趨勢進行了展望,剖析了數字人發展中的制約因素。
01 .
什么是虛擬數字人
1、虛擬數字人研究范疇
“虛擬數字人”一詞最早源于 1989 年美國國立醫學圖書館發起的“可視人計劃”(Visible Human Project, YHP)。2001年, 國內以“中國數字化虛擬人體的科技問題”為主題的香山科學會議第 174 次學術討論會提出了“數字化虛擬人體”的概念。
這些“虛擬數字人”主要是指人體結構的可視化,以三維形式顯示人體解剖結構的大小、形狀、位置及器官間的相互空間關系,即利用人體信息,實現人體解剖結構的數字化。主要應用于醫療領域的人體解剖教學、臨床診療等。
與上述醫療領域的數字化人體不同,本篇中所分析的虛擬數字人(以下簡稱“數字人”)是指具有數字化外形的虛擬人物。與具備實體的機器人不同,虛擬數字人依賴顯示設備存在。虛擬數字人宜具備以下三方面特征:
一是擁有人的外觀,具有特定的相貌、性別和性格等人物特征;
二是擁有人的行為,具有用語言、面部表情和肢體動作表達的能力;
2、虛擬數字人發展歷程
虛擬數字人的發展與其制作技術的進步密不可分,從最早的手工繪制到現在的 CG(Computer Graphics,電腦繪圖)、人工智能合成,虛擬數字人大致經歷了萌芽、探索、初級和成長四個階段,詳見下圖。
?
▲虛擬數字人發展歷程
20 世紀 80 年代,人們開始嘗試將虛擬人物引入到現實世界中,虛擬數字人步入萌芽階段。該時期虛擬數字人的制作技術以手工繪制為主,應用極為有限。1982 年,日本動畫《超時空要塞》播出后,制作方將女主角林明美包裝成演唱動畫插曲的歌手,并制作了音樂專輯,該專輯成功打入當時日本知名的音樂排行榜 Oricon,林明美也成為了世界上第一位虛擬歌姬。
1984 年,英國人 George Stone 創作出一個名為Max Headroom 的虛擬人物,MAX 擁有人類的樣貌和表情動作,身穿西裝,佩戴墨鏡,曾參演了一部電影,拍攝了數支廣告,一度成為英國家喻戶曉的虛擬演員。由于技術的限制,其虛擬形象是由真人演員通過特效化妝和手繪實現。
21 世紀初,傳統手繪逐漸被 CG、動作捕捉等技術取代,虛擬數字人步入探索階段。該階段的虛擬數字人開始達到實用水平,但造價不菲,主要出現在影視娛樂行業,如數字替身、虛擬偶像等。電影制作中的數字替身一般利用動作捕捉技術,真人演員穿著動作捕捉服裝,臉上點上表情捕捉點,通過攝像機、動作捕捉設備將真人演員的動作、表情采集處理,經計算機處理后賦予給虛擬角色。
2001 年,《指環王》中的角色咕嚕就是由 CG 技術和動作捕捉技術產生,這些技術后續還在《加勒比海盜》、《猩球崛起》等電影制作中使用。2007 年,日本制作了第一個被廣泛認可的虛擬數字人“初音未來”,初音未來是二次元風格的少女偶像,早期的人物形象 主 要 利 用 CG 技 術合成 , 人物聲音采用雅馬哈的VOCALOID系列語音合成,呈現形式還相對粗糙。
近五年,得益于深度學習算法的突破,數字人的制作過程得到有效簡化,虛擬數字人開始步入正軌,進入初級階段。該時期人工智能成為虛擬數字人不可分割的工具,智能驅動的數字人開始嶄露頭角。
2018 年,新華社與搜狗聯合發布的“AI合成主播”,可在用戶輸入新聞文本后,在屏幕展現虛擬數字人形象并進行新聞播報,且唇形動作能與播報聲音實時同步。
當前,虛擬數字人正朝著智能化、便捷化、精細化、多樣化發展,步入成長期。2019 年,美國影視特效公司數字王國軟件研發部負責人 Doug Roble 在 TED 演講時展示了自己的虛擬數字人“DigiDoug”,可在照片寫實級逼真程度的前提下,進行實時的表情動作捕捉及展現。今年,三星旗下的STAR Labs在CES國際消費電子展上展出了其虛擬數字人項目 NEON,NEON 是一種由人工智能所驅動的虛擬人物,擁有近似真人的形象及逼真的表情動作,具備表達情感和溝通交流的能力。
3、當前虛擬數字人通用系統框架及運作流程
當前虛擬數字人作為新一代人機交互平臺,仍處于發展期,還未有統一的通用系統框架。這份白皮書根據虛擬數字人的制作技術以及目前市場上提供的數字人服務和產品結構,總結出虛擬數字人通用系統框架,如下圖所示。
?
虛擬數字人系統一般情況下由人物形象、語音生成、動畫生成、音視頻合成顯示、交互等 5 個模塊構成。
人物形象根據人物圖形資源的維度,可分為 2D 和 3D 兩大類,從外形上又可分為卡通、擬人、寫實、超寫實等風格;語音生成模塊和 動畫生成模塊可分別基于文本生成對應的人物語音以及與之相匹配的人物動畫;音視頻合成顯示模塊將語音和動畫合成視頻,再顯示給用戶。
?
▲虛擬數字人通用系統框架
交互模塊為擴展項,根據其有無,可將數字人分為交互型數字人和非交互型數字人。非交互型數字人體統的運作流程如下圖非交互類虛擬數字人系統運作流程所示。系統依據目標文本生成對應的人物語音及動畫,并合成音視頻呈現給用戶。
?
▲非交互類虛擬數字人系統運作流程
該人物模型是預先通過AI技術訓練得到的,可通過文本驅動生成語音和對應動畫,業內將此模型稱為TTSA(Text To Speech & Animation)人物模型。真人驅動型數字人則是通過真人來驅動數字人,主要原理是真人根據視頻監控系統傳來的用戶視頻,與用戶實時語音,同時通過動作捕捉采集系統將真人的表情、動作呈現在虛擬數字人形象上,從而與用戶進行交互。
?
▲智能驅動型虛擬數字人運作流程
?
▲真人驅動型虛擬數字人運作流程
02 .
虛擬數字人關鍵技術趨勢
1、虛擬數字人技術架構
當前,虛擬數字人的制作涉及眾多技術領域,且制作方式尚未完全定型,通過對現有虛擬數字人制作中涉及的常用技術進行調研,本白皮書在虛擬數字人通用系統框架的基礎上提煉出五橫兩縱的技術架構,如下圖所示。
?
▲虛擬數字人技術架構
這份白皮書重點關注虛擬數字人制作過程涉及的建模、驅動、渲染三大關鍵技術。
2、建模 :靜態掃描建模仍為主流
相機陣列掃描重建替代結構光掃描重建成為人物建模主流方式。早期的靜態建模技術以結構光掃描重建為主。結構光掃描重建可以實現 0.1 毫米級的掃描重建精度,但其掃描時間長,一般在 1 秒以上,甚至達到分鐘級,對于人體這類運動目標在友好度和適應性方面都差強人意,因此被更多的應用于工業生產、檢測領域。
近年來,拍照式相機陣列掃描重建得到飛速發展,目前可實現毫秒級高速拍照掃描(高性能的相機陣列精度可達到亞毫米級),滿足數字人掃描重建需求,成為當前人物建模主流方式。
國際上 IR、Ten24 等公司已經將靜態重建技術完全商業化,服務于好萊塢大型影視數字人制作,國內凌云光等公司制作的拍照式人體掃描系統也已經在電影、游戲、虛擬主播項目中成功應用。
相比靜態重建技術,動態光場重建不僅可以重建人物的幾何模型,還可一次性獲取動態的人物模型數據,并高品質重現不同視角下觀看人體的光影效果,成為數字人建模重點發展方向。
動態光場重建是目前世界上最新的深度掃描技術,此技術可忽略材質,直接采集三維世界的光線,然后實時渲染出真實的動態表演者模型,它主要包含人體動態三維重建和光場成像兩部分。
人體動態三維重建一直是計算機視覺、計算機圖形學等領域研究的重點,主要采用攝像機陣列采集動態數據,可重建高低頻幾何、紋理、材質、三維運動信息。
光場成像是計算攝像學領域一項新興技術,它不同于現有僅展示物體表面光照情況的 2D 光線地圖,光場可以存儲空間中所有光線的方向和角度,從而產出場景中所有表面的反射和陰影,這為人體三維重建提供了更加豐富的圖像信息。
近年來 Mirosoft、Google、Intel、Facebook 等公司都在積極展開相關研究,其中 Microsoft 的 108 攝像機 MRstudio已經在全球各大洲均有建設;Google 的 Relightable 系統將結構光、動態建模、重光照技術集成到一起,在一套系統中包含模型重建、動作重建、光照重建的全部功能;國內清華大學、商湯科技、華為等也展開了相關研究,并取得國際水平的同步進展。
3、驅動 :智能合成 、 動作捕捉遷移
2D、3D 數字人均已實現嘴型動作的智能合成,其他身體部位的動作目前還只支持錄播。2D、3D 數字人嘴型動作智能合成的底層邏輯是類似的,都是建立輸入文本到輸出音頻與輸出視覺信息的關聯映射,主要是對已采集到的文本到語音和嘴型視頻(2D)/嘴型動畫(3D)的數據進行模型訓練,得到一個輸入任意文本都可以驅動嘴型的模型,再通過模型智能合成。
然而,2D 視頻和 3D 嘴型動畫底層的數學表達不一樣,2D 視頻是像素表達;3D 嘴型動畫是 3D 模型對應的 BlendShape 的向量表達。除了嘴型之外的動作,包含眨眼、微點頭、挑眉等動畫目前都是通過采用一種隨機策略或某個腳本策略將預錄好的視頻/3D 動作進行循環播放來實現。例如 3D 肢體動作目前就是通過在某個位置觸發這個預錄好的肢體動作數據得到。
觸發策略是通過人手動配置得到的,未來希望通過智能分析文本,學習人類的表達,實現自動配置。截至目前,國內外科技企業在數字人動作智能合成方面都有一定進展,國際上如 Reallusion 公司研究的利用語音生成面部表情的 Craytalk 技術已在動畫制作中被成功商用,國內搜狗、相芯科技等公司也有部分項目落地應用。
通過將捕捉采集的動作遷移至數字人是目前3D數字人動作生成的主要方式,核心技術是動作捕捉。動作捕捉技術按照實現方式的不同,可分為光學式、慣性式、電磁式及基于計算機視覺的動作捕捉等。現階段,光學式和慣性式動作捕捉占據主導地位,基于計算機視覺的動作捕捉成為聚焦熱點。光學動作捕捉通過對目標上特定光點的監視和跟蹤來完成運動捕捉的任務。
最常用的是基于 Marker(馬克點)的光學動作捕捉,即在演員身上粘貼能夠反射紅外光的馬克點,通過攝像頭對反光馬克點的追蹤,來對演員的動作進行捕捉。這種方式對動作的捕捉精度高,但對環境要求也高,并且造價高昂。光學式解決方案比較出名的企業有英國的Vicon,美國的 OptiTrack 和魔神(MotionAnalysis),國內的 Nokov、uSens、青瞳視覺等。
慣性動作捕捉主要是基于慣性測量單元(Inertial Measurement Unit,IMU)來完成對人體動作的捕捉,即把集成了加速度計、陀螺儀和磁力計的IMU 綁在人體的特定骨骼節點上,通過算法對測量數值進行計算,從而完成動作捕捉。這種慣性動作捕捉方案價格相對低廉,但精度較低,會隨著連續使用時間的增加產生累積誤差,發生位置漂移。
慣性式動捕方案的代表性企業有荷蘭的 Xsens,以及國內的諾亦騰(Noitom)、幻境、國承萬通等。基于計算機視覺的動作捕捉主要是通過采集及計算深度信息來完成對動作的捕捉,是近些年才興起的技術。這種視覺動捕方式因其簡單、易用、低價,已成為目前使用的頻率較高的動作捕捉方案,代表性產品有 Leap Motion、微軟Kinect 等。以上動捕方案的性能對比如下圖所示。
?
▲主流動作捕捉方案性能對比
4、 渲染:真實性和實時性均大幅提升
PBR(Physically Based Rendering,基于物理的渲染技術)渲染技術的進步以及重光照等新型渲染技術的出現使數字人皮膚紋理變得真實,突破了恐怖谷效應??植拦刃扇毡緳C器人專家森政弘提出,認為人們對機器人的親和度隨著其仿真程度增加而增高,但當達到一個較高的臨界點時,親和度會突然跌入谷底,產生排斥、恐懼和困惑等負面心理。
數字人恐怖谷效應主要由數字人外表、表情動作上與真人的差異帶來,其中外表真實感的關鍵就是皮膚材質的真實感,無論是塑料感還是蠟像感都會給人類帶來不適。在 PBR 技術出現之前,限于相關軟硬件的發展程度,所有的 3D 渲染引擎,更多的著重在于實現 3D 效果,在真實感體現方面差強人意。
PBR 是基于真實物理世界的成像規律模擬的一類渲染技術的集合,它的關鍵在于微表面模型和能量守恒計算,通過更真實的反映模型表面反射光線和折射光線的強弱,使得渲染效果突破了塑料感。目前常見的幾款 3D 引擎,如UnrealEngine 4, CryEngine 3, Unity 3D 5,均有了各自的 PBR實現。
重光照技術通過采集模擬多種光照條件的圖像數據,測算數字人表面光照反射特性,并合成出數字人模型在新的光照下的渲染結果,使計算機中的虛擬數字人在任意虛擬環境下都可以呈現近乎真實的效果,它徹底改變了傳統渲染方式通過模擬皮膚復雜的透射反射來計算渲染總會帶來誤差的局面。
?
該技術在 2000 年初由南加州大學實驗室創建LightStage 平臺時提出,并開始了相關研究,目前已經經過 7代的迭代發展,已被成功應用到《阿凡達》、《復仇者聯盟》等眾多經典影片的角色制作中。國內清華大學、浙江大學也都建設了重光照系統,可以實現高精度人體光照采集與重建。
實時渲染技術的突破助力寫實類數字人實現實時交互,應用范圍快速擴大。實時渲染指圖形數據的實時計算與輸出,其每一幀都是針對當時實際的環境光源、相機位置和材質參數計算出來的圖像。與離線渲染相比,實時渲染面臨較大挑戰。一是渲染時長短,實時渲染每秒至少要渲染 30 幀,即在 33 毫秒內完成一幀畫面渲染,離線渲染則可以花費數小時甚至更長時間渲染一幀畫面;二是計算資源有限,實時渲染受限于時效要求,計算資源一般是不能及時調整,而離線渲染受時效限制較低,可臨時調配更多的計算資源。
早期的實時渲染只能選擇高度抽象和簡化過的渲染算法,犧牲了畫面質量。隨著硬件能力的提升和算法的突破,渲染速度、渲染效果的真實度、渲染畫面的分辨率均大幅提升,在虛擬人物實時渲染方面,已經能做到以假亂真。
?
2016 年,EpicGames 聯合 3Lateral、Cubic Motion、Ninja Theory 等公司聯合開發的可實時驅動的虛擬人物在當年的 Siggraph(Special Interest Group for Computer GRAPHICS,計算機圖形圖像特別興趣小組,致力于推廣和發展計算機繪圖和動畫制作的軟硬件技術)會議中做了演示,成功在消費級的硬件環境下實時渲染了高質量的虛擬角色。
2018 年 5 月,騰訊發布虛擬人 Siren,也一個支持實時渲染的虛擬人物。
現在,在AI+5G的加持下,“虛擬數字人”的蓬勃發展才剛剛開始,而這只是第三產業智能化趨勢的一個縮影,隨著我國產業轉型升級的腳步逐漸加速,將會有各種形態的虛擬數字人出現在各行各業。
總結
以上是生活随笔為你收集整理的数字人正走进现实!AI大脑+高颜值的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Windows server 2008
- 下一篇: 语音识别发展史与入门书籍简介