沉浸式媒体
本文來自華為多媒體實驗室首席科學家、實驗室副主任王田在LiveVideoStackCon 2017上的分享。他分享了沉浸式媒體的進展與演進路線,展現了可期的多媒體新體驗。
文 / 王田
整理 / LiveVideoStack
概覽:
什么是Immersive Media?
我們可以稱之為沉浸式或浸入式的媒體。作為一種體驗,人們對這方面的需求,或者愿望可以追溯到很遠。廣義上來說,通過音視頻的技術,產生身臨其境的感覺,就叫做浸入式的媒體。比如電話使得打電話人可以跟一個遠在天邊的人好像當面一樣的交談;用電視看一部電影,雖然坐在家里,但是仿佛到了電影的現場,只不過這些場景浸入式的感覺不是特別強烈。
眾所周知,當你戴上VR頭盔之后會有非常強烈的沉浸在現場的感覺。而近幾年,Immersive Media變得越來越熱,很大的一個原因就是VR的興起。接下來主要介紹我們在這方面的一些研究工作,特別是在標準組織MPEG里是如何看待Immersive ?Media未來發展的,并且進行了哪些相應的工作。
Immersive Standards Organizations Overview
從標準的組織上來說,以MPEG的組織為例。并不是說國際上只有MPEG做這些, 涉及到Immersive Media的國際組織是非常多的, 如3GPP,SA4也同樣涉及到這方面的相應工作。最近3GPP發布了EVS音頻Codec。在EVS之后,新的Codec也是針對VR音頻的。還有一些Industry Forum,如VR-IF,也是相關產業界對怎么才能在產業方向上推動浸入式媒體發展進行討論的地方。
MPEG Standards
首先簡單的介紹一下MPEG,可能大家對MPEG了解比較多,因為MPEG對整個數字媒體行業,整個產業發揮了巨大的作用。在30多年前,MPEG成立之初,整個媒體行業正在從模擬時代全面向數字化時代轉移。MPEG制定的標準為整個數字媒體的蓬勃發展和近幾十年的繁榮起到了很大的作用。MPEG2的Video是數字電視的一個關鍵標準,有了它才有了數字電視。那么像AVC(這是MPEG的叫法,可能大家更熟悉的名字叫H.264),對視頻從標準分辨率到高清分辨率轉變發揮了很大作用,直到現在還在被大家廣泛應用。后來隨著超高清的發展,出現了HEVC(H.265) 。
除了編碼,MPEG還做了很多系統方面的工作,如Dash,現在也是非常的流行。Dash是一個Streaming的傳輸標準。通過MPEG這些年的發展歷史,我們其實可以看到整個媒體的發展趨勢。其中很大的一個趨勢就是從模擬到數字的轉型,之后一個很大的驅動就是更高的分辨率,過去的這二十年一直在這個方向不停的發展。語音通話是這樣的,開始時是窄帶話音,后來到寬帶話音,再到超寬帶。視頻也是一樣,從一開始普通的SD分辨率,到HD再到現在的UHD,這方面的發展趨勢非常明顯。另一個可以看到的趨勢就是傳輸從以前傳統的傳輸通道逐漸地向互聯網轉移,其中最重要的需求就是流暢。因此,流暢性也就成為了很重要的問題,像Dash這樣的一些標準就是為了解決互聯網和IP網絡上流暢和高效傳輸問題。在過去這些年,高清和流暢一直是技術發展的趨勢,那么在未來,什么是最重要的呢?
一個很重要的趨勢就是沉浸式的Immersive Media,當然并不是說Immersive是未來唯一的方向,還有其它重要的方向,比如:超高清—8K,或者媒體智能化等方向。但我認為Immersive Media仍是未來的發展趨勢中非常重要的一部分。
MPEG Roadmap
2016年10月,MPEG Vision 2020 會議中MPEG為大家展示了未來的一段時間里會做些什么。其中的點云壓縮,下一代的視頻編碼,Light field等研究,都是MPEG關于未來Immersive Media的一些工作。
簡單的介紹下我們在這方面的想法。開始是3自由度,360度的,給大家帶來一個沉浸式的體驗,未來還有向6自由度的轉移。后面會具體講解,3自由度和6自由度的含義。MPEG將整體浸入式的Media方面的工作放在一起統稱為MPEG-I(MPEG Immersive Media)。那么Immersive Media里包括幾個部分?
MPEG-I Overview
MPEG將Immersive Media分成了7個部分,首先是在Architectures方面;Part2:Omnidirectional Media Format,簡稱為OMAF,它在第一版的時候,主要是一個三自由度的,現在稱之為VR體驗的東西,標準已經基本上制定完成。Part3是現在受關注度最高的,下一代的視頻編解碼;Part4是關于Audio的;Part5是Point Cloud Compression(點云壓縮) 。接下來主要介紹Part2,Part3和Part5部分。
Data Representation for Immersive Media
關于Immersive Media的發展,我們的目標是浸入式:真正身臨其境的體驗。什么是真正的身臨其境?它也是一個逐步演進的過程,所謂三自由度,也可以稱為2.5D,它只是你在一個地方,比如說站在一個點上,向四周看都能看得到,不像以前只是看到盒子里的電視。通過三自由度的體驗,我們能夠360度地沉浸在一個現場中。如果是靜態的,其實可以理解為是全景的圖片。如果全景的圖片是動態,就是全景視頻,也就是現在說的VR視頻。但是VR視頻是有一定局限性的,人是不能夠移動的,不能選擇任意的一個地方去看。如果你能自由移動,達到真正的6自由度,將是完全不一樣的體驗。如果是靜態的,你可以在一個靜態空間場景中6自由度非常自由地去漫游, 那就是真正的3D,或者稱之為Model。動態的話就是Volumetric Video,而動態3D、6自由度的Video是一個非常具有挑戰的目標,目前來說也是我們在浸入式媒體領域比較長遠的一個挑戰目標。但是相信我們整個技術的進展會逐漸地從3自由度向6自由度去轉移,去實現。
隨著6自由度的提出,所謂的真3D,包括信號的表示都會發生變化,以前都是二維的,XY加上RGB色彩信息。未來的話,怎么去表現真3D的環境?可能就要從pixel轉成Voxel,轉成3D信息的呈現,這個對我們來說是非常具有挑戰性的。其實不僅僅是一個格式,可能對我們之前傳統的整套處理框架,Coding Framework等都會帶來一些革命性的變化,而且信息量會大幅度地上升。對我們整個的傳輸,網絡,各個方面影響都是非常大的。所謂3自由度,6自由度,整個過渡的過程中,可能還會有一些中間階段,取決于具體的技術實現方法。比方說3自由度,就是在某個地方、某一個點在三個軸上都可以旋轉,可以轉頭,也可以上下低頭,也可以擺頭。那么如果能夠在一個很小的范圍內進行移動,就是三自由度加3DoF+。那么如果在一個稍微大一點,比方是一個窗口這樣的范圍內移動,就是窗口6自由度。但是它還有一定的局限性,只是在一個窗口內是可以自由移動。最后過渡到真正的6自由度,完全自由地移動。那怎么去實現?很大的一個挑戰在于你怎么去獲得這些信息,獲得信息有各種各樣的辦法,我們知道的有光場的辦法,也可以通過很多攝像頭陣列來獲取。
MPEG-I Part 2: OMAF Omnidirectional Media Format
對MPEG來說更主要的還是討論支持這樣場景的編碼傳輸體系怎么去做。MPEG-I制訂了自己的路線圖,就是從Phase 1到Phase 2,前面也提到了幾個部分,有Video Coding的部分,有Audio的部分,還有傳輸系統方面的工作。
那么有關OMAF,MPEG所理解的整體的pipeline是怎樣的?首先是采集,獲得一個真正的、非常好的Immersive Media的信息是非常有挑戰性的,三自由度的VR其實也是很有挑戰性的。怎樣才能獲取360度視頻?這里面涉及到很多的技術細節,怎么用多攝像頭去拼接,拼接的過程中也會有一些技術問題。然后是怎樣進行編碼,現在還是采用傳統的編碼,先轉換成2D的視頻,然后再編碼和傳輸。最后rendering的時候又會有很多挑戰,例如在進行頭部運動的時候,需要在很短的延時下獲得高清的效果。
MPEG在這方面所做的標準化包括哪些部分呢?前面就是采集部分,這部分并不是MPEG本身研究的范疇。采集完以后,投影展開雖然不會制訂在標準里,但它跟標準是相關的。簡單地像地圖那樣的展開, 我們都知道那樣的效率不是很好,還有很多其他的辦法。在那之后的編碼到后面的傳輸,這部分主要是圖中的E F G三個部分,是MPEG制訂標準的部分。
簡單的說,在OMAF的第一版里,支持三自由度,還是簡單地延用以前的HEVC,那么是不是用H.265和Dash一搭就成了?其實不是這么簡單,因為它還涉及到幾個挑戰,一個比較大的挑戰就是帶寬的問題,VR的帶寬需求是非常大的,我們知道現在的VR眼鏡,它的單眼分辨率還不是非常高。而業界發展非常快,明年可能就會有1.5K×1.5K,也許是2K×2K這樣的眼鏡出現,如果你在一個單眼上就能支持4K這樣的分辨率,那么整個360度需要多少?也許是8K,甚至更高。那么整體傳輸的流量是非常大的,怎么才能夠非常有效地在現有網絡上逐步實現?需要一個有效的解決方案。另外就是延時問題。當然,流量和延時可以有一定的互換性,如果傳的東西非常多,可能延時就容易解決一些,轉頭的時候信息都能有。但是如果說沒有那么大的流量,可以在FOV里傳的質量非常高,而在其他地方,不需要傳那么高質量。那么就涉及到在系統層上怎樣切換,時延、體驗怎樣保證的問題。MPEG標準的制訂就是要解決這樣的問題。現在MPEG標準采納了一個雙流的方案,就是在FOV(正在看的視角)上,達到一個非常好的質量,但是整個全球的信息也是同時會傳的。同時傳兩個流,那么在轉頭的時候,會利用小分辨率全球(小球)的信息,保證播放不中斷,然后再切換到新的FOV上取得更高質量的視頻。
現在做這方面研究的非常多,也存在很多私有的方案。但是我們相信標準的方案還是非常有吸引力的。對于整個產業,我們相信VR視頻會有一個加速發展的過程,雖然最近VR的投資熱度有一點下降,但我相信隨著采集、呈現、跟蹤等各個方面體驗的逐步提升,VR會來到大家身邊。想要讓整個產業能夠發展的更好,標準化仍然是非常重要的一個部分。
之后是大部分人比較關心的視頻編碼部分, MPEG從事這方面研究工作的人員是非常多的。這部分的視頻編碼標準可以理解為就是HEVC(H.265)的下一代。但是它也是在Immersive Media框架之下,所以是MPEG I的Part3,就像HEVC實際上是MPEG H的一部分。MPEG主席萊昂納多2017年說過,下一代的視頻編碼標準,我們稱之為FVC,會原生支持3自由度,是不是能支持到六自由度,目前來說還是不確定的。
新標準制訂的節奏是什么樣的?從2013年上一代HEVC視頻編碼的標準制訂結束之后,FVC就已經啟動了相應的研究。從標準組織上來說,2017年才是標準真正啟動的時候,參與這方面研究的公司也是非常多的, 華為媒體技術實驗室也投入很大的精力參與國際標準的制訂。2018年Test model可能就會出來。2017年末在澳門召開MPEG 120會議,就會啟動CfP,就是征集大家的技術提案。征集完之后,2018年就會有測試、競爭,選一個Test Model,選擇下一代視頻編碼標準的基礎框架。基礎框架制訂之后,可能在2020年左右,下一代的視頻編碼標準就會制訂出來。
Immersive Video Compression
MPEG稱之為FVC的下一代視頻編碼標準。參與的廠商還是非常多的,華為只是其中之一,還有Qualcomm、Samsung和MediaTek等廠商,還有很多AOM的成員在MPEG一起做研究。
FVC 相對于HEVC的性能提升
視頻編碼仍然是非常受重視的,其中傳統的2D視頻編碼效率的提升,即針對HEVC(H.265)的提升還是非常有價值。目前來說標準還沒有正式開始,我們也了解了一些,目前很多的觀點仍然是會重點關注2D:提升一倍效率,降低碼率50%,然后在這之上會疊加一些針對3自由度VR等的一些編碼工具。
傳統上來說,MPEG主要是針對娛樂視頻,開始時MPEG得到的最廣泛應用是中國廠商用在VCD上,還只是看電影電視等娛樂視頻。其實下一代的視頻編碼一個很重要的趨勢是不僅僅只針對娛樂視頻,電影電視或者UGC的內容,VR是一個需求,還有很多像監控和行業視頻方面的需求驅動未來視頻編碼技術的研究。現在,基于對內容的理解,視覺技術的發展是非常熱的。那么視頻編碼和整個視頻體系怎么跟它去結合,怎么應用在一些新的應用場景上,才能夠更好地支持新的需求,這也是一個很重要的方面,在標準組織也有很多這樣的討論。不僅僅是高分辨率,HDR,WCG這些對高體驗非常重要。UHD不僅僅是指分辨率,還有高動態等都是在一起的,下一代也是一樣。HDR在HEVC里,不是內部的完整統一的一體,到了下一代標準時候,會內建支持HDR的需求。
傳統上來說,視頻編碼的標準跟無線差不多,十年才會有一代新的標準。目前看節奏還是有加快的趨勢,我們希望標準可以更快制定出來。從目前我們看到的參考代碼,平臺上可以看到的提升已經有大概30%。也就是說,針對H.265,已經取得了30%的編碼效率的提升。從目前的準備度來看,與H.265啟動的時候是比較接近的,甚至還會更好一些。
這里涉及到的關鍵技術來自于哪里?一個是更靈活的圖像塊劃分技術,還有解碼端運動矢量推導等等。總之,很多這樣的技術疊加,使得下一代FVC相對H.265會有比較大的提升。當然我們現在還沒有看到各家自己儲備的獨有技術,這是目前在公開平臺上看到的技術,每家參與方可能還會有些自己的技術尚未公開。等到明年標準啟動測試,Test model出來的時候,可能會看到更多各家的儲備技術。我們相信下一代的標準從效率上還是會有很大的提升。
在視頻編碼的趨勢也能看到,傳統的技術,混合編碼這一套的框架其實已經存在了很多年。隨著最近幾年機器學習技術的熱火,越來越多的人去嘗試使用機器學習的方法提升現有編碼框架的效率。還有一種方式是直接顛覆現有的編碼框架。傳統混合編碼框架有預測,運動矢量估計,熵編碼等,是不是能夠通過機器學習的方法,有個完全顛覆性的框架做出來呢?很多人在考慮這樣的問題。就目前的一些嘗試來說,短期內實現還是比較困難的。我相信在FVC階段,也許會有些個別的基于機器學習的技術出現,但是整體上的顛覆還是比較困難。但我認為基于機器學習的技術在編碼里的應用的研究非常重要,我們也在這方面進行研究,但還需要一段時間才能真正的成熟,真正找到一個更好的方法。
Beyond VR Streaming: Light Field Processng
View Synthesis for 6DoF VR
在視頻編碼領域,VR視頻以后,Immersive Video Coding會是個什么樣的情況?MPEG在這方面研究已經是有相當長的一段的時間。開始時進行了比較多Multiview(多視點)的研究。最近提出了一些新技術,比如說用Camera陣列獲取光場的信息。Multiview (多視點)是不是就可以實現6自由度,對于這個,MPEG還有很多討論,雖然參與這方面的人不是非常多,但這部分的討論還是一直在的。視點合成采用很多攝像頭,對攝像頭之間的一些視點可以通過插值來獲得。視點合成肯定不是簡單的插值計算,通過計算來獲得深度信息,然后才能得到更好的插值圖像。隨著最近這幾年的技術發展,光場信息的獲取有了更多的選擇。大家可能也知道,前不久微軟做了一個叫Holoportation的演示,可以不用非常多的攝像頭,只用很少的攝像頭,就可以獲得一個3D運動物體的模型,獲得了動態3D的模型后就可以實現真正的6自由度漫游。與視點合成不同,不僅僅只是基于深度獲取插值視點信息,而是真正基于完整的建模,這是一個不同的思路。對于這樣的動態3D模型,怎么去實現信號的表示、壓縮和傳輸,可能都會帶來很不同的一些技術。
MPEG-I Part 5: Point Cloud Compression
MPEG 3D Graphics Activities
點云是針對這樣的一個場景,3D建模之后的壓縮、存儲和傳輸。當然也不是說3D模型就一定是點云方式去表示,可能還會有其他的方式是更加有效的。點云是目前在MPEG ?Immersive Media研究里的一個方向,參與這部分研究的人還不能說特別的多,但也是值得關注的一部分。傳統上做音視頻的,尤其視頻的人主要研究圖像的技術,都是基于像素的信號處理。而到了3D時代,就不僅僅是基于像素的處理技術,尤其現在的VR,AR,還有一些虛擬現實的應用,與游戲一樣,需要大量圖形學方面的技術。基于圖形這方面的研究MPEG也是有的,在很早的時候,就做過一些圖形方面的研究工作,包括Mesh的壓縮,也有過一些研究工作成果。點云這部分正在進行的標準化的工作,就是點云如何進行壓縮。目前已經有時間表,但是時間表還可能會變化,根據現在的進度的情況,可能還會有一些調整。可以看到MPEG內部也有些爭論,是不是應該加速標準的制訂。有些觀念認為現在產業真正的6自由度的應用還非常的困難,還非常的遠,可以稍微緩一點,多做些更基礎的研究,做的更扎實一些。而MPEG主席還是更傾向于加快標準的制定。一定要制定出來一個東西,像現在的互聯網那樣敏捷,在不停迭代,不停地進步。
MPEG Point Cloud Compression
針對這方面,有三種類型的應用,一種就是所謂的靜態大規模場景的重建,對大規模3D場景用點云描述它并進行壓縮。第二種是動態的,比如說人的運動,應用場景其實也很容易想象。比方說未來的體育直播,比如乒乓球比賽,對場中每個人的動態進行3D建模,就可以選擇在任意一個地方,任意一個角度觀看。比方說一個演唱會,不僅僅可以站在場下看,如果對場上的演唱家能夠進行3D建模,就能在他身邊觀看。整個的信息場景都是動態的。第三個主要是針對自動駕駛的,就是邊掃描,邊建圖,獲得周圍的3D的信息,它是一個漸進的過程。基于這樣的場景,點云3D信息如何壓縮。從目前看來,這方面研究還是在一個初期的階段,所以現有算法與傳統視頻編碼框架比較接近,但是我相信在這方面,會有很多新的東西出現。隨著真正的3D技術得到更多應用,我們會看到這一領域更快速地發展。
總結
前面主要介紹了Immersive Media在MPEG標準組織里的一些情況。Immersive Media已經存在很長時間,而且在今后一段時間還會有比較快速的發展。它會帶來巨大的信息量,跟2D時代相比,它的信息量或者數據量會有巨大的增長。不僅采集呈現,存儲與傳輸,也有很大的挑戰,壓縮編碼這部分仍然是會非常重要的,國際標準組織在這方面可能還是會發揮很大的作用。3自由度的視頻,像OMAF這樣的標準已經基本完成,下一步就是要推動產業的應用,會比較快發展起來。6自由度還會有較長一段路要走,目前對于Immersive Media來說,應用是最關鍵的,怎么才能夠推動實際的應用,像VR Video,讓更多的人用,體驗不斷提升是最關鍵的。
總結
- 上一篇: 音视频技术开发周刊 58期
- 下一篇: 探索多媒体开发最新最佳实践(内附资料下载