6DoF视频:通往下一代高自由度视频体验
5G,8K時代的加速到來,將極大緩解視頻傳輸帶寬和終端解碼能力的約束。 而6DoF視頻則在360度VR視頻基礎上更進一步,可以將傳統平面視頻在分辨率維度的清晰度提升轉化為高自由度的空間信息量提升,并且通過可交互式視頻體驗突破移動端顯示分辨率對5G時代視頻體驗的約束,為5G時代視頻體驗提升提供了新的無限可能。本文由阿里巴巴 高級算法專家 盛驍杰在LiveVideoStackCon 2019上海 的分享內容整理而成。
文 / 盛驍杰
整理 / LiveVideoStack
本次分享的主題是關于6DoF視頻的標準和實踐,通往下一代的高自由度視頻體驗。主要內容包括四個方面:第一,介紹什么是6DoF視頻;第二,介紹目前國內和國際的標準組織,例如國際的MPEG標準組和國內的AVS標準組以及這些組織在6DoF視頻上的一些進展;第三,介紹優酷在6DoF技術方面的實踐以及后續業務價值的探索, 最后是對本次分享的總結以及6DoF技術未來的展望。
?
1. 6DoF視頻:從平面視頻到高自由度視頻
?
就傳統平面視頻技術而言,簡單來說,它是從三個維度不斷提升用戶的視頻體驗。第一個維度是分辨率,也就是清晰度方面的提升,比如說從540p時代過渡到1080p的時代,再到現在的4K和8K。第二個維度是亮度和色域,因為隨著分辨率的上升,對于視頻本身的顏色的還原度,包括亮度的對比度也提出了更高的要求。最近比較火的HDR也就是從亮度和色域這兩個維度給用戶帶來更好的感知。第三個維度則是幀率,所謂的幀率即是說視頻每秒鐘有多少幀的圖像來組成視頻。目前普通的幀率,像電影是24幀,電視劇一般是30幀或者25幀。在這種情況我們使用手機觀看屏幕還是會出現卡頓感和物體的運動模糊,這就是幀率不夠高的問題。
以上就是平面視頻的發展,我們可以看到在現在這個時間點上,平面視頻在這三個維度里是在不斷推進的,這也就是傳統視頻與平面視頻改善用戶體驗的三個主要方向。
?
除了平面視頻以外,我們怎樣過渡高自由度的視頻?VR360度視頻是其中第一步,所謂VR360度視頻就是用戶可以在觀看的過程當中實時改變觀看的視角,但是用戶三維空間中的位置是不能動的,只是能夠在空間某個點上向周圍的不同視角進行觀看。所以,VR 360度視頻也可以被稱為是3DoF視頻,因為它在空間中只有3個自由度。
?
可以看到上圖左側,這是一個OZO的360度視頻采集設備,OZO上包含8個魚眼相機,通過這8個魚眼相機把空間360度的視頻內容采集下來以后進行圖像的拼接,最終形成一個360度視頻,這就是VR360視頻的采集設備。下一步,我們要從360度的3DoF視頻過渡到6DoF視頻,如上圖右側。其實6DoF的采集設備非常的靈活,可以理解為在空間當中想要為用戶提供怎樣的自由度,都可以通過自由組合相應相機的拍攝和采集策略來實現。
?
以上四張圖分別是6DoF視頻不同的四種采集方式。第一種是在某條路徑上的采集。即在某一場景下設置一圈固定路徑的攝像機,每個攝像機以一定的延時進行拍攝,最終實現在某一瞬間環繞觀看特定場景的效果。右上角是由美國公司Lytro提出的光場采集方案。通過密集的在小面積中布滿多個相機的采集設備。這些采集設備能夠復原人在當前位置上下左右移動的觀看體驗。左下角展示是6DoF采集在更大場景下的應用,這是Intel提出的FreeD技術方案,例如在橄欖球或者籃球比賽的場館,通過在場館頂端部署了50多個高分辨率的高清相機進行采集,可實現將比賽通過點云重建并在虛擬場景中展示,從而可以在任意位置觀看比賽的效果。右下角展示的是由我們提出的一種方案,即通過二維的攝像機陣列采集大范圍的六自由度體驗,具體實現效果會在后面詳細介紹。
大家都知道,普通的視頻就是圖片的集合,而360度視頻則是各個角度的視頻拼成的全景視頻,看起來也是普通的2D視頻,但在渲染的時候可以根據一定的模型來展現出360度的效果。那么6DoF視頻該如何表達?從技術上看,它是通過3D表達與3DoF表達兩個分支融合而成,既有高自由度視頻的特性,又有立體視覺的特性,是視頻技術和視覺技術的結合。它的表達方式主要有三種,一種是點云,第二種是深度,第三種就是密集光場。
點云簡單地說就是空間當中任意點的坐標(XYZ)的(YUV)數據。左上角展示的就是一個人的點云表達,當我們拉近觀看的時候(右上角圖),發現其實它是非密集的,拉到最近以后人臉會出現一些空洞,因為其點云表達從三維上講是可以無限放縮的。所以點云其實就是表達了XYZ點上的YUV數據。點云不僅可以用來表達三維的模型還可以用來表達三維的場景,例如最下面圖片展示的自動駕駛場景。在自動駕駛場景中使用較多的主要是通過三維建模的技術,建立街道的點云,這樣在車輛自動行駛過程中就可以提前了解到周圍的立體環境,優化自動駕駛技術。關于點云數據,將空間當中的XYZ和與YUV數據進行壓縮,是一種專業性非常強的技術,目前MPEG PCC標準組在做的就是關于點云壓縮的研究。
那么點云如何與6DoF進行關聯?其實很簡單,假設一個三維模型可以通過點云重建出來,那么我們就可以從各個角度進行觀看,因為這就表示我們已經有了空間當中任意點XYZ的YUV信息。
第二種6DoF的表達方式就是深度,點云和深度看上去非常地接近,但其原理其實不一樣,所謂的深度圖就是每一個相機拍到的信息,相機當中每個像素點到相機的距離就叫做深度圖。其實點云是一個完整的三維表達(唯一的),但是深度圖可以是多樣的,可以理解為如果三維重建一個物體,通過點云表達,得到的結果只有一份,但如果說使用深度從不同的角度拍攝物體則可以得到不同的深度,得到的結果與相機位置有關。左邊展示的是16張從不同角度采集的籃球場景的紋理圖,右邊的是紋理所對應的深度圖,深度圖當中較亮的部分表示離相機比較近的物體,其它較暗的地方就表明那些像素離相機的位置越遠。所以說深度圖也是一種6DoF的表達方式。
第三種表達方式更前沿一些,前兩種表達方式在工業界都有一定的應用,但是第三種表達則還處于實驗和探索階段。從上圖中可以看到為了拍攝非常小的一個區域,通過密集光場可以達到8K*6K的分辨率,但能夠通過焦距和空間位置的變化完全采集到像素的景深信息和XYZ信息。我們可以將8K的光場圖像分解成16*13張,也就是兩百多張常規的二維圖片。但由于光場的數據量太大,要表達一個非常小的三維或者6DoF的場景,必須要更好地實現對大量數據進行壓縮,因此密集光場表達目前還處于實驗探索階段。
2. MPEG和AVS的6DoF標準進展
?
接下來介紹目前國際上包括MPEG,AVS標準組在在6DoF方面的進展,來幫助大家理解6DoF在產業化,標準化過程中具體的作用。以上是MPEG標準組未來五年的路標,涵蓋了當前視頻技術發展的方向,大致可分為兩層,綠色的代表系統層,紅色是最核心的MediaCoding層。在MediaCoding層當中,未來的視頻編碼技術在其中作為一條分支就只有一種VVC(Versatile Video Coding),俗稱H.266。而關于6DoF技術則在其中占據了很多的部分,比如說6DoF Audio;3DoF+Video,也就是6DoF Video的第一階段;Video Point Cloud Compression(視頻點云壓縮);Geometry Point Cloud Compression(基于幾何的點云壓縮)。大家可以看到在這部分當中,未來的平面視頻編碼H.266技術其實只是其中的一小部分,更多的部分則是圍繞著未來下一代高自由度視頻技術怎樣定義標準的問題。
?
MPEG對于標準的6DoF體驗的發展定義為:逐步從3DoF(360度視頻)作為基礎過渡到完全6DoF視頻,下面幾張圖很清晰的表達了其發展的路徑。3DoF就是人坐在椅子上可以到處看,但不能動。3DoF+則是它的第二階段,3DoF+就是人同樣是坐在椅子上可以到處看,但是在前后左右增加了一定的自由度,可以進行移動而不是固定在一個位置。從3DoF+再進一步過渡到Windowed 6DoF,所謂Windowed 6DoF就是模擬一個人站在窗前面,能夠看外面的景色,在窗前面能夠自由移動或者說能夠往后退,但是不能把頭伸出窗外觀看的一種體驗。從Windowed 6DoF最終再過渡到完全6DoF,達到可以在一個場景當中任意自由移動觀看的效果。從現在的技術要過渡到6DoF技術當中要經過很長的一段路程,MPEG的完全6DoF的標準定義基本都要到2022年以后文本才能夠成型。
接下來是MPEG細化到時間點上的一個路徑,首先就是MPEG-I如何定義沉浸式的視頻體驗,它分為兩個階段,分別是Phase 1和Phase 2,Phase 1當中還分為Phase 1a和Phase 1b。Phase 1a就是360度視頻,這項標準已經完成;, Phase 1b就是前面說到的3DoF+視頻,就是在360度視頻的基礎上有一定的自由度來上下左右移動,這項標準將會在今年完成。另外一個Phase 2就是從Windowed 6DoF過渡到完全6DoF,大約將在2022年左右完成。同時MPEG-I標準在點云壓縮方面也設置了兩個專題組,一個是G-PCP(基于Graphic的點云壓縮標準),另外一個就是V-PCC,就是將三維的點云映射到二維再用視頻壓縮方式進行壓縮的一種方法。
?
接下去再簡單介紹下國內的AVS標準組在6DoF標準方面的進展。AVS標準組是國內非常強大的視頻標準組織,擁有包括AVS2標準以及現在的AVS3標準,其在壓縮率上已經超過了現在的H.265標準,并且AVS2標準在廣電系統中已經得到廣泛的使用。目前AVS標準對于6DoF也已經有了明確的進展。第一在標準文檔方面,AVS 6DoF標準文檔 WD1.0已經完成;第二在測試用例方面,已經擁有兩段20s/30個相機的紋理圖+深度圖的6DoF的測試用例;第三在參考軟件方面,AVS標準已經將6DoF視頻在手機端重建的軟件標準化,并完全開源。通過這個參考軟件結合測試用例就可以實現6DoF場景效果。
下面是6DoF視頻的標準框架,首先由多相機采集的紋理圖和深度圖生成6DoF視頻的表達,在通過平面視頻的壓縮技術之后,在終端進行基于深度圖的實時渲染,最終呈現出6DoF的視頻體驗。
3. 6DoF技術實踐和業務價值探索
在這里簡單介紹一下6DoF視頻體驗三種典型的產品技術形態。
?
?
第一種技術形態是子彈時間視頻,子彈時間視頻是最初級的一種形態。是在一個場景當中能夠讓用戶通過自定義的一條路徑觀看的高自由度的體驗。例如在籃球比賽中,我希望在球員灌籃的時候可以在籃架繞一圈觀看灌籃的動作,或者說在籃球比賽當中出現球員犯規但從當前角度不能確定其是否犯規時,希望可以換一個觀看角度來進行觀看,這些都是子彈時間視頻能夠達到的效果。
?
第二個產品形態即2D視頻+6DoF,即在普通2D視頻播放的過程中,在任意時間點,用戶都可以選擇進入那一時間點的6DoF自由視角交互式體驗。在普通平面視頻上做6DoF交互式體驗的加法,這就是第二種產品形態。
第三種產品形態是完全顛覆性的,目前的實際應用還受制于一些基礎設施,就是前面所說的帶寬、計算能力以及算法效果。這種體驗離現實的工業界的生產或者說工業界的用戶能夠接受還有一定的距離,但是在一些小型的場景下已經具有一定的落地價值和可能。后續5G/8K時代的到來將大大加速完全6DoF視頻體驗的落地。
4. 6DoF技術未來展望
前面介紹了高自由度視頻目前可以達到的效果,以及對于現在視頻行業可能的變革,接下來展望一下6DoF技術未來的發展。
?
在前面曾提到過,如何看視頻的分辨率與自由度之間的關系,如上所示這里存在一個簡單的換算關系。視頻分辨率可以從540p、1080p到4K再到8K,手機的分辨率一般為1080p,達到1080p以上用戶在手機上已經幾乎沒有辦法分辨其差別,那么如果到了4K、8K時代,手機端的視頻發展以及高分辨率存在的意義也就成為一個問題。但如果從高自由度的維度來看,完全的6DoF視頻,如果要呈現出像前面所示的大角度的高自由度體驗,對于視頻分辨率要求至少在8K以上。對于高自由度視頻來說,目前視頻的所能達到的分辨率遠遠不夠用,這對于現在的視頻行業來說可能是一個新的變革。
在這里可以換算一下,如果我們采用了32個相機來采集高自由度視頻,每個相機分辨率是540P,算上深度圖的傳輸,整體數據傳輸量就要達到8K級別,如果說需要在手機端看到1080P的高自由度圖像,同樣自由度就需要16K的分辨率。這就為視頻的體驗提升打開了新的可能,也回答了以后視頻的發展方向以及更高分辨率到底有什么用的問題。
在新的技術時代我們要做到更好的視頻體驗,需要哪幾個方面的突破?
第一就是5G, 5G技術能夠較好的解決傳輸帶寬的問題,在當前網絡環境下對于4K的視頻,并不能流暢的進行播放。而對于高自由度視頻來說,對帶寬的需求更大。
第二個是終端的約束,手機端目前最大的解碼能力(硬解碼)是4K,目前最新的手機都可以支持,但是8K的解碼現在只有很少的手機可以支持,但是我們如果想要做到更好的6DoF視頻體驗,8K只是一個基礎門檻。那么我們需要的就是等待手機端能夠實現更好的解碼支持。
最后一個瓶頸也是目前來說很大的技術問題,龐大的數據量要在云端實現三維的重建,算法效率非常低的。從當前我們的研究的結果來看,AI在3D方面已經能夠達到傳統算法類似的效果,但是也有其缺陷,即非常依賴于不同場景的數據集,這方面還需要算法的不斷優化。
總結
以下是我個人的展望,總的來說就是通過5G對于下行帶寬約束的放松,8K對于解碼的能力約束的放松,還有AI對于計算量約束的放松。可以預見的是高自由度視頻能夠帶來越來越多技術上的突破和用戶價值。
最后總結下今天演講的主要內容,我們面對的是平面視頻顯示分辨率的極限,無論是在手機還是在電視上都會面臨達到4K和8K后,視頻體驗發展極限的問題。而6DoF視頻則提供了高自由度視頻體驗的多種可能。
第二,現在無論是國外的MPEG標準,還是國內的AVS標準,在6DoF視頻方面已經有了非常清晰的布局目標,只是要到達完全6DoF視頻體驗的水平可能還會有一段時間。
第三點, 6DoF在不同的產品形態上已經逐步展現出來價值,特別是目前已經探索出的比較好的落地點,如體育場景、綜藝場景等會非常適合采用高自由度的技術,因為它強調的是單位時間的信息密度和空間信息量,高自由度技術是在給用戶提供的信息增量和信息密度上的價值,使用戶可以感受到更多有價值的信息。
最后一點是前面總結的,5G、8K和AI,包括異構計算能力的提升,未來將極大的改善6DoF視頻在各個業務方面的瓶頸,使得用戶的體驗能夠越來越好。
LiveVideoStack? 招募
LiveVideoStack正在招募編輯/記者/運營,與全球頂尖多媒及技術專家和LiveVideoStack年輕的伙伴一起,推動多媒體技術生態發展。了解崗位信息請在BOSS直聘上搜索“LiveVideoStack”,或通過微信“Tony_Bao_”與主編包研交流。
點擊【閱讀原文】或掃描圖中二維碼,了解更多大會講師及分享內容信息!
總結
以上是生活随笔為你收集整理的6DoF视频:通往下一代高自由度视频体验的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 通过自动缩放Kinesis流实时传输数据
- 下一篇: 揭秘腾讯云最新音视频及融合通信技术实践