沉浸式视听体验:全景声技术是如何实现的?
隨著硬件技術(shù)的升級(jí)、軟件內(nèi)容的豐富以及5G網(wǎng)絡(luò)環(huán)境的優(yōu)化,推動(dòng)幾經(jīng)浮沉的VR產(chǎn)業(yè)走向正循環(huán)。
就在去年,「Roblox上市」、「Facebook更名為Meta」、「微軟收購暴雪」等將元宇宙相關(guān)產(chǎn)業(yè)推向風(fēng)口,而Oculus Quest 2(VR一體機(jī))出貨量破千萬臺(tái)的成績,更是一件將沉浸式VR從概念落地場(chǎng)景實(shí)踐的標(biāo)志性事件。
在本次云棲大會(huì)阿里云視頻云的8K VR視頻技術(shù)展臺(tái),體驗(yàn)者通過佩戴Pico VR頭顯,感受清晰度高達(dá)8K的360度VR視頻,實(shí)時(shí)捕捉超高清細(xì)節(jié)。
不僅如此,體驗(yàn)者還能以“聲”臨其境,感受令人驚艷的全景聲技術(shù)帶來的沉浸式視聽體驗(yàn)。
01“視”之外的沉浸之“聲”
「沉浸式視聽體驗(yàn)」一詞已多次出現(xiàn)在大眾視野,究竟什么是沉浸式視聽體驗(yàn)?zāi)?#xff1f;
“沉浸式視聽體驗(yàn)”是指通過視頻、音頻及特效系統(tǒng),構(gòu)建大視角、高畫質(zhì)、三維聲特性,從而具備畫面包圍和聲音環(huán)繞的主觀感受特征,觀眾在所處位置就能獲得周圍多方位的視覺、聽覺信息,帶來身臨其境之感。
聽覺作為僅次于視覺的重要感官通道,對(duì)沉浸式的視聽體驗(yàn)至關(guān)重要。隨著用戶對(duì)視聽體驗(yàn)的極致追求,在“視”之外,沉浸之“聲”技術(shù)應(yīng)運(yùn)而生。
「沉浸式音頻」是指能夠呈現(xiàn)空間的還音系統(tǒng)的聲輻射,至少能覆蓋觀眾的前、后、左、右、上五個(gè)方位。除此之外,還能真實(shí)地營造出聲場(chǎng)的水平縱深和垂直高度,即從聽者角度能精準(zhǔn)地定位聲音的方向和位置。
從技術(shù)角度是如何實(shí)現(xiàn)呢?
其實(shí),真實(shí)世界的聲音來自環(huán)境的四面八方,人耳往往可以通過聲波的時(shí)間差、強(qiáng)度差、相位差、頻率差等辨別聲音的方位。
但現(xiàn)有的立體聲和5.1環(huán)繞聲只能呈現(xiàn)部分方向傳來的聲音信息,若想獲得聲音帶來的沉浸感,需要盡可能全方位再現(xiàn)真實(shí)世界的聲音,也需要一種沉浸式音頻技術(shù)來實(shí)現(xiàn)。
圖片來源于網(wǎng)絡(luò)
02一個(gè)「球面」的聲場(chǎng)?
沉浸式音頻主要技術(shù)有三大類: 基于聲道 Channel Based Audio(CBA)、基于對(duì)象Object Based Audio (OBA)、基于場(chǎng)景 Scene Based Audio(SBA)。
??基于聲道技術(shù)(CBA):在傳統(tǒng) 5.1 環(huán)繞聲的基礎(chǔ)上,增加了 4 個(gè)頂部聲道,通過增加聲道的方式來補(bǔ)充空間中的聲音信息,但只能呈現(xiàn)部分方向來的聲音信息。
??基于對(duì)象的技術(shù)(OBA):是目前主流技術(shù),并在電影領(lǐng)域已廣泛應(yīng)用,如 Dolby Atmos 全景聲。該技術(shù)會(huì)產(chǎn)生大量的數(shù)據(jù)和運(yùn)算,除了聲道的音頻外,還有關(guān)于聲源的元數(shù)據(jù)Metadata,即:聲源(位置/大小/速度/形狀等屬性)、聲源所在的環(huán)境(混響Reverb/回聲Reflection/衰減Attenuate/幾何形態(tài)等),該技術(shù)在VR領(lǐng)域只適合主機(jī)VR上的大型游戲,對(duì)于普通移動(dòng)端的硬件設(shè)備來講,算力及帶寬承載具有較大壓力。
??基于場(chǎng)景的技術(shù)(SBA):用來描述場(chǎng)景的聲場(chǎng),其核心的底層算法是Ambisonics 技術(shù),可被映射到任意揚(yáng)聲器布局中。Ambisonics技術(shù)的特點(diǎn)是:聲源貼在提前渲染好的全景球上,即所有聲源將被壓縮在了這個(gè)球上。
圖片來源于網(wǎng)絡(luò)
本文的音頻體驗(yàn)展示便采用了Ambisonics的錄制格式(文末體驗(yàn)DEMO)。
Ambisonics作為全景聲的一種錄取格式,在上世紀(jì)70年代就已經(jīng)問世,但一直沒有獲得商業(yè)上的成功。
隨著近幾年VR,AR等相關(guān)領(lǐng)域的興起,Ambisonics開始逐漸被討論。與其它多聲道環(huán)繞聲格式不同,Ambisonics傳輸通道不帶揚(yáng)聲器信號(hào),允許音頻工作者根據(jù)聲源方向而不是揚(yáng)聲器的位置來思考設(shè)計(jì),并且為聽眾提供了用于播放揚(yáng)聲器的布局和數(shù)量,因此,大大增加了靈活性。
Ambisonics音頻格式可以解碼任何揚(yáng)聲器陣列,并且可以完整地、不間斷地還原音源而不受任何特定編解碼播放系統(tǒng)的限制。
下圖是一個(gè)一階的Ambisonics結(jié)構(gòu),4個(gè)MIC垂直部署在一個(gè)四面體上,播放效果與Dolby Atmos類似,但和Dolby Atmos不同的地方是:Dolby Atmos 只解決了半球的聲場(chǎng)。
而Ambisonics除了水平環(huán)繞聲音,還可以支持拾音位置或者聽眾上下的聲源,即整個(gè)球面的聲場(chǎng)。
圖片來源于網(wǎng)絡(luò)
03實(shí)現(xiàn)聲聲入耳的引擎:AliBiAudio
全景聲不僅僅是增加幾個(gè)聲道那么簡(jiǎn)單,而是把整個(gè)聲音系統(tǒng)架構(gòu)都顛覆了,從之前基于聲道來混音的技術(shù)上升為基于對(duì)象的音頻處理技術(shù),使人在環(huán)境中的聽覺感受與現(xiàn)場(chǎng)實(shí)際聲音一致。
將全景聲音頻重建成用戶可測(cè)聽的形式有兩種途徑,一種是多揚(yáng)聲器重建,即電影院或家庭影院中的音響系統(tǒng),其本質(zhì)是將全景聲音頻轉(zhuǎn)換到5.1.4或7.1.4格式;另一種是耳機(jī)重建,即將全景聲音頻通過雙耳渲染技術(shù)轉(zhuǎn)換為雙聲道音頻,并保留其全部空間信息。
相對(duì)于多揚(yáng)聲器重建,耳機(jī)重建成本低、易部署、效果好。
不言而喻,耳機(jī)重建全景聲音頻,需要一個(gè)雙耳渲染的過程,以此來通過兩個(gè)立體聲通道創(chuàng)建空間和維度的聽覺感知效果。
AliBiAudio 就是一個(gè)阿里自研的雙耳實(shí)時(shí)渲染引擎,結(jié)合頭部跟蹤坐標(biāo),可以達(dá)到人轉(zhuǎn)動(dòng),聲源位置不動(dòng)的效果。當(dāng)前雙耳渲染引擎,具有支持全平臺(tái)、多場(chǎng)景、易部署等特性。該引擎既可以部署在移動(dòng)端,也可以部署在云端,并支持三大場(chǎng)景的渲染。
??單聲道輸入:用于虛擬會(huì)議場(chǎng)景,可將不同位置的人,渲染在不同的角度發(fā)聲,通常部署在服務(wù)端。
??5.1/7.1 輸入:用于影視劇渲染,得到更逼真的環(huán)繞聲,類似優(yōu)酷中的“幀享”音效。既可以部署在端上(如:Apple Music 空間音頻),也可以部署在服務(wù)器上(如:作為媒體處理,將多聲道數(shù)據(jù)下混成2路數(shù)據(jù))。
??Ambisonics輸入:對(duì)Ambisonics格式進(jìn)行渲染,用于VR直播,VR點(diǎn)播,當(dāng)前部署在Aliplay中。
04如何讓聲音跟隨腦袋一起搖擺
??HRTF
雙耳渲染引擎的核心模塊是人頭傳遞函數(shù)HRTF( Head-related Transfer Function )。
每一方向都有兩個(gè)HRTF,分別代表音源到左右耳的房間沖擊響應(yīng),通過720度掃描可以得到一個(gè)球形的HRTF庫,如下圖是一個(gè)ARI HRTF 數(shù)據(jù)庫的分布。
ARI HRTF 數(shù)據(jù)庫
在渲染時(shí),通過輸入的角度信息,先從數(shù)據(jù)庫中選出當(dāng)前角度的HRTF對(duì)。然后再將輸入數(shù)據(jù)分別和HRTF對(duì)進(jìn)行卷積得到左右耳信號(hào)。為了得到更逼真效果,還可以添加一定量的房間混響如下圖所示:
本項(xiàng)目對(duì)大量HRTF庫進(jìn)行篩選,獲取到一個(gè)最優(yōu)的數(shù)據(jù)庫。
??Ambisonics數(shù)據(jù)格式
Ambisonics 的基礎(chǔ)功能是讓來自不同方向點(diǎn)聲源,作為360度的球面來處理,這個(gè)中心點(diǎn),就是麥克風(fēng)放的位置。當(dāng)前廣泛用于VR 和 360 度全景視頻的Ambisonics 格式,是一個(gè)叫做Ambisonics B-format的4聲道(還有另一種格式叫A-format)。由W, X, Y and Z組成。對(duì)應(yīng)著360度球面的,中心,左右,前后,上下。
- W 是一個(gè)全向
- X 是一個(gè)雙極 8 字指向,代表前后
- Y 是一個(gè)雙極 8 字指向,代表左右
- Z 是一個(gè)雙極 8 字指向,代表上下
B-format 有兩種格式分別是ambix 和fuma(它們只是排列順序不同),而A-format 代表4個(gè)mic 采集的原始數(shù)據(jù)。B-format和A-format的關(guān)系如下:
圖片來源于網(wǎng)絡(luò)
??頭部跟蹤
該技術(shù)利用了某些特定款式耳機(jī)中的傳感器信息,如:加速度計(jì)和陀螺儀,從而更好地跟蹤頭部運(yùn)動(dòng),并做出相應(yīng)的音頻調(diào)整。
Apple已經(jīng)從 iOS 15 開始通過兼容耳機(jī)帶來支持頭部跟蹤的空間音頻功能,目前Android 13的發(fā)布預(yù)覽版已完全支持在兼容設(shè)備上使用頭部跟蹤的空間音頻。本次云棲大會(huì)的展臺(tái)體驗(yàn)便主要利用了Pico頭顯設(shè)備中陀螺儀的信息。
圖片來源于網(wǎng)絡(luò)
05一起「聲」臨其境
「佩戴耳機(jī)」體驗(yàn)全景聲,效果更好哦!
現(xiàn)場(chǎng)體驗(yàn)中,聲音的變化會(huì)隨著頭部的轉(zhuǎn)動(dòng)而轉(zhuǎn)動(dòng),本次線上DEMO體驗(yàn)將依靠手動(dòng)界面移動(dòng)來模擬頭部轉(zhuǎn)動(dòng)。
01聽:無人機(jī)掠過頭頂
無人機(jī)逐漸升起從頭頂掠過,當(dāng)視角跟隨(模擬)無人機(jī)時(shí),聲音相應(yīng)地實(shí)時(shí)變化。
02聽:滴答滴答
聆聽水滴的同時(shí),發(fā)現(xiàn)左方有無人機(jī)的聲音,視角隨聲而轉(zhuǎn),一路跟隨,感受無人機(jī)由近及遠(yuǎn)的變化。
03聽:沉浸游園
主持人在介紹園區(qū)時(shí),用戶向四周左右觀看(模擬),在此過程中,主持人的聲音呈現(xiàn)與他在你視角的位置始終保持對(duì)應(yīng)。
04聽:PING PANG之聲
沉浸式場(chǎng)景怎能少了運(yùn)動(dòng)!一轉(zhuǎn)頭,乒乓之聲已被“拋之腦后”。
06音頻的未來,炫到無法想象
除此之外,全景聲雙耳渲染技術(shù)還可運(yùn)用于多個(gè)場(chǎng)景,帶來沉浸視聽的無限想象力。
??VR演唱會(huì)
現(xiàn)場(chǎng)混合360度視頻和全景聲音頻, 同時(shí)將數(shù)據(jù)傳輸?shù)较鄳?yīng)的移動(dòng)平臺(tái),并進(jìn)行實(shí)時(shí)直播。讓觀眾可以達(dá)到“不在現(xiàn)場(chǎng),勝似現(xiàn)場(chǎng)”的感覺。
??沉浸式影院
也可以稱之為沉浸式投影,是一種成熟的高度沉浸式虛擬現(xiàn)實(shí)系統(tǒng)。它將高分辨率的立體投影技術(shù)、三維計(jì)算機(jī)圖形技術(shù)和音響技術(shù)等有機(jī)地結(jié)合在一起,產(chǎn)生一個(gè)完全沉浸式的虛擬環(huán)境,大大增加觀影的沉浸感。
??智慧教育
沉浸式教學(xué)模式逐漸受到教育界的關(guān)注。例如,IBM研究院和倫斯勒理工學(xué)院聯(lián)合開發(fā)的“認(rèn)知沉浸室 ”,它能讓學(xué)生置身于中國的餐館、商場(chǎng)、園林等虛擬場(chǎng)景,與AI機(jī)器人練習(xí)漢語對(duì)話,大大提升了學(xué)生的學(xué)習(xí)興趣和專注力。
??虛擬會(huì)議
以Facebook基于VR開發(fā)的虛擬會(huì)議為例。而為了更貼近現(xiàn)實(shí),Workrooms還加入了沉浸音頻功能,讓用戶交談時(shí),聲音的發(fā)出的方向跟他們所處的房間位置一致,從而進(jìn)一步增加參會(huì)者的沉浸感。
圖片來源于網(wǎng)絡(luò)
未來的沉浸音頻技術(shù)將如何發(fā)展?
以雙耳渲染引擎的核心模塊HRTF為例來說,當(dāng)前的HRTF模型,是一個(gè)固定模型,無法適應(yīng)不同人的聲音感知差異,尤其在正前方的外化能力還不夠好。若想得到更逼真的聲音效果,需對(duì)HRTF進(jìn)行進(jìn)一步優(yōu)化,使其適應(yīng)每個(gè)人的個(gè)體差異性。
比如:根據(jù)每個(gè)人的人頭大小,耳廓信息以及肩膀的形狀獨(dú)立建模。在國外HRTF的建模與個(gè)性化發(fā)展已經(jīng)成為趨勢(shì):
3月開始,杜比支持個(gè)性化HRTF的定制。
圖片來源于網(wǎng)絡(luò)
9月開始,iPhone升級(jí)了ios16,通過人臉掃描,可以定制自己的HRTF。
圖片來源于網(wǎng)絡(luò)
此外,用機(jī)器學(xué)習(xí)的方法,將面部,耳部圖片,轉(zhuǎn)化成HRTF也在火熱研究中。
未來,阿里云視頻云將繼續(xù)探索基于深度學(xué)習(xí)與信號(hào)處理的的音頻技術(shù),為VR超高清視頻直播帶來以「聲」臨其境的超沉浸之感。
參考文獻(xiàn):
[1] 5G 高新視頻—沉浸式視頻技術(shù)白皮書
[2] https://m.fx361.com/news/2018/0326/3298705.html
[3] https://3g.163.com/dy/article/ELBCI2OG053290QL.html?clickfrom=subscribe
[4] https://www.birtv.com/Magazine/content/?246.html
[5] https://m.midifan.com/article_body.php?id=6201
[6] https://sound.media.mit.edu/resources/KEMAR.html
[7] https://juiwang.com/assets/projects/hrtf_nn_bem/hrtf_nn_bem.pdf
[8] https://www.tvoao.com/a/208656.aspx
總結(jié)
以上是生活随笔為你收集整理的沉浸式视听体验:全景声技术是如何实现的?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: c语言运算程序示例,C语言算术运算示例程
- 下一篇: Octave获取使用imnoise函数