火山引擎视频云:坚持基础技术创新,打造极致用户体验
點擊上方“LiveVideoStack”關注我們
從toC到toB,作為抖音背后的視頻技術中臺,火山引擎視頻云經歷了哪些轉變和挑戰?對于國際標準的制定,它是如何實現從跟隨者到參與者的跨越?視頻盜版問題泛濫,火山引擎視頻云又有哪些應對措施?面對日益豐富的直播場景,火山的音視頻引擎如何有效支持直播業務不斷增加的場景變化?未來還將有哪些直播新玩法?
何予
技術訪談
#005#
LiveVideoStack近期采訪了火山引擎視頻云架構技術總監何予,和他一起討論了火山引擎視頻云從toC到toB的轉變,實現H.266所用到新技術、如何評估視頻畫質、RTC技術突破以及應對視頻盜版等話題。
何予:2006 年于清華大學電子系獲得學士學位,2012 年在中國科學院研究生院獲得博士學位,目前擔任火山引擎視頻云架構技術總監,在多媒體領域有豐富的算法、工程架構和產品業務經驗。
LiveVideoStack: 何老師,您好。請您介紹一下您在火山引擎視頻云所負責的工作,以及您目前所關注的技術方向。
何予:我是火山引擎視頻云架構技術總監,我們部門的主要業務目標和戰略重心是,如何將海量富媒體內容以最低的成本、最優的畫質、最低的延時、最安全可靠的方式傳遞給受眾,因此我們所關注的技術方向包括多媒體內容從生產到播放的全鏈路,包括采集、編碼、處理、轉碼、傳輸、播放等環節中所涉及到的算法和工程技術,以及大規模高并發高可靠的分發架構。
LiveVideoStack: 前段時間,火山引擎召開了品牌發布會。發布會上,火山引擎總經理譚待提到要把字節跳動最好的技術開放出去。這是一個從toC到toB的轉變,那么在這種轉變的過程中,火山引擎視頻云在技術上會面臨哪些挑戰?
何予:
1、從對內中臺角色向toB技術服務角色的轉化帶來的挑戰:內部中臺要求更專、更精,在技術方案上也可以和業務層有一定的滲透。但toB技術服務需要更通用,和業務層次劃分得更明顯。因此我們對技術架構進行原子化拆分,將API都設計得更簡單通用。
2、客戶考核標準帶來的變化:內部業務要求結果導向,在考核標準和業務目標上有高度共享,比如大家都要從用戶體驗、單位成本的角度去做優化。但toB因為跨公司,和客戶的真正目標之間有隔層,客戶更期望云服務公司利用標準方案進行PK。所以我們一方面輸出經過業務打磨的最佳實踐方案,另一方面也需要向行業標準方案看齊。
3、更復雜的業務環境:尤其是客戶端方向,內部業務環境的統一,而客戶卻使用不同組件、不同開發環境,所以我們需要做更多適配、將方案做得更靈活,給出更全面的demo。
4、團隊人員思維的改變:對內更要求深挖,toB更要求服務性。
LiveVideoStack: 去年7月,H.266/VVC標準發布。在保持視頻清晰度的情況下,H.266/VVC大約可以節省50%的碼率。火山引擎在實現H.266的過程中應用了哪些新技術?對于H.266之后新一代視頻壓縮標準,您有什么樣的期待?
何予:標準被譽為高科技產業王冠上的寶石。誰在標準中擁有更多專利,在產業中就擁有更大的話語權與主動權。正因為如此,各大科技巨頭都高度重視標準制定,將相關專利技術視為核心資產。字節跳動火山引擎團隊作為后起之秀,堅持基礎技術創新,參與國際標準制定,實現了從標準跟隨者到制訂者的跨越。從多家第三方的報道來看(https://www.lexology.com/library/detail.aspx?g=cb7164b0-9b22-46f6-a40f-c9b549ab3684),在國際標準H.266/VVC標準貢獻者排行榜上,字節跳動排名第三。同時,H.266/VVC標準貢獻者排行榜前五的企業中,字節跳動作為一家年輕的互聯網企業,是唯一一家沒有參與上一代視頻編解碼標準開發的公司。但在新一代視頻編解碼標準制定過程中,字節跳動發起的100多項技術提案獲得H.266/VVC標準采納,形成一系列原創性技術,為公司積累了數百項視頻相關的知識產權。公司多名成員出任了標準文本主編及編委、專家小組Chair、核心實驗負責人、專題討論組 Chair等職務,為標準研究工作做出積極貢獻。
除了標準化工作的重要貢獻之外,火山引擎團隊在H.266/VVC商業化落地方向也做出了積極的貢獻。早在2019年6月,團隊已經完成滿足點播場景應用的自研編碼器BVC第一個版本,該版本與x265編碼器相比,在相同計算資源下,針對大量的1080p高清視頻,BVC編碼器可以將平均碼率下降33%。之后,BVC經過不斷迭代,性能又有大幅提升。除了自研編碼器,自研解碼器也已經配套完成,在高端手機上可以做到實時流暢播放高清和超高清視頻。相信BVC的出現和不斷迭代必將會給用戶帶來更好的視頻體驗。
H.266標準之后,視頻領域的專家仍在繼續對視頻編碼技術進行探索。兩個方向的探索值得注意,一個是基于新興深度學習的視頻壓縮(也包括基于深度學習和傳統混合視頻編碼框架的結合),另外一個是基于傳統混合視頻編碼框架技術的繼續挖掘。盡管目前都還只是剛剛開始,我們已經看到不少突破性的進展,比如火山引擎團隊提出的一種基于深度學習的自適應濾波器DAM算法已經可以獲取15%以上的性能增益;而基于混合視頻編碼框架的多項技術提升合在一起,可以帶來超過13%以上的性能增益。國際標準化組織JVET已經確立了新的參考軟件平臺ECM,火山引擎的團隊成員也擔任了專家小組Co-chair、軟件Co-chair、核心實驗負責人等重要角色。相信在不久的將來,通過各位專家的持續努力,我們會看到越來越多的新技術的涌現。當再次看到30%左右的壓縮性能提高的時候,咱們就可以準備聆聽下一代視頻編碼標準正式啟動的鐘聲了。
LiveVideoStack: 隨著視頻交互逐漸成為一種交流方式,人們對視頻畫質的要求也越來越高,火山引擎視頻云在畫質評估方面有哪些經驗?
何予:目前常用的畫質評估算法(如:SSIM/VMAF等全參考指標),僅適用于轉碼等業務,且在UGC視頻場景表現相對乏力,無法滿足實際業務的需求。因此,為了更加準確地評測視頻主觀畫質,依托于抖音、西瓜等視頻數據,火山引擎通過海量的眾包人工標注精準收集主觀標注分數,構建大規模UGC場景質量評估數據集,并基于業界領先的輕量化深度學習算法,開發了VQScore畫質評估算法體系。VQScore包含無參/全參考清晰度指標,以及噪聲、色彩等多維度具有可解釋性的細指標。VQScore畫質評估體系有幾大特點:無參清晰度指標可以用于監控視頻全鏈路的畫質情況,包含用戶投稿側、前處理增強、服務端轉碼和播放端等多個節點,能夠有效地通過不同維度分析對比展現大盤的畫質變化差異,為A/B實驗等提供可靠的畫質參考信息;針對UGC視頻細分賽道,在點播、直播和視頻會議等不同應用場景設計了不同的畫質評估算法;通過結合播放設備的屏幕信息,實現跨平臺適配,這種device-adaptive VQScore能夠準確估計播放端視頻播放實際用戶體驗,補齊端到端鏈路的最后一環,為客戶端播放策略提供更有效的參考信息。最后,畫質評估的結論與畫質增強、去噪、轉碼等策略相結合,使用更少的計算資源獲取更加明顯的畫質收益。
VQSocore畫質評估體系除了在火山引擎得以大規模應用和驗證之外,在多媒體領域世界頂級學術會議ICME 2021的“壓縮UGC視頻質量評估”比賽中,拿下了該比賽“無參考視頻質量評價(NR-VQA)MOS賽道”的第一名,也得到了更加廣泛的認可和關注度。
LiveVideoStack: 過去幾年,實時音視頻為直播、社交、在線教育等行業帶來了巨大增長。火山引擎視頻云在RTC技術的應用上取得了哪些進展?對于AI與RTC技術的結合,火山目前做了哪些布局?
何予:
一、火山引擎RTC取得的技術進展包括:
1、自研音頻編碼算法nico,更低的編解碼復雜度,更強的弱網抗性,可做到50%丟包無感知恢復,最高可對抗80%丟包。
2、精細化設備性能自適應,讓更多的低端機可以使用實時音視頻能力,讓高端機可以享受更好的視聽體驗。
3、與業務一起打磨出來的各場景最佳實踐,針對互娛、教育、游戲、會議四大行業的十多個主要場景,沉淀出了一系列可復制的實踐方案。
基于這些技術進展,目前火山引擎RTC的月均通話分鐘數突破100億分鐘。
二、RTC與AI結合的布局
火山引擎有非常豐富且優秀的視頻與音頻的AI產品,而RTC和視頻云則相當于是音視頻的基礎建設,因此在火山引擎,RTC與AI自然而然產生了很多結合點,包括在端上編碼前處理和解碼后處理,以及在云端解碼處理等環節,都已經產生了很多結合AI的應用,比如視頻的美顏、特效、手勢識別,音頻的美聲、變聲、ASR等。未來RTC與AI的結合應該更自然且緊密,為行業帶來更多的新玩法。
LiveVideoStack: 現在有這樣一種情況:短視頻創作者辛辛苦苦地創作出來的視頻很容易被他人盜取,發布到其他平臺上,獲取流量。這對于原創作者來說,就很不公平。所以在應對盜版方面,火山引擎視頻云有沒有哪些舉措?
何予:火山引擎視頻云主要在獲取視頻地址/視頻播放兩個階段分別針對隱私/敏感/版權內容的訪問提供安全保障解決方案。
1、視頻地址訪問鑒權:通過基于IAM AK/SK 的業務級授權以及基于用戶ticket的用戶級授權的兩層權限控制,實現不同粒度的訪問鑒權。
2、視頻播放:針對視頻播放,火山引擎視頻云主要從鏈接訪問控制以及DRM提供內容保護解決方案。
鏈接訪問控制:
?隱私地址防擴散:防止URL通過簡單copy 傳播方式傳播,需要通過cookie/header/passport 傳遞authtoken 進行簽名驗證之后才能播放。
?源站地址防擴散:隱私地址訪問時(請求下載視頻時)進行鑒權,通過業務二次鑒權以及源站鑒權等邏輯對訪問請求進行管控。
DRM解決方案:
?內容防擴散:通過點播服務端簽發播放憑證PlayAuthToken以及DRM Auth Token,客戶端點播SDK獲取憑證密鑰后,獲取點播真實播放地址,并對播放內容進行解密。
LiveVideoStack: 從疫情開始,直播行業像是進入快車道,發展勢頭迅猛,直播的各種場景也在不斷豐富中,比如KTV歌房、直播答題、互動游戲、連麥、電商、拍賣、企業直播等?;鹕降囊粢曨l引擎如何有效支持直播業務的不斷增加的場景變化?未來還將有哪些直播新玩法?
何予:確實直播的熱度在持續的提升,疫情更是起到了加速的作用。過往火山音視頻引擎支持抖音嘗試了很多玩法,在這背后我們從幾個方面來重點支持:
1、底層組件化設計:把音質、畫質、特效、連麥等等能力抽象成底層組件來解耦,保障每個組件可以敏捷迭代,并讓專門的團隊去做到極致。所以表面上是音視頻引擎,其實背后有很多團隊在強有力的支持。
2、靠近業務的解決方案:直播客戶端專門設立解決方案團隊,會按照場景進行組件融合,降低上層業務接入門檻,只要調用幾個簡單的接口即可實現KTV、一起看等玩法。讓業務更專注在上側邏輯,直播解決方案去優化各種音視頻能力組合的細節,做到整體最優解。
3、數據驅動策略:依賴字節的數據中臺能力,把每一種場景,用戶畫像做到數據標簽化,并通過A/B實驗平臺做大量實驗,持續根據反饋取得最佳的直播體驗。
相信以上火山音視頻引擎的端到端方案,也很快會給到大家,從而加速行業的直播能力升級。
從直播業務演進來看,目前直播業務進入了多樣化生態拓展的2.0階段,直播除了秀場、電商、游戲之外,會探索更多的可能性,比如生活類、賽事、買房、買車等等,我們內部也在探索全新的直播技術升級,比如6dof自由視角、光場視頻等可提高內容交互性的前瞻技術,相信很快也會陸續使用起來,敬請期待。
LiveVideoStack: 音視頻行業的蓬勃發展也吸引了很多其他技術領域的程序員想要轉行,對于這些有編程經驗,但是對音視頻技術不太熟悉的人,您有什么建議嗎?
何予:對于有計算機理論和工程基礎的同學來說,多媒體的門檻并不高,有很多開源工程、博客、書籍都是很好的入門手段,可以根據自身的興趣和偏好來選擇最合適的學習路徑。
這里給大家提供一個我們自己總結提煉出的音視頻技術進階路線,希望能夠對大家有所幫助:音視頻 - IT技術知識開源圖譜https://codechina.gitcode.host/developer-roadmap/av/intro/。
另外在掘金社區上有一個我們部門的技術專欄,我們的同學會不定期地的在上邊分享一些技術文章,有興趣的同學也可以加關注和了解:
https://juejin.cn/team/6943035964193243150/posts。
同時,針對開發者,我們也有“火山引擎開發者社區”的公眾號,大家也可以在上面瀏覽到相關的技術文章,了解最新技術活動。
我想更重要的是,加入到一個從事多媒體應用的工程技術團隊,活學活用,在實踐中更深入地理解技術是如何服務于應用場景的,并在迭代中提升自己的認知和技能。
LiveVideoStack: 本次大會火山引擎專場上將會有哪些精彩內容?您可以提前透露一下嗎?
何予:本次專場上,火山引擎將會揭秘我們是如何基于自身的業務場景,打磨產品能力,支撐業務的發展;在有限的碼率下,設計高效的視頻編碼壓縮方案,為用戶提供最佳的視頻畫質體驗;然后聚焦討論通過性能體驗優化促進業務增長的實踐;最后,以抖音等業務為例,介紹RTC技術如何追求極致的體驗以及直播豐富的玩法。
掃描圖中二維碼或點擊閱讀原文
了解大會更多信息
喜歡我們的內容就點個“在看”吧!
總結
以上是生活随笔為你收集整理的火山引擎视频云:坚持基础技术创新,打造极致用户体验的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【音视频架构演进:边缘计算与云原生】
- 下一篇: 【媒体服务质量监控与QoE】