会议更流畅,表情更生动!视频生成编码 VS 国际最新 VVC 标准
作者|王釗 、葉琰、王詩淇
審校| 泰一
基于 AI?生成的人臉視頻壓縮
繼線上購物、線上支付后,在線教育、在線辦公、在線互娛也流行起來,豐富著我們的日常工作生活,其中一大功臣 —— 視頻,是主要的推動力。整個社會的大趨勢在走向內容視頻化,交互線上化。視頻云業務成為云業務中最炙手可熱的版塊,云端一體創造了更低成本、更低門檻、更強體驗、全民共享的技術普惠能力。釘釘也成為一種新的工作學習方式,通過視頻會議幫助億萬人解決異地工作的問題,幫助億萬中小學生解決在家上課的問題。
不論是視頻會議還是其它視頻場景,視頻壓縮都是最基本也是最核心的能力。國際 ISO/IEC 與 ITU-T 標準組制定的一代代視頻壓縮標準,如 H.264/AVC (2003),H.265/HEVC (2013) 等,代表了視頻壓縮能力的每一次重大發展。在 2020 年,最新的國際視頻壓縮標準 H.266/VVC 正式完成制定,相比于 H.265/HEVC,可以提高一倍壓縮率,相比于 H.264/AVC,可以提高四倍壓縮率。
AI 技術的興起也在向廣泛的應用領域發起挑戰。其中,號稱 “萬物皆可生成” 的 GAN(對抗生成網絡) 則被一些互聯網科技巨頭公司嘗試用于會議視頻壓縮上。2020 年,Facebook 與 Nvidia 均發布了基于生成的會議視頻壓縮方法,報告顯示可以取得明顯優于 H.264/AVC 的壓縮效率。
今天,阿里云視頻云的標準與實現團隊通過和香港城市大學的緊密合作,也推出了基于 AI 生成的會議視頻壓縮系統,相比于最新的 VVC 標準,在實驗室測試場景中,相同的人眼觀看質量下可以節省 40%-65% 的碼率。VVC 已經代表著業界最先進的視頻壓縮能力,而我們系統相比于 VVC 所顯示的技術優勢則意味著我們有望可以在不久的將來大幅度拉開釘釘視頻會議和競品系統之間的技術差距,用一半的帶寬開相同質量的釘釘視頻會議!
傳統客觀質量評價指標如 PSNR、SSIM 等依賴于像素級的失真計算,并不適用于生成任務的失真評價。DISTS 指標(?PAMI2020[1]?)和 LPISP 指標( CVPR2018[2]?) 是兩個近年來質量評估領域的頂級文章,它們通過深度特征來度量解碼圖像與原始圖像的相似度,可以更好地針對基于 GAN 的視頻壓縮場景進行質量評價,因此它們與人眼主觀質量評測的相關度遠高于 PSNR 和 SSIM 這些傳統指標。
當我們視頻云的基于 AI 生成的會議視頻壓縮系統與 VVC 參考軟件使用相同的碼率時,視頻云生成壓縮系統的解碼視頻相比于 VVC 可以獲得 40%-65% 的質量提升。也就是說,在相同的帶寬下,用戶可以享受到更加清晰、生動的畫質。
在 DISTS 客觀指標相當時,視頻云的生成壓縮系統與 VVC 對比如頂部視頻所示。通過觀察對比視頻效果可以看到,視頻云的基于 AI 生成的壓縮系統與 VVC 相比有大幅的帶寬成本降低(只用 1/3 左右的帶寬),同時在視頻清晰度和主觀質量上可以取得明顯優勢。
由于 VVC 是基于傳統視頻壓縮框架,因此在低碼率下容易出現視頻模糊不清以及塊效應等主觀質量問題,而視頻云的生成壓縮系統則可以在更低碼率下依然很好地保持面部細節和五官清晰度。在碼率 / 帶寬相當時,視頻云的生成壓縮系統與 VVC 編碼對比視頻如下,相比于 VVC 畫面清晰度和主觀質量的優勢更是明顯,面部表情栩栩如生。
壓縮系統關鍵技術
我們提出的基于 AI 生成的視頻云會議視頻壓縮系統的編碼端包含兩部分:壓縮源圖像的 VVC 編碼器和用于提取其他圖像幀的臉部運動信息的臉部探測器。首先,通過對源圖像在 VVC 編碼器中在一定的量化步長下進行壓縮,并傳輸相應的比特流到解碼端。其次,在臉部探測器的幫助下我們可以進一步提取后續其他圖像幀的關鍵點和雅可比矩陣,用于表示這些圖像幀的臉部運動信息。這些臉部關鍵點和雅可比矩陣進行幀間殘差預測和算術編碼,實現壓縮并傳輸到解碼端。?
解碼端首先解碼出源圖像,然后解碼出待生成幀對應的關鍵點與雅可比矩陣。解碼端的生成模型會以源圖像、關鍵點和雅可比矩陣作為輸入,對關鍵點對應的高維空間進行矩陣變換,并作用于源圖像提出的高維特征圖上,從而輸出最終的生成圖像。下圖給出了一個可視化示例。?
與 VVC 編碼實驗對比
我們對 30 個人臉視頻 (上圖) 進行了 VVC 編碼與基于 AI 生成的視頻壓縮對比。VVC 編碼器在低延遲模式 (Low-delay B) 下使用量化參數 (QP) 32, 37, 42, 47。視頻云的基于 AI 的生成壓縮方法同樣測試了 4 個不同的碼率點。測試集上的平均編碼質量與碼率如下表所示。
表 1 視頻云的生成壓縮系統與 VVC 的壓縮性能對比,DISTS 與 LPIPS 數值越低表示質量越高
根據實驗結果,可以看到在相當的解碼視頻質量下,視頻云的生成壓縮方法相比于 VVC 可以帶來 40%-65% 的平均碼率節省,同時這個壓縮性能的優勢在低碼率場景下更加明顯。把質量評分與碼率做成相應的失真 - 碼率曲線,對比如下:?
圖 4 視頻云的生成壓縮方案與 VVC 的壓縮效率對比圖
在碼率相當時,視頻云的生成壓縮系統與 VVC 解碼視頻的主觀對比圖示例如下:?
可見在低碼率下 VVC 容易出現畫面模糊的情況,而視頻云的生成壓縮系統的清晰度更高。
在解碼質量相當時,視頻云的生成壓縮系統與 VVC 解碼視頻的碼率對比如下:
可以看到,在壓縮質量相當時,視頻云的生成壓縮系統相比于國際最新 VVC 標準可將壓縮率提高 40%-65%。這不僅極大降低了相關視頻應用的帶寬成本,還可以讓用戶享受到更生動、更流暢的視頻體驗!
參考文獻:
[1] Ding, Keyan, et al. "Image Quality Assessment: Unifying Structure and Texture Similarity."?IEEE transactions on pattern analysis and machine intelligence.
[2] Zhang, Richard, et al. "The unreasonable effectiveness of deep features as a perceptual metric."?Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
「視頻云技術」你最值得關注的音視頻技術公眾號,每周推送來自阿里云一線的實踐技術文章,在這里與音視頻領域一流工程師交流切磋。
原文鏈接:https://developer.aliyun.com/article/783649?
版權聲明:本文內容由阿里云實名注冊用戶自發貢獻,版權歸原作者所有,阿里云開發者社區不擁有其著作權,亦不承擔相應法律責任。具體規則請查看《阿里云開發者社區用戶服務協議》和《阿里云開發者社區知識產權保護指引》。如果您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將立刻刪除涉嫌侵權內容。總結
以上是生活随笔為你收集整理的会议更流畅,表情更生动!视频生成编码 VS 国际最新 VVC 标准的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Service Mesh 为什么从“趋势
- 下一篇: 手机淘宝轻店业务 Serverless