高孟平:深度学习是视频技术与人眼视觉连结的重要桥梁
LiveVideoStack通過郵件專訪了騰訊音視頻實(shí)驗(yàn)室專家高孟平,他聊起了自己的成長(zhǎng)與從業(yè)經(jīng)歷,并暢談了帶領(lǐng)AI、視頻處理、編解碼、質(zhì)量等團(tuán)隊(duì)打造人眼視覺為標(biāo)準(zhǔn)的視頻服務(wù)平臺(tái)——麗影平臺(tái)的前前后后。在4月19-20日舉行的LiveVideoStackCon上海2019上,邀請(qǐng)了騰訊高級(jí)工程師李凱和王詩(shī)濤介紹騰訊音視頻實(shí)驗(yàn)室在視頻前后處理及Codec方面的探索。點(diǎn)擊【閱讀原文】了解大會(huì)最新信息。
文 / 高孟平
策劃 / LiveVideoStack
如果你對(duì)多媒體技術(shù)和生態(tài)有話要說,輸出觀點(diǎn)與實(shí)踐經(jīng)驗(yàn),歡迎聯(lián)系 contribute@livevideostack.com。
LiveVideoStack:高孟平你好,向LiveVideoStack的讀者介紹下自己的經(jīng)歷,以及目前的工作內(nèi)容與感興趣的領(lǐng)域。在眾多的前沿科技領(lǐng)域中,為什么選擇多媒體技術(shù)這一方向,有特別的魅力嗎?或?qū)δ阌刑貏e的意義?
高孟平:LiveVideoStack的朋友們大家好,我是高孟平,2008年加州大學(xué)圣地牙哥分校電腦電機(jī)博士,研究領(lǐng)域主要在視頻編解碼的Scalable Video Coding (SVC), 其中 motion vector,residual coding以及scalable bitstream selector發(fā)表了十多篇IEEE期刊及會(huì)議論文。博士畢業(yè)后加入美國(guó)高通公司,負(fù)責(zé)H.264行動(dòng)編解碼芯片的系統(tǒng)設(shè)計(jì)。2012年加入美國(guó)蘋果公司,負(fù)責(zé)FaceTime實(shí)時(shí)視訊通信以及iTunes高品質(zhì)視頻處理編解碼系統(tǒng),并研發(fā)了高效且質(zhì)量無(wú)損的分布式編碼架構(gòu)。2018年初加入騰訊,擔(dān)任音視頻實(shí)驗(yàn)室專家,帶領(lǐng)AI、視頻處理、編解碼、質(zhì)量以及后臺(tái)團(tuán)隊(duì),打造全新以人眼視覺為標(biāo)準(zhǔn)的視頻服務(wù)平臺(tái)–騰訊麗影,在人工智慧與云端數(shù)據(jù)的助力下,規(guī)劃出新世代多媒體服務(wù)的創(chuàng)新之路。
多媒體技術(shù)是互聯(lián)網(wǎng)連接一切最自然的媒介,從文字、圖片、語(yǔ)音、視頻到人機(jī)互動(dòng),人與人的連結(jié)越發(fā)親密,人與機(jī)器的互動(dòng)則越發(fā)直覺。我本身踏入多媒體領(lǐng)域,最早始自研究生階段加入的數(shù)位影像實(shí)驗(yàn)室,二十年來(lái),從影像、視頻到AI電腦視覺,從硬件、軟件到服務(wù),經(jīng)歷了無(wú)數(shù)多媒體技術(shù)的盛衰興廢,深深體悟到任何成功的多媒體技術(shù)都離不開人,唯有擁抱創(chuàng)新,以人為本,才能打造出觸動(dòng)人心的多媒體現(xiàn)象級(jí)產(chǎn)品,這也是麗影誕生的初衷。
LiveVideoStack:接下來(lái)聊聊麗影平臺(tái)吧,SIGGRAPH Asia我看到關(guān)于麗影平臺(tái)的分享——對(duì)視頻進(jìn)行修復(fù)和增強(qiáng),看上去效果很不錯(cuò)。能否介紹下麗影平臺(tái)?
高孟平:麗影平臺(tái)是一個(gè)以人眼視覺為標(biāo)準(zhǔn)的視頻服務(wù)平臺(tái),在視頻理解,處理與評(píng)估領(lǐng)域大量引入日益成熟的人工智慧及云端大數(shù)據(jù)能力,并與傳統(tǒng)的視頻處理及編解碼技術(shù)深度結(jié)合, 各個(gè)環(huán)節(jié)以人眼視覺為指標(biāo)最優(yōu)化, 進(jìn)而達(dá)到視頻“更小更漂亮”的用戶最佳體驗(yàn)。
另一方面, 麗影平臺(tái)在快速發(fā)展的同時(shí),也認(rèn)知到多媒體服務(wù)各個(gè)面向的不可分割性,在開放音頻及圖片引擎以及多模態(tài)整合的能力后,一個(gè)以人體觀感為標(biāo)準(zhǔn)的多媒體服務(wù)平臺(tái)或許更適合描述麗影。 無(wú)論從哪個(gè)面向來(lái)描述,麗影都希望成為一個(gè)以人為本的平臺(tái),乘載多媒體創(chuàng)新技術(shù)的各種可能。
LiveVideoStack:能否就麗影平臺(tái)在視頻分析,修復(fù),處理,編碼,傳輸,解碼,評(píng)估(有參考或無(wú)參考)方面實(shí)現(xiàn)的方法與策略做些介紹?
高孟平:麗影的視頻技術(shù)模塊分為四大類, 視頻理解,視頻處理,視頻編解碼,視頻評(píng)估。以傳統(tǒng)視頻技術(shù)為基礎(chǔ)貫穿各模塊,并在視頻理解、處理與評(píng)估模塊中引入多項(xiàng)深度學(xué)習(xí)的能力 (括弧內(nèi))。
視頻理解
人眼關(guān)注區(qū)檢測(cè) (ResNet-34 + Feature Pyramid)
場(chǎng)景檢測(cè) (ResNet-50)
精彩視頻 (BSN)
視頻指紋 (MobileNet)
視頻源分析 – 人眼遮蔽效應(yīng), 質(zhì)量, 噪聲
視頻處理
去壓縮失真 (DenseNet)
超分辨率 (DRRN)
人眼視覺銳化增強(qiáng)?
防抖
視頻編解碼
降噪器
自動(dòng)碼率判斷
Region of Interest
各式編碼器
視頻評(píng)估
有參考 – PSNR, SSIM, VMAF
無(wú)參考 – 塊效應(yīng), 銳化, 增強(qiáng) (RankIQA)
在各個(gè)模塊的開發(fā)環(huán)節(jié), 我們以人眼視覺為衡量標(biāo)準(zhǔn)。 值得說明的是, 深度學(xué)習(xí)是視頻技術(shù)與人眼視覺間連結(jié)的重要橋梁,在許多視頻增強(qiáng)的訓(xùn)練集中,都是人工將人眼喜好的程度標(biāo)注下來(lái), 直接以人眼視覺為黃金標(biāo)準(zhǔn)。?
LiveVideoStack:麗影平臺(tái)處理的延遲是多少?能否處理直播視頻流或?qū)崟r(shí)交互場(chǎng)景下的視頻(如視頻會(huì)議)?
高孟平:麗影v1.1版的處理速度,在 720p 30fps,H.264的環(huán)境下,約為 0.5x real-time (一分鐘視頻耗時(shí)兩分鐘),這是在 Nvidia P40 單卡,8-CPU (2.4GHz,avx2) 機(jī)器上測(cè)得的數(shù)據(jù)。
同時(shí)麗影也提供分布式轉(zhuǎn)碼能力,可以在5臺(tái)上述機(jī)器上達(dá)到80%的效率,將速度提升到 2x real-time。 由于目前采取多遍分析編碼的策略,麗影暫時(shí)不支持實(shí)時(shí)場(chǎng)景(直播或會(huì)議),預(yù)計(jì)2019下半年才會(huì)開始提供實(shí)時(shí)服務(wù)。
LiveVideoStack:麗影平臺(tái)的能力是通過服務(wù)端實(shí)現(xiàn)的,有沒有可能在客戶端(如手機(jī))上也實(shí)現(xiàn)部分能力?(比如在手機(jī)上實(shí)現(xiàn)超分。)現(xiàn)在手機(jī)的CPU/GPU性能不斷增強(qiáng),一些高端手機(jī)還配有AI計(jì)算芯片。
高孟平:將部分麗影能力由服務(wù)端移植到客戶端是2019年Q3的重點(diǎn)規(guī)劃,建立麗影平臺(tái)的端云閉環(huán)能力,將重要能力放在最適合的地方,達(dá)到帶寬與計(jì)算資源的最佳利用。具體而言,包含去壓縮失真及超分辨率等后處理能力會(huì)率先上客戶端,其他如精彩視頻等視頻理解能力,落地采集端也能有效節(jié)省許多不必要的上傳帶寬。
LiveVideoStack:麗影平臺(tái)在服務(wù)端實(shí)現(xiàn)底層硬件是什么平臺(tái),CPU,GPU、FPGA還是ASIC?
高孟平:麗影服務(wù)騰訊微視的大量視頻是基于 CPU + GPU 的架構(gòu)。目前我們也正在分析ASIC的使用可能性。
LiveVideoStack:麗影平臺(tái)使用了哪些Codec,可以輸出哪些Codec流?(H.264、HEVC,VP9,AV1等)
高孟平:麗影目前支持 H.264 及 HEVC 的編碼, 其余暫時(shí)還不支持。
LiveVideoStack:播放麗影平臺(tái)輸出的視頻流,對(duì)客戶端(Web或手機(jī))有特別的要求嗎?對(duì)CDN網(wǎng)絡(luò)有定制要求嗎?
高孟平:麗影輸出的都是標(biāo)準(zhǔn)視頻流,對(duì)客戶端沒有特別要求,也不需要對(duì) CDN網(wǎng)絡(luò)有特別的定制。
LiveVideoStack:麗影平臺(tái)服務(wù)了騰訊內(nèi)部和外部哪些產(chǎn)品?
高孟平:麗影提供服務(wù)給騰訊微視(100%頭部PGC內(nèi)容),騰訊云CDN加速中心,以及Now直播。
LiveVideoStack:未來(lái)麗影平臺(tái)還會(huì)做哪些工作?有哪些迭代或新功能值得期待?
高孟平:2019年下半年麗影將會(huì)提供實(shí)時(shí)服務(wù),包含直播及視頻通信,同時(shí)也會(huì)解放許多手機(jī)端的人眼視覺AI技術(shù),我們非常興奮能將最先進(jìn)的人眼視覺技術(shù)賦能于更多更廣的多媒體應(yīng)用,從云端到手機(jī)端,由高品質(zhì)邁向?qū)崟r(shí)應(yīng)用。
同時(shí),麗影平臺(tái)在音視頻圖片文字等多模態(tài)整合,無(wú)參考視頻增強(qiáng)質(zhì)量評(píng)估,以及大規(guī)模視頻檢索方面的能力也是我們目前的重點(diǎn),希望在未來(lái)的多媒體創(chuàng)新上,跟大家一起深度合作,改變這個(gè)世界。
LiveVideoStack:數(shù)據(jù)量的爆發(fā)以及計(jì)算力的增長(zhǎng)讓AI得以應(yīng)用,未來(lái)幾年您看好哪些技術(shù)有廣泛的應(yīng)用?
Immersive video applications
virtual reality
point cloud
volumetric video
multi-modal transformation
video-to-text journalism
text-to-video creation
multi-model search
video search by video, by image, by text (description)
智能安防 - 行為識(shí)別,可疑行為,準(zhǔn)確率如何有效提升
LiveVideoStack:5G對(duì)于麗影平臺(tái)會(huì)有哪些機(jī)會(huì)和挑戰(zhàn)呢?
高孟平:帶寬的成本降低會(huì)讓一些成熟應(yīng)用的技術(shù)成本更低廉,更看不出技術(shù)的差異性。然而帶寬的增加,卻更可以讓新興的應(yīng)用加速普及,例如 8K virtual reality 以及 volumetric video。掌握人眼視覺的技術(shù)與標(biāo)準(zhǔn),是視頻服務(wù)的不變準(zhǔn)則,也是麗影未來(lái)會(huì)持續(xù)投入與堅(jiān)持的方向。
點(diǎn)擊【閱讀原文】,了解更多LiveVideoStackCon 上海 2019 講師信息。
總結(jié)
以上是生活随笔為你收集整理的高孟平:深度学习是视频技术与人眼视觉连结的重要桥梁的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源声码器WORLD在语音合成中的应用
- 下一篇: LiveVideoStack:祝大家 2