中南大学张昊:我非常期待基于AI的图像视频编码技术的创新
點(diǎn)擊上方“LiveVideoStack”關(guān)注我們
策劃:包研、Alex
編輯:Alex
張昊
年終訪談
#002#
編者按:本周是2021年的最后一周,在這個迎接新年的日子里,LiveVideoStack有幸邀請到了中南大學(xué)計(jì)算機(jī)學(xué)院張昊教授參加我們的年終訪談。過去的十余年時間里,張教授一直致力于視頻編碼技術(shù)的研究,曾發(fā)表期刊會議論文共50余篇,擁有專利60余項(xiàng)(授權(quán)或申請),主要研究領(lǐng)域包括視頻編解碼、基于深度學(xué)習(xí)的圖像視頻處理、視頻分析等。在此次與LiveVideoStack的對話中,張教授分享了他對音視頻技術(shù)發(fā)展與未來創(chuàng)新、元宇宙、音視頻人才培養(yǎng)和技術(shù)學(xué)習(xí)等話題的看法和感悟。
中南大學(xué)計(jì)算機(jī)學(xué)院教授? 張昊
LiveVideoStack:?張教授,歡迎您參加訪談,請您向我們的讀者簡單介紹一下目前您所關(guān)注的技術(shù)。
張昊:很榮幸有機(jī)會參加LiveVideoStack的訪談。目前我主要關(guān)注基于深度學(xué)習(xí)的圖像視頻編碼和前后處理技術(shù)。另外,還在關(guān)注面向VR/AR的相關(guān)編碼和處理技術(shù)。我還在參與一些與視頻分析相關(guān)的應(yīng)用研究。
LiveVideoStack:?回顧近幾年的音視頻技術(shù)發(fā)展,有哪些創(chuàng)新技術(shù)令您印象深刻?
張昊:最早接觸的音視頻技術(shù)是H.264視頻編碼。我覺得H.264標(biāo)準(zhǔn)的制定對視頻應(yīng)用有重要的影響。另外,可伸縮視頻編碼結(jié)合相關(guān)傳輸技術(shù),極大提升了互聯(lián)網(wǎng)上的視頻會議質(zhì)量。
LiveVideoStack:?您目前關(guān)注的音視頻技術(shù)應(yīng)用場景有哪些?能否具體說說?
張昊:我目前比較關(guān)注的應(yīng)用場景有:基于AI的視頻處理、基于AI的視頻編碼器參數(shù)優(yōu)化、基于人臉關(guān)鍵點(diǎn)AI編碼的視頻會議、三維視頻會議、云端渲染和編碼(或者混合渲染)、虛擬人技術(shù)等。感覺這些方向在未來可能會有一些真正廣泛應(yīng)用的技術(shù)或產(chǎn)品出來。
LiveVideoStack:?張教授,您在加入中南大學(xué)之前,曾在美國的Vidyo公司工作過。據(jù)您觀察,中外的視頻技術(shù)發(fā)展有哪些不同??
張昊:我只在這一家公司工作過,所以對這個話題還沒有太多發(fā)言權(quán)。不過我回國后跟國內(nèi)企業(yè)進(jìn)行校企科研合作比較多,個人感覺國內(nèi)的視頻人才越來越多,不少國外知名企業(yè)的技術(shù)骨干都回國創(chuàng)業(yè)或者加入國內(nèi)企業(yè)。我對視頻編碼這個方向稍微了解多一點(diǎn),感覺這方面國內(nèi)的技術(shù)研發(fā)實(shí)力是很強(qiáng)的,在國際上也是很有競爭力的。
LiveVideoStack:?元宇宙是今年大熱的話題,Facebook前段時間也更名“Meta”,變身元宇宙公司。對于元宇宙,您是如何理解的??
張昊:網(wǎng)上很多人都針對元宇宙談過自己的看法。我個人的理解就是元宇宙是結(jié)合VR/AR等技術(shù),對網(wǎng)絡(luò)時代社交的一次全面升級。未來的元宇宙是什么形式,是否包含多種應(yīng)用,哪些應(yīng)用可以普及,現(xiàn)在都難以預(yù)測。我現(xiàn)在更關(guān)心那些可以相對較快落地的技術(shù),比如VR/AR編碼技術(shù),虛擬人技術(shù)等。
LiveVideoStack:?對于音視頻技術(shù)的未來發(fā)展,還可能會有哪些令人期待的創(chuàng)新?在AI與視頻編碼技術(shù)結(jié)合上,未來有可能會出現(xiàn)哪些突破?
張昊:我非常期待基于AI的圖像視頻編碼技術(shù)的創(chuàng)新。目前基于傳統(tǒng)視頻編碼框架提升壓縮率已經(jīng)越來越困難,我們期待一個新的框架。目前AI視頻編碼還達(dá)不到最新傳統(tǒng)編碼標(biāo)準(zhǔn)(比如VVC)的水平,但是這個方向最近不斷有新的研究成果發(fā)布出來,相信性能提升會加快。要是未來AI編碼成為業(yè)界廣泛采用的方案,那編碼器的優(yōu)化可能會需要與以往不同的技術(shù)。當(dāng)然,在完全的AI編碼成為現(xiàn)實(shí)之前,可能會有一個中間狀態(tài),比如結(jié)合傳統(tǒng)架構(gòu)和AI模塊的編碼技術(shù)和標(biāo)準(zhǔn)。這要求編碼工程師既要懂傳統(tǒng)編碼,也要了解AI的相關(guān)知識。
目前端對端的AI+視頻編碼,雖然成果不斷涌現(xiàn),但是短期內(nèi)可能還很難大幅度超過VVC的性能。但基于傳統(tǒng)編碼框架,加入一些編碼效率更高的AI模塊(比如濾波、預(yù)測),是有可能在短期內(nèi)提升壓縮率的。因此我看好基于傳統(tǒng)編碼框架+AI這條思路的技術(shù)進(jìn)展。
LiveVideoStack:?我們前段時間做了一個程序員35歲的采訪,大家都提到音視頻領(lǐng)域人才稀少的情況。作為一名大學(xué)教授,您能否從您的角度談?wù)勔粢曨l技術(shù)領(lǐng)域人才供給?
張昊:這幾年隨著4G普及而引發(fā)直播、短視頻大熱,導(dǎo)致企業(yè)對音視頻領(lǐng)域人才的需求增加。然而從事音視頻領(lǐng)域研究的老師較少,每年畢業(yè)的碩士博士也不多,因此目前音視頻人才是供不應(yīng)求的。如何增加音視頻人才供給,我個人覺得可以從以下三個方面著手:一是可以從國外引進(jìn)人才(目前其實(shí)已經(jīng)有不少海歸加入國內(nèi)企業(yè)或高校);二是跟高校音視頻領(lǐng)域的實(shí)驗(yàn)室保持聯(lián)系,為這些實(shí)驗(yàn)室的研究生提供實(shí)習(xí)機(jī)會;三是在企業(yè)內(nèi)部培養(yǎng)人才,即對專業(yè)背景相關(guān)(比如圖像處理背景)的工程師進(jìn)行培訓(xùn),從而緩解企業(yè)缺乏音視頻人才的問題。
LiveVideoStack:?對于未來想從事音視頻技術(shù)工作的同學(xué),您有哪些建議??對于想要入門音視頻技術(shù)的同學(xué),您有哪些學(xué)習(xí)資料可以推薦?
張昊:未來想從事音視頻技術(shù)工作的同學(xué),首先需要選擇細(xì)分方向。音頻和視頻方向區(qū)別是比較大的,視頻技術(shù)又可分成視頻傳輸、視頻編碼等方向。這些方向需要掌握的背景知識不同,我只能針對自己比較熟悉的視頻編碼方向推薦一些學(xué)習(xí)方法:首先可以找一本264/265/266的入門書籍,然后結(jié)合標(biāo)準(zhǔn)軟件JM/HM/VTM學(xué)習(xí)整個編碼流程和其中關(guān)鍵模塊。光看書和讀代碼顯然是不夠的,可以選擇自己感興趣的模塊,找2篇論文,自己在JM/HM/VTM軟件中實(shí)現(xiàn)文中算法,以加深對細(xì)節(jié)的理解。網(wǎng)上有大量博客對各模塊(比如模式選擇、運(yùn)動估計(jì)、碼控)進(jìn)行了詳細(xì)介紹,可以作為學(xué)習(xí)中的參考資料。鉆研得比較深的同學(xué)也可以研究一下標(biāo)準(zhǔn)文檔。學(xué)習(xí)音視頻技術(shù)是一個循序漸進(jìn)的過程,只能先了解整體架構(gòu),然后把1-2個模塊搞熟,再慢慢學(xué)習(xí)其他部分。祝同學(xué)們學(xué)習(xí)順利!
掃描圖中二維碼或點(diǎn)擊閱讀原文
了解大會更多信息
喜歡我們的內(nèi)容就點(diǎn)個“在看”吧!
超強(qiáng)干貨來襲 云風(fēng)專訪:近40年碼齡,通宵達(dá)旦的技術(shù)人生總結(jié)
以上是生活随笔為你收集整理的中南大学张昊:我非常期待基于AI的图像视频编码技术的创新的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 音视频技术开发周刊 | 226
- 下一篇: 音视频出海,如何乘风破浪?