详解优酷视频质量评价体系
萬字長文 | 詳解優(yōu)酷視頻質(zhì)量評價(jià)體系
分享嘉賓|李靜博士,阿里巴巴文娛集團(tuán)資深算法專家,阿里巴巴大文娛摩酷實(shí)驗(yàn)室視頻體驗(yàn)與質(zhì)量團(tuán)隊(duì)負(fù)責(zé)人
整理出品|AICUG人工智能社區(qū)
本文地址:https://www.6aiq.com/article/1617926511225
本文版權(quán)歸作者和AIQ共有,歡迎轉(zhuǎn)載,但未經(jīng)作者同意必須保留此段聲明,且在文章頁面明顯位置給出
導(dǎo)讀:隨著近年來用戶在社交媒體/短視頻分享平臺的重度參與,視頻多媒體內(nèi)容的消費(fèi)主導(dǎo)從原來的OGC向UPGC轉(zhuǎn)變。因此UPGC圖像/視頻的質(zhì)量評價(jià)成為了目前學(xué)術(shù)界重點(diǎn)關(guān)注的研究熱點(diǎn)。由于其沒有無損的參考圖片/視頻,研究課題本身即屬于質(zhì)量評價(jià)領(lǐng)域最具挑戰(zhàn)的無參考質(zhì)量評價(jià)。除此外,社交媒體/短視頻分享平臺等的視頻來源十分復(fù)雜且多樣,導(dǎo)致質(zhì)量問題的根源可以追溯到整個(gè)視頻從拍攝到傳輸?shù)讲シ诺恼麄€(gè)pipeline,由此帶來的圖像/視頻降質(zhì)的因素為多種失真的疊加。這種對于失真類型的不可控(從失真類型到失真程度兩個(gè)維度)導(dǎo)致UPGC圖像/視頻的質(zhì)量評價(jià)更具挑戰(zhàn)性。因此如何準(zhǔn)確評價(jià)新型視覺信息的質(zhì)量從而極大化用戶體驗(yàn)是目前質(zhì)量評價(jià)領(lǐng)域和多媒體視覺領(lǐng)域的熱點(diǎn)和難點(diǎn)。
本演講將圍繞5G時(shí)代移動社交場景中視頻觀看體驗(yàn)的評價(jià)問題,基于視頻內(nèi)容的生產(chǎn)到應(yīng)用的pipeline,講述優(yōu)酷如何針對不同業(yè)務(wù)場景打造視頻質(zhì)量評價(jià)體系,助力移動端多媒體視頻行業(yè)的體驗(yàn)標(biāo)準(zhǔn)化工作。
目錄
1、優(yōu)酷主觀測評平臺
2、算法模型
3、業(yè)務(wù)應(yīng)用
對于優(yōu)酷以及各家視頻平臺來說,我們會面臨著很多質(zhì)量評價(jià)的需求,這個(gè)質(zhì)量是包括各種各樣視頻或者是圖像的。
比如說封面圖,它的生產(chǎn)方式有很多種,可以從視頻里面去截幀,也可以做一些合成類的封面。但生成的這個(gè)封面需要去有一個(gè)評價(jià)機(jī)制去判斷它是否滿足觀眾的喜愛度。在其他維度不變的情況下,畫面質(zhì)量越好當(dāng)然觀眾越喜愛,它的點(diǎn)擊率也會越高,進(jìn)而形成這樣一個(gè)良性循環(huán)。因此,作為打開視頻網(wǎng)站的第一眼,封面圖是極其重要的一環(huán)。
針對UPGC 的這個(gè)視頻場景,我們同樣也需要這樣一個(gè)評價(jià)的工作。隨著抖音、快手近年來在國內(nèi)外特別的火熱,以及我們生活和工作節(jié)奏的加快,我們觀看視頻的習(xí)慣也漸漸從長視頻向短視頻、小視頻遷移。除此外,用戶也會更多的參與到短小視頻的制作中。
在視頻制作環(huán)節(jié),在采集側(cè),大家的手機(jī)性能拍照設(shè)備不盡相同。在傳輸側(cè)以及后處理,大家會用不同的軟件去修圖,去做一些美化和濾鏡的操作。算法側(cè)在自動生產(chǎn)的時(shí)候,也會有字幕擦除,增強(qiáng)超分等操作。這些操作都會導(dǎo)致UPGC 這種視頻比傳統(tǒng)的長視頻在質(zhì)量評價(jià)上更加復(fù)雜。
哪種后處理方式會比較好?哪種增強(qiáng)方式或超分方式會對于UPGC 視頻產(chǎn)生好的觀看效果?這里質(zhì)量評價(jià)算法也是非常重要的環(huán)節(jié)。特別是對于那些低質(zhì)量的視頻,我們需要在用戶上傳的第一時(shí)間,就對他提出一些建議。比如說你這個(gè)視頻分辨率太低或者主觀感知的清晰度不太好,在分發(fā)的時(shí)候,有可能不能產(chǎn)生好的分發(fā)效果。
在長視頻領(lǐng)域,一個(gè)比較典型的應(yīng)用就是老片修復(fù)。比如過去的黑白電視,或者早年的一些片子,它的清晰度較差,分辨率也比較低。現(xiàn)在隨著4k、8k的普及,當(dāng)一個(gè)低分辨率的視頻放到了高分辨率的顯示器上時(shí),這個(gè)視覺感知效果就更加的明顯。因此,我們會經(jīng)常用一些修復(fù)和增強(qiáng)手段以及超分去進(jìn)行一個(gè)后處理操作。隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的發(fā)展,增強(qiáng)算法也從傳統(tǒng)的一些手工特征進(jìn)行修復(fù),變成了利用大數(shù)據(jù),利用deep learning去做這樣的一些修復(fù)。因此我們不能再利用傳統(tǒng)的質(zhì)量評價(jià)方法去對它進(jìn)行評判,是因?yàn)樯疃葘W(xué)習(xí)帶來了增強(qiáng)后的一些不可控的artifacts(失真)。一方面可能會表現(xiàn)為視覺上的增強(qiáng),但另一方面可能引入的是一些視覺不友好的artifacts。所以我們的質(zhì)量評價(jià)在這一環(huán)也是尤其重要的。可以正向的去優(yōu)化,告訴我們怎么樣去進(jìn)行增強(qiáng),人才會感覺到這是真的畫質(zhì)增強(qiáng),而不是將噪聲/失真增強(qiáng)。
在視頻業(yè)務(wù)場景中,視覺體驗(yàn)評估還有個(gè)比較有意思的應(yīng)用就是廣告特效。我們希望廣告能帶來收入提升的同時(shí),又不去打擾用戶的觀看體驗(yàn)。所以我們會生成一些比較有意思的廣告特效。那在這種情況下,對于廣告特效的視覺注意或者視覺體驗(yàn)的這么一個(gè)由主觀感知到客觀評價(jià)的模型是非常重要的。首先是它能指導(dǎo)我們進(jìn)行廣告生產(chǎn)的優(yōu)化。其次也可以量化這樣的廣告有多大程度用戶是喜歡的,多大程度用戶是能夠感受到這個(gè)廣告存在,以及感受不到等等這樣一個(gè)視覺注意量化結(jié)果。
最后一個(gè)給大家分享的就是我們今年在街舞3上首次運(yùn)用的一個(gè)to C端的產(chǎn)品化體驗(yàn),就是自由視點(diǎn)視頻(Free-Viewpoint Video, FVV)。用戶打開優(yōu)酷APP,根據(jù)大家手機(jī)型號的不同,看到的角度范圍可能也不太一樣。那么在高端機(jī)上,我們通常可以給到150度到180度這樣一個(gè)旋轉(zhuǎn)視角,用戶可以任意滑動屏幕去看想看的視角。在這個(gè)過程中,里面涉及到的算法迭代也是需要質(zhì)量評價(jià)算法介入去進(jìn)行一步步優(yōu)化,以達(dá)到用戶的流暢性的觀看體驗(yàn)。
對針業(yè)務(wù)上的場景,抽象到質(zhì)量評價(jià)這塊,我們需要做的是一個(gè)體系。這個(gè)體系可以針對于圖片的美觀度進(jìn)行評價(jià),或者對于畫質(zhì)進(jìn)行一個(gè)對比分析,以及對于UPGC的視頻進(jìn)行清晰度的判斷。還有包括剛剛說的自由視點(diǎn)視頻這種互動的流暢度,以及廣告視覺上的注意力的情況。
上述講的業(yè)務(wù)和技術(shù)問題,綜合到一個(gè)框架下,就形成了這個(gè)生產(chǎn)和質(zhì)量體驗(yàn)量化閉環(huán)系統(tǒng)。一旦體驗(yàn)可以量化的話,那么在視頻從生產(chǎn)到處理到播放的生命周期中,算法可以進(jìn)行有效迭代。比如說可以提效,或者是幫助我們提質(zhì),它是一個(gè)幫助我們優(yōu)化的過程,這是非常必要的。
當(dāng)然視覺體驗(yàn)的量化往往也是最難的,因?yàn)橐曈X體驗(yàn)它是一個(gè)非常主觀的感受。像在傳統(tǒng)的CV領(lǐng)域,對于一些物體的檢測和識別等任務(wù)是非常明確的。比如貓就是貓,狗就是狗。但是在視覺體驗(yàn)中,對于同一個(gè)視頻,由于每個(gè)人的感受都不一樣,我認(rèn)為好,你可能認(rèn)為不好,這里沒有一個(gè)對錯(cuò)的標(biāo)準(zhǔn)。所以在這種情況下怎么樣去標(biāo)準(zhǔn)化視覺體驗(yàn)是一個(gè)非常重要的問題,我們也一直在致力于把體驗(yàn)?zāi)軌蛘嬲牧炕饋?#xff0c;標(biāo)準(zhǔn)化下來。
優(yōu)酷的全視頻質(zhì)量評價(jià)中臺包含以下4個(gè)功能:第一是主觀的測試平臺,也就是最開始直接通過人去做這樣的主觀評價(jià)去獲取數(shù)據(jù),然后通過拿到的數(shù)據(jù),針對視覺感受進(jìn)行一個(gè)分析。然后我們拿到這個(gè)數(shù)據(jù)之后,就可以進(jìn)行一些客觀模型的研發(fā),比如視覺體驗(yàn)(視覺體驗(yàn)包括各種類型的圖片和視頻),以及視覺注意的一個(gè)預(yù)測的工作。
接下來我分三部分去講下評價(jià)體系。第一的話就是最重要的一個(gè)是優(yōu)酷的主觀評測平臺,這個(gè)是基于一切算法模型的一個(gè)基本數(shù)據(jù),數(shù)據(jù)是最重要的部分。第二個(gè)是算法模型,第三個(gè)是我們的業(yè)務(wù)應(yīng)用。
主觀評測平臺它主要包含四個(gè)模塊。首先是目標(biāo)分析模塊,然后是數(shù)據(jù)篩選模塊,第三個(gè)是評測方法設(shè)計(jì),第四是實(shí)驗(yàn)數(shù)據(jù)的分析。接下來會針對這四個(gè)模塊進(jìn)行逐一講解。
第一個(gè)是評測的目標(biāo)分析。這個(gè)通常會被人忽視,當(dāng)提到質(zhì)量評價(jià),大家第一反應(yīng)就是質(zhì)量評價(jià)就是給人看一個(gè)東西,然后1到5打分,1就是非常差,5是非常好,用戶打分,這個(gè)分?jǐn)?shù)就是一個(gè)主觀分?jǐn)?shù)。那在這個(gè)描述中它其實(shí)簡化了整個(gè)過程。我們需要知道的第一點(diǎn)就是你到底想測什么,比如說我們在最開始提到的是針對于封面圖,還是針對于UPGC的視頻,針對于OGC長視頻,還是比如競品分析的這一塊(各家都是在播同一個(gè)劇,那么對于各家的編碼方式,以及相同帶寬情況下所呈現(xiàn)的質(zhì)量差異),以及包括最新的一些視頻技術(shù)3D領(lǐng)域的,比如AR、VR或者是自由試點(diǎn)視頻。
那這些不同的視頻領(lǐng)域或者視頻應(yīng)用場景,到底要測什么,就不再是我們之前所說的1到5的這么一個(gè)簡單打分的問題了,而是想在業(yè)務(wù)上達(dá)到什么樣的目的。所以在Qualinet White paper提到測什么是非常重要的,因?yàn)橛写罅康膇nfluence factors在這里邊。
我先講第一個(gè)關(guān)于視覺體驗(yàn)有哪些影響因素,第一個(gè)影響因素就是系統(tǒng)性的影響因素influence factor。那這里的話主要包括capture,coding,transmission,storage,rendering,以及最后display 的時(shí)候。所有的這些環(huán)節(jié)每個(gè)系統(tǒng)的模塊都會對視頻質(zhì)量產(chǎn)生一些影響。
長視頻領(lǐng)域,因?yàn)閏apture 這一部分大家拿到的視頻源是一樣。所以最關(guān)鍵的部分,大多數(shù)都是在coding和transmission 的階段。對于終端用戶來說,比較重要的是rendering 和display 階段,也就是用戶拿什么樣的設(shè)備去看。
第二個(gè)比較重要的影響因素叫做context influence factor 。這個(gè)factor是跟用戶的environment相關(guān),包括了它的physical,temporal,social等等。是跟用戶當(dāng)前環(huán)境比較相關(guān)的一個(gè)influence factor。但這個(gè)也是經(jīng)常是被人忽略的。
比如說當(dāng)觀看者,他是在一個(gè)非常放松的家庭環(huán)境,還是在一個(gè)比較嘈雜的咖啡廳,還是我們通常在做主觀實(shí)驗(yàn)的時(shí)候在一個(gè)規(guī)定的小黑屋標(biāo)準(zhǔn)的環(huán)境。那在不同環(huán)境下,他所感知到的視頻質(zhì)量是不一樣的。
第三個(gè)非常關(guān)鍵的因素就是人。每一個(gè)人都有自己不同的感受。如果我們把人劃分為一些group 的話,比如說性別因素,職業(yè)背景等因素以及年齡因素等等,這些也會對于每個(gè)人的觀看體驗(yàn)產(chǎn)生不一樣的影響。舉個(gè)例子,我們之前做的實(shí)驗(yàn),就會發(fā)現(xiàn)女性對于視覺的觀看體驗(yàn)相對來說是一個(gè)比較positive 的狀態(tài),容忍度非常高,大家對于質(zhì)量好像沒有那么高的要求。但是對于男同志來說,一般他們對于觀看的清晰度的體驗(yàn)要求就特別高。還有比如年紀(jì)較大一點(diǎn)的人群,他們對于質(zhì)量體驗(yàn)的要求就沒有那么高,但對于年輕的同學(xué)他們對這質(zhì)量體驗(yàn)相對就非常高。當(dāng)然你可以認(rèn)為這個(gè)跟他的背景相關(guān)。對于一些年紀(jì)比較大的同志來說,在過去的時(shí)代中,其實(shí)并沒有經(jīng)歷太多的這種高質(zhì)量體驗(yàn)的過程。他們最開始看到的視頻甚至從黑白視頻開始,過渡到了彩電,從CRT 到HD,再到UHD 這么一個(gè)狀態(tài)。那么到現(xiàn)在的UHD這種極高清體驗(yàn),甚至VR或者3D電視的時(shí)候,其實(shí)他們沒有更多的參與感在里邊。所以過去觀看的經(jīng)驗(yàn)會極大程度影響他對于一個(gè)視頻的體驗(yàn)判斷過程。
知道了這幾個(gè)非常重要的影響因素以后,我開始講一下,一旦確定了你要測什么,那接下來就需要進(jìn)行主觀實(shí)驗(yàn)了。在進(jìn)行主觀實(shí)驗(yàn)的時(shí)候,需要測哪些視頻,就需要把這些視頻都拿過來。
那在這里我們有兩個(gè)目標(biāo),第一,你所選的視頻數(shù)據(jù)必須要滿足你的實(shí)驗(yàn)?zāi)康?#xff0c;就是我剛剛問的那個(gè)問題,你要到底測什么,這個(gè)非常重要。比如測長視頻的競品分析,那如果把UPGC 的視頻放在這里就很不合適,因?yàn)樗欢ú荒軌驖M足最終的實(shí)驗(yàn)?zāi)康摹?/p>
第二,因?yàn)橹饔^實(shí)驗(yàn)非常耗時(shí),它需要很多人來參與,花一定的時(shí)間去做這樣的實(shí)驗(yàn)。那么在這種情況下,我們希望可以用最少的數(shù)據(jù)來滿足算法的精度。所以這塊就跟傳統(tǒng)的CV標(biāo)簽?zāi)切╊I(lǐng)域有極大的差別,傳統(tǒng)的CV標(biāo)簽貓就是貓,狗就是狗,所以一個(gè)人打標(biāo)簽基本是沒有問題的。但是在視覺體驗(yàn)這個(gè)評價(jià)上,我們一定要用很多的人去做這樣的實(shí)驗(yàn)。而且需要大量的視頻或圖像去做實(shí)驗(yàn)。但是又不能太大,因?yàn)檎麄€(gè)實(shí)驗(yàn)的時(shí)間成本和費(fèi)用成本非常高,要進(jìn)行控制。
我們所要做的就是首先分析在所確定的實(shí)驗(yàn)?zāi)康牡那疤嵯?#xff0c;有哪些因子會對實(shí)驗(yàn)有影響,然后把這些影響因子有針對性的放在數(shù)據(jù)篩選過程中。
第二是你知道了這些因素受影響,但是怎么去把這些影響因子可以客觀的從數(shù)據(jù)上獲得,也就是你需要有一個(gè)數(shù)據(jù)維度的客觀測量。
第三就是采樣的策略。比如在早期,你可能會拿到萬級或者10萬級甚至更高的這樣一個(gè)視頻的數(shù)量。但是不可能把這么多的視頻全部分發(fā)出去去做主觀實(shí)驗(yàn)。在這里面一定有一個(gè)采樣策略,需要有針對性的在這些視頻里選出最有代表性的一些視頻。而這些代表性的視頻是由前面的數(shù)據(jù)維度測量的指標(biāo),和前面的影響因子分析來共同決定的。
講完實(shí)驗(yàn)數(shù)據(jù)的確定之后,我們就進(jìn)入了主觀方法設(shè)計(jì)階段,也就是用什么方法去測。這個(gè)一定是跟你實(shí)驗(yàn)?zāi)康膾煦^的。那這里先介紹幾個(gè)經(jīng)典的主觀評測方法,是ITU他們幾十年前就已經(jīng)制定了的一些標(biāo)準(zhǔn)方法。
比如說最傳統(tǒng)的ACR(Absolute Categorical Rating) 方法。從1到5打分, 1代表非常糟糕,5代表非常好。在ITU最近的一個(gè)標(biāo)準(zhǔn)中,針對于3D的情況下, ACR其實(shí)也可以用在視覺舒適度的評測上。比如1分就代表非常不舒適,那5就代表非常舒適。當(dāng)然在這個(gè)維度下,我們其實(shí)是有一些爭議的。就是當(dāng)我們?nèi)y量一個(gè)畫質(zhì)的清晰度的時(shí)候,這對于用戶來說其實(shí)是一個(gè)相對簡單的視覺任務(wù),因?yàn)槲覀兓臼菑男〉浆F(xiàn)在每天都在看視頻,知道什么樣的視頻是質(zhì)量好的,什么是不好的。但對于3D或者VR,并不是所有的人每天都在看這個(gè)東西。所以他曾經(jīng)看到的3D內(nèi)容,決定了他對于這個(gè)維度上的評判標(biāo)準(zhǔn)。比如他過去看的VR,是一段極其精彩的,非常美妙的官方發(fā)布的一個(gè)demo,那這種視頻在很大程度上是避免了視覺疲勞等等一系列不好的體驗(yàn)。那用戶看過這個(gè)之后,他就會覺這個(gè)是非常沉浸式的,非常棒的,沒有視覺不舒適這種問題。但是如果一個(gè)人過去沒有看過好的,只看過一些比較糟糕的,清晰度極低的,戴上了以后轉(zhuǎn)一圈頭就開始暈的這種視覺體驗(yàn)的話,那這個(gè)標(biāo)準(zhǔn)跟剛剛說的第一個(gè)人標(biāo)準(zhǔn)就是完全不同。
在這種情況下,如果讓不同的人去給一個(gè)要評測的3D的一個(gè)視頻進(jìn)行視覺舒適度打分,這個(gè)時(shí)候就會有極大的差距在。因?yàn)榇蠹业脑u判標(biāo)準(zhǔn)極其不一樣,但是所有人又都是對的。甚至還有一些用戶之前都沒看過VR,你第一次給他看VR讓他進(jìn)行打分,他可能根本無法用5個(gè)刻度對視覺舒適度進(jìn)行劃分。
所以在某些評測任務(wù)中,這種1到5的簡單打分是不能夠代表用戶的視覺感知的,這個(gè)ACR 的評測方法通常被認(rèn)為是在復(fù)雜任務(wù)下是不具有這個(gè)精度辨別能力。當(dāng)然在大家經(jīng)常看的這種已經(jīng)有足夠經(jīng)驗(yàn)的,比如畫質(zhì)這個(gè)問題上,其實(shí)ACR就已經(jīng)足夠好了,它的精度基本滿足要求。
另外一個(gè)評價(jià)方法就是如果ACR不是那么的準(zhǔn)確的話,那么比較法會相對更加準(zhǔn)確。比較法是執(zhí)行起來極其簡單,但是整個(gè)過程會非常耗時(shí)的一個(gè)方法。比較法其實(shí)也分為兩種:一種就是配對比較法,就是我給你兩個(gè)激勵(lì),比如兩個(gè)視頻或者兩個(gè)圖片,然后每次隨機(jī)的左右排序,順序是不一樣的。然后分發(fā)給觀測者問大家,你覺得哪個(gè)質(zhì)量好,或者是針對于3D的任務(wù),你覺得哪個(gè)視覺的不舒適度會更高一些。那么這種情況下,即便用戶過去沒有什么體驗(yàn),但是在針對這種左右類似于binary 的結(jié)果來說,判斷起來也會相對容易一些,不同的人給出來的結(jié)論基本是一致的。
那另外一種方法叫DSIS,每一次我把參考視頻都放在左邊,是固定的。并且告訴用戶這是一個(gè)參考視頻,它就是完美的、無瑕的,就是我要的視頻。那么右邊放一個(gè)待測的視頻,這個(gè)視頻可能是經(jīng)過各種算法處理過的,壓縮增強(qiáng)或者超分過的等等。在這種情況下,去讓用戶給這個(gè)待測的視頻進(jìn)行打分。那打分的維度就是跟據(jù)左邊的完美的參考來比,你覺得它們倆之間是什么樣子,可以要用1到5打分。所以這樣其實(shí)左和右給到的測量維度是不太一樣的。一個(gè)是Pair comparison,它是單純的從你的視覺感受上來說左和右哪個(gè)好。但是DSIS這是我已經(jīng)有基準(zhǔn)的是最好的,我需要測量的是跟它的差別有多少。Pair comparison 方法的應(yīng)用場景非常多。比如像facebook 的早期,face mash 這個(gè)產(chǎn)品其實(shí)用的就是Pair comparison 的方法。
第三個(gè)介紹的方法是AccAnn (Acceptability Annoyance Method),它是一種用于測量用戶對于視覺感知接受度和容忍度的方法。這個(gè)可以用在哪兒?在一些業(yè)務(wù)場景中,我們有不同的用戶人群,例如非會員用戶和會員用戶;其次針對于用戶可能有不同的觀看設(shè)備,比如說用戶可以用手機(jī)來看,或者用ipad 來看,或者PC來看。在這個(gè)時(shí)候我們希望針對不同的用戶人群,不同的觀看設(shè)備,測量他對于視覺感知的容忍度和接受度是怎么樣的。
對于一個(gè)視頻,如果5分是滿分的話,我們不太關(guān)注這個(gè)視頻是1.5分還是1.2分,或者4.6分還是4.8分,就是對于這種精細(xì)度評判,我們在某些場景其實(shí)沒有那么高要求。但是我們希望知道的是低于哪個(gè)閾值的時(shí)候,用戶就無法容忍會離開,或者是高于某個(gè)閾值的時(shí)候,用戶對于質(zhì)量提升就沒有感知了,再增加帶寬用戶也沒有明顯的差異感受。所以找到這兩個(gè)閾值是極其重要的。
那這個(gè)方法其實(shí)就是找到這兩個(gè)閾值,最終可以幫助我們?nèi)ブ泪槍τ诓煌挠脩羧巳汉筒煌挠^看設(shè)備下,什么樣的質(zhì)量體驗(yàn)是必須的,并且盡可能避免低于這個(gè)質(zhì)量。
我們曾經(jīng)在實(shí)驗(yàn)室環(huán)境測試過,在TV上和Tablet上,我們實(shí)驗(yàn)虛擬出來一些假設(shè)的普通用戶和premium 用戶,最終他們的VMAF 的質(zhì)量分所對應(yīng)的這兩個(gè)閾值確實(shí)是不一樣的。如這個(gè)圖所示,我們就知道在今后的視頻質(zhì)量評價(jià)中,如果用VMAF的話,在用TV觀看視頻時(shí),高于80分,其實(shí)就覺得非常滿意了。那低于66分的時(shí)候的用戶就會覺得不能接受,就可能要離開這個(gè)視頻平臺。當(dāng)然這是一個(gè)我們實(shí)驗(yàn)的數(shù)據(jù),并不是真實(shí)的業(yè)務(wù)數(shù)據(jù),這里只是提供一個(gè)參考。
除此以外有一些實(shí)驗(yàn)過程其實(shí)是可以加速的。剛剛講的配對比較法,它非常的快而且非常的準(zhǔn)確。但是它非常耗時(shí)。因?yàn)镮TU規(guī)定了如果你想達(dá)到精確的結(jié)果,就必須對于所有的視頻對都要進(jìn)行兩兩比較,那這個(gè)量級就非常的大了。針對于同樣的一個(gè)視頻質(zhì)量評價(jià)的實(shí)驗(yàn),比如說有40個(gè)視頻需要去測試它們的質(zhì)量。如果使用ACR的方法(1到5打分的方法),對于每一個(gè)觀測者來說,他10分鐘就能完成這個(gè)任務(wù)了。但是如果用這種配對比較法,就需要耗掉351分鐘,所以這基本是一個(gè)不可能實(shí)現(xiàn)的任務(wù)。
所以針對配對比較法,學(xué)術(shù)界提出了很多加速方法。比如最簡單的就是隨機(jī)采樣,就是我們可以隨機(jī)的去選擇比較一些對,再隨機(jī)的選擇另外一些對不比較。當(dāng)然這里可以有一些random 采樣的一些策略,這是一種最簡單最直接的方法。
第二是基于經(jīng)驗(yàn)的平衡采樣法, 是我在博士期間提出來的一個(gè)方法,被ITU和IEEE標(biāo)準(zhǔn)收錄。它是指每一個(gè)視頻它出現(xiàn)在用戶的評測過程中的概率是一致的,不會出現(xiàn)某些視頻永遠(yuǎn)被呈現(xiàn)出來,讓用戶看,而有些視頻就永遠(yuǎn)不被呈現(xiàn)。我們盡量避免這樣的問題,所以這是一個(gè)平衡采樣法。
這里有個(gè)經(jīng)驗(yàn),就是我們盡量集中在質(zhì)量相似的對比實(shí)驗(yàn)上,那對于一些質(zhì)量差異非常大的視頻,我們其實(shí)沒有必要花那么多精力在上面。比如一個(gè)270p的一個(gè)視頻和一個(gè)4k視頻,那是顯而易見4K視頻會質(zhì)量好很多,或者針對于比特率我們也可以有類似的判斷。所以我們應(yīng)該把budget放在這樣質(zhì)量相似的pair上。基于這樣的經(jīng)驗(yàn),再基于這樣一個(gè)平衡性的假設(shè),我們最后可以做到這樣的平衡采樣法。
第三個(gè),從數(shù)學(xué)理論上來講,是接近于最優(yōu)化的一個(gè)方法,就是基于信息量的主動采樣法。這個(gè)是我2018年發(fā)表在NeurIPS上的工作。上面這個(gè)圖EIG(Expected Information Gain)就是每個(gè)視頻對期望的信息增益,橫坐標(biāo)代表的是兩個(gè)視頻之間分?jǐn)?shù)差,y坐標(biāo)代表是兩個(gè)視頻之間它的分?jǐn)?shù)差的方差。那這里我們給大家一個(gè)概念,就是對于兩個(gè)視頻,如果質(zhì)量越相近,那在我們給它打分的過程中,這兩個(gè)視頻結(jié)果產(chǎn)生的信息增益是最多的。那我們其實(shí)就是需要把這些能夠產(chǎn)生最大信息增益的pair挑出來去進(jìn)行質(zhì)量評價(jià),最終可以達(dá)到最優(yōu)化budget的目的。
所以,現(xiàn)在主觀實(shí)驗(yàn)方法設(shè)計(jì)好了,主觀的實(shí)驗(yàn)的流程也加速了。當(dāng)我們拿到這些實(shí)驗(yàn)數(shù)據(jù)的時(shí)候,接下來需要思考的是,如何濾除outlier,如何recover ground truth的問題。非常常見的是在實(shí)驗(yàn)過程中,一定會有人不小心按錯(cuò)按鈕。比如說在配對比較的時(shí)候,他本來想選左邊,結(jié)果他按了個(gè)右,或者是把問題理解錯(cuò)了,把1分和5分他搞反了,以為1是最好5是最差。也有一些人在打分的時(shí)候可能會特別的寬容,覺得每一個(gè)視頻質(zhì)量都非常好,所以打分比較偏向于永遠(yuǎn)打4分或者是5分。但有一些人相反,他覺得你給我的這些視頻太差了,他跟我過去比看到的那些4k、8k視頻簡直沒有辦法比,所有的都在他接受的閾值之下,所以他都是打1分或者2分。每個(gè)人都有自己的判斷標(biāo)準(zhǔn),而每個(gè)人在打分過程中又可能會有不同的情況發(fā)生。那我們應(yīng)該怎么樣去處理這個(gè)數(shù)據(jù),得到一個(gè)相對準(zhǔn)確的,接近于我們假設(shè)的一個(gè)視覺感知ground truth的情況呢?最直接的方法就是增大觀測數(shù)據(jù)量,通過堆人的方式。但是本來視頻質(zhì)量的主觀實(shí)驗(yàn)已經(jīng)是一個(gè)耗時(shí)的過程,又通過增加人的方式它就更加耗時(shí)。所以就會又耗時(shí),又耗錢,又耗精力,為了完成這么一個(gè)濾除outlier的過程。這對于大部分人來說都會比較困難。那怎么辦?
我們會采用一些數(shù)據(jù)分析模型。比如假設(shè)所有用戶針對于某一個(gè)視頻進(jìn)行打分之后,可以看到這個(gè)分?jǐn)?shù)類似于一個(gè)高斯分布。它的均值其實(shí)是由一個(gè)ground truth和這個(gè)當(dāng)前用戶他自己的bias來決定的。這個(gè)方差其實(shí)是由當(dāng)前用戶他在打分過程中的不確定性,以及這個(gè)視頻本身內(nèi)容的ambiguity共同來決定的。
什么是用戶的bias?可以理解成有的用戶總是打分偏高,或者是有些用戶打分總是偏低,那么他會在這個(gè)針對于ground truth的分?jǐn)?shù)上會有上下偏差,所以每個(gè)人都有他自己的偏差。那穩(wěn)定性是什么?就是有些用戶,你給他多少次相同的視頻,他給出來的分基本是一致的。但有些用戶就很不穩(wěn)定,就是即便無數(shù)次的重復(fù)同一個(gè)視頻,在不同的情況下給他重復(fù)同一個(gè)視頻,讓他去進(jìn)行評判,他都很可能給出非常不同的分?jǐn)?shù),那么他的這個(gè)inconsistency 值相對來說要高一些。
對于視頻內(nèi)容來說,它只影響分?jǐn)?shù)的方差,但不影響ground truth的分?jǐn)?shù)。有些內(nèi)容它對所有人來說,都是非常容易打分的,比如如果我給你一個(gè)純黑色的界面,讓你說它的目前清晰度如何,那它清晰度基本是完美的。所以這個(gè)內(nèi)容是沒有ambiguity的。
但是如果是比較奇怪的一些內(nèi)容,有的人就會說這個(gè)內(nèi)容,我覺得它質(zhì)量非常好,但有些人會覺得這種質(zhì)量非常糟。所以這種內(nèi)容,它就會引起極大的用戶意見不統(tǒng)一。所以它的ambiguity就會非常高。
針對于這樣的假設(shè),我們會提出這樣高斯模型,然后再利用一些算法,把這個(gè)參數(shù)預(yù)估出來,就可以最終恢復(fù)或者recover我們想要的ground truth和每一個(gè)用戶不同的parameter ,以及我們視頻內(nèi)容的parameter 。
第二個(gè)模型是針對于pair comparison的。它還有一個(gè)特點(diǎn)就是每一個(gè)視頻分?jǐn)?shù)它依舊是服從高斯分布的。但是在pair comparison過程當(dāng)中,每一個(gè)人他的bias和content effect不存在了,所以會減少一些特征。那最終我們可以使用一些模型,比如Thurstone模型或者Bradley-Terry模型,針對于這個(gè)分布最終可以獲得一些參數(shù),而這個(gè)參數(shù)最終可以幫我們?nèi)ス烙?jì)出基于所有視頻對兒結(jié)果的情況下,每一個(gè)視頻其實(shí)它真實(shí)的一個(gè)質(zhì)量是什么樣的。
第三個(gè)模型相對來說會不太一樣,它認(rèn)為感知質(zhì)量不是一個(gè)高斯分布。是我發(fā)表在2020年ACM MM上的一個(gè)工作。因?yàn)槲覀兤綍r(shí)打分12345,它是一個(gè)離散的值,并不呈現(xiàn)一個(gè)高斯態(tài),而且它是個(gè)截?cái)嗟臓顟B(tài)。所以我們認(rèn)為它呈現(xiàn)的是一個(gè)ordinal categorical distribution。那在這種ground truth的假想下,我們認(rèn)為每個(gè)觀測者他都含有一個(gè)隱變量,就是他有時(shí)候會進(jìn)入一個(gè)正常打分模式,但有時(shí)候會進(jìn)入一個(gè)隨機(jī)打分模式。然后用一個(gè)p 值去描述他的可靠性,也就是他從0和1之間轉(zhuǎn)變的一個(gè)概率,最終獲得這樣一個(gè)模型去最終預(yù)測ground truth應(yīng)該是什么樣,以及每一個(gè)人他的p值應(yīng)該是什么樣的,那這是一個(gè)區(qū)別于之前的一個(gè)比較特別的模型。
最后給大家看一下我們的主觀評測平臺,這里展示的只是一個(gè)非常簡單的1到5打分的測試平臺,你可以看到它顯示的視頻內(nèi)容。我們要求播放器是不可以改變視頻它本身的resolution的。測試視頻的resolution是由實(shí)驗(yàn)設(shè)計(jì)者來決定的。比如說你就是想保持它原視頻的分辨率去進(jìn)行觀測,那你就按照原視頻去播。但如果你要是想測不同分辨率視頻他們在1080p的情況下是什么樣的感知質(zhì)量,那你就需要把不同分辨率的視頻全部rescale到1080p,然后統(tǒng)一再在測試平臺給用戶進(jìn)行評測。這個(gè)就是我們1到5打分的ACR平臺。
最后給大家快速過一下我們的客觀模型和業(yè)務(wù)的應(yīng)用場景。一共有三個(gè)場景。
第一個(gè)要給大家介紹的就是圖像和視頻清晰度的評價(jià)模型。這是一個(gè)基于深度學(xué)習(xí)的無參考質(zhì)量評價(jià)模型。比如說在這里我們評價(jià)了增強(qiáng)版的《還珠格格》視頻,以及士兵突擊的視頻和大江大河的視頻,它們的客觀質(zhì)量分預(yù)測出來的是符合人眼的主觀感受的,所以這個(gè)質(zhì)量分也應(yīng)用在我們的業(yè)務(wù)場景中,幫助算法,排序、分發(fā),進(jìn)行前期的一些處理、篩選。
那第二個(gè)場景就是廣告場景。在這個(gè)場景中,我們用了兩個(gè)模型,一個(gè)是視覺注意模型,一個(gè)是觀看體驗(yàn)?zāi)P汀K罱K呈現(xiàn)的效果是能讓廣告受人關(guān)注,但又不打擾觀看體驗(yàn)。
像上面這兩個(gè)是不好的廣告例子,比如左邊這個(gè)有硬生生的一個(gè)壓屏條廣告,而右邊的植入廣告是在用戶看不到的地方。
我們會進(jìn)行一些優(yōu)化的動作,比如增加一些光影特效,這樣可以增加一些用戶的注意力,但同時(shí)并不打擾整個(gè)內(nèi)容觀看。右邊是通過一點(diǎn)點(diǎn)的光影特效,會把這個(gè)區(qū)域,從之前的非視覺注意區(qū)域,變成一個(gè)注意區(qū)。
第三個(gè)業(yè)務(wù)場景,就是《這!就是街舞3》的這次自由視點(diǎn)視頻算法迭代升級。比如最開始,算法在重建的時(shí)候是有一些問題的。對于某些遮擋情況,當(dāng)我們生成了虛擬視角的時(shí)候,它是有一些黑洞存在的,所以在這種情況下,質(zhì)量分會相對偏低。但是經(jīng)過一些算法的迭代和優(yōu)化,我們就會把由遮擋引起的重建的問題給解決掉,那么之前存在黑洞的水面就會變得非常平滑。用戶在左右觀看的時(shí)候就不會出現(xiàn)那種黑洞閃爍的問題,這個(gè)質(zhì)量分也會高一些,告訴我們這個(gè)重建算法是比之前的版本要好的。
嘉賓介紹
李靜,博士,阿里巴巴文娛集團(tuán)資深算法專家,阿里巴巴大文娛摩酷實(shí)驗(yàn)室視頻體驗(yàn)與質(zhì)量團(tuán)隊(duì)負(fù)責(zé)人。2013年獲法國南特大學(xué)計(jì)算機(jī)博士學(xué)位,2014年新加坡南洋理工大學(xué)訪問學(xué)者,2014-2016任法國南特大學(xué)助理教授,2014-2019任法國國家科學(xué)院IPI/LS2N實(shí)驗(yàn)室研究員。2019年加入阿里巴巴。研究方向包括生理心理學(xué)實(shí)驗(yàn)方法論,多媒體視覺體驗(yàn)質(zhì)量評價(jià),3D視覺,機(jī)器學(xué)習(xí)等。國際質(zhì)量專家組VQEG成員,國際標(biāo)準(zhǔn)組織IEEE P3333.1成員,歐盟Qualinet成員,AVS視頻標(biāo)準(zhǔn)質(zhì)量評價(jià)組成員。ACMMM 2020 QoEVMA workshop組織者。參與制定多個(gè)IEEE以及ITU國際標(biāo)準(zhǔn),擔(dān)任多個(gè)國際期刊與會議評審。
總結(jié)
以上是生活随笔為你收集整理的详解优酷视频质量评价体系的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 家乐福卡面值看哪一个数字
- 下一篇: 全国计算机等级考试东营,东营计算机等级考