技术解密|阿里云多媒体 AI 团队是凭借什么拿下 CVPR2021 5冠1亚的?
6 月 19-25 日,備受全球矚目的國(guó)際頂級(jí)視覺會(huì)議?CVPR2021(Computer Vision and Pattern Recognition,即國(guó)際機(jī)器視覺與模式識(shí)別)在線上舉行,但依然人氣爆棚,參會(huì)者的激情正如夏日般火熱。
今年阿里云多媒體 AI 團(tuán)隊(duì)(由阿里云視頻云和達(dá)摩院視覺團(tuán)隊(duì)組成,以下簡(jiǎn)稱 MMAI)參加了大規(guī)模人體行為理解公開挑戰(zhàn)賽 ActivityNet、當(dāng)前最大時(shí)空動(dòng)作定位挑戰(zhàn)賽 AVA-Kinetics、超大規(guī)模時(shí)序行為檢測(cè)挑戰(zhàn)賽 HACS 和第一視角人體行為理解挑戰(zhàn)賽 EPIC-Kitchens 上的總共?6 個(gè)賽道,一舉拿下了 5 項(xiàng)冠軍和 1 項(xiàng)亞軍,其中在 ActivityNet 和 HACS 兩個(gè)賽道上連續(xù)兩年蟬聯(lián)冠軍!
頂級(jí)挑戰(zhàn)賽戰(zhàn)績(jī)顯赫
大規(guī)模時(shí)序動(dòng)作檢測(cè)挑戰(zhàn)賽 ActivityNet?于 2016 年開始,由 KAUST、Google、DeepMind 等主辦,至今已經(jīng)成功舉辦六屆。
該挑戰(zhàn)賽主要解決時(shí)序行為檢測(cè)問題,以驗(yàn)證 AI 算法對(duì)長(zhǎng)時(shí)視頻的理解能力,是該領(lǐng)域最具影響力的挑戰(zhàn)賽之一。歷屆參賽者來自許多國(guó)內(nèi)外知名機(jī)構(gòu),包括微軟、百度、上交、華為、北大、哥大等。
今年阿里云 MMAI 團(tuán)隊(duì)最終以 Avg. mAP 44.67% 的成績(jī)獲得該項(xiàng)挑戰(zhàn)賽的冠軍!
圖 1 ActivityNet 挑戰(zhàn)賽證書
時(shí)空動(dòng)作定位挑戰(zhàn)賽 AVA-Kinetics?由 2018 年開始,至今已成功舉辦四屆,由 Google、DeepMind 和 Berkeley 舉辦,旨在時(shí)空兩個(gè)維度識(shí)別視頻中發(fā)生的原子級(jí)別行為。
因其難度與實(shí)用性,歷年來吸引了眾多國(guó)際頂尖高校與研究機(jī)構(gòu)參與,如 DeepMind、FAIR、SenseTime-CUHK、清華大學(xué)等。
今年阿里云 MMAI 團(tuán)隊(duì)以 40.67% mAP 擊敗對(duì)手,獲得第一!?
圖 2 AVA-Kinetics 挑戰(zhàn)賽獲獎(jiǎng)證書
超大規(guī)模行為檢測(cè)挑戰(zhàn)賽 HACS 始于 2019 年,由 MIT 主辦,是當(dāng)前時(shí)序行為檢測(cè)任務(wù)中的最大挑戰(zhàn)賽。該項(xiàng)挑戰(zhàn)賽包括兩個(gè)賽道:全監(jiān)督行為檢測(cè)和弱監(jiān)督行為檢測(cè)。
由于數(shù)據(jù)量是 ActivityNet 的兩倍以上,因此具有很大的挑戰(zhàn)性。歷屆參賽隊(duì)伍包括微軟、三星、百度、上交、西交等。
今年阿里云 MMAI 團(tuán)隊(duì)同時(shí)參加兩個(gè)賽道,并分別以 Avg. mAP 44.67% 和 22.45% 雙雙奪冠! ?
圖 3 HACS 挑戰(zhàn)賽兩個(gè)賽道的獲獎(jiǎng)證書
第一視角人體動(dòng)作理解挑戰(zhàn)賽 EPIC-Kitchens?于 2019 年開始,至今已經(jīng)舉辦三屆,由 University of Bristol 主辦,致力于解決第一視角條件下的人體動(dòng)作和目標(biāo)物體的交互理解問題。
歷年的參賽隊(duì)伍包括百度、FAIR、NTU、NUS、Inria-Facebook、三星(SAIC-Cambridge)等。
今年阿里云 MMAI 團(tuán)隊(duì)參加其中時(shí)序動(dòng)作檢測(cè)和動(dòng)作識(shí)別兩個(gè)賽道,分別以 Avg. mAP 16.11% 和 Acc. 48.5% 獲得兩項(xiàng)挑戰(zhàn)賽的冠軍和亞軍! ?
圖 4 EPIC-Kitchens 挑戰(zhàn)賽獲獎(jiǎng)證書
四大挑戰(zhàn)的關(guān)鍵技術(shù)探索
行為理解挑戰(zhàn)賽主要面臨四大挑戰(zhàn):
首先是行為時(shí)長(zhǎng)分布廣,從 0.5 秒到 400 秒不等,以一個(gè) 200 秒的測(cè)試視頻為例,每 1 秒采集 15 幀圖像,算法必須在 3000 幀圖像中精確定位。
其次是視頻背景復(fù)雜,通常具有很多不規(guī)則的非目標(biāo)行為嵌入在視頻中,極大的增加了行為檢測(cè)的難度。
再者是類內(nèi)差較大,相同行為的視覺表現(xiàn)會(huì)因個(gè)體、視角、環(huán)境的變換而發(fā)生明顯的變化。
最后是算法檢測(cè)人體動(dòng)作還面臨人體之間的互相遮擋、視頻分辨率不足、光照、視角等變化多樣的其他干擾。
在本次挑戰(zhàn)賽中,該團(tuán)隊(duì)之所以能夠取得如此出色的成績(jī),主要是由其背后先進(jìn)技術(shù)框架?EMC2?支撐,該框架主要對(duì)如下幾個(gè)核心技術(shù)進(jìn)行探索:
(1)強(qiáng)化基礎(chǔ)網(wǎng)絡(luò)的優(yōu)化訓(xùn)練
基礎(chǔ)網(wǎng)絡(luò)是行為理解的核心要素之一。
在本次挑戰(zhàn)賽中,阿里云 MMAI 團(tuán)隊(duì)主要對(duì)以下兩方面進(jìn)行探索:深入研究 Video Transformer (ViViT);探索 Transformer 和 CNN 異構(gòu)模型的互補(bǔ)性。
作為主要的基礎(chǔ)網(wǎng)絡(luò),ViViT 的訓(xùn)練同樣包括預(yù)訓(xùn)練和微調(diào)兩個(gè)過程,在微調(diào)過程,MMAI 團(tuán)隊(duì)充分分析包括輸入尺寸、數(shù)據(jù)增廣等變量的影響,找到適合當(dāng)前任務(wù)的最佳配置。
此外,考慮 Transformer 和 CNN 結(jié)構(gòu)互補(bǔ)性,還使用了 Slowfast、CSN 等結(jié)構(gòu),最終通過集成學(xué)習(xí)分別在 EPIC-Kitchens、ActivityNet、HACS 上取得 48.5%、93.6%、96.1% 的分類性能,相較于去年的冠軍成績(jī),有著明顯的提升。
圖 5 ViViT 的結(jié)構(gòu)及其性能
(2)視頻理解中的實(shí)體時(shí)空關(guān)系建模
對(duì)于時(shí)空域動(dòng)作檢測(cè)任務(wù)而言,基于關(guān)系建模學(xué)習(xí)視頻中的人 - 人關(guān)系、人 - 物關(guān)系、人 - 場(chǎng)景關(guān)系對(duì)于正確實(shí)現(xiàn)動(dòng)作識(shí)別,特別是交互性動(dòng)作識(shí)別而言是尤為重要的。
因此在本次挑戰(zhàn)賽中阿里云 MMAI 重點(diǎn)對(duì)這些關(guān)系進(jìn)行建模分析。
具體地,首先定位視頻中的人和物體,并分別提取人和物的特征表示;為了更加細(xì)粒度地建模不同類型的動(dòng)作關(guān)系,將上述特征與全局視頻特征在時(shí)空域結(jié)合以增強(qiáng)特征,并分別在不同的時(shí)域或空域位置間應(yīng)用基于 Transformer 結(jié)構(gòu)的關(guān)系學(xué)習(xí)模塊,同時(shí)不同位置的關(guān)聯(lián)學(xué)習(xí)通過權(quán)重共享的方式實(shí)現(xiàn)對(duì)關(guān)聯(lián)區(qū)域的位置不變性。
為了進(jìn)一步建模長(zhǎng)序時(shí)域關(guān)聯(lián),我們構(gòu)建了結(jié)合在線和離線維護(hù)的兩階段時(shí)序特征池,將視頻片段前后的特征信息融合到關(guān)聯(lián)學(xué)習(xí)當(dāng)中。
最后,經(jīng)過關(guān)聯(lián)學(xué)習(xí)的人體特征被用于進(jìn)行動(dòng)作識(shí)別任務(wù),基于解耦學(xué)習(xí)的方式實(shí)現(xiàn)了在動(dòng)作類別長(zhǎng)尾分布下對(duì)困難和少量樣本類別的有效學(xué)習(xí)。?
圖 6 關(guān)系建模網(wǎng)絡(luò)
(3)基于動(dòng)作提名關(guān)系編碼的長(zhǎng)視頻理解
在動(dòng)作理解相關(guān)的多項(xiàng)任務(wù)上,在有限的計(jì)算條件下,視頻持續(xù)時(shí)間較長(zhǎng)是其主要的挑戰(zhàn)之一,而時(shí)序關(guān)系學(xué)習(xí)是解決長(zhǎng)時(shí)視頻理的重要手段。
在 EMC2 中,設(shè)計(jì)了基于動(dòng)作提名關(guān)系編碼的模塊來提升算法的長(zhǎng)時(shí)感知能力。具體地,利用基礎(chǔ)行為檢測(cè)網(wǎng)絡(luò)生產(chǎn)出密集的動(dòng)作提名,其中每個(gè)動(dòng)作提名可以粗略視為特定動(dòng)作實(shí)體發(fā)生的時(shí)間區(qū)間。
然后基于自注意力機(jī)制,在時(shí)間維度上對(duì)這些提名實(shí)體進(jìn)行時(shí)序關(guān)系編碼,使得每個(gè)動(dòng)作提名均能感知到全局信息,從而能夠預(yù)測(cè)出更加準(zhǔn)確的行為位置,憑借此技術(shù),EMC2 在 AcitivityNet 等時(shí)序行為檢測(cè)上取得冠軍的成績(jī)。
圖 7 動(dòng)作提名間的關(guān)系編碼
(4)基于自監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)初始化訓(xùn)練
初始化是深度網(wǎng)絡(luò)訓(xùn)練的重要過程,也是 EMC2 的主要組件之一。
阿里云 MMAI 團(tuán)隊(duì)設(shè)計(jì)了一種基于自訓(xùn)練的初始化方法 MoSI,即從靜態(tài)圖像訓(xùn)練視頻模型。MoSI 主要包含兩個(gè)組件:偽運(yùn)動(dòng)生成和靜態(tài)掩碼設(shè)計(jì)。
首先根據(jù)滑動(dòng)窗口的方式按照指定的方向和速度生成偽視頻片段,然后通過設(shè)計(jì)合適的掩碼只保留其局部區(qū)域的運(yùn)動(dòng)模式,使網(wǎng)絡(luò)能夠具有局部運(yùn)動(dòng)感知的能力。最后,在訓(xùn)練過程中,模型優(yōu)化目標(biāo)是成功預(yù)測(cè)輸入偽視頻的速度大小和方向。
通過這種方式,訓(xùn)練的模型將具有感知視頻運(yùn)動(dòng)的能力。在挑戰(zhàn)賽中,考慮到不使用額外數(shù)據(jù)的規(guī)則,僅在有限的挑戰(zhàn)賽視頻幀做 MoSI 訓(xùn)練,便可取得明顯的性能提升,保證了各項(xiàng)挑戰(zhàn)賽的模型訓(xùn)練質(zhì)量。??
圖 8 ?MoSI 訓(xùn)練過程及其語意分析
“視頻行為分析一直都被認(rèn)為是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù),主要源于其內(nèi)容的多樣性。
盡管基礎(chǔ)機(jī)器視覺中各種先進(jìn)的技術(shù)被提出,我們?cè)诖舜胃?jìng)賽的創(chuàng)新主要包括:1)對(duì)自監(jiān)督學(xué)習(xí)和 Transformer+CNN 異構(gòu)融合的深度探索;2)視頻中不同實(shí)體間關(guān)系建模方法的持續(xù)研究。
這些探索確認(rèn)了當(dāng)前先進(jìn)技術(shù)(如自監(jiān)督學(xué)習(xí))對(duì)視頻內(nèi)容分析的重要性。
此外,我們的成功也說明了實(shí)體關(guān)系建模對(duì)視頻內(nèi)容理解的重要作用,但其并沒有得到業(yè)界足夠的關(guān)注。” 阿里巴巴高級(jí)研究員金榕總結(jié)道。
基于視頻理解技術(shù)打造多媒體 AI 云產(chǎn)品
基于 EMC2 的技術(shù)底座,阿里云 MMAI 團(tuán)隊(duì)在進(jìn)行視頻理解的深度研究同時(shí),也積極進(jìn)行了產(chǎn)業(yè)化,推出了多媒體 AI(MultiMedia AI)的技術(shù)產(chǎn)品:Retina 視頻云多媒體 AI 體驗(yàn)中心?(點(diǎn)擊👉?多媒體 AI 云產(chǎn)品體驗(yàn)中心?進(jìn)行體驗(yàn) )。
該產(chǎn)品實(shí)現(xiàn)視頻搜索、審核、結(jié)構(gòu)化和生產(chǎn)等核心功能,日處理視頻數(shù)據(jù)數(shù)百萬小時(shí),為客戶在視頻搜索、視頻推薦、視頻審核、版權(quán)保護(hù)、視頻編目、視頻交互、視頻輔助生產(chǎn)等應(yīng)用場(chǎng)景中提供了核心能力,極大提高了客戶的工作效率和流量效率。
圖 9 多媒體 AI 產(chǎn)品
目前,多媒體 AI 云產(chǎn)品在傳媒行業(yè)、泛娛樂行業(yè)、短視頻行業(yè)、體育行業(yè)以及電商行業(yè)均有落地:
1)在傳媒行業(yè),主要支撐央視、人民日?qǐng)?bào)等傳媒行業(yè)頭部客戶的業(yè)務(wù)生產(chǎn)流程,極大提升生產(chǎn)效率,降低人工成本,例如在新聞生成場(chǎng)景中提升了 70% 的編目效率和 50% 的搜索效率;
2)在泛娛樂行業(yè)以及短視頻行業(yè),主要支撐集團(tuán)內(nèi)業(yè)務(wù)方優(yōu)酷、微博、趣頭條等泛娛樂視頻行業(yè)下視頻結(jié)構(gòu)化、圖像 / 視頻審核、視頻指紋搜索、版權(quán)溯源、視頻去重、封面圖生成、集錦生成等場(chǎng)景,幫助保護(hù)視頻版權(quán)、提高流量分發(fā)效率,日均調(diào)用數(shù)億次;
3)在體育行業(yè),支撐第?21 屆世界杯足球賽,打通了視覺、運(yùn)動(dòng)、音頻、語音等多模態(tài)信息,實(shí)現(xiàn)足球賽事直播流跨模態(tài)分析,相比傳統(tǒng)剪輯效率提升一個(gè)數(shù)量級(jí);
4)在電商行業(yè),支撐淘寶、閑魚等業(yè)務(wù)方,支持新發(fā)視頻的結(jié)構(gòu)化,視頻 / 圖像審核,輔助客戶快速生成短視頻,提升分發(fā)效率。 ?
圖 10 多媒體 AI 對(duì)體育行業(yè)和影視行業(yè)標(biāo)簽識(shí)別
圖 11 多媒體 AI 對(duì)傳媒行業(yè)和電商行業(yè)的標(biāo)簽識(shí)別
在?EMC2?的支撐下,Retina 視頻云多媒體 AI 體驗(yàn)中心具有如下優(yōu)勢(shì):
1)多模態(tài)學(xué)習(xí):利用視頻、音頻、文本等海量多模態(tài)數(shù)據(jù),進(jìn)行跨媒體理解,融合不同領(lǐng)域知識(shí)的理解 / 生產(chǎn)體系;
2)輕量化定制:用戶可自主注冊(cè)需要識(shí)別的實(shí)體,算法對(duì)新增實(shí)體標(biāo)簽可實(shí)現(xiàn) “即插即用”,且對(duì)新增類別使用輕量數(shù)據(jù)可接近已知類別效果;
3)高效能:自研高性能音視頻編解碼庫、深度學(xué)習(xí)推理引擎、GPU 預(yù)處理庫,針對(duì)視頻場(chǎng)景 IO 和計(jì)算密集型特點(diǎn)定向優(yōu)化,在不同場(chǎng)景達(dá)到近 10 倍性能提升;
4)通用性強(qiáng):多媒體 AI 云產(chǎn)品在傳媒行業(yè)、泛娛樂行業(yè)、短視頻行業(yè)、體育行業(yè)以及電商行業(yè)等均有落地應(yīng)用案例。
“視頻非常有助于提升內(nèi)容的易理解、易接受和易傳播性,在過去的幾年我們也看到了各行各業(yè),各種場(chǎng)景都在加速內(nèi)容視頻化的進(jìn)程,整個(gè)社會(huì)對(duì)于視頻產(chǎn)量的訴求越來越強(qiáng)烈,如何高效、高質(zhì)的生產(chǎn)出符合用戶需求的視頻,就成為了核心問題,這里面涉及到了非常多的細(xì)節(jié)問題,例如熱點(diǎn)的發(fā)現(xiàn)、大量視頻素材的內(nèi)容理解、多模檢索、基于用戶畫像 / 場(chǎng)景的模板構(gòu)建等,這些都需要大量的依賴視覺 AI 技術(shù)的發(fā)展,MMAI 團(tuán)隊(duì)結(jié)合行業(yè)、場(chǎng)景不斷的改進(jìn)在視覺 AI 方面的技術(shù),并基于此打磨和構(gòu)建業(yè)務(wù)級(jí)的多媒體 AI 云產(chǎn)品,使得視頻得以高質(zhì)、高效的進(jìn)行生產(chǎn),從而有效的推進(jìn)各行各業(yè)、各場(chǎng)景的內(nèi)容視頻化進(jìn)程。” 阿里云視頻云負(fù)責(zé)人畢玄評(píng)價(jià)道。
在本次 CVPR2021 中,MMAI 通過多項(xiàng)學(xué)術(shù)挑戰(zhàn)賽一舉擊敗多個(gè)國(guó)內(nèi)外強(qiáng)勁對(duì)手,拿下了多項(xiàng)冠軍,是對(duì)其過硬的技術(shù)的有力驗(yàn)證,其云產(chǎn)品多媒體 AI 已經(jīng)服務(wù)多個(gè)行業(yè)的頭部客戶,并將持續(xù)創(chuàng)造多行業(yè)應(yīng)用價(jià)值。
👇點(diǎn)擊體驗(yàn)
多媒體 AI 云產(chǎn)品體驗(yàn)中心:http://retina.aliyun.com
源碼開源地址:https://github.com/alibaba-mmai-research/pytorch-video-understanding
參考文獻(xiàn):
[1] Huang Z, Zhang S, Jiang J, et al. Self-supervised motion learning from static images. CVPR2021: 1276-1285.
[2] Arnab A, Dehghani M, Heigold G, et al. Vivit: A video vision transformer[J]. arXiv preprint arXiv:2103.15691, 2021.
[3] Feichtenhofer C, Fan H, Malik J, et al. Slowfast networks for video recognition. ICCV2019: 6202-6211.
[4] Tran D, Wang H, Torresani L, et al. Video classification with channel-separated convolutional networks. ICCV2019: 5552-5561.
[5] Lin T, Liu X, Li X, et al. Bmn: Boundary-matching network for temporal action proposal generation. ICCV2019: 3889-3898.
[6] Feng Y, Jiang J, Huang Z, et al. Relation Modeling in Spatio-Temporal Action Localization[J]. arXiv preprint arXiv:2106.08061, 2021.
[7] Qing Z, Huang Z, Wang X, et al. A Stronger Baseline for Ego-Centric Action Detection[J]. arXiv preprint arXiv:2106.06942, 2021.
[8] Huang Z, Qing Z, Wang X, et al. Towards training stronger video vision transformers for epic-kitchens-100 action recognition[J]. arXiv preprint arXiv:2106.05058, 2021.
[9] Wang X, Qing Z., et al. Proposal Relation Network for Temporal Action Detection[J]. arXiv preprint arXiv:2106.11812, 2021.
[10] Wang X, Qing Z., et al. Weakly-Supervised Temporal Action Localization Through Local-Global Background Modeling[J]. arXiv preprint arXiv:2106.11811, 2021.
[11] Qing Z, Huang Z, Wang X, et al. Exploring Stronger Feature for Temporal Action Localization
「視頻云技術(shù)」你最值得關(guān)注的音視頻技術(shù)公眾號(hào),每周推送來自阿里云一線的實(shí)踐技術(shù)文章,在這里與音視頻領(lǐng)域一流工程師交流切磋。公眾號(hào)后臺(tái)回復(fù)【技術(shù)】可加入阿里云視頻云技術(shù)交流群,和作者一起探討音視頻技術(shù),獲取更多行業(yè)最新信息。
原文鏈接:https://developer.aliyun.com/article/784888?
版權(quán)聲明:本文內(nèi)容由阿里云實(shí)名注冊(cè)用戶自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,阿里云開發(fā)者社區(qū)不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。具體規(guī)則請(qǐng)查看《阿里云開發(fā)者社區(qū)用戶服務(wù)協(xié)議》和《阿里云開發(fā)者社區(qū)知識(shí)產(chǎn)權(quán)保護(hù)指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,填寫侵權(quán)投訴表單進(jìn)行舉報(bào),一經(jīng)查實(shí),本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。總結(jié)
以上是生活随笔為你收集整理的技术解密|阿里云多媒体 AI 团队是凭借什么拿下 CVPR2021 5冠1亚的?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PolarDB-X 2.0:使用一个透明
- 下一篇: Mysql数据库按时间点恢复实战