@开发者,第二届马栏山杯国际音视频算法大赛高分攻略请查收,心动大奖等你来战!...
一秒讓墻上的廣告消失,保留完整墻面;戶外大屏幕顯示LOGO被擦除后,背景毫不違和……
歡迎來到魔法世界——
停!這其實并不是什么魔法,而是由弗吉尼亞理工大學提出的基于流的視頻補全算法FGVC的一項應用。作為視頻的“橡皮擦”,FGVC可應用在視頻去水印、物體移除、畫面擴展等方面,并入選 ECCV 2020,極具研究意義。
在智能時代,通過視頻補全算法,后期可以利用影視劇集數據構建模型,將非局部流連接引入到時間遙遠幀,實現真正的視頻補全或者抹除,堪稱音視頻產品的魔法師。正因如此,視頻補全也成為第二屆“馬欄山”杯國際音視頻算法大賽重要賽題之一。
我們不難發現,隨著AI技術的持續發展,算法帶來了無限的想象空間。比如優質視頻的推薦,視頻水印的消除,甚至還能通過算法來掌握音樂節奏,讓人人都能享受更加優質的音視頻服務。那么作為開發者,要如何才能在算法的浪潮之中實現突破呢?
為給廣大開發者及算法愛好者提供一個展現自身實力的舞臺,共同推進業界難題攻堅、行業創新探索,由中國(長沙)馬欄山視頻文創產業園和芒果TV聯合舉辦第二屆“馬欄山”杯國際音視頻算法大賽正式拉開序幕。本次大賽分為邀請賽、正式賽及現場頒獎交流分享三個階段,其中邀請賽階段已經結束,而正式賽則分為視頻補全、視頻推薦及音樂節拍檢測三大賽道,更有心動大獎,為了幫助大家取得更好的成績,筆者為大家梳理一下每個賽題的題目要求和解題思路。
三大賽題,瞄準音視頻算法業務焦點
NO.1視頻補全賽道
視頻補全技術是用新合成的內容填充給定的時空區域,可以應用在視頻修復、視頻編輯、特效處理、去水印等場景中。新合成的內容應該無縫嵌入視頻中,使得更改不被察覺。而此賽道就是要求以大賽組織方提供的視頻片段數據為基礎,進行模型訓練,對缺失區域進行補全。其難點在于確保補全后的視頻連貫自然,不具有違和感。
在這個領域,幾年前常用的方法是基于補丁的合成技術直接填補像素,該方法合成速度慢、較難控制。目前常用的視頻補全方法通常需要借助深度學習來實現,如果僅依賴卷積神經網絡來借用復制補充,不僅效率低,合成圖像很容易因為圖形和紋理的模糊導致用戶觀感較差。這里可以參考FGVC算法,經過計算稠密光流(RAFT)、計算邊緣(Canny)、補全邊緣(EdgeConnect)、補全光流、傳播RGB值等一系列流程,能夠取得更好效果。
此外,結合利用Deepfill進行圖像補全也是一個不錯的思路。相關論文和項目地址詳細傳送門如下:
FGVC論文地址:https://arxiv.org/pdf/2009.01835.pdf
Deepfill論文地址:https://arxiv.org/pdf/1801.07892.pdf
NO.2視頻推薦賽道
據艾媒咨詢數據顯示,中國短視頻行業覆蓋的用戶規模不斷擴大,2020年達7.22億人。如何吸引用戶點擊視頻,吸引用戶觀看,成為各大視頻平臺的關鍵技術之一。而本次視頻推薦賽題,也直擊真實的推薦業務場景,打造了一個多任務的推薦問題,希望選手設計出一套精準有效的推薦模型。
推薦算法本質上是一種信息處理邏輯。模型獲取了用戶和視頻各自信息后,會按照一定的邏輯處理信息,得到推薦結果。以往粗放推薦缺乏精確度,而推薦算法則需要制定復雜的規則運算邏輯,挖掘用戶興趣,實現千人千面的個性化推薦。其難點在于特征提取、內容匹配和排序,在實際應用中,推薦算法可以分為五步,即召回、過濾、精排、混排和強規則。
本次比賽,官方提供了海量的特征維度和數據信息,用戶可以基于此使用XGboost、GBDT等傳統機器學習模型,也可以使用DSSM、DIN、DeepFM等深度學習模型來針對視頻特征和用戶特征進行建模。一般而言,深度學習與傳統模型有兩種融合方式:松耦合模型和緊耦合模型,二者各有優勢,松耦合模型可以靈活組裝,而緊耦合模型則可以通過聯合訓練從而得到整體最優效果。
這里比較推薦《深度學習在推薦算法上的應用進展》一文,大家可以自行百度搜索作為參考,同時,官方提供的baseline鏈接如下:http://ad-implant.oss-cn-beijing.aliyuncs.com/challenge/res/9/a/video_rec_baseline.py
NO.3音樂節拍檢測賽道
通過檢測音樂節奏,來合理識別出音樂節拍的準確位置,對音頻處理尤為關鍵。此賽道出題方要求以指定的數據集為研究基礎,通過算法實現對節拍beat和重拍downbeat的檢測并標識時間點位。
隨著多媒體技術的發展,在智能節奏檢測、節奏跟蹤等上出現一些研究成果,如基于貝葉斯理論的單音音樂節奏提取方法,引入貝葉斯節奏模型,采用基于貝葉斯理論的序列蒙特卡洛方法推斷音樂片段的小節和節拍的位置,但這些研究可能存在計算復雜度較高、準確度較低等缺點。
當然,條條大路通羅馬,檢測音樂節拍不只有一種思路,論文《Beat Tracking by Dynamic Programming》便提供了借助動態規劃算法來構建模型的思路,論文地址如下:https://www.ee.columbia.edu/~dpwe/pubs/Ellis07-beattrack.pdf
其建模思路主要分為三步:首先計算Onset Strength Envelope(Onset的能量包絡),然后計算全局的Tempo,最后基于動態規劃計算beats。
此外,論文《Real Time Beat Tracking: A Mixed Approach Category: Music》提供了另一種解題方式,論文地址如下:
http://cs230.stanford.edu/projects_winter_2020/reports/32392246.pdf
該論文中表示,除了以往基于信號處理,利用CNN和RNN打造的實時或離線處理系統之外,也可以有不依賴神經網絡的方法,通過傅里葉變換也可以探查音樂中的音符、和弦以及打擊節奏等事件,再次對這些事件進行傅里葉變換就可以找到其中周期性從而確定節奏和節拍的位置。當然,最終采用哪種方法,選手可以結合實際情況自行選擇。
機會與獎勵已就緒,待八方“攻城獅”來戰
隨著人工智能、5G技術的飛速發展,音視頻算法新賽道已然呈現。
由中國(長沙)馬欄山視頻文創產業園和芒果TV聯合舉辦第二屆“馬欄山”杯國際音視頻算法大賽不僅提供了一個讓大家一展才華和交流學習的舞臺,還設置了豐富的獎勵和獎金等你來拿!
獎項設置情況如下:
視頻補全賽道中,冠軍33萬元,亞軍8.5萬元季軍,季軍3.5萬元,排名第4至10名均可獲得8000元;
視頻推薦賽道中,冠軍24萬元,亞軍6萬元,季軍2.5萬元,排名第4至10名均可獲得5000元;
音樂節拍檢測賽道中,冠軍24萬元,亞軍6萬元,季軍2.5萬元,排名第4至10名均可獲得5000元;
正式賽的賽程安排情況如下:
正式賽報名:2021年5月20日-2021年7月17日
正式賽比賽:2021年6月5日-2021年7月20日
獲獎公布:2021年7月26日
需要注意的是,本次大賽不會設答辯環節,最終成績以線上評分為準,同時大賽所設獎項獎金均為含稅金額。
還等什么?趕快加入大賽,與各路高手一較高下吧!
鏈接:https://challenge.ai.mgtv.com/csdn/
https://challenge.ai.mgtv.com/home (二維碼自動識別)
總結
以上是生活随笔為你收集整理的@开发者,第二届马栏山杯国际音视频算法大赛高分攻略请查收,心动大奖等你来战!...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一文搞懂 PyTorch 内部机制
- 下一篇: ACL'21 | debug完的神经网络