AAAI 2020 时间交错网络 | ICCV19多标签视频理解冠军方案
本文主要介紹三個部分:
一個高效的 SOTA 視頻特征提取網絡 TIN,發表于 AAAI 2020
ICCV19 MMIT 多標簽視頻理解競賽冠軍方案,基于 TIN 和 SlowFast
一個基于 PyTorch,包含大量視頻理解?SOTA 模型的代碼庫 X-Temporal
本文將介紹一種用于行為識別的時間交錯網絡(TIN temporal interlacing network)。該網絡想較當前 SOTA 的基礎上,在實現 6 倍加速的同時,還多個評測數據集上獲得了 4% 的提升。
同時該方法作為主力方法,在 2019 年的 ICCV Multi Moments In Time challenge 中取得了冠軍。
Leaderboard:
http://moments.csail.mit.edu/results2019.html
我們還 release 了一個基于 PyTorch 的開源動作識別代碼庫 X-Temporal,希望可以進一步推動動作識別社區的發展。
作者信息
本文工作由港中文 MMLab、清華大學與商湯研究院 X-Lab 聯合出品,具體內容如下:?
AAAI:?https://arxiv.org/abs/2001.06499
Solution:?https://arxiv.org/abs/2003.05837
Github:?https://github.com/Sense-X/X-Temporal
?
簡介
?
行為識別,是計算機視覺領域長期關注的問題,在視頻理解、行為檢測、手勢識別等領域都有著廣泛的應用。領域內之前的的工作主要集中在使用卷積神經網絡和各種時序模型(例如光流法,循環神經網絡和 3D 卷積)相結合的方式學習時空特征。
然而由于這些框架需要交替地學習時間和空間特征,使得它們需要消耗大量的計算資源和時間成本。能穩定提高模型性能的光流法需要用到的光流信息抽取非常耗時,幾乎不可能用于實時計算。
由此,我們自然而然的產生了一個疑問:那就是我們能否將時間信息嵌入到空間信息中,以便可以一次同時聯合學習兩個域中的信息。
本文提出了一個簡單而強大的模塊-時序交錯網絡(Temporal Interlace Network)來嘗試解決這個問題。TIN 不學習時間特征,而是通過交錯過去到未來以及未來到過去的空間特征來融合時-空信息。
?
一個可微分的子模塊可以計算出交錯時的特征在時序維度上的偏移量,同時可以依據偏移量來將特征重新進行交錯排列,使每組特征在時間維度上位移不同的距離。
從而用便捷快速的特征位移操作替代了 3D 卷積來實現相鄰幀的信息交換。這使網絡的參數量和計算量遠低于普通 3D 卷積網絡,使網絡整體變得相當輕量化。在文中我們也從理論上證明了可學習的時序交錯模塊本質上等同于受約束的時序卷積網絡。
?
算法詳情
時序交錯網絡的框架如圖二所示,該框架主要由偏移預測網絡,權重預測網絡和可微時序移動模塊組成。其整體將作為一個模塊插入到 Resnet 的卷積層之前。
對于整個輸入的 Feature Map,我們先將其 3/4 的 channel 對應的特征固定住,再將余下 1/4 的特征沿著 channel 維度分為 4 組,每組會應用不同的偏移量。
其中偏移預測網絡主要負責預測出其中兩組沿著 T 維度的偏移量,然后剩下兩組的偏移量是前兩組的相反值。這樣我們可以保證信息在時序維度上的流動是對稱的,更有利于后續特征的融合。
?
權重網絡主要負責預測融合后時序維度上特征的權重。如果原始輸入是 8 幀,該網絡便會為每組輸出 8 個值分別代表每一幀的權重然后會直接用此值來加權融合過后每一幀的 feature。
我們也同時發現位于兩端的幀所預測的權重大多會比較低,這里我們的猜想是兩端的幀的特征在沿著時序移動時由于一邊沒有其他幀會損失掉一部分,因此導致了網絡給他們一個較低的權重來彌補信息損失帶來的影響。
?
可微時序移動模塊的框架如圖三所示,它可以將各組按 channel 維度切分出來的特征沿著時間維度移動任意個單位。其實現方式主要是通過一維線性差值實現的。其中我們還采用了時序擴展技術,以保證偏移之后位于視頻之外的特征不為空。
?
舉個例子,原本位于 T=0 的特征在向前偏移 0.5 個單位后便位于 T=-0.5 的位置,該位置理論上是不存在特征的,但我們通過假設 T=-1 位置的特征全為 0 使位于 -0.5 的位置取到了特征,也即 Feature(T=-0.5) = ?(Feature(T=-1) + Feature(T=0))。
?
實驗
?
表一對比了在 Something-Something v1 數據集上 TIN 與其他主流模型的性能。在測試性能時每個視頻均只采用 1 Crop 進行測試,且分辨率和訓練時保持一致。
可視化結果
?
圖五將網絡學習得到 offset 和 weight 進行了可視化分析。從 offset 的可視化結果我們可以發現在淺層網絡中的偏移量非常小,在網絡逐漸變深的過程中學習到的偏移量才逐漸變大。
我們認為淺層的神經網絡主要學習 2D 空間特征,在較深的網絡中才開始逐漸學習時序維度特征,這和之前 3D 卷積網絡中得到的結論是類似的。
基于TIN的ICCV MMIT比賽方案
在 ICCV19 MMIT 多標簽視頻理解競賽中,我們將 TIN 與 SlowFast 算法進行融合,取得了 ICCV multi-moments in time challenge 競賽的冠軍成績。
ICCV MMIT 多標簽視頻理解比賽旨在對3s短視頻中內的動作進行理解。其包含超過 100 萬段視頻,并標記了超過 200 萬個動作標簽,是目前最大規模的視頻理解挑戰。巨大的數量與類別,對計算機算法提出了嚴苛的要求。
?
我們對 2D 與 3D 方法均進行了廣泛的嘗試。3D 方法以 SlowFast 網絡及其變種為主,包括單純的 slow 分支,時域密集的 fast 分支,以及原版的 SlowFast。
結果下表所示,時域密集的 fast 分支(32*2)取得了最高的單模型成績。我們還發現,測試階段的多尺度以及密集采樣可以大幅提高算法性能。
2D 方法以我們的方法 TIN,我們也嘗試了 TSN, TSM 等方法,結果如下表所示,TIN 大幅的提高了動作識別的準確度,在將 TIN 與 3D 方法進行融合后,我們在驗證集上取得了 67.22mAP 的成績,在測試集上取得了 60.77mAP 的成績,名列第一(Leaderboard)。
X-Temporal代碼庫介紹
在上述算法和競賽的準備過程中,遇到的一個困難是缺乏一個基于 PyTorch 并廣泛支持眾多 SOTA 方案且具有高效訓練能力的視頻理解代碼庫。為此,我們開發了 X-Temporal repo。其具有以下特征:
支持數據集廣泛,并可處理多分類數據集。包括 UCF101, Hmdb51, Jester, Kinetics-600, Kinetics-700, Moments in Time , Multi Moments in Time, Something v1, Something v2 等。
同時支持處理原視頻在線抽幀和抽幀后的圖片作為輸入,支持多種解碼方案。
提供了最新最全的通用視頻分類主流方法的實現,包括 2D 方法(TSN, TSM, TIN)和 3D 方法(SlowFast, ResNet-3D, R(2+1)D), 并在多個數據集取得了 SOTA 的性能(包含我們在 ICCV19 MMIT 競賽第一名的所有 model)。
模塊化設計使易于添加新的 2D 或者 3D 模型。
對部分模型編寫了 CUDA Operator,大幅提高了其性能。
我們后續會提供基于該庫的 Model Zoo,方便用戶進行 Pretrain 等操作。
代碼庫現已開源:
https://github.com/Sense-X/X-Temporal
點擊以下標題查看更多往期內容:?
CVPR 2020 | 港中文提出3D目標檢測新框架DSGN
深入理解圖注意力機制(Graph Attention Network)
圖神經網絡三劍客:GCN、GAT與GraphSAGE
如何快速理解馬爾科夫鏈蒙特卡洛法?
深度學習預訓練模型可解釋性概覽
ICLR 2020:從去噪自編碼器到生成模型
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的AAAI 2020 时间交错网络 | ICCV19多标签视频理解冠军方案的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: iQOO 13 手机中框采用直边大 R
- 下一篇: 雄安新区御景园是毛坯房还是精装修?