2019年, video captioning论文汇总
生活随笔
收集整理的這篇文章主要介紹了
2019年, video captioning论文汇总
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
目錄
- CVPR2019:GRU
- CVPR2019:OA-BTG
- CVPR2019:MLE+HybirdDis
- CVPR2019:MARN
- CVPR2019:SDVC
- AAAI2019:FCVC-CF&IA
- AAAI2019:TAMoE
- AAAI2019:MGSA
- AAAI2019:TDConvED
- ICCV2019:POSSG-GFN
- ICCV2019:SRL-VCT
- ICCVW2019:Tale
- ICCVW2019:EtENet-IRv2
- IJCAI2019:ViCap(new task)
- TCSVT2019:DS-RNN
- TIP2019:CAM-RNN
- TMM2019:STAT
CVPR2019:GRU
- 題目
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
下載鏈接 - 動機
現有的方法主要關注使用RNN生成captions,visual features都是直接通過CNN提取。作者認為visual features也是很重要的,于是提出使用層級快速傅里葉變換得到視頻的時序信息。此外,本文還從object detector中獲取高級語義信息。 - 貢獻
- 方法
本文方法的整體框架如下圖所示。
從圖中可以看出,本文對video frames同時使用2D-CNN和3D-CNN提取特征,將提取到的特征進行如下圖所示的傅里葉變換。整體框架圖中,最上側和最下側有兩條紅色的流程線,上側的代表object的高級語義信息,下側的代表action的語義信息,分別和Dictionary取交集后,得到特征向量。最后,將2D特征、3D特征、兩種語義信息輸入到Sequence model中,即可得到模型輸出。
- 實驗
在MSVD數據集上的實驗結果。GRU表示使用了兩層GRU,MP表示使用均值池化處理視頻的時間維度,C3D和IRV2代表計算visual code的方法,CI表示將C3D和IRV2一起使用,EVEhft\rm EVE_{hft}EVEhft?表示使用傅里葉變換,EVEhft+sem\rm EVE_{hft+sem}EVEhft+sem?表示使用傅里葉變換和高級語義信息。
結果展示:
CVPR2019:OA-BTG
- 題目
Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning
下載鏈接
本文出自Facebook AI - 動機
captions的質量往往依賴于video representations,因此,找出視頻中的顯著物體,并了解它們的運動軌跡,對提升captions的質量有很大幫助。 - 貢獻
- 方法
本文方法的整體框架如下圖所示,共分為三部分:Bidirectional Temporal Graph、Object-aware Aggregation和Decoder。
第一部分,Bidirectional Temporal Graph。 這部分先使用目標檢測方法處理視頻的關鍵幀,提取出Object Regions。然后,使用相似性度量處理出object的時序圖,正序和反序的都要處理。相似性度量主要從三方面(特征相似性、IoU、面積)考慮,具體計算公式形如公式(1)。
第二部分,Object-aware Aggregation。 這部分使用VLAD模型,對區域序列和全局幀序列進行處理。由于區域序列和全局幀序列均有正序和反序,故得到四組特征序列。
第三部分,Decoder。 對于區域序列,使用分層注意力機制(時間(or 時序)注意力+空間注意力)。對于全局幀序列,使用時序注意力。添加attention后,將特征輸入到GRU中得到captions。 - 實驗
在MSVD數據集上的實驗結果
在MSR-VTT數據集上的實驗結果
消融實驗
Successful結果展示
Failed結果展示,感覺生成的也挺對的。
CVPR2019:MLE+HybirdDis
- 題目
Adversarial Inference for Multi-Sentence Video Description
下載鏈接 - 動機
現有的video captioning方法中,先將視頻分為多個events,再對每個event生成caption。這樣得到的captions對于單個event看起來比較好,但是從整個視頻來看,多個captions之間存在冗余和不連貫。因此,本文從上述問題出發,提出了Adversarial Inference方法。
- 貢獻
- 方法
本文方法的整體框架如下圖所示。整體上共分為三部分:Generator、Sampling from the Generator和Selecting the sentence based on the Discriminator。其中,Generator用于編碼event的特征(本文假設segment已經給出),提取三種特征,分別是:幀級別的特征、使用3D卷積提取的特征和區域特征。并對特征添加了attention,再將三種特征拼接,使用fc得到最終特征。Sampling from the Generator。Selecting the sentence based on the Discriminator使用Discriminator(判別器)選擇最優sentence。
判別器的結構如下圖所示,使用三類信息對sentence進行判別,分別是:Visual Discriminator、Language Discriminator和Pairwise Discriminator。其中,Visual Discriminator用于判斷sentence和event的關聯程度,這部分和Generator有些類似,提取出video的三種特征,同時提取sentence的BOW特征(詞袋特征),將四者結合得到score。Language Discriminator用于判斷句子的結構和語義信息,這部分使用雙向LSTM對sentence進行編碼,在通過fc層回歸出score。Pairwise Discriminator用于判斷多個sentences之間的關聯程度,使用雙向LSTM對相鄰的sentence進行編碼,再通過fc層回歸出score。
- 實驗
在ActivityNet Captions數據集上的實驗結果:
消融實驗結果展示:
CVPR2019:MARN
- 題目
Memory-Attended Recurrent Network for Video Captioning
下載鏈接
本文出自騰訊和南科大王向榮老師 - 動機
已有的video captioning方法的框架大多是encoder-decoder,在生成captions時,只能從一個video中讀取信息。而本文作者發現,有很多actions和context在不同的訓練數據中會反復出現,只使用一個video生成caption會丟失很多有用信息。故提出了Memory-Attended Recurrent Network,通過在傳統的encoder-decoder框架中添加attended memory decoder模塊,利用多個video來輔助當前處理的video生成caption。
- 貢獻
- 方法
本文方法的整體架構如下圖所示,共分為三個部分:Encoder、Attention-based Recurrent Decoder和Attended Memory Decoder。其中,Encoder和Attention-based Recurrent Decoder和傳統的Encoder-Decoder架構基本一樣。Encoder部分,首先對video進行2D和3D特征提取,并添加attention,再進行concatenate,得到最終特征。Decoder部分,使用GRU生成captions。
本文主要的方法在Attended Memory Decoder。這部分用于輔助Attention-based Recurrent Decoder,提高captions的質量。具體的作用在于:①對于每個單詞,可以從多個video scenes中捕獲有用信息;②傳統方法中,預測下一個單詞通常只依賴于當前單詞和其context,本文方法可以明確的對相鄰單詞的兼容性進行建模。
Attender Memory Decoder的核心在于Memory Structure。在本文的memory中,存儲的是單詞www到描述ddd的映射<w,d><w,d><w,d>。而ddd主要包括三方面信息:視覺上下文(visual context)grg_rgr?、詞嵌入(word embedding)wrw_rwr?和輔助特征(auxiliary features)uru_rur?。其中,grg_rgr?的生成方式如下圖所示,提取所有和單詞wrw_rwr?相關的videos的2D和3D特征,添加attention后,選Top-k個,進行標準化,再加和即可。ere_rer?使用的是Attention-based Recurrent Decoder訓練得到的。uru_rur?是輔助特征,本文使用的是video類別信息。
除上文以外,本文還提出了AC Loss,形如公式(13)。主要思想是,在對2D特征添加attention時,相鄰兩幀的權重應該相差不大,故在損失中添加了抑制項∣ai,t(n)?ai?1,t(n)∣|a^{(n)}_{i,t}-a^{(n)}_{i-1,t}|∣ai,t(n)??ai?1,t(n)?∣。
在訓練時,本文先訓練傳統的Encoder-Decoder部分,再訓練Attender Memory Decoder。 - 實驗
在MSR-VTT和MSVD數據集上進行的消融實驗
對memory components進行的消融實驗
在MAR-VTT數據集上,與其他模型的對比
在MSVD數據集上,與其他模型的對比
實驗結果展示
CVPR2019:SDVC
- 題目
Streamlined Dense Video Captioning
下載鏈接 - 動機
這篇文章是做Dense Video Captioning(以下簡稱DVC),就是在一個長視頻中找出所有的events,然后對每一個event生成caption。在這個問題中,現有的方法都是分為兩個步驟,首先,提取event proposals,然后,生成captions。這會導致生成的captions存在冗余和不一致,因為沒有考慮events之間的時間依賴性。
- 貢獻
- 方法
和現有方法對比,Event Detection的區別如下圖所示。已有的方法都是提取獨立的event,本文將提取的event進行排序,生成序列的captions,加強captions之間的關聯性。
本文方法的整體框架如下圖所示,主要分為三部分:Event Proposal Network(以下簡稱EPN)、Event Sequence Generation Network(以下簡稱ESGN)和Sequential Captioning Network(以下簡稱SCN)。其中,EPN模塊用于提取event,follow了CVPR2017的SST。ESGN模塊用于對上一個模塊得到的events進行排序,先將候選的proposals按照開始時間排序,然后輸入到RNN中,在每一步,生成每個proposal的概率,概率最大的proposal作為當前步的event。SCN模塊用于生成captions,使用雙層RNN結構,同時考慮visual context和linguistic context。
由于具有三個模塊,本文使用的損失也分為三部分,與三個模塊分別對應。損失的具體形式如下,這里不一一介紹了。值得注意的是,SCN部分使用強化學習進行訓練,公式(14)是reward。
- 實驗
ActivityNet Captions validation set上的實驗結果
ActivityNet Captions validation set上的消融實驗
實驗結果展示
AAAI2019:FCVC-CF&IA
- 題目
XXX
下載鏈接 - 動機
- 貢獻
- 方法
- 實驗
AAAI2019:TAMoE
- 題目
XXX
下載鏈接 - 動機
- 貢獻
- 方法
- 實驗
AAAI2019:MGSA
- 題目
XXX
下載鏈接 - 動機
- 貢獻
- 方法
- 實驗
AAAI2019:TDConvED
- 題目
XXX
下載鏈接 - 動機
- 貢獻
- 方法
- 實驗
ICCV2019:POSSG-GFN
- 題目
XXX
下載鏈接 - 動機
- 貢獻
- 方法
- 實驗
ICCV2019:SRL-VCT
- 題目
XXX
下載鏈接 - 動機
- 貢獻
- 方法
- 實驗
ICCVW2019:Tale
- 題目
XXX
下載鏈接 - 動機
- 貢獻
- 方法
- 實驗
ICCVW2019:EtENet-IRv2
- 題目
XXX
下載鏈接 - 動機
- 貢獻
- 方法
- 實驗
IJCAI2019:ViCap(new task)
- 題目
XXX
下載鏈接 - 動機
- 貢獻
- 方法
- 實驗
TCSVT2019:DS-RNN
- 題目
XXX
下載鏈接 - 動機
- 貢獻
- 方法
- 實驗
TIP2019:CAM-RNN
- 題目
XXX
下載鏈接 - 動機
- 貢獻
- 方法
- 實驗
TMM2019:STAT
- 題目
XXX
下載鏈接 - 動機
- 貢獻
- 方法
- 實驗
總結
以上是生活随笔為你收集整理的2019年, video captioning论文汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2019年, VQA论文汇总
- 下一篇: ICCV 2019 《Robust Ch