當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2019年, video captioning论文汇总

發布時間：2025/3/15 编程问答 12 豆豆

生活随笔收集整理的這篇文章主要介紹了 2019年, video captioning论文汇总小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

CVPR2019：GRU
CVPR2019：OA-BTG
CVPR2019：MLE+HybirdDis
CVPR2019：MARN
CVPR2019：SDVC
AAAI2019：FCVC-CF&IA
AAAI2019：TAMoE
AAAI2019：MGSA
AAAI2019：TDConvED
ICCV2019：POSSG-GFN
ICCV2019：SRL-VCT
ICCVW2019：Tale
ICCVW2019：EtENet-IRv2
IJCAI2019：ViCap（new task）
TCSVT2019：DS-RNN
TIP2019：CAM-RNN
TMM2019：STAT

CVPR2019：GRU

題目
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
下載鏈接
動機
現有的方法主要關注使用RNN生成captions，visual features都是直接通過CNN提取。作者認為visual features也是很重要的，于是提出使用層級快速傅里葉變換得到視頻的時序信息。此外，本文還從object detector中獲取高級語義信息。
貢獻

本文提出一種visual encoding技術，可以有效的編碼video的時空信息，并將相關的高級語義信息嵌入到visual codes中。

本文提取的visual features中包含objects的屬性、出現頻率、位置變化情況。

本文建立了一個GRU-based language model，達到了最新的state-of-the-art。

方法
本文方法的整體框架如下圖所示。

從圖中可以看出，本文對video frames同時使用2D-CNN和3D-CNN提取特征，將提取到的特征進行如下圖所示的傅里葉變換。整體框架圖中，最上側和最下側有兩條紅色的流程線，上側的代表object的高級語義信息，下側的代表action的語義信息，分別和Dictionary取交集后，得到特征向量。最后，將2D特征、3D特征、兩種語義信息輸入到Sequence model中，即可得到模型輸出。
實驗
在MSVD數據集上的實驗結果。GRU表示使用了兩層GRU，MP表示使用均值池化處理視頻的時間維度，C3D和IRV2代表計算visual code的方法，CI表示將C3D和IRV2一起使用， $EVEhft\rm EVE_{hft}$ 表示使用傅里葉變換， $EVEhft+sem\rm EVE_{hft+sem}$ 表示使用傅里葉變換和高級語義信息。

結果展示：

CVPR2019：OA-BTG

題目
Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning
下載鏈接
本文出自Facebook AI
動機
captions的質量往往依賴于video representations，因此，找出視頻中的顯著物體，并了解它們的運動軌跡，對提升captions的質量有很大幫助。
貢獻

使用Bidirectional Temporal Graph（雙向時序圖）捕獲顯著物體的時序信息和global context，從而生成更準確的captions。

基于顯著物體和和global frame使用Object-aware Aggregation得到更具有判別力的特征，并使用分層注意力機制得到不同objects的contributions。

方法
本文方法的整體框架如下圖所示，共分為三部分：Bidirectional Temporal Graph、Object-aware Aggregation和Decoder。

第一部分，Bidirectional Temporal Graph。 這部分先使用目標檢測方法處理視頻的關鍵幀，提取出Object Regions。然后，使用相似性度量處理出object的時序圖，正序和反序的都要處理。相似性度量主要從三方面（特征相似性、IoU、面積）考慮，具體計算公式形如公式（1）。

第二部分，Object-aware Aggregation。 這部分使用VLAD模型，對區域序列和全局幀序列進行處理。由于區域序列和全局幀序列均有正序和反序，故得到四組特征序列。

第三部分，Decoder。 對于區域序列，使用分層注意力機制（時間（or 時序）注意力+空間注意力）。對于全局幀序列，使用時序注意力。添加attention后，將特征輸入到GRU中得到captions。
實驗
在MSVD數據集上的實驗結果

在MSR-VTT數據集上的實驗結果

消融實驗

Successful結果展示

Failed結果展示，感覺生成的也挺對的。

CVPR2019：MLE+HybirdDis

題目
Adversarial Inference for Multi-Sentence Video Description
下載鏈接
動機
現有的video captioning方法中，先將視頻分為多個events，再對每個event生成caption。這樣得到的captions對于單個event看起來比較好，但是從整個視頻來看，多個captions之間存在冗余和不連貫。因此，本文從上述問題出發，提出了Adversarial Inference方法。
貢獻

使用對抗學習生成video captions (descriptions)，基于判別器得到的score選擇最優sentence。

提出hybrid discriminator（混合判別器），由三種特定的判別器組合而成，取得了比單一判別器更好的結果。

在多個標準上和其他方法進行了對比，在human evaluation中得到了最優的結果。

方法
本文方法的整體框架如下圖所示。整體上共分為三部分：Generator、Sampling from the Generator和Selecting the sentence based on the Discriminator。其中，Generator用于編碼event的特征（本文假設segment已經給出），提取三種特征，分別是：幀級別的特征、使用3D卷積提取的特征和區域特征。并對特征添加了attention，再將三種特征拼接，使用fc得到最終特征。Sampling from the Generator。Selecting the sentence based on the Discriminator使用Discriminator（判別器）選擇最優sentence。

判別器的結構如下圖所示，使用三類信息對sentence進行判別，分別是：Visual Discriminator、Language Discriminator和Pairwise Discriminator。其中，Visual Discriminator用于判斷sentence和event的關聯程度，這部分和Generator有些類似，提取出video的三種特征，同時提取sentence的BOW特征（詞袋特征），將四者結合得到score。Language Discriminator用于判斷句子的結構和語義信息，這部分使用雙向LSTM對sentence進行編碼，在通過fc層回歸出score。Pairwise Discriminator用于判斷多個sentences之間的關聯程度，使用雙向LSTM對相鄰的sentence進行編碼，再通過fc層回歸出score。
實驗
在ActivityNet Captions數據集上的實驗結果：

消融實驗結果展示：

CVPR2019：MARN

題目
Memory-Attended Recurrent Network for Video Captioning
下載鏈接
本文出自騰訊和南科大王向榮老師
動機
已有的video captioning方法的框架大多是encoder-decoder，在生成captions時，只能從一個video中讀取信息。而本文作者發現，有很多actions和context在不同的訓練數據中會反復出現，只使用一個video生成caption會丟失很多有用信息。故提出了Memory-Attended Recurrent Network，通過在傳統的encoder-decoder框架中添加attended memory decoder模塊，利用多個video來輔助當前處理的video生成caption。
貢獻

本文方法可以capture每個單詞與多種similar visual contexts的關系。

本文模型可以對每個單詞獲得更加全面的理解，提高captions的質量。

本文的built memory結構可以顯式地對相鄰單詞的兼容性進行建模，不像大多數現有模型那樣要求模型進行隱式學習。

實驗結果表明，本文方法已超過state-of-the-art。

方法
本文方法的整體架構如下圖所示，共分為三個部分：Encoder、Attention-based Recurrent Decoder和Attended Memory Decoder。其中，Encoder和Attention-based Recurrent Decoder和傳統的Encoder-Decoder架構基本一樣。Encoder部分，首先對video進行2D和3D特征提取，并添加attention，再進行concatenate，得到最終特征。Decoder部分，使用GRU生成captions。

本文主要的方法在Attended Memory Decoder。這部分用于輔助Attention-based Recurrent Decoder，提高captions的質量。具體的作用在于：①對于每個單詞，可以從多個video scenes中捕獲有用信息；②傳統方法中，預測下一個單詞通常只依賴于當前單詞和其context，本文方法可以明確的對相鄰單詞的兼容性進行建模。

Attender Memory Decoder的核心在于Memory Structure。在本文的memory中，存儲的是單詞 $w$ 到描述 $d$ 的映射 $< w, d >$ 。而 $d$ 主要包括三方面信息：視覺上下文（visual context） $g_r$ 、詞嵌入（word embedding） $w_r$ 和輔助特征（auxiliary features） $u_r$ 。其中， $g_r$ 的生成方式如下圖所示，提取所有和單詞 $w_r$ 相關的videos的2D和3D特征，添加attention后，選Top-k個，進行標準化，再加和即可。 $e_r$ 使用的是Attention-based Recurrent Decoder訓練得到的。 $u_r$ 是輔助特征，本文使用的是video類別信息。

除上文以外，本文還提出了AC Loss，形如公式（13）。主要思想是，在對2D特征添加attention時，相鄰兩幀的權重應該相差不大，故在損失中添加了抑制項 $∣ai,t(n)?ai?1,t(n)∣|a^{(n)}_{i,t}-a^{(n)}_{i-1,t}|$ 。

在訓練時，本文先訓練傳統的Encoder-Decoder部分，再訓練Attender Memory Decoder。
實驗
在MSR-VTT和MSVD數據集上進行的消融實驗

對memory components進行的消融實驗

在MAR-VTT數據集上，與其他模型的對比

在MSVD數據集上，與其他模型的對比

實驗結果展示

CVPR2019：SDVC

題目
Streamlined Dense Video Captioning
下載鏈接
動機
這篇文章是做Dense Video Captioning（以下簡稱DVC），就是在一個長視頻中找出所有的events，然后對每一個event生成caption。在這個問題中，現有的方法都是分為兩個步驟，首先，提取event proposals，然后，生成captions。這會導致生成的captions存在冗余和不一致，因為沒有考慮events之間的時間依賴性。
貢獻

提出一個新穎的DVC方法，可以利用events之間的時間依賴性生成captions。

提出使用two-level (episode, event) rewards的強化學習方法，可以提高captions之間的一致性和event description的質量。

可以達到state-of-the-art。

方法
和現有方法對比，Event Detection的區別如下圖所示。已有的方法都是提取獨立的event，本文將提取的event進行排序，生成序列的captions，加強captions之間的關聯性。

本文方法的整體框架如下圖所示，主要分為三部分：Event Proposal Network（以下簡稱EPN）、Event Sequence Generation Network（以下簡稱ESGN）和Sequential Captioning Network（以下簡稱SCN）。其中，EPN模塊用于提取event，follow了CVPR2017的SST。ESGN模塊用于對上一個模塊得到的events進行排序，先將候選的proposals按照開始時間排序，然后輸入到RNN中，在每一步，生成每個proposal的概率，概率最大的proposal作為當前步的event。SCN模塊用于生成captions，使用雙層RNN結構，同時考慮visual context和linguistic context。

由于具有三個模塊，本文使用的損失也分為三部分，與三個模塊分別對應。損失的具體形式如下，這里不一一介紹了。值得注意的是，SCN部分使用強化學習進行訓練，公式（14）是reward。
實驗
ActivityNet Captions validation set上的實驗結果

ActivityNet Captions validation set上的消融實驗

實驗結果展示

AAAI2019：FCVC-CF&IA

題目
XXX
下載鏈接
動機
貢獻
方法
實驗

AAAI2019：TAMoE

題目
XXX
下載鏈接
動機
貢獻
方法
實驗

AAAI2019：MGSA

題目
XXX
下載鏈接
動機
貢獻
方法
實驗

AAAI2019：TDConvED

題目
XXX
下載鏈接
動機
貢獻
方法
實驗

ICCV2019：POSSG-GFN

題目
XXX
下載鏈接
動機
貢獻
方法
實驗

ICCV2019：SRL-VCT

題目
XXX
下載鏈接
動機
貢獻
方法
實驗

ICCVW2019：Tale

題目
XXX
下載鏈接
動機
貢獻
方法
實驗

ICCVW2019：EtENet-IRv2

題目
XXX
下載鏈接
動機
貢獻
方法
實驗

IJCAI2019：ViCap（new task）

題目
XXX
下載鏈接
動機
貢獻
方法
實驗

TCSVT2019：DS-RNN

題目
XXX
下載鏈接
動機
貢獻
方法
實驗

TIP2019：CAM-RNN

題目
XXX
下載鏈接
動機
貢獻
方法
實驗

TMM2019：STAT

題目
XXX
下載鏈接
動機
貢獻
方法
實驗

總結

以上是生活随笔為你收集整理的2019年, video captioning论文汇总的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2019年, VQA论文汇总
下一篇： ICCV 2019 《Robust Ch

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

生活随笔