2020年, image captioning论文汇总
生活随笔
收集整理的這篇文章主要介紹了
2020年, image captioning论文汇总
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
目錄
- CVPR2020:ASG
- CVPR2020:POS-SCAN
- CVPR2020:SLL-SLE
CVPR2020:ASG
- 題目
Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
下載鏈接
吳琦老師組的新作, 一作是人大的博士生陳師哲. - 動機
現有的方法與用戶交互性差, 生成的句子多樣性低, 不考慮用戶感興趣的內容. - 貢獻
- 方法
整體框架如下:
ASG中的節點共分為三類, object, attribute 和 relationship. 可以根據用戶的感興趣程度自定義ASG.
2.1 Role-aware Graph Encoder. 對于給定的image和ASG, 首先經過Role-aware Graph Encoder (角色感知編碼器) 進行編碼, 這部分通過role-aware node embedding (角色感知節點嵌入) 和MR-GCN (多關系-圖卷積神經網絡) 實現. 角色感知節點嵌入用于區分每個節點的意圖,文中給出了詳細的計算過程, 使用MR-GCN是為了結合每個節點的的相鄰節點的上下文信息, 來更好的理解節點的語義和角色.
2.2 Graph-based Attention. 使用MR-GCN對圖編碼后, 我們需要同時考慮編碼信息中的語義信息和圖結構信息. 語義信息反映了圖中的實際語義, 圖結構信息反映了ASG的結構. 本文為了同時考慮這兩種信息, 使用了兩種不同的注意力, 分別為Graph Content Attention (圖語義注意力) 和Grpah Flow Attention (圖流向注意力). 并在最后進行了融合.
2.3 Graph Updating. 用于對圖節點進行更新, 動態記錄圖節點的訪問狀態.
- 實驗
消融實驗
在不同baseline上添加ASG后的實驗結果對比
和state-of-the-art的對比
不同ASG生成的結果
CVPR2020:POS-SCAN
- 題目
More Grounded Image Captioning by Distilling Image-Text Matching Model
下載鏈接 - 動機
本文的出發點是grounded image captioning,意思就是,captioner在生成words時,應在images上注意到正確的objects。但是,想在保留captioning質量的同時,提升模型的grounding準確性,需要數據集具有word-region alignment的標注作為訓練時的監督,這很expensive。本文針對上述問題,基于SCAN提出了POS-SCAN(Part-Of-Speech),使用知識蒸餾的方法達到more grounded image captioning。
- 貢獻
- 方法
本文方法的整體如下圖所示,主要分為兩個模塊:Captioner和Pre-trained Matcher。Captioner采用的是Up-Down,Pre-trained Matcher即為本文提出的POS-SCAN。對于Captioner沒什么好說的,下面說一下POS-SCAN和SCAN的區別。
在SCAN中,計算圖片III和句子TTT的相似度公式如下式所示。
其中,R(et,atv)R(e_t,a_t^v)R(et?,atv?)用于計算word特征ete_tet?和添加了注意力的圖片特征atva_t^vatv?之間的相似度,具體公式如下:
通過實驗發現,SCAN模型在grounding上的表現不如Up-Down。作者認為,這是由于句子中包含過多的non-visual words,故采用下式計算圖片III和句子TTT的相似度,其本質是,通過指示函數1yt?=ynone1_{y_t^*=y^{none}}1yt??=ynone?來篩選出名詞。
在訓練時,POS-SCAN是預訓練好的,參數保持不變。訓練共分為兩階段,第一階段就是傳統的監督訓練;第二階段是使用強化學習進一步提升captioner的能力,這里使用了SCST中的方法,使用CIDEr作為一部分reward,并使用S(I,T)S(I,T)S(I,T)作為另一部分reward。 - 實驗
首先是在Flickr30k Entities val set上Attention Acc。
下圖是在Flickr30k Entities val set上進行的消融實驗。
在Flickr30k Entities test set上的實驗結果。
在MS-COCO Karpathy test set上的實驗結果,?*?表示使用的是原文中實驗結果。[3]就是SCST那篇論文。
下面是一些結果展示,紅色方框內是不添加POS-SCAN方法,綠色方框內是添加POS-SCAN方法。
下面是一些failure cases。
CVPR2020:SLL-SLE
- 題目
Better Captioning with Sequence-Level Exploration
下載鏈接 - 動機
動機就一句話:提高模型的recall指標。最開始,captioning方法中使用交叉熵做word級別的監督,盡可能提高每個單詞的準確率。由于訓練時使用GT word作為輸入,測試時用predicted word作為輸入,這導致訓練和測試之間存在gap。然后,大家提出了sequence級別的監督,即使用生成的sentence進行監督。sequence級別的監督也存在問題:1. 理論上,忽視了recall問題。2. 實驗上,在recall相關的metrics上指標不高。
- 貢獻
- 方法
本文方法:在損失函數中添加sequence level exploration term,最大化生成的captions的距離。
- 實驗
在image captioning上的結果:
在video captioning上的結果:
總結
以上是生活随笔為你收集整理的2020年, image captioning论文汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2020年, video caption
- 下一篇: 2020年, SGG论文汇总