CVPR 2020 《Transform and Tell: Entity-Aware News Image Captioning》论文笔记(数据集)
生活随笔
收集整理的這篇文章主要介紹了
CVPR 2020 《Transform and Tell: Entity-Aware News Image Captioning》论文笔记(数据集)
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
目錄
- 簡介
- 動機
- 貢獻
- 方法
- 實驗
簡介
本文是新聞圖像標注,和常見的Image Captioning任務不太一樣。
下載鏈接
News Image Captioning中沒有object-level的標注,難點在于,將text和image進行對齊。
動機
此task存在兩個challenges:1.它們依賴于真實世界的知識,特別是關于已命名實體的知識。2.它們通常有豐富的語言說明,包括不尋常的詞。對于第一個挑戰(zhàn),本文通過一個多模式、多頭注意機制,將標題中的單詞與圖像中的人臉和物體聯(lián)系起來進行解決。對于第二個挑戰(zhàn),本文使用了transformer。
貢獻
方法
本文方法的整體架構如下圖所示:
NYTimes800k數(shù)據(jù)集的對比如下圖所示:
實驗
實驗結果:
總結
以上是生活随笔為你收集整理的CVPR 2020 《Transform and Tell: Entity-Aware News Image Captioning》论文笔记(数据集)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 头文件(C++11)、从文件输入输出
- 下一篇: CVPR 2020 《Context-A