不再内卷!视觉字幕化新任务合集
?PaperWeekly 原創 ·?作者 | 上杉翔二
單位 | 悠閑會
研究方向 | 信息檢索
目前跨模態圖像或視頻摘要/字幕生成(Image/Video Caption)任務已經得到了很長足的發展,并逐漸內卷化,比如今天出了一篇 Vision Transformer 變體,明天升級到需要百卡訓練的大框架。因此,最近的一些文章嘗試向外擴展,即不再滿足于只在常規的 caption 任務上刷分,而是轉于探索各種稀奇古怪,但又有一定實踐價值的新任務,比如程序化 caption、多樣化 caption、獨特化 caption、多視角 caption、常識性 caption、問題控制型 caption。于是本篇文章將整理一下圍繞圖像/視頻字幕化任務的新任務們。
Hybrid Reasoning Network for Video-based Commonsense Captioning?常識性字幕化任務。 從普通的語義理解到高級語義推理上的升級,常識字幕任務旨在在給定一個輸入的視頻,同時生成字幕和完成常識推理(如上圖 a 中的三種顏色,去推理出意圖 intention、效果 effect、屬性 attribute)。同時很顯然這三種常識推理都是有作用的,如圖 b 是指人類不僅可以受益于視頻和事件的標題,而且還可以準確地預測屬性和效果,這證明這種語義層面的推理與不同的常識線索是相互作用的。
因此作者提出一種 Hybrid Reasoning Network,即混合語義層面的推理和詞級別的推理(預測下一個詞)來提升表現。這樣的好處是:
提高各種常識性語義的高級推理能力。
從不同的單詞中挖掘低級別的推理。
然后具體的模型結構如下圖:
圖 a 是整體結果,具體的做法是以視頻為輸入,然后采用多模態融合將運動特征(紅色的時空 CNN 來提取)、音頻特征(灰色的 sound CNN 來提取)和外觀特征(Image CNN 來提取)合并為多模態特征(MF)。然后將 MF 輸入到解碼器階段進行字幕處理,其中包括字幕解碼器和三個常識解碼器:Intention Decoder,Attribute Decoder,Effect Decoder,做法都類似,
loss 也是直接用交叉熵來算。然后右邊的圖 b 是記憶路由多頭注意力與記憶模塊協同進行詞級推理,即這個模塊將從以前的單詞信息中學習,并計算以前的信息和生成過程之間的交互。
Multi-Perspective Video Captioning?多視角字幕任務。 不同的人可能會用不同的描述對同一視頻有不同的看法,這不僅僅是因為視頻的不同內容(區域或片段)或者靈活語言,而是觀眾在解釋視頻時持有的不同視角。即人類字幕的輸出應該同時受到三個因素的影響:視覺方面、語言風格和感知模式。
因此作者首先收集了一個 VidOR-MPVC 數據集,3136 個視頻,在一個明確的多角度指導方針下,手動注釋了超過 41k 的描述。然后提出 Perspective-Aware Captioner 模型來解決這個新任務,模型上的挑戰主要是
1)每個視頻都沒有明確的視角注釋。
2)每個視頻的視角數量是可變的。
因此使用了 LSTM 來學習可變數量的視角,并靈活地挖掘視頻中所有潛在的視角。模型圖如下:
包括三個模塊 video encoder, perspective generator 和 perspective-aware language generator。
video encoder 用 CNN-LSTM
perspective generator 模塊是這樣貢獻,其在每一步都生成一個角度表示,再根據視角的依賴關系由內存單元中的緩存信息建模,即生成的時候會根據構建的該視角下的詞表以保證表意差別。同時考慮到大約 90% 的視頻包含的視角少于 8 個,作者在提議的 PG 中將最大視角設置為 8 個,并引入虛擬視角填充少于 8 個的視角。
perspective-aware language generator 最后在生成的時候使用視角感知注意機制即可。
Group-based Distinctive Image Captioning with Memory Attention?獨特圖像字幕任務。 雖然現有圖像字幕生成器可以準確地描述圖像,但它們缺乏人類描述圖像的獨特細節,無法與圖像進行區別,即沒有獨特性。比如上圖,簡單地提及交通燈而不解釋具體的意義(如交通燈的顏色),并不能幫助視障人士決定是否過馬路。因此作者提出生成獨特性 caption 更有可能突出真正有用的信息。具體來說這種獨特性可稱為,能夠描述圖像的獨特對象或上下文的能力,以區別于其他語義上相似的圖像。
因此作者提出 Group-based Distinctive Captioning Model(GdisCap),通過對一組圖像間的獨特性加權的對象區域構建記憶向量,然后為組內的圖像生成獨特的字幕。模塊架構圖下圖:
模型左邊是用 Fast RCNN 得到目標。右邊是模型的整體架構,重點主要就是基于組的記憶注意(GMA)模塊,如果圖像相似性越小則被認為是更獨特,所以先算相似度:
然后算組內的對象-圖像的相似度映射:
最后得到獨特性得分
然后利用相似性對記憶向量進行權重即可。
A Picture is Worth a Thousand Words: A Unified System for Diverse Captions and Rich Images Generation?多樣化字幕任務。 目前都是單個圖像-文本對的映射,此處存在兩個問題。
一句話來說明一幅圖片是模糊的。圖像過于豐富多樣,無法用一定長度的標題來描述。
單個圖像-文本對不能在圖像對象和 caption 語義之間提供準確和細粒度的對齊。
因此提出雙向圖像和文本生成任務,以對齊豐富的圖像及其相應的多個不同的標題。如上圖,該任務旨在統一實現一張圖得到多個句子,多個句子生成更適合的圖。模型的架構如下圖:
主體是 multi-modal Transformer,然后比較特殊的地方是多句子生成引入不似然訓練目標來考慮多個輸入標題之間的關系,而圖像生成從多個標題構造一個令牌序列作為變壓器模型的輸入。不過有點遺憾的是,這篇文章是短文所以具體的細節沒有披露出來,希望未來能看到作者的完整工作吧。
State-aware Video Procedural Captioning?程序字幕任務。 不過這個任務也不算特別新的任務,做的人也算比較多的,不過這篇文章也有對數據集進行新的擴展。首先看看這個任務的目的是從教學視頻中生成程序性文本,如先打雞蛋再攪拌這種一步一步步驟化的輸出。而這篇文章主打的 motivation 是材料的狀態會依次改變,從而產生狀態感知的視覺表現(例如,雞蛋被轉化為破裂的,攪拌的,然后是油炸的形式)。因此如果能跟蹤操作后的材料狀態,可以更好地關聯跨模態關系。
因此給定一個食材列表,并提出一個 simulator 以便于解釋過程中材料的狀態轉換,模型結構如下圖所示:
為了準確地生成程序文本,模型必須跟蹤 clip 序列中的材料狀態,所以主要看 visual simulator 這里,具體來說一個推理過程為:給定片段和材料列表,視覺模擬器預測執行動作和材料,然后更新材料狀態。經過第 n 次推理后輸出一個狀態感知的步長向量。最后在進行預測時候把 clip 特征,action 特征和 material 特征都當作最后的特征用作生成。
Question-controlled Text-aware Image Captioning?問題控制字幕新任務。 提出這個新任務的動機是:應該對不同需求的人給出不同的描述,特別是當圖像中的文本比較多的時候,通常不需要描述圖像中的所有文本。比如上圖,如果系統先告訴視障用戶一個圖像的概述描述,即“一本書”,然后讓用戶與系統交互,獲得關于他們感興趣的場景文本的更具體細節,如“誰寫了書”或“書的標題是什么”。通過這種方式,視障用戶可以根據自己的興趣獲得更個性化的文本感知字幕。
因此首先作者提供了問題擴充數據集的做法,如上圖:
1 紅色部分。去掉 caption 中的 scene text,然后生成“initial caption”,方便后面 user 的提問。
2 綠色部分。用預訓練好的問題生成器來生成 question。
作者還對這個數據集進行了一系列的分析,大家可以自己看原文吧。先直接到 framework 部分,提出的模型 GQAM 由三個模塊組成,Geometry-informed Visual Encoder,Question-guided Encoder,Multimodal Decoder。
簡單看看各個模塊:
Geometry-informed Visual Encoder。視覺對象特征和場景文本特征(區域特征+ ocr 特征),然后考慮它們的幾何關系。
Question-guided Encoder。動態地選擇有關問題的相關視覺特征。
Multimodal Decoder。生成文本感知標題,會同時利用視覺,問題,初始caption,然后依次生成問題的文本感知標題。
本文小結
本文整理了關于 image/video caption 的一些變體新任務們,包括程序化 caption、多樣化 caption、獨特化 caption、多視角 caption、常識性 caption、問題控制型 caption 等等。一個基本的模式都是從實際問題出發,制作一個全新的數據集并提出合理的解決方法,以更貼近真實場景中的需要。這些文章或許也可以給我們帶來除了內卷刷分外的新思路,即結合現實去改裝一些現有任務并進行擴展,從而實現學術和應用兩開花。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的不再内卷!视觉字幕化新任务合集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 国寿超月宝有亏损过么
- 下一篇: 闪迪u盘加密怎么用 闪迪u盘密码设置方法