One-Stage Visual Grounding论文汇总
目錄
- 現有方法
- 2017 arXiv
- 題目
- 動機
- 簡介
- 2017 CVPR
- 題目
- 動機
- 簡介
- 2017 CVPR
- 題目
- 動機
- 簡介
- 2017 IJCAI
- 題目
- 動機
- 簡介
- 2018 arXiv
- 題目
- 動機
- 簡介
- 2018 CVPR
- 題目
- 動機
- 簡介
- 2019 ICCV
- 題目
- 動機
- 簡介
- 2019 ICCV
- 題目
- 2019 WACV
- 題目
- 動機
- 簡介
- 2020 CVPR
- 題目
- 動機
- 簡介
- 2020 ECCV
- 題目
- 動機
- 簡介
- 2020 ECCV
- 題目
- 2020 ECCV
- 題目
- xxx
- 題目
- 動機
- 簡介
- 總結
- one-stage解決的問題
- one-stage方法的好處
現有方法
2017 arXiv
題目
An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Learning
下載鏈接
動機
本文面向natural language object retrieval任務,已有方法分為兩階段,先提取proposals,再生成每個proposal的score并排序。這樣生成的proposals是冗余的,且和referred object不相關。具體來說,已有方法(proposal based)有以下缺點:
- 兩個階段相互獨立,訓練過程沒有對齊,導致結果為次優解。
- 這類方法需要提取很多的proposals來保證recall,這造成了冗余,并降低了ranking function的判別能力。
簡介
將文本特征和圖像特征融合,再使用強化學習進行定位。
2017 CVPR
題目
A Joint Speaker-Listener-Reinforcer Model for Referring Expressions
下載鏈接
動機
Generation和Comprehension是兩個獨立逆任務,現有的方法都是單獨針對某個任務進行。本文將兩個逆任務聯合,并添加強化學習策略,達到了更優的實驗結果。
簡介
Speaker負責生成文本描述,Listener負責理解文本描述,Reinforcer負責控制采樣,使Speaker生成的expressions具有多樣性。在訓練完成后,Speaker和Listener都可以單獨用于grounding任務。對于Speaker,使用每個region生成expression,取與query相似度最高的expression對應的region作為結果。對于Listener,直接計算每個region和query的相似度,選score最大的即可。
2017 CVPR
題目
Weakly-supervised Visual Grounding of Phrases with Linguistic Structures
下載鏈接
動機
傳統的監督框架,依賴于帶有邊框或像素級別標注的數據集,而隨著領域朝著解決更大規模問題的方向發展,獲取大量的這類標注數據成為了瓶頸。本文應對以上問題,提出了弱監督的視覺定位方法,可以基于圖像等級的標注(沒有region-phrase標注)進行訓練,生成像素級別的grounding結果。
簡介
本文是第一個用語言層級結構進行弱監督視覺定位的方法。文中使用了兩個loss,分別是structural loss和discriminative loss。前者用于使文本短語編碼的結構和視覺注意力掩碼相匹配,后者用于匹配image-phrase pairs。
2017 IJCAI
題目
An Attention-based Regression Model for Grounding Textual Phrases in Images
下載鏈接
動機
現有方法基于proposals,模型的最終性能取決于生成proposals的方法,這類方法也帶來了額外的計算成本。本文將grounding視為一個回歸問題,提出了可以直接識別短語對應區域的方法,省去了生成proposals帶來的計算量。作者總結了proposal based方法的缺點:
- 正確的region不一定包含在proposals中。
- 對不包含正確region的proposals進行ranking是很困難的。
簡介
方法如圖,沒什么好說的。
2018 arXiv
題目
Real-Time Referring Expression Comprehension by Single-Stage Grounding Network
下載鏈接
動機
現有方法為三階段,①生成proposals;②對兩種模態進行encode;③基于matching score進行ranking。經過作者統計,這類方法第一步會耗費較多時間,因此并不適用于有實時需求的場景。
簡介
方法看圖即懂。
2018 CVPR
題目
Multi-level Multimodal Common Semantic Space for Image-Phrase Grounding
下載鏈接
動機
現有方法沒有完全挖掘多模態表示和映射空間,本文提出multi-level多模態注意力機制,可以在不同的語義等級下,生成word-level或sentence-level的注意力圖。
簡介
下圖是本文方法的大致流程,具體的模塊設計參見論文。
2019 ICCV
題目
A Fast and Accurate One-Stage Approach to Visual Grounding
下載鏈接
動機
兩階段方法依賴于proposals的質量,如果在第一階段生成的proposals沒有很好的cover ground truth,那么二階段是沒有意義的。且所有的proposals只有1-2個是正確的,浪費了很多計算資源處理錯誤的proposals。
簡介
針對上述問題,本文提出在YOLOv3中嵌入文本查詢信息,在準確性和速度上都取得了不錯的結果。
2019 ICCV
題目
Zero-Shot Grounding of Objects from Natural Language Queries
參考鏈接
2019 WACV
題目
Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining
下載鏈接
動機
在VQA問題中,對生成answer的同時,得到relevant regions是很有必要的,這在一定程度上可以驗證模型的可解釋性。已有的方法通過注意力機制,高亮和answer相關的區域,注意力機制的使用方法可以分為了兩類:①在模型的中間部分使用注意力,不需要監督信息,依靠模型的最終輸出進行訓練;②在模型的輸出部分使用注意力,需要使用額外監督信息。針對第①類方法,模型學到的注意力往往提供不了可解釋信息;針對第②類方法,標注信息較為昂貴,且標注人員和我們的關注點可能不同,會帶來歧義。
簡介
本文利用Visual Genome數據集中的region descriptions和object annotations自動構建可用于注意力監督的attention map。
本文主要的創新點在Attention Supervision Module,即聯合visual grounding作為輔助。
2020 CVPR
題目
A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension
下載鏈接
動機
現有方法由于采用兩階段框架(proposal generation、proposal ranking),在不降低精度的同時,無法達到實時推理。本文從以上問題出發,提出RCCF方法,可以在單GPU上達到40FPS,約為two-stage方法的兩倍。
簡介
作者將相關濾波融入多模態任務中,讓我有一種這是tracking方法的感覺。
2020 ECCV
題目
Improving One-stage Visual Grounding by Recursive Sub-query Construction
下載鏈接
動機
現有的visual grounding方法可以分為兩類:一階段、兩階段。本文面向一階段方法,提升現有方法處理長(long)、復雜(complex)query的能力。本質是:本文提出了一個可以用在一階段visual grounding模型中的query modeling方法(兩階段模型中有很多query modeling方法,但是由于一些限制,不能直接用于一階段模型)。
簡介
下圖中,子查詢學習器負責學習Query中每個word的注意力,子查詢調制器負責基于子查詢學習器得到的注意力,對text-conditional visual feature進行refine,增強referred object的特征,并壓制其他object的特征。本文方法的詳細介紹參見這篇博客
2020 ECCV
題目
Linguistic Structure Guided Context Modeling for Referring Image Segmentation
參考鏈接
2020 ECCV
題目
Propagating Over Phrase Relations for One-Stage Visual Grounding
參考鏈接
xxx
題目
下載鏈接
動機
簡介
總結
one-stage解決的問題
- 兩階段方法存在較多冗余的proposals,浪費計算資源,無法達到實時 →\rightarrow→ 更快的方法
- 兩階段方法依賴于proposals質量 →\rightarrow→ 更準的方法
one-stage方法的好處
- 速度快
- 更符合人類的認知過程
總結
以上是生活随笔為你收集整理的One-Stage Visual Grounding论文汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR 2020 运行12-in-1遇
- 下一篇: 20200930 《计算感知》第1节课