當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2019年, VQA论文汇总

發布時間：2025/3/15 编程问答 22 豆豆

生活随笔收集整理的這篇文章主要介紹了 2019年, VQA论文汇总小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

CVPR2019：XNMs

題目
Explainable and Explicit Visual Reasoning over Scene Graphs
下載鏈接
南洋理工大學張含望老師小組的工作.
動機

在NMN (神經模塊網絡) 出現之前，針對VQA任務提出的方法都是黑箱的，是連接主義"流派"的，神經網絡會直接基于數據集學到inductive bias，使得模型的結果缺乏可解釋性。NMN在連接主義和符號主義之間"架設"了一座橋梁，使后來的VQA方法具有了可解釋性。但是使用NMN需要仔細設計每個模塊的內部細節，不易拓展。

end-to-end的方法容易學得shortcut bias，NMNs將問題顯式第建模為可解釋的模塊，有效的阻止了模型學得shortcut bias。但是，作者發現，NMNs中，視覺模式上還是存在shortcut bias。

貢獻

在CLEVR和CLEVR-CoGent數據集上達到100%準確率.

和現有NMN方法相比, 具有的參數量很少.

泛化能力強.

具有高可解釋性和高顯性.

方法
本文方法的整體框架如圖所示:

首先, 對于給定的image進行scene grpah parsing (場景圖解析). 然后, 對于給定的question進行program generation. 最后, 在場景圖上進行reasoning即可. 整個方法的流程看起來很簡單, 而且在實驗部分可以看出, 本文方法十分work, 可以在CLEVR數據集上達到100%的準確率.

本文在場景圖上預設了四種不同的meta-types, 分別為: ① AttendNode (代表"實體"). ② AttendEdge (代表"實體"之間的"關系"). ③ Transfer (根據"關系"對"實體"進行轉化). ④ Logic (與, 或, 非等邏輯操作). 以上四種操作在文中都有詳細的介紹, 這里不多做解釋.

Transfer操作如下圖所示:
實驗
在CLEVR數據集上的實驗結果. XNM-Det表示所有的物體都是使用某種檢測模型得到的, XNM-GT表示所有的物體都是直接使用的Ground-Truth. Program的也有兩種選項, supervised表示使用訓練得到的program generator, GT表示直接使用Ground-Truth. 可以看出, 只要在物體檢測階段足夠給力, 無論使用哪種program generator, 都可以達到很高的準確率.

從下圖可以看出, 本文方法的收斂速度很快

下圖是在CLEVR-CoGenT數據集上的結果:

ICCV2019：Q+I+A（數據集）

題目
Why Does a Visual Question Have Different Answers?
下載鏈接
動機
在VQA任務中，一直存在一個問題：不同的人會對同一個問題做出不同的答案。本文嘗試去分析為什么會造成這個現象。
貢獻

提高數據集制作的質量。

幫助大家分辨模型產生不同答案的原因。

當得到多個答案時，提供一種自動整合多個答案的策略。

方法
首先，作者提出了9種可能導致不同答案的原因，如下圖所示，分別是：LOW QUALITY IMAGE, DIFFICULT, SYNONYMS, ANSWER NOT PRESENT / GUESSWORK, AMBIGUOUS, GRANULAR, INVALID, SUBJECTIVE, SPAM。

對于上述的9種原因，又可以歸結為3類，分別為Q（issues with the Question）、I（issues with the Image）、A（issues with the Answer）。作者將Q和I臨時歸為一類，以表格的形式對9種原因進行了分類和解釋。

作者在VizWiz和VQA_2.0兩個數據集上進行了人工標注。由于不同人對此問題的理解也不同，故使用3個人進行標注。對于下面的圖片，左側是VizWiz數據集，右側是VQA_2.0數據。最內環的圓圈代表僅有一人標注的數據集結果，中間的圓圈代表需要兩個人同意才可以這樣標注，最外環表示三人都同意時才可以這樣標注。可以看出，造成不同答案的主要原因是QI&A。

接下來，作者又按照9個類別進行了統計，得到如下圖的結果。可以看出，最主要的三個原因是：AMB, SYN, GRN.

接下來，作者又在兩個數據集上統計了每種情況“單獨發生”or“和其他情況同時發生”的概率，如下圖所示。左側是VizWiz數據集，右側是VQA_2.0數據集。

接下來，作者提出了用來預測是哪種情況發生的模型，如下圖所示。該模型共預測10個類別，除了上述的9個類別，還有個others類，用來表示上述9類沒涵蓋到的情況。
實驗
本文的實驗結果如下圖所示。其中，Random表示隨機猜測；QI-Relevance表示預測Q和I之間的相關性，如果預測結果是“相關”，則將LQI、IVE和AMB置為0，其他的置為1；I表示只有I存在問題；Unanswerable表示預測這個問題是否不可回答，若不是，則將LQI、IVE和AMB都置為0，其他的置為1；Q表示只有Q存在問題；Q+I表示Q和I都存在問題；Q+I+A表示Q、I和A都存在問題；Q+I+A_FT表示模型的最后一層使用Fc代替且進行fineTune的結果；Q+I+A_GT表示使用GroundTruth代替Answer Prediction得到的結果。

可以看出，本文模型對AMB、SYN和GRN原因預測的準確率還是挺高的，且這9類原因基本涵蓋了所有原因。

NeurIPS2019：SCR

題目
Self-Critical Reasoning for Robust Visual Question Answering
下載鏈接
動機
訓練數據和測試數據的QA distribution不同，導致預測的結果不準確。
貢獻
本文提出了Self-Critical Reasoning，可以提高與正確answer相關的objects的sensitivity，同時降低模型預測出錯誤answer的概率（通過降低相關objects的sensitivity實現）。
方法
本文的整體框架如下圖所示：

接下來，對本文的框架圖進行解釋。從圖中我們可以看出，總共分為三部分：UpDn VQA system（左上部分）、Recognizing and Strengthening Influential Objects（左下部分）、Criticizing Incorrect Dominant Answers（右側部分），下面對這三部分一一介紹。

第一部分 - UpDn VQA system。大體流程和傳統的UpDn方法一樣，首先，對image提取visual feature；然后，對question提取question feature；最后，將兩類feature輸入answer predictor得到answer。在以上基礎上，本文添加了一個Constructor，用于生成proposal influential objects。作者提到，本文生成的proposal influential objects可能不準確，且含有較多noisy，但是假定其至少包含the most relevant object。文中共提到了3種Constructor，分別是：Construction from Visual Explanations、Construction from Textual Explanations和Construction from Questions and Answers。前兩種需要數據集提供特定的標簽，最后一種適用于常見的VQA數據。

第二部分 - Recognizing and Strengthening Influential Objects。這部分通過公式（3）實現，即：通過在損失函數中添加損失項 $L_{infl}$ 最小化非influential objects的sensitivity。下面的公式中， $a$ 表示answer， $v_i$ 表示第 $i$ 個object的features， $S(a,v_i)$ 表示answer $a$ 對第 $i$ 個object的sensitivity， $SV(a,v_i,v_j)$ 表示第 $j$ 個object比第 $i$ 個object高出的sensitivity。

第三部分 - Criticizing Incorrect Dominant Answers。這部分通過公式（5）實現，即：通過在損失函數中添加損失項 $L_{crit}$ 最小化incorrect answers對于the most influential object的sensitivity。公式中， $v^*$ 表示the most influential object。

$w(a)=cosine\_dist(Glove(a_{gt}),Glove(a))$

綜上，本文方法在訓練時的損失函數為：
$L=Lvqa+Linfl+λLcritL=L_{vqa}+L_{infl}+\lambda L_{crit}$
實驗
實驗結果

消融實驗

結果展示

CVPR2019：Modified QANet

題目
Visual Question Answering as Reading Comprehension
下載鏈接
動機
現有的VQA方法致力于將視覺信息和文本信息進行跨模態融合，而跨模態交互是很困難的，本文提出了一個做VQA的新思路，將VQA任務轉化為機器閱讀理解任務。
貢獻

提出一個解決VQA問題的新思路，將VQA任務轉化為機器閱讀理解任務。

對于open-end VQA（沒有answer候選項）和multiple-choice VQA（有answer候選項）任務，提出兩種模型。

大多數的VQA方法對于knowledge based VQA的表現不是很好，但是本文方法可以很容易的拓展至knowledge based VQA（因為模態相同）。

方法
本文方法主要基于TQA（機器閱讀理解）領域的QANet模型構建，下圖是QANet中使用的encoder結構。QANet中主要包括5個組成部分，分別是：embedding block、embedding encoder、context-query attention block、model encoder和output layer。

下圖是本文對于open-ended VQA問題提出的模型。

下圖是本文對于multiple-choice VQA問題提出的模型。
實驗
下圖是在FVQA數據集上的實驗結果，使用微調的QANet達到了sota。

下圖展示了限制圖片生成的captions長度，對準確率帶來的影響。可以看出，captions越長，則準確率越高，但是計算負擔會變大。

下圖是一些在FVQA數據集上的結果展示。

下圖是在VGQA數據集上和open-ended模型的對比。

下圖是在Visual7W數據集上和multiple-choice模型的對比。

下圖是在Visual7W數據集上的successful case展示。

CVPR2019：GQA（數據集）

題目
GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering
下載鏈接
動機
針對現有VQA數據集的不足之處，提出GQA數據集。

只是用basic、non-compositional的語言，很少需要超出object recognition的能力。

對于場景和對象的描述方法存在很多種，使得我們難以學習到明確的語義信息，而這對場景理解至關重要。

對于questions的內容、結構、類型等缺少標注信息，使得無法確定模型錯誤的根本原因。

貢獻

提出GQA數據集用于視覺推理。

提出一種有效的生成大量語義變化問題的方法，將場景圖表示和計算語言方法相結合。

提出了新的metrics，可以更好的對模型進行評估。

方法
GQA數據集的構造過程如下圖所示，共包括22M的questions和110K個圖像。

在構造GQA數據時，首先，需要有每張圖像對應的scene graph，這里使用的是Visual Genome數據集。然后，使用question engine生成questions，并且每個question對應一個functional program。然后，要balance答案的分布。最后，對于每個answer，都應指向圖中對應的區域。

下圖是GQA數據集的一些樣例：

下圖是對數據集信息的一個統計，共分為：structural types、semantic types、semantic length三張圖（圖中最后一張畫錯了）。其中，structural types表示要執行的最終操作，semantic types表示問題的主要主題，semantic length表示推理步驟共幾步。

下圖是VQA和GQA數據集的對比。

下圖對比了多個數據集中question length的分布：
實驗
下圖是一些sota模型在GQA數據集上的實驗結果。本文提出了多維度評價指標，主要包括：Consistency（考察模型回答問題的一致性，對于同一張圖片的不同問題，回答不應該自相矛盾），Validity（考察模型回答問題的合理性，如顏色相關的問題，模型的回答應該是一種顏色），Plausibility（考察模型回答問題的常識性，如蘋果有紅色和綠色，但是沒有紫色的，所以在問蘋果顏色時，不能出現紫色的答案），Distribution（考察預測答案的分布與真實答案的分布之間的距離，如果模型只預測那些經常出現的答案，忽略出現次數少的答案，則此分數較低），Grounding（考察模型是否將attention放在了準確的區域）。

CVPR2019：Cycle-Consistency（數據集）

題目
Cycle-Consistency for Robust Visual Question Answering
下載鏈接
本文出自Facebook AI研究院
動機
作者認為，現有VQA方法很少關注模型的魯棒性。魯棒性低意味著：對于同一張圖片，使用兩個相同語義的question（語義相同，可能語法結構有些許變化），模型會輸出不同的answer。具體如下圖：
貢獻

本文提出了基于循環一致性的訓練方法，使得VQA模型更加魯棒。

本文基于VQA2.0數據集提出了VQA-Rephrasings數據集，用于驗證模型的魯棒性。

使用本文方法訓練的模型，在VQA-Rephrasings數據集上更加魯棒。

方法
本文方法的整體架構如下圖中(a)圖所示，(b)圖代表VQG（Visual Question Generation）模塊的結構。從(a)圖中可以看出，在傳統的訓練方法上，本文添加了額外的VQG（ $A′→Q′A^{'} \rightarrow Q^{'}$ ）和VQA過程（ $Q′→A′′Q^{'} \rightarrow A^{''}$ ），并添加了兩個一致性損失：Question Consistency Loss和Answer Consistency Loss。

關于上圖中(b)圖的VQG模塊，使用的方法類似于image captioning。而生成后的 $Q^{'}$ 不能保證和原問題 $Q$ 在語義上具有一致性，故使用門機制過濾掉一些不合適的 $Q^{'}$ ，作者計算 $Q^{'}$ 和 $Q$ 的余弦相似度，并用閾值 $T_{sim}$ 進行過濾。另外，作者在文中提到，為了保證每個模塊能夠獨立的工作，防止聯合訓練帶來的“欺騙”，在經過一定次數的迭代后才激活一致性損失。

關于VQA-Rephrasing數據集，作者從VQA2.0的驗證集中隨機采樣了40504個問題（每個問題和一張圖片對應），通過人工標注生成約3倍個數的改寫問題，下圖展示了一些示例。
實驗
首先在多個baseline上驗證了VQA-Rephrasing數據集的難度。

接下來是消融實驗。

接下來是，successful cases展示，上面一行代表Pythia原模型，下面一行代表使用本文方法訓練的Pythia模型。

ICCV2019：MLIN

題目
Multi-modality Latent Interaction Network for Visual Question Answering
下載鏈接
本文出自港中文+商湯+清華
動機
文中提到，現有VQA方法只是對單個的visual regions和words之間的關系進行建模，這與人的思考方式是不同的。人類回答視覺問題，通常會通過視覺信息和問題得到summarizations（提取主要信息），基于此summarizations進行回答。
貢獻

通過多模態信息的summarizations對多模態信息進行交互，這樣相當于是一個global的視角，避免了建立無用的visual regions和words之間的關系。

在VQA2.0和TDIUC數據集上表現很好。

方法
本文方法的整體框架如下圖所示，通過堆疊的MLI Module提取Visual Feature和Question Feature。

MLI Module的結構如下圖所示，共分為四個步驟，分別是：Summarization、Interaction、Propagation和Aggregation。其中，Summarization用于提取主要的visual features和question features，Interaction將兩種模態的信息進行交互，Propagation用于更深層次地理解特征之間的關系，Aggregation用于得到最終的visual features和question features，通過Transformer的key-query注意力機制進行建模。
實驗
首先，作者在VQA2.0數據集上進行了消融實驗，證明了各個模塊的有效性。

然后，做了與當前sota模型在VQA2.0數據集上的對比。

然后，做了與當前sota模型在TDIUC數據集上的對比。

最后，是attention的可視化展示。

CVPR2019：It`s not about the Journey

題目
It’s not about the Journey; It’s about the Destination: Following Soft Paths under Question-Guidance for Visual Reasoning
下載鏈接
動機
貢獻
方法
實驗

CVPR2019：Transfer Learning via Unsupervised Task Discovery

題目
Transfer Learning via Unsupervised Task Discovery for Visual Question Answering
下載鏈接
本文出自浦項科技大學（韓國）+OpenAI
動機
在VQA領域，測試集和訓練集的單詞組成往往是不同的，測試集中經常會出現out-of-vocabulary的答案，本文嘗試通過遷移學習解決這個問題。
貢獻

本文提出了基于task conditional visual classifier的用于vqa任務的遷移學習方法。

本文提出了無監督的task discovery技術，不使用特定的task標注即可學習task conditional visual classifier。

本文方法可以通過遷移visual dataset的知識來處理out-of-vocabulary的answer，不需要question annotations。

方法
本文方法的步驟如下圖所示，共分為三步：Unsupervised Task Discovery、Pretraining和Transfer to VQA。這三個步驟是漸進的，首先進行Unsupervised Task Discovery，這部分用于得到下一步使用的訓練樣本對。然后，在Pretraining階段訓練得到Task conditional visual classifier。最后，將上一步訓練好的參數遷移到VQA任務中。

Unsupervised Task Discovery的具體步驟如下圖所示，通過Visual Description生成樣本對，進行無監督的Task Discovery。

WordNet是一個同義詞詞集，結構如下圖所示。
實驗
實驗結果如下圖所示，可以看出，對于out-of-vocabulary數據，本文的方法很有效。

out-of-vocabulary示例展示：

ICCV2019：LCGN

題目
Language-Conditioned Graph Networks for Relational Reasoning
下載鏈接
本文出自UC伯克利。
動機
關于復雜的關系推理，已存在很多的研究方法。但是它們都將研究重點放在推理結構（inference structure）上，而忽略了特征（特征中不具有上下文信息）。本文提出了LCGN（Language-Conditioned Graph Networks），使用每個節點表示一個物體，基于輸入的文本信息，通過迭代的消息傳遞，最終得到物體的上下文表示（context-aware representation）。
貢獻

提出LCGN。

在多個任務上均有效（作者在VQA和REF兩個任務上做了實驗）

方法
下圖是本文方法的整體框架。首先，使用雙向LSTM提取文本特征，這里作者使用了Stack-NMN（ECCV2018）和MAC（ICLR2018）中的multi-step textual attention。然后，對圖像提取local features。最后，進行 $T$ 輪消息傳遞，得到output context- aware features。根據不同的任務，再添加不同的組件即可。
實驗（這里只放VQA部分的實驗結果，REF的讀者可以去原文中看）
在GQA數據集上的實驗結果：

在GQA數據集上，使用不同的local features得到的實驗結果：

在CLEVER數據集上的實驗結果， $T = 4$ ：

一些中間結果展示：

題目
下載鏈接
動機
貢獻
方法
實驗

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的2019年, VQA论文汇总的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

论文
VQA

上一篇： 2019年, image caption
下一篇： 2019年, video caption

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

生活随笔