2019年, VQA论文汇总
目錄
- CVPR2019:XNMs
- ICCV2019:Q+I+A(數據集)
- NeurIPS2019:SCR
- CVPR2019:Modified QANet
- CVPR2019:GQA(數據集)
- CVPR2019:Cycle-Consistency(數據集)
- ICCV2019:MLIN
- CVPR2019:It`s not about the Journey
- CVPR2019:Transfer Learning via Unsupervised Task Discovery
- ICCV2019:LCGN
CVPR2019:XNMs
- 題目
Explainable and Explicit Visual Reasoning over Scene Graphs
下載鏈接
南洋理工大學張含望老師小組的工作. - 動機
- 貢獻
-
方法
本文方法的整體框架如圖所示:
首先, 對于給定的image進行scene grpah parsing (場景圖解析). 然后, 對于給定的question進行program generation. 最后, 在場景圖上進行reasoning即可. 整個方法的流程看起來很簡單, 而且在實驗部分可以看出, 本文方法十分work, 可以在CLEVR數據集上達到100%的準確率.
本文在場景圖上預設了四種不同的meta-types, 分別為: ① AttendNode (代表"實體"). ② AttendEdge (代表"實體"之間的"關系"). ③ Transfer (根據"關系"對"實體"進行轉化). ④ Logic (與, 或, 非等邏輯操作). 以上四種操作在文中都有詳細的介紹, 這里不多做解釋.
Transfer操作如下圖所示:
-
實驗
在CLEVR數據集上的實驗結果. XNM-Det表示所有的物體都是使用某種檢測模型得到的, XNM-GT表示所有的物體都是直接使用的Ground-Truth. Program的也有兩種選項, supervised表示使用訓練得到的program generator, GT表示直接使用Ground-Truth. 可以看出, 只要在物體檢測階段足夠給力, 無論使用哪種program generator, 都可以達到很高的準確率.
從下圖可以看出, 本文方法的收斂速度很快
下圖是在CLEVR-CoGenT數據集上的結果:
ICCV2019:Q+I+A(數據集)
- 題目
Why Does a Visual Question Have Different Answers?
下載鏈接 - 動機
在VQA任務中,一直存在一個問題:不同的人會對同一個問題做出不同的答案。本文嘗試去分析為什么會造成這個現象。 - 貢獻
-
方法
首先,作者提出了9種可能導致不同答案的原因,如下圖所示,分別是:LOW QUALITY IMAGE, DIFFICULT, SYNONYMS, ANSWER NOT PRESENT / GUESSWORK, AMBIGUOUS, GRANULAR, INVALID, SUBJECTIVE, SPAM。
對于上述的9種原因,又可以歸結為3類,分別為Q(issues with the Question)、I(issues with the Image)、A(issues with the Answer)。作者將Q和I臨時歸為一類,以表格的形式對9種原因進行了分類和解釋。
作者在VizWiz和VQA_2.0兩個數據集上進行了人工標注。由于不同人對此問題的理解也不同,故使用3個人進行標注。對于下面的圖片,左側是VizWiz數據集,右側是VQA_2.0數據。最內環的圓圈代表僅有一人標注的數據集結果,中間的圓圈代表需要兩個人同意才可以這樣標注,最外環表示三人都同意時才可以這樣標注。可以看出,造成不同答案的主要原因是QI&A。
接下來,作者又按照9個類別進行了統計,得到如下圖的結果。可以看出,最主要的三個原因是:AMB, SYN, GRN.
接下來,作者又在兩個數據集上統計了每種情況“單獨發生”or“和其他情況同時發生”的概率,如下圖所示。左側是VizWiz數據集,右側是VQA_2.0數據集。
接下來,作者提出了用來預測是哪種情況發生的模型,如下圖所示。該模型共預測10個類別,除了上述的9個類別,還有個others類,用來表示上述9類沒涵蓋到的情況。
-
實驗
本文的實驗結果如下圖所示。其中,Random表示隨機猜測;QI-Relevance表示預測Q和I之間的相關性,如果預測結果是“相關”,則將LQI、IVE和AMB置為0,其他的置為1;I表示只有I存在問題;Unanswerable表示預測這個問題是否不可回答,若不是,則將LQI、IVE和AMB都置為0,其他的置為1;Q表示只有Q存在問題;Q+I表示Q和I都存在問題;Q+I+A表示Q、I和A都存在問題;Q+I+A_FT表示模型的最后一層使用Fc代替且進行fineTune的結果;Q+I+A_GT表示使用GroundTruth代替Answer Prediction得到的結果。
可以看出,本文模型對AMB、SYN和GRN原因預測的準確率還是挺高的,且這9類原因基本涵蓋了所有原因。
NeurIPS2019:SCR
- 題目
Self-Critical Reasoning for Robust Visual Question Answering
下載鏈接 - 動機
訓練數據和測試數據的QA distribution不同,導致預測的結果不準確。
- 貢獻
本文提出了Self-Critical Reasoning,可以提高與正確answer相關的objects的sensitivity,同時降低模型預測出錯誤answer的概率(通過降低相關objects的sensitivity實現)。 - 方法
本文的整體框架如下圖所示:
接下來,對本文的框架圖進行解釋。從圖中我們可以看出,總共分為三部分:UpDn VQA system(左上部分)、Recognizing and Strengthening Influential Objects(左下部分)、Criticizing Incorrect Dominant Answers(右側部分),下面對這三部分一一介紹。
第一部分 - UpDn VQA system。大體流程和傳統的UpDn方法一樣,首先,對image提取visual feature;然后,對question提取question feature;最后,將兩類feature輸入answer predictor得到answer。在以上基礎上,本文添加了一個Constructor,用于生成proposal influential objects。作者提到,本文生成的proposal influential objects可能不準確,且含有較多noisy,但是假定其至少包含the most relevant object。文中共提到了3種Constructor,分別是:Construction from Visual Explanations、Construction from Textual Explanations和Construction from Questions and Answers。前兩種需要數據集提供特定的標簽,最后一種適用于常見的VQA數據。
第二部分 - Recognizing and Strengthening Influential Objects。這部分通過公式(3)實現,即:通過在損失函數中添加損失項LinflL_{infl}Linfl?最小化非influential objects的sensitivity。下面的公式中,aaa表示answer,viv_ivi?表示第iii個object的features,S(a,vi)S(a,v_i)S(a,vi?)表示answer aaa對第iii個object的sensitivity,SV(a,vi,vj)SV(a,v_i,v_j)SV(a,vi?,vj?)表示第jjj個object比第iii個object高出的sensitivity。
第三部分 - Criticizing Incorrect Dominant Answers。這部分通過公式(5)實現,即:通過在損失函數中添加損失項LcritL_{crit}Lcrit?最小化incorrect answers對于the most influential object的sensitivity。公式中,v?v^*v?表示the most influential object。
w(a)=cosine_dist(Glove(agt),Glove(a))w(a)=cosine\_dist(Glove(a_{gt}),Glove(a))w(a)=cosine_dist(Glove(agt?),Glove(a))
綜上,本文方法在訓練時的損失函數為:
L=Lvqa+Linfl+λLcritL=L_{vqa}+L_{infl}+\lambda L_{crit}L=Lvqa?+Linfl?+λLcrit? - 實驗
實驗結果
消融實驗
結果展示
CVPR2019:Modified QANet
- 題目
Visual Question Answering as Reading Comprehension
下載鏈接 - 動機
現有的VQA方法致力于將視覺信息和文本信息進行跨模態融合,而跨模態交互是很困難的,本文提出了一個做VQA的新思路,將VQA任務轉化為機器閱讀理解任務。
- 貢獻
- 方法
本文方法主要基于TQA(機器閱讀理解)領域的QANet模型構建,下圖是QANet中使用的encoder結構。QANet中主要包括5個組成部分,分別是:embedding block、embedding encoder、context-query attention block、model encoder和output layer。
下圖是本文對于open-ended VQA問題提出的模型。
下圖是本文對于multiple-choice VQA問題提出的模型。
- 實驗
下圖是在FVQA數據集上的實驗結果,使用微調的QANet達到了sota。
下圖展示了限制圖片生成的captions長度,對準確率帶來的影響。可以看出,captions越長,則準確率越高,但是計算負擔會變大。
下圖是一些在FVQA數據集上的結果展示。
下圖是在VGQA數據集上和open-ended模型的對比。
下圖是在Visual7W數據集上和multiple-choice模型的對比。
下圖是在Visual7W數據集上的successful case展示。
CVPR2019:GQA(數據集)
- 題目
GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering
下載鏈接 - 動機
針對現有VQA數據集的不足之處,提出GQA數據集。
- 貢獻
- 方法
GQA數據集的構造過程如下圖所示,共包括22M的questions和110K個圖像。
在構造GQA數據時,首先,需要有每張圖像對應的scene graph,這里使用的是Visual Genome數據集。然后,使用question engine生成questions,并且每個question對應一個functional program。然后,要balance答案的分布。最后,對于每個answer,都應指向圖中對應的區域。
下圖是GQA數據集的一些樣例:
下圖是對數據集信息的一個統計,共分為:structural types、semantic types、semantic length三張圖(圖中最后一張畫錯了)。其中,structural types表示要執行的最終操作,semantic types表示問題的主要主題,semantic length表示推理步驟共幾步。
下圖是VQA和GQA數據集的對比。
下圖對比了多個數據集中question length的分布:
- 實驗
下圖是一些sota模型在GQA數據集上的實驗結果。本文提出了多維度評價指標,主要包括:Consistency(考察模型回答問題的一致性,對于同一張圖片的不同問題,回答不應該自相矛盾),Validity(考察模型回答問題的合理性,如顏色相關的問題,模型的回答應該是一種顏色),Plausibility(考察模型回答問題的常識性,如蘋果有紅色和綠色,但是沒有紫色的,所以在問蘋果顏色時,不能出現紫色的答案),Distribution(考察預測答案的分布與真實答案的分布之間的距離,如果模型只預測那些經常出現的答案,忽略出現次數少的答案,則此分數較低),Grounding(考察模型是否將attention放在了準確的區域)。
CVPR2019:Cycle-Consistency(數據集)
- 題目
Cycle-Consistency for Robust Visual Question Answering
下載鏈接
本文出自Facebook AI研究院 - 動機
作者認為,現有VQA方法很少關注模型的魯棒性。魯棒性低意味著:對于同一張圖片,使用兩個相同語義的question(語義相同,可能語法結構有些許變化),模型會輸出不同的answer。具體如下圖:
- 貢獻
- 方法
本文方法的整體架構如下圖中(a)圖所示,(b)圖代表VQG(Visual Question Generation)模塊的結構。從(a)圖中可以看出,在傳統的訓練方法上,本文添加了額外的VQG(A′→Q′A^{'} \rightarrow Q^{'}A′→Q′)和VQA過程(Q′→A′′Q^{'} \rightarrow A^{''}Q′→A′′),并添加了兩個一致性損失:Question Consistency Loss和Answer Consistency Loss。
關于上圖中(b)圖的VQG模塊,使用的方法類似于image captioning。而生成后的Q′Q^{'}Q′不能保證和原問題QQQ在語義上具有一致性,故使用門機制過濾掉一些不合適的Q′Q^{'}Q′,作者計算Q′Q^{'}Q′和QQQ的余弦相似度,并用閾值TsimT_{sim}Tsim?進行過濾。另外,作者在文中提到,為了保證每個模塊能夠獨立的工作,防止聯合訓練帶來的“欺騙”,在經過一定次數的迭代后才激活一致性損失。
關于VQA-Rephrasing數據集,作者從VQA2.0的驗證集中隨機采樣了40504個問題(每個問題和一張圖片對應),通過人工標注生成約3倍個數的改寫問題,下圖展示了一些示例。
- 實驗
首先在多個baseline上驗證了VQA-Rephrasing數據集的難度。
接下來是消融實驗。
接下來是,successful cases展示,上面一行代表Pythia原模型,下面一行代表使用本文方法訓練的Pythia模型。
ICCV2019:MLIN
- 題目
Multi-modality Latent Interaction Network for Visual Question Answering
下載鏈接
本文出自港中文+商湯+清華 - 動機
文中提到,現有VQA方法只是對單個的visual regions和words之間的關系進行建模,這與人的思考方式是不同的。人類回答視覺問題,通常會通過視覺信息和問題得到summarizations(提取主要信息),基于此summarizations進行回答。 - 貢獻
- 方法
本文方法的整體框架如下圖所示,通過堆疊的MLI Module提取Visual Feature和Question Feature。
MLI Module的結構如下圖所示,共分為四個步驟,分別是:Summarization、Interaction、Propagation和Aggregation。其中,Summarization用于提取主要的visual features和question features,Interaction將兩種模態的信息進行交互,Propagation用于更深層次地理解特征之間的關系,Aggregation用于得到最終的visual features和question features,通過Transformer的key-query注意力機制進行建模。
- 實驗
首先,作者在VQA2.0數據集上進行了消融實驗,證明了各個模塊的有效性。
然后,做了與當前sota模型在VQA2.0數據集上的對比。
然后,做了與當前sota模型在TDIUC數據集上的對比。
最后,是attention的可視化展示。
CVPR2019:It`s not about the Journey
- 題目
It’s not about the Journey; It’s about the Destination: Following Soft Paths under Question-Guidance for Visual Reasoning
下載鏈接 - 動機
- 貢獻
- 方法
- 實驗
CVPR2019:Transfer Learning via Unsupervised Task Discovery
- 題目
Transfer Learning via Unsupervised Task Discovery for Visual Question Answering
下載鏈接
本文出自浦項科技大學(韓國)+OpenAI - 動機
在VQA領域,測試集和訓練集的單詞組成往往是不同的,測試集中經常會出現out-of-vocabulary的答案,本文嘗試通過遷移學習解決這個問題。
- 貢獻
- 方法
本文方法的步驟如下圖所示,共分為三步:Unsupervised Task Discovery、Pretraining和Transfer to VQA。這三個步驟是漸進的,首先進行Unsupervised Task Discovery,這部分用于得到下一步使用的訓練樣本對。然后,在Pretraining階段訓練得到Task conditional visual classifier。最后,將上一步訓練好的參數遷移到VQA任務中。
Unsupervised Task Discovery的具體步驟如下圖所示,通過Visual Description生成樣本對,進行無監督的Task Discovery。
WordNet是一個同義詞詞集,結構如下圖所示。
- 實驗
實驗結果如下圖所示,可以看出,對于out-of-vocabulary數據,本文的方法很有效。
out-of-vocabulary示例展示:
ICCV2019:LCGN
- 題目
Language-Conditioned Graph Networks for Relational Reasoning
下載鏈接
本文出自UC伯克利。 - 動機
關于復雜的關系推理,已存在很多的研究方法。但是它們都將研究重點放在推理結構(inference structure)上,而忽略了特征(特征中不具有上下文信息)。本文提出了LCGN(Language-Conditioned Graph Networks),使用每個節點表示一個物體,基于輸入的文本信息,通過迭代的消息傳遞,最終得到物體的上下文表示(context-aware representation)。
- 貢獻
- 方法
下圖是本文方法的整體框架。首先,使用雙向LSTM提取文本特征,這里作者使用了Stack-NMN(ECCV2018)和MAC(ICLR2018)中的multi-step textual attention。然后,對圖像提取local features。最后,進行TTT輪消息傳遞,得到output context- aware features。根據不同的任務,再添加不同的組件即可。
- 實驗(這里只放VQA部分的實驗結果,REF的讀者可以去原文中看)
在GQA數據集上的實驗結果:
在GQA數據集上,使用不同的local features得到的實驗結果:
在CLEVER數據集上的實驗結果,T=4T=4T=4:
一些中間結果展示:
- 題目
下載鏈接 - 動機
- 貢獻
- 方法
- 實驗
總結
以上是生活随笔為你收集整理的2019年, VQA论文汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2019年, image caption
- 下一篇: 2019年, video caption