Learning Visual Commonsense for Robust Scene Graph Generation论文笔记
?原論文地址:https://link.springer.com/content/pdf/10.1007/978-3-030-58592-1_38.pdf
目錄
總體結構:
感知模型GLAT:
融合感知和常識模型
Conclusion
附件:論文翻譯(絕大部分機翻)
Abstract
Introduction
Reference
Related Work
2.1?Commonsense in Computer Vision(常識在計算機視覺中)
2.2 Commonsense in?Scene Graph Generation[李8]?(常識在場景圖生成)
2.3?Transformers and Graph-Based Neural Networks[李9]?
3 Method
3.1 Global-Local Attention Transformers(常識模塊)
3.2 Fusing Perception and Commonsense
4、實驗
5 Conclusion
總體結構:
-
感知模型,它采用輸入圖像I并生成感知驅動的場景圖 GP
-
常識模型,它以 G P 作為輸入,并產生一個常識驅動的場景圖 G C
????????
感知模型GLAT:
輸入G_p,帶有masked node。經過一個Global-Local多頭注意力機制,
具體實現:
-
G=(Ne,Np,Es,Eo)Ne:實體節點 Np:謂詞節點 Es:謂詞指向主語 Eo:謂詞指向賓語
-
輸入:多個節點x_i^(0),封裝成矩陣X(0)
-
每一層layer:
-
Decoder:用一個全連接層分類節點(實體節點、謂詞節點),另一個全連接層分類邊(subject、object、無邊)
其中 H_l是layer l的Attention head。包含三部分 global 、 local Subject、 local Object。
每個h_G、h_LS、h_LO都是一個self-attention ?(A s 是主語邊緣的鄰接矩陣,從每個謂詞到它的主語之間為 1,反之亦然,其他地方為 0。我們類似地定義賓語邊緣的 Ao 和 h LO)
訓練方法:將噪聲隨機添加到帶注釋的場景圖(數據來自Visual Genome,比如使其產生masked node),然后傳入GLAT,重建節點和邊,并在添加噪聲之前和原始場景圖進行對比。
融合感知和常識模型
感知和常識模型使用softmax計算每一類的可能性,選擇概率最大的那個,并根據softmax值分配相應的置信度。融合模塊根據兩個模型的置信度,給出最終預測。
具體:同一節點i
-
在G_p有一個L_i^P向量(有實體節點、謂詞節點之分)
-
在G_c也有一個L_i^C
-
置信度: q_i^C類似?
-
融合機制: softmax
Conclusion
主要創新點:
附件:論文翻譯(絕大部分機翻)
Abstract
場景圖生成模型通過對象和謂詞識別來理解場景,但由于野外感知的挑戰,容易出錯。感知錯誤往往會導致輸出場景圖中無意義的構圖,這些構圖不遵循現實世界的規則和模式,可以使用常識性知識進行糾正。我們提出了第一個從數據中自動獲取啟示和直觀物理等視覺常識的方法,并用它來提高場景理解的魯棒性。為此,我們擴展了Transformer模型,以納入場景圖的結構,并在場景圖語料庫上培訓我們的全局-本地注意力Transformer。一旦經過培訓,我們的模型可以應用于任何場景圖生成模型,并糾正其明顯的錯誤,從而產生語義上更合理的場景圖。通過廣泛的實驗,我們展示了我們的模型比任何替代方案都能更好地學習常識,并提高了最先進的場景圖生成方法的準確性。
Introduction
???????在最近的計算機視覺文獻中,人們越來越有興趣將常識推理和背景知識納入視覺識別和場景理解的過程[8,9,13,31,33]。例如,在場景圖生成(SGG)中,外部知識庫[7]和數據集統計[2,34]已用于提高實體(對象)和謂詞(關系)識別的準確性。這些技術的效果通常是糾正明顯的感知錯誤,并代之以更合理的替代方案。例如,圖1(上圖)顯示,SGG模型錯誤地將鳥類歸類為熊,這可能是由于光線昏暗和物體尺寸小。然而,常識模型[李1]?可以正確預測鳥類,因為熊在樹枝上是一種不太常見的情況,與直覺物理不太一致,或者與動物行為相反。
???????????圖1.?方法概述:我們提出了一個常識模型,該模型采用感知模型生成的場景圖,并對其進行細化,使其更合理。然后,融合模塊比較感知和常識輸出,并生成最終圖,將這兩個信號都包含在一起。
???????將常識納入視覺識別過程的現有方法有兩個主要局限性。首先,它們依賴于外部常識來源,例如眾包或自動挖掘的常識規則,這些規則往往不完整和不準確[7],或直接從訓練數據中收集的統計數據,這些統計數據僅限于簡單的啟發式方法,如共發生頻率[2]。本文提出了從場景圖語料庫中自動學習圖形常識的第一種方法,該語料庫不需要外部知識,并通過學習簡單啟發式方法之外的復雜、結構化模式來獲得常識。
???????其次,大多數現有方法都非常容易受到數據偏見的影響,因為它們將數據驅動的常識知識集成到數據驅動的神經網絡中。比如圖1中的常識模型,為了避免大象畫圖的奇葩三叉大象,而大象在視覺上相當清晰,感知模型已經正確識別了大象。現有的將場景理解與常識相結合的努力都沒有研究過是信任感知還是常識的基本問題,即你看到的與你期望的。本文提出了一種將感知[李2]?和常識[李3]?分離為兩個單獨訓練的模型的方法,并引入了一種利用這兩種模型之間的分歧來實現兩全其一的方法。
為此,我們首先提出了視覺常識的數學形式化,作為自動編碼攝動場景圖的問題?;谛滦问街髁x,我們提出了一種從附加注釋的場景圖中學習視覺常識的新方法。我們擴展了最近成功的變壓器[23]通過添加局部注意力頭,使他們能夠編碼場景圖的結構,并在注釋場景圖的語料庫上訓練他們,通過類似于BERT的掩碼框架預測場景缺失的元素[5]。如圖2所示,考慮到給定場景圖的結構和上下文,我們的常識模型學會了利用其經驗來想象哪個實體或謂詞可以取代掩碼。一旦訓練好,它可以堆疊在任何感知(即SGG)模型上,以糾正生成的場景圖中的荒謬錯誤。
感知模型和常識模型的輸出可以看作兩個生成的場景圖,并存在潛在分歧。我們設計了一個融合模塊,該模塊將這兩個圖及其分類置信值一起,并預測一個反映感知和常識知識的最終場景圖。我們的融合模塊信任每個輸入的程度因圖像而異,并根據每個模型的估計置信度確定。這樣,如果感知模型因黑暗而不確定鳥類,融合模塊更依賴常識,如果感知模型因其清晰度而對大象有信心,則融合模塊信任其眼睛。
我們對視覺基因組數據集進行廣泛的實驗[12]?, 顯示(1)提出的GLAT模型在常識性采集任務中優于現有的變壓器和基于圖的模型 ; (2)我們的模型學習了?SGG?模型中不存在的各種類型的常識,如對象啟示和直觀物理 ; (3)該模型對數據集偏置魯棒,即使在罕見和零射擊的場景中也表現出常識行為 ; (?4) 提出的?GLAT?和融合機制可以應用于任何?SGG?方法,以糾正其錯誤并提高其準確性。本文的主要貢獻如下:
——我們提出了學習結構化視覺常識的第一種方法,全局局部注意力變壓器(GLAT),它不需要任何外部知識,并且優于常規變壓器和基于圖形的網絡。
——我們為場景圖生成提出了一個級聯融合架構,該架構將常識推理與視覺感知區分開,并以對每個組件失敗的魯棒方式集成它們。
——我們報告了展示我們模型在不發現數據集偏差的情況下學習常識的獨特能力的實驗,以及它在下游場景理解中的效用。
Reference
(8)Hybrid knowledge routed modules for large-scale object detection
(9)?Compositional learning for human object interaction(人物交互中的組合學習)
(31)?Visual relationship detection with internal and external linguistic knowledge distillation(內部和外部語言知識蒸餾的視覺關系檢測)
理解兩個對象之間的視覺關系涉及識別主語、對象和與之相關的謂詞。我們利用謂詞和hsubj之間的強相關性;obji對(在語義和空間上)來預測以主語和賓語為條件的謂詞。與獨立建模相比,三個實體的聯合建模更準確地反映了它們之間的關系,但由于視覺關系的語義空間巨大,訓練數據有限,特別是對于實例很少的長尾關系,因此學習變得復雜。為了克服這一點,我們使用語言統計學知識來規范可視化模型學習。我們通過從訓練注釋(內部知識)和公開文本(例如維基百科(外部知識)中挖掘)來獲取語言知識,計算給定(subj,obj)對謂詞的條件概率分布。當我們訓練視覺模型時,我們將這些知識提煉成深度模型,以實現更好的推廣。我們在視覺關系檢測(VRD)和視覺基因組數據集上的實驗結果表明,通過這種語言知識蒸餾,我們的模型明顯優于最先進的方法,特別是在預測看不見的關系時(例如,VRD零拍測試集的召回率從8.45%提高到19.17%)
(33) From Recognition to Cognition: Visual Commonsense Reasoning.(從識別到認知:視覺常識推理)
對于人類來說,隨便瞥一眼就能獲取到很多圖片信息,這些信息不僅僅是像素點顯示的,還有圖像之外隱藏的知識類信息,但是這個任務對機器來說很難,這里作者將這個任務定義為視覺常識推理,要求機器不僅回答出正確答案,還要對這個答案給出證明。
作者提出一個新的數據集VCR,包含290k個多選QA,這些問題來源于110k個電影場景。生成大量的有意義并且高質量的問題的關鍵是對抗性匹配,這是一種通過將豐富的注釋轉換為偏差極小的多選問題的方法。VCR數據集對人類來說比較簡單,準確率可以超過90%,但是對于機器來說比較困難,準確率約為45%。
?為了使機器能夠達到認知的層面,作者提出一個新的方法,叫做Recognition to Cognition Networks (R2C),為基礎、情景化、推理建立了必要的分層模型,縮小了人類和機器在識別VCR上的差距。
Related Work
2.1?Commonsense in Computer Vision(常識在計算機視覺中)
在各種計算機視覺任務中探索了將常識知識納入對象識別[3,14,28],對象檢測[13],語義分割[19],行動識別[9],視覺關系檢測[31],場景圖生成[2,7,34],和視覺問題回答[18,22]。關于這些方法,有兩個方面需要研究:它們的常識來自哪里[李4]?,以及它們如何使用常識[李5]?。
大多數方法要么采用外部精選知識庫,如ConceptNet [7,14,18,19,21,28],或通過收集經常注釋的語料庫上的統計數據,自動獲得常識[2,3,13,22,31,34]。然而,前者僅限于不完整的外部知識,后者基于特設、硬編碼的啟發式方法,如類別的共發生頻率。我們的方法首先將視覺常識作為機器學習任務來表述,并訓練基于圖的神經網絡來解決這個問題。第三組作品通過設計專門模型,如直覺物理學[6],或客體啟示[4]。[李6]?我們通過利用場景圖作為多功能語義表示,提出了一個更通用的框架,包括但不限于物理和啟示。與我們的工作最相似的是[26】,它只對對象共現模式進行建模,同時我們還結合了對象關系和場景圖結構。
當談到使用常識時,現有方法將其集成到推理管道中,要么從知識庫中檢索一組相關事實,要么作為模型的附加功能[7,18,22],或通過使用基于圖的消息傳播過程將知識圖的結構嵌入模型的中間表示[2,3,9,14,28]。其他一些方法通過輔助目標提煉訓練期間的知識,使推理簡單且不含外部知識[19,31]。然而,在所有這些方法中,常識都無縫地注入到模型中,無法解開。這使得很難分別研究和評估常識和感知,或控制其影響。[李7]?很少有方法將常識建模為一個獨立的模塊,該模塊被后期融合到感知模型的預測中[13,34]。然而,我們是第一個設計單獨的感知和常識模型,并根據他們的置信度來自適應地權衡它們的重要性,然后再融合他們的預測。
Reference
(3)Iterative visual reasoning beyond convolutions?超越卷積的迭代視覺推理
(14)Multi-label zero-shot learning with structured knowledge graphs?具有結構化知識圖的多標簽零樣本學習?
(28)Zero-shot recognition via semantic embeddings and knowledge graphs?通過語義嵌入和知識圖進行零樣本識別
(13)DOCK: detecting objects by transferring common-sense knowledge DOCK:通過轉移常識知識來檢測對象?
(19)KE-GAN: knowledge embedded generative adversarial networks for semi-supervised scene parsing KE-GAN:用于半監督場景解析的知識嵌入生成對抗網絡
(9)Compositional learning for human object interaction?人物交互的組合學習
(31)Visual relationship detection with internal and external linguistic knowledge distillation.?具有內部和外部語言知識蒸餾的視覺關系檢測。
(2)Knowledge-embedded routing network for scene graph generation?用于場景圖生成的知識嵌入路由網絡
(7)Scene graph generation with external knowledge and image reconstruction?使用外部知識和圖像重建生成場景圖
(34)Neural motifs: scene graph parsing with global context?神經圖案:場景圖解析與全局上下文
2.2 Commonsense in?Scene Graph Generation[李8]?(常識在場景圖生成)
???????【34】是第一個將常識明確納入場景圖生成過程的人。他們使用預先計算的頻率來偏向謂詞分類日志,該頻率之前是靜態分布,給定每個實體類對。雖然這大大提高了它們的整體準確性,但改善的主要原因是,他們更喜歡頻繁的三胞胎,而不是其他三胞胎,這在統計學上是值得的。即使他們的模型將一個人和帽子之間的關系歸類為持有者,他們的頻率偏差也極有可能改變為佩戴,佩戴頻率更高。
???????【2】采用不那么明確的方式將頻率納入實體和謂詞分類過程。他們將頻率嵌入推理圖的邊緣權重中,并在消息傳播過程中利用這些權重。這改善了結果,特別是在不太頻繁的謂詞上,因為它不太嚴格地執行關于最終決定的統計數據。然而,這種方法常識隱含地集成到SGG模型中,不能孤立地探索或研究。我們消除了統計偏差的負面影響,同時保持常識模型與感知的糾纏。
【7]利用ConceptNet [21]而不是數據集統計,這是一個包含概念相關事實的大規模知識圖,例如狗是動物或叉子用于進食。給定每個檢測到的對象,他們檢索涉及該對象類的概念網事實,并在對對象和謂詞進行分類之前,使用循環神經網絡和注意力機制將這些事實編碼為對象特征。然而,ConceptNet并非詳盡無遺,因為匯編所有常識性事實極其困難。我們的方法不依賴于有限的外部知識來源,并通過可推廣的神經網絡自動獲得常識。
2.3?Transformers and Graph-Based Neural Networks[李9]?
變壓器最初被提議通過堆疊幾層多頭注意力來取代機器翻譯的循環神經網絡[23]。從那時起,變壓器成功地完成了各種視覺和語言任務[5,16,27]。特別是,BERT[5]?隨機將給定句子中的一些單詞替換為特殊的?MASK?令牌,并嘗試重建這些單詞。通過這種自我監督的游戲,BERT獲得了自然語言,并可以轉移自己的語言知識,以在其他NLP任務中表現良好。我們使用類似的自我監督策略來學習完成場景圖缺失的部分。我們的模型不是語言,而是獲得了以結構化、語義方式想象場景的能力,這是人類常識的標志。
變壓器將輸入視為一組令牌,并丟棄其中任何形式的結構。為了保持句子中令牌的順序,BERT在輸入變壓器之前通過位置嵌入來增強每個令牌的初始嵌入。另一方面,場景圖的結構更復雜,無法以如此瑣碎的方式嵌入。最近,基于圖形的神經網絡(GNN)通過應用幾層鄰域聚合,成功地將圖形結構編碼為節點表示形式。更具體地說,GNN的每一層都通過一個可訓練函數表示每個節點,該函數將節點及其鄰居作為輸入。圖卷積網[11],門控圖神經網絡[15],和圖表注意力網[24]?所有這些都使用不同的鄰域聚合計算模型來實現這個想法。GNN通過結合上下文[29,30,32],但我們是第一個利用GNN來學習視覺常識的人。
我們采用圖形注意力網,因為它們在使用注意力方面與變壓器相似。圖注意力網與變壓器的主要區別在于,它們不通過對所有其他節點的注意力來表示每個節點,而只計算對相鄰鄰居的注意力。受此啟發,我們使用類BERT的變壓器網絡,但只需將非鄰居節點之間的注意力強制為零,即可將其一半的注意力頭替換為局部注意力。通過第4節的燒蝕實驗,我們展示了擬議的全局局部注意力變壓器(GLAT)優w于常規變壓器,以及廣泛使用的基于圖的模型,如圖卷積網和圖注意力網。
3 Method
我們將場景圖定義為G=(Ne,Np,Es,Eo)。
Ne是一組實體節點Np是一組謂詞節點,Es是從每個謂詞到其主語(實體節點)的一組邊緣,以及Eo是從每個謂詞到其賓語(也是實體節點)的一組邊緣。
每個實體節點Ne用實體類e∈Ce和一個邊界框b∈[0,1]4表示。
每個謂詞節點Np都用謂詞類cp∈Cp表示并被連接到一個主語和一個賓語連接。
請注意,這種場景圖的表述與傳統[29]不同,我們將謂詞表述為節點而不是邊緣。這種調整不會引起任何限制,因為每個場景圖都可以從常規表示轉換為我們的表示。然而,這種表述允許在同一對實體之間設置多個謂詞,它還使我們能夠定義統一的attention,無論實體節點還是謂詞節點。
給定一個包含許多圖像I∈[0, 1] h×w×c的訓練數據集與真實場景圖?GT?配對[李10]?,我們的目標是訓練一個模型,該模型采用新圖像并預測一個場景圖最大化?p(G |I)。這相當于最大化?p(I | G)p(G),將問題分解為我們所說的感知和常識。在我們提出的直覺中,常識是人類預測哪些情況是可能的,哪些情況是不可能的,或者換句話說,判斷感知是不是正確。這可以看作是在場景圖中,世界上所有可能情況的先驗分布?p(G)。另一方面,感知是從原始感官數據形成符號信念的能力,在我們的例子中分別是?G?和?I。盡管計算機視覺的目標是解決最大后驗?(MAP)?問題(最大化?p(G | I)),但神經網絡通常無法估計后驗,除非在模型定義中明確強制執行先驗?[17]。這是在計算機視覺中,先驗經常被忽視,或者被錯誤地認為是均勻分布,使得MAP?等效于最大似然?(ML),i,e,即找到最大化?p(I | G) [20]?的?G。
我們提出了第一種通過設計顯式先驗模型(常識)來顯式近似?MAP?推理的方法。 由于后驗推理難以處理,我們提出了一個兩階段框架作為近似:我們首先采用任何現成的?SGG?模型作為感知模型,它采用輸入圖像I并生成感知驅動的場景圖?GP,即 近似最大化可能性。 然后我們提出了一個常識模型,它以?G P?作為輸入,并產生一個常識驅動的場景圖?G C?,以近似最大化后驗,即,
其中?f P?和?f C?是感知和常識模型。 常識模型可以看作是去噪自編碼器?[25]?的基于圖的擴展,它顯然可以學習數據的生成分布?[10, 1],在我們的例子中是?p(G)。 因此,f C?可以將任何場景圖作為輸入,只需稍微改變輸入即可生成更合理的圖。 這里的一個關鍵設計選擇是?f C?不將圖像作為輸入。 否則,很難確保它純粹是在學習常識而不是感知。
理想情況下,GC?是最好的決定,因為它最大化后驗分布[李11]?。 然而,在實踐中,自動編碼器往往不能充分代表長尾分布,只捕獲模式。 這意味著常識模型可能無法預測不太常見的結構,而支持更具統計價值的替代方案。 為了緩解這個問題,我們提出了一個融合模塊,它以?G P?和?G C?作為輸入,并輸出一個融合的場景圖?G F?,這是我們系統的最終輸出。 這可以看作是一個決策代理,它必須根據每個模型的信心程度來決定對每個模型的信任程度。
圖?1?說明了所提議架構的概述。 在本節的其余部分,我們將詳細闡述每個模塊。
3.1 Global-Local Attention Transformers(常識模塊)
???????我們提出了第一個基于圖的視覺常識模型,該模型通過去噪自動編碼器框架學習現實世界場景語義結構的生成分布。 受BERT [5]?的啟發,它通過多頭注意力的堆疊層重建句子中的掩碼標記,我們提出了全局局部注意變換器?(GLAT),它以帶有掩碼節點的圖作為輸入,并重建丟失的節點。 圖?2?說明了?GLAT?的工作原理。 給定一個輸入場景圖?G P?,我們將節點?i?表示為?one-hot?向量?x i(0) ,其中包括實體和謂詞類別,以及一個特殊的?MASK?類。 出于符號目的,我們將節點表示堆疊為矩陣X (0)?的行。
圖2?提議的全局局部注意力變換器?(GLAT)?及其訓練框架:我們用局部注意力頭增強變換器,以幫助它們在節點嵌入中編碼場景圖的結構。 解碼器獲取忐忑的場景圖的嵌入,并在無法訪問圖像的情況下重建正確的場景圖。 請注意,此圖僅顯示了圖?1?中所示的整體管道的常識塊
???????GLAT?將?X(0)?作為輸入,通過對結構和上下文進行編碼來表示每個節點。 為此,它在輸入節點上應用了?L?層多頭注意力。 每層?l?通過在該層注意力頭的連接輸出上應用線性層來創建新的節點表示?X (l)?。 更具體地說,
?其中?H l?是第?l?層的注意力頭集[李12]?,W l?和?b l?是該層的可訓練融合權重和偏差,并且串聯沿列操作。
我們使用兩種類型的注意力頭,即全局和局部。每個節點可以通過全局注意力來關注所有其他節點,而通過局部注意力只能關注它的鄰居。我們根據它們使用的邊緣類型進一步劃分局部頭部,以區分主語和賓語與謂詞交互的方式,反之亦然。因此,我們可以這樣寫:
每個子集中的所有頭部都是相同的,除了它們具有獨立初始化和訓練的不同參數。每個全局頭?h G?都作為一個典型的自注意力運行:
其中?q、k、v?是查詢、鍵和值頭,每個都是完全連接的網絡,通常(但不一定)具有單個線性層。局部注意力是相同的,除了查詢只能與其直接鄰居節點的鍵進行交互。例如在主語頭部中,
其中?A s?是主語邊緣的鄰接矩陣,從每個謂詞到它的主語之間為?1,反之亦然,其他地方為?0。我們類似地定義對象邊緣的?Ao?和?h LO。
?一旦我們獲得了每個節點?i?的上下文化、結構感知表示?xi(L),我們設計了一個簡單的解碼器來生成輸出場景圖?GC,使用一個將每個節點分類為實體或謂詞類的全連接網絡,以及另一個完全連接的網絡。將每對節點分類為邊類型(主體、對象或無邊)的連接網絡。我們端到端地訓練編碼器和解碼器,方法是將噪聲隨機添加到來自?Visual Genome[李13]??的帶注釋的場景圖,將噪聲圖提供給?GLAT,重建節點和邊,并在擾動前將每個與原始場景圖進行比較。我們在節點和邊分類器上使用兩個交叉熵損失項來訓練網絡。包括擾動過程[李14]?在內的訓練細節在?4.1?節中進行了解釋。
3.2 Fusing Perception and Commonsense
????感知和常識模型均使用分類器預測輸出節點類別,該分類器通過對其?logits?應用?softmax?來計算所有類別的概率分布。 選擇概率最高的類別并為其分配與?softmax?概率相等的置信度分數。 更具體地說,來自?G P?的節點?i?有一個logit[李15]?向量?L i P?具有?| Ce |?或?| Cp |?維度取決于它是實體節點還是謂詞節點。 類似地,來自G C?的節點?i?有一個對數向量?Li C?。 請注意,這兩個節點對應于圖像中的同一實體或謂詞,因為?GLAT?不會更改節點的順序。 那么每個節點的置信度可以寫為 ?并且類似地?q i C?被定義為給定?L i C?。
????融合模塊采用每個?G P節點和?G C?的對應節點,并為該節點計算一個新的對數向量,作為?Li P?和?Li C?的加權平均值。 權重決定了每個模型在最終預測中的貢獻,因此必須與每個模型的置信度成正比。 因此,我們計算融合?logits?為:
???????最后,在?L i F?上應用?softmax?來計算節點?i?的最終分類分布。
4、實驗
5 Conclusion
我們提出了第一個從場景圖語料庫中自動學習視覺常識的方法。我們的方法通過新穎的自我監督培訓策略學習結構化常識模式,而不是簡單的共發生統計。我們獨特的局部注意頭增強變壓器的方法明顯優于變壓器,以及廣泛使用的基于圖形的模型,如圖卷積網。此外,我們提出了一種新的場景圖生成架構,該架構由感知和常識兩個單獨的模型組成,它們有不同的訓練,可以在不確定的情況下相互補充,提高了整體魯棒性。為此,我們提出了一種融合機制,根據這兩個模型的自信心將它們的輸出結合起來,并表明我們的模型正確地決定了何時信任其感知,何時依靠其常識。實驗顯示了我們生成場景圖的方法的有效性,并鼓勵今后的工作在其他計算機視覺任務中應用相同的方法。[李16]?
總結
以上是生活随笔為你收集整理的Learning Visual Commonsense for Robust Scene Graph Generation论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《论文阅读》CARE: Commonse
- 下一篇: 关于Kubernetes中使用Helm部