Multi-Level Knowledge Injecting for Visual Commonsense Reasoning
摘要——當瀏覽一幅圖像時,人類可以推斷出隱藏在圖像中的東西,而不是視覺上明顯的東西,例如物體的功能、人的意圖和精神狀態。然而,這種視覺推理范式對計算機來說非常困難,需要了解世界是如何工作的。為了解決這個問題,我們提出了基于常識知識的推理模型(CKRM)來獲取外部知識,以支持視覺常識推理(VCR)任務,其中計算機被期望回答具有挑戰性的視覺問題。我們的核心思想是:(1)通過多層次知識轉移網絡注入外部常識知識,實現細胞級、層級和注意力級的聯合信息轉移,從而彌合識別級和認知級圖像理解之間的鴻溝。它可以有效地從不同的角度捕捉知識,提前感知人類的常識。(2)為了進一步促進認知水平上的圖像理解,我們提出了一種基于知識的推理方法,該方法可以將轉移的知識與視覺內容相關聯,并組成推理線索來獲得最終答案。在具有挑戰性的視覺常識推理數據集VCR上進行的實驗驗證了我們提出的CKRM方法的有效性,該方法可以顯著提高推理性能并達到最先進的精度。
INTRODUCTION
通過對場景的一瞥,人們不僅可以知道場景中明顯的東西(例如物體、物體的位置、物體的狀態和動作),而且可以推斷出許多不明顯的事情(例如物體的功能、人的心理狀態和即將發生的事情)。目前,計算機算法在圖像分類[1]、[2]、目標檢測[3]-[5]、動作識別[6]、[7]、場景解析[8]、[9]等識別任務上取得了很大進展。然而,在處理涉及推理的任務,特別是常識性推理時,計算機還有很長的路要走。
推理作為人類的一種重要能力,在人工智能領域受到了廣泛關注。在文本理解領域,一個具有代表性的任務是自然語言推理[10](也稱為文本蘊涵識別),它需要計算機來判斷假設是否可以從前提中推斷出來。然而,這種語言蘊涵主要側重于對句子對之間的關系進行建模,而不是認知層面的推理。許多視覺和語言任務被認為是令人信服的“人工智能完備”任務[11],這些任務除了需要單一通道外,還需要多通道推理。最具代表性的任務之一是視覺問答(VQA)[12]、[13],它旨在自動推斷視覺問題的文本答案。由于深度神經網絡在計算機視覺和自然語言處理方面具有很強的學習能力,這方面的研究已經取得了很大的進展。計算機在回答與圖像內容直接相關的問題方面取得了長足的進步,如物體的類別、編號和顏色[14]-[16]。然而,當面對明確的信息不夠、需要更多常識的問題時,性能仍然遠遠不能令人滿意[17]。因此,如何有效地獲取和結合人類常識是更好地處理VQA任務的有效途徑。
作為推理的一個分支,常識推理在從自然語言處理到計算機視覺的許多人工智能領域都具有非常重要的意義。本文主要研究視覺常識推理(VCR),它模擬了人類對日常遇到的常見情況進行推理的能力。與傳統的VQA任務不同,VCR對認知水平的視覺理解提出了更高的要求。例如,我們不是把注意力集中在一個低層次的動作上:“一個男孩單膝跪向一個女孩”,而是希望聯系常識,推斷出:“男孩可能想向女孩求婚。”
圖1顯示了可視化常識推理的一個示例。對于給定的圖像,會問一個問題:“為什么每個人都低著頭坐著?”當人們面對這個問題時,我們可以首先識別物體(食物、盤子、餐桌等),然后進一步推斷這種情況很可能發生在吃東西的時候。此外,餐桌上還有未吃的食物,每個人都閉上了眼睛。他們中的大多數人還把手放在前面,低著頭。然后,我們講述了一個常識,即“信教的人通常在吃飯前手牽手,低下頭,閉上眼睛,祈禱感謝”。根據認知和常識的聯合信息,我們可以推斷出整個情況:人們在吃飯前祈禱。
這種視覺常識推理范式廣泛存在于人們的日常生活中。比如說看電影的時候,我們通常會對人物的意圖、故事的結局等做出很多推斷。更重要的是,在社會互動的過程中,我們還必須推斷人們的行為、目標和心理狀態。這對人類來說似乎不費吹灰之力,但對計算機來說卻極其困難,因為:(1)人類常識推理往往伴隨著經驗知識的積累,而計算機缺乏這種知識。(2)除了識別級的視覺理解之外,計算機還需要對圖像所引起的隱含上下文進行更深層次的推理
?針對上述問題,我們提出了基于常識的推理模型CKRM(Common-Sense Knowledge Based Reason Model)來獲取外部知識,并利用這些知識來支持可視化常識推理任務。主要貢獻可以概括為:
多層次的知識轉移網絡:
為了彌合識別級和認知級圖像理解之間的差距,我們通過遷移學習注入從現有數據中獲取的外部知識,實現了細胞級、層級和注意力級的聯合信息傳遞。它可以從不同的角度傳遞知識,并提供互補的提示,激活計算機提前知道一些常識。
基于知識的推理:
為了進一步向認知級圖像理解邁進,充分利用轉移的知識,我們提出了一種基于知識的推理方法。它由兩個主要組成部分組成:
多級知識傳遞網絡和基于知識的推理方法形成了端到端的體系結構。因此,它們可以共同優化,以相互促進遷移學習和推理,從而提高視覺常識推理任務的績效。為了驗證我們提出的方法的有效性,我們在VCR數據集上進行了大量的實驗,并取得了最新的結果。
CONCLUSION
本文提出了CKRM來獲取外部常識,并注入這些常識來支持可視化常識推理任務。我們首先提出了一個多層次的知識轉移網絡,從不同的角度獲取知識,即從源任務中獲取細胞級、層級和注意力級的信息。其次,我們進一步提出了一種基于知識的推理方法,該方法可以充分利用傳遞的知識來推導推理結果。作為一種端到端的體系結構,我們的方法可以共同優化,以相互促進遷移學習和推理。為了驗證該方法的有效性,我們在VCR上進行了實驗。在未來的工作中,我們將加入更多的知識類型來輔助視覺常識推理任務。將深度學習與傳統人工智能方法相結合是一個很有前途的方向,我們將探索如何更好地將經典的基于知識的方法與深度學習相結合。
提出的問題:
計算機不能像人類一樣推斷出隱藏在圖像中的東西,需要了解外部是怎樣運作的。
人類常識推斷往往伴隨著經驗知識的積累,而計算機缺乏這種知識,計算機還需要對圖像所引起的隱含上下文進行更深層次的推理。
解決方案:
通過遷移學習的思想,從多個層級進行知識嵌入的學習,利用事實常識推理的任務獲取常識知識,使用到視覺常識推理。
討論:
本文的主要思想就是使用一個遷移學習的方法,從一個源任務的訓練中獲取不同層級常識知識,然后用于視覺推理任務,并提出了一個推理模塊。
這種遷移學習的方式,將常識知識隱式提取與應用。兩種任務的學習方式,帶來大量的計算。
?
總結
以上是生活随笔為你收集整理的Multi-Level Knowledge Injecting for Visual Commonsense Reasoning的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 12306 出票的一种算法设计
- 下一篇: 两年狂开两万家店,合伙人落地方案分享