论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络
論文筆記整理:劉克欣,天津大學碩士
鏈接:https://dl.acm.org/doi/abs/10.1145/3475731.3484957
動機
視覺常識推理(VCR)任務旨在促進認知水平相關推理的研究。現有的方法僅考慮了區域-詞的相似性來實現視覺和語言域之間的語義對齊,忽略了視覺概念和語言詞之間的隱式對應(如詞-場景、區域-短語和短語-場景)。文章提出了一種層次語義增強方向圖網絡,設計了一個模態交互單元(MIU)模塊,通過聚合層次視覺-語言關系來捕獲高階跨模態對齊。
亮點
文章的亮點主要包括:
1.提出了一種新穎的層次語義增強方向圖網絡(Hierarchical Semantic Enhanced Directional Graph Network, HSDGN)用于視覺常識推理任務,該網絡能夠捕獲不同模式間的高階相關性,并執行清晰的推理過程。;2.提出了一個HSF層,通過探索視覺概念和語言詞之間的層次語義對應,更準確地捕捉跨模態語義對齊;3.設計了一個DCGR模塊,該模塊可以在每個推理步驟中根據實體的重要性動態選擇有價值的實體,從而使推理過程更具可解釋性。
概念及模型
文章提出的HSDGN包括三個部分:
?圖像和文本嵌入模塊:使用自上而下的注意力提取圖像的區域級特征,是以哦那個預訓練的BERT提取文本的單詞級特征。?模態交互單元(Modality Interaction Unit, MIU)模塊:包括模態內上下文建模層和層次語義融合(Hierarchical Semantic Fusion, HSF)層。通過聚合層次視覺-語言關系來捕獲高階跨模態對齊。?方向線索感知圖推理(Direction Clue-aware Graph Reasoning , DCGR)模塊:利用激活信號幫助執行有向圖推理,然后利用異構圖注意聚合演化的圖表示以獲得最終結果。
模型整體框架如下:
?圖像和文本嵌入模塊?對于每張圖片,文章使用Faster-RCNN提取了N(N=36)個區域,表示為R={r_1,r_1,…,r_N},然后使用全連接層學習每個區域的特征表示:
其中W和B是參數。同時,文章為圖像區域編碼了位置特征:
其中(p_i ) ?是i區域的位置,W和B是參數,σ是激活函數。最終的視覺表示為:
對于文本,文章使用預先訓練的BERT來提取上下文增強的詞級嵌入,表示為E={e_1,e_1,…,e_B}。然后使用全連接層學習最終的文本表示:
?模態交互單元?模態交互單元(MIU)由模態內上下文建模層和分層語義融合層組成。文章堆疊MIU 來捕獲足夠的上下文注意流,用于通道內和通道間的交互。
模態內上下文建模. 使用自注意力機制來建模模態內的上下文:
層次語義融合. 層次語義融合(HSF)層旨在獲取詞-場景、區域-短語和短語-場景的層次語義,以實現更有區別的視覺和語言對齊。
首先計算每個圖像區域和每個詞之間的注意力分布:
在獲得每個區域-詞對之間的關系后,文章在親和矩陣上使用三種類型的卷積核并行捕獲層次語義關聯。具體來說,使用1×K的卷積核捕捉詞和場景(K個區域)之間的關系,使用K×1的卷積核捕捉短語(K個詞)和區域的關系,使用K×K的卷積核捕捉短語(K個詞)和場景(K個區域)的關系。之后,再采用ReLU函數進行激活,然后在每個通道中使用1×1的卷積核。計算公式如下:
然后對多層級的關系進行融合:
然后,利用層次語義重構文本值矩陣,公式如下:
其中 代表矩陣乘法。類似的,圖像到文本的注意力可以更新如下:
C1, C2, C3分別代表區域-短語,詞-區域和短語-場景的層次語義。然后,利用層次語義關系重構視覺值矩陣:
其中 代表矩陣乘法。
?方向線索感知圖推理?方向線索感知圖推理模塊基于上述MIU模塊輸出的具有區別性的視覺與一特征進行有向圖推理。主要包括三部分內容:(1)圖構建,即利用視覺概念和語言詞匯構建異構圖。(2)激活信號與推理。激活信號賦予模型在每個推理步驟中動態選擇有價值實體的能力。(3)異構圖注意,用于聚合演化的圖以獲得最終答案。
圖構建. 文章使用不包含文本上下文的區域表示構件圖。給定視覺嵌入V={v_1,v_1,…,v_N}和文本嵌入T={t_1,t_1,…,t_N},上下文區域表示為:
然后拼接視覺嵌入和上下文區域表示作為圖的節點:
其中,|| 表示拼接操作。
激活符號和推理. 推理模塊動態的選擇有價值的實體。具體的,利用實體的重要性來修正不同推理步驟的邊權值。
異構圖注意力. 文章設計了一種基于文本的注意力機制,以獲取圖嵌入作為增強的視覺特征。
理論分析
實驗
作者在公開數據集VCR上進行了實驗。首先是對比實驗,模型的評價指標為準確率。
文章所提的方法在VCR驗證數據集上獲得了54.4%的總體準確性,優于最先進的神經模塊模型。
此外,文章進行了消融實驗以驗證模型各個模塊的有效性。
同時,作者在VQAv2驗證數據集上將所提的KI-Net與最先進的場景圖生成模型GB-Net進行了比較。
實驗結果驗證了MIU模塊,DCGR模塊以及兩個模塊中的子部分的有效性。其中MIU模塊中的ICM對整個結果的預測最為重要。
同時,文章實驗了模型中參數的敏感性:
總結
文章提出了一種視覺常識推理模型HSDGN。具體地說,將模態交互單元和方向線索感知圖推理整合到一個統一的框架中。根據區域和詞之間豐富的相關性,設計了分層語義融合層,實高階視覺語言對齊。此外,文章引入了一個方向線索感知的圖推理模塊,使最終答案的推理過程具有可解釋性。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: BAT Java面试笔试33题:Java
- 下一篇: 领域应用 | 金融资管领域知识图谱的构建