Entity Relation Fusion for Real-Time One-Stage Referring Expression Comprehension 2021
**本文內容僅代表個人理解,如有錯誤,歡迎指正**
*****(原論文在方法部分寫得有點套娃的意思,實在是有點亂,內心os:心平氣和心平氣和)
1. Problems
- 這篇論文主要提出兩個問題:
1) 用一個向量來對Query進行表示,沒有對Query當中豐富的物體關系進行推理,即沒有有效地利用Query中的信息。
2) 采用特征金字塔提取圖像不同層級的特征,得到不同尺度的特征圖。分別在不同尺度的特征圖上對目標物體進行框選,忽略了處于不同尺度特征圖上的物體之間的相關性。
2. Points
1. 提出Entity Relation Fusion Network (ERFN)模型
2. 提出Language Guided Multi-Scale Fusion (LGMSF)模型,以語言為指導,將不同尺度特征圖上的物體表示融合為一張特征圖。
“Language Guided Multi-Scale Fusion(LGMSF) model for extracting different visual featureof objects with different scales on one feature map. ”
3. 提出Relation Guided Feature Fusion (RGFF)模型,在自注意力的基礎上,通過從Query中提取出實體信息來增強特征圖中目標的特征表示,通過從Query中提取物體之間的關系來指導物體特征融合。
“Relation Guided Feature Fusion(RGFF) model extracts entities in the language expression toenhance the referred entity feature in the visual object feature map, and further extracts relations to guide object feature fusion basedon the self-attention mechanism.”
* 基本上,這篇論文想實現的功能如圖一所示。
圖一
3. Main Components
- 如Figure 2所示,ERFN模型主要可以分為三個部分,其中特征提取部分與預測部分屬于常規操作,這里不多贅述,主要介紹LGMSF模型與RGFF模型。
1)特征提取部分:利用CNN backbone+FPN提取不同尺度的feature maps,利用RNN提取textual features。
2)LGMSF模型與RGFF模型:
3)預測部分:預測目標物體的位置。
3.1 Language Guided Multi-Scale Fusion (LGMSF)模型
- LGMSF model主要工作:在query的指導下,將圖片輸入CNN backbone+FPN得到的多個不同尺度的特征圖融合為一個特征圖,并且融合后的特征圖包含了query中包含的所有物體的特征。
- 具體步驟:
1) 首先是將不同尺度的特征圖采樣到一個特定的大小,并分別用兩個卷積層與MLP層對visual feature和language feature的通道數進行調整,得到與。
2) 計算每個特征圖上每個位置的visual feature與language feature之間的匹配程度(類似于計算相關性),得到。其中,是在k特征圖上在每個位置(i, j)上的特征。然后將過一層softmax函數得到語言指導下的注意力權重,再分別利用權重與相對應層的特征圖進行Element-wise Dot,可以得到語言指導下注意力后(原屬于不同層級的)特征圖,最后將這三張特征圖進行element-wise Addition,得到融合的特征圖。
3.2?Relation Guided Feature Fusion (RGFF)模型
- RGFF model主要工作:增強【query中涉及到的實體】的特征,并在【query中涉及的物體關系】指導下融合物體特征。
- 具體步驟:
1) 首先利用一個Word Classfier,對word features進行分類,提取出屬于Entity和Relation的feature。簡單來說就是,去預測query中每個詞的類別,然后得到屬于Entity和Relation的representation。("To predict the category of each word in the language expression to get the entity and relation representations in language expression.")
2) 利用entity representation與LGMSF得到的fused feature map做attention,得到注意力后的weighted visual features,再將這個注意力后的weighted visual features與fused feature map相加,得到enhanced entity features。(其實就是在特征圖里突出實體特征)
3) 對position embeddings、relation language features和enhanced entity features進行融合,得到fused features。進行自注意力操作,即Q、K都來自fused features,V來自enhanced entity features。自注意力操作后,得到self-attention fused features,將其與enhanced entity features相加作為最終relation guided fused features。
**最后grounding module的輸入一共有三個,第一個是language representation;第二個是relation guided fused features;第三個是position embedding。
4. Experimental Results
- 總體實驗效果差強人意,一階段模型的比較不夠充分。
- 官方解釋:"Features of objects with large scale can be suppressed by other objects with smaller scales from other layers." 所以在RefCOCO和RefCOCO+的test A中表現不好(因為testA中gt基本都是人,屬于大物體)?但在testB中表現良好,因為testB中大多gt都非人?(WHY?)
- 消融實驗
- 其中,L表示LGMSF,s表示self-attention,e表示entity enhancement feature,r表示relation feature,p表示position embedding。
?- 可視化結果?
- entity attention還能看出點什么東西,即確實突出了實體的特征;但是relation attention就完全迷惑了,不知道作者想體現什么,就跟RGFF里relation操作一樣,不明所以。
總結
以上是生活随笔為你收集整理的Entity Relation Fusion for Real-Time One-Stage Referring Expression Comprehension 2021的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 对象存储OSS基本概念讲解
- 下一篇: 【PMSM】二. 经典电流环、速度环设计