attention retain_Attention-Aware Compositional Network
Author: CFhM_R
? Mail: CFhM_R@outlook.com
寫在前面
本文介紹了一種Re-ID中利用part和pose信息來提升accuracy的方法,一個highlight是使用了關鍵點技術,也恰如作者在文中給出的 state-of-art 的評價,該方法巧妙地解決了傳統的RoI方式進行part采樣導致的干擾過多的問題,并且在網絡結構上也有一定的創新。
傳統方法的問題
文章開篇即闡述了傳統的Re-ID面臨的問題:復雜的背景、多樣的光照條件、不可控的相機設置參數、嚴重的遮擋關系以及多變的姿態,而觀測角度的不同和pose的差異會使傳統的分格或分區(patches and stripes)的part alignment方式產生較大的誤差,即有種不能”因地制宜“的感覺。
RoI Issues
文章也舉出了簡單的例子:如下圖中對同一個id的probe和gallery的leg-part的選取,可以發現(b)中的人物的腿部框選區要明顯更加符合”leg“的設定,和這也是局限于目前的patches / stripes / RoI 方法都是以矩形框作為采樣區域,同時帶來的還有(a)中大量北京因素對part info的干擾。
而本文中提出的方法則是使用Pose-guided Part Attention來代替傳統的RoI,可以很好的解決背景因素以及相鄰的肢體帶來的干擾,一個簡單的demo如下圖(c)彩色區域所示。
遮擋物帶來的問題
遮擋物對于行人檢索的影響有積極也有消極,所以要分開去看。如下圖中的例子,首先(d)中遮擋指的是手臂對軀干的遮擋,而軀干衣服上的logo可以作為這一對軌跡識別的feature的主要來源(by means),因此此時手臂的遮擋就產生了negative的影響;而相反的例子則是(f)中的背包,它對軀干這個part造成了完全的遮擋,但是背包恰恰成為了這個id的一個凸顯的特征,因此這個背包帶來的是positive的影響。
文章對遮擋采取3種處理措施:對帶來消極影響的遮擋物采取的自然是弱化其在最終的feature map中的權重,而弱化的”度“又分兩種對于(f)中的手臂對軀干的遮擋,由于沒有完全遮擋,因此這部分僅僅是"弱化"(weaken)
對于(e)中,pose的改變導致軀干消失,變為背部,可以理解為一種完全的遮擋,文章采取的處理方式是”消除“(eliminate)
對產生積極影響的自然采取的是”保留“甚至提升比重(retain)
Attention-Aware Composition Network
綜上所述,為了解決行人檢索中part信息無法對應對齊(misalignment)以及遮擋物的問題(occlusions),文章提出了AACN這樣一種網絡結構,如下圖。
可以看到AACN大體分兩個部分,上部為Pose-guided Part Attention 模塊,用于提取Part信息,下面則是AACN的主體,Attention-aware Feature Composition Model,AFC部分會先抽取整個圖片的feature,再結合PPA給出的attention信息和visibility score來調整part的權重,最終得出軌跡的feature map。
Pose-guided Part Attention
文章將人體的part分為兩個部分——rigid part 和 non-rigid part,即可形變和不可形變(不知道怎么翻譯了……)部分,non-rigid part包含四肢和脖子,rigid part則是頭肩、上半軀干以及下半軀干(腰到膝蓋),詳見圖。
PPA參考了RPN提供的關鍵點分類,定義了人體的14個關鍵點,并通過關鍵點的連線以及關鍵點圍成的凸包來確定各個part,通過神經網絡在ground-truth周圍學習part的大致范圍,最終可以如上圖demo中給出的樣子較準確地描繪出part所在的區域,減少了大量的干擾信息。
由此PPA分出了3支,分別學習關鍵點信息、rigid part 和 non-rigid part 的信息,而PPA整體分兩個部分,第一部分是獨立的預測上述三部分的信息,給出結果。而第二部分則是對第一部分的三類結果進行融合修正,給出最終的結果。
關鍵點信息的ground truth由MPII的datasets定義的14個關鍵點標準給出,方法是在標準位置周圍的高斯分布(正態)生成ground truth范圍,并且計算MSE作為Loss。
non-rigid part的ground truth 為指定的兩關鍵的連線的寬度為的一段,attention map為01矩陣。
rigid part的ground truth為指定關鍵點點集的凸包,attention map同樣是01矩陣。
最終還要產生一個visibility score來輔助權衡各個part的權重,由各個部分的attention map的”強弱“來體現。
Attention-Aware Feature Composition
Global Context Network
AFC部分最開始是一個很base的網絡用來抽取全局的feature,文章采用的是GoogleNet,比較trick的改動的是在inception_5b/output層后加了一個128通道的?的卷積層,輸入圖片大小為?,可以看到比一般廣泛采用的?要大,可以推測這樣改動也是為了獲得更好的視域,來適應RPN的關鍵點(避免太過密集等等)。
Attention-Aware Feature Alignment
Global feature map和Part feature map的融合文章采用了一種看起來很”粗暴“的方法——G-feature和每個P-feature(128通道,經過max-歸一化的)做H-Product,之后進行globally average pooling1 ,將Part p的feature maps變成該part的一個特征向量,最后將各個part的向量連接起來就是最終的向量。
[1] 出自network in network,為了解決全連接問題,簡單說就是將feature map所有的特征值均一池化得到一個特征點,最后將這些點組成一個特征向量送進softmax計算。
Weighted Feature Composition
考慮到各個part所占的比重隨著pose、遮擋情況應當不同,文章將attention map和visibility score連接后通過一個全連接層(用1*1卷積層實現的)來生成一個權重向量,最終的feature 由 ,其中指卷積操作,為各個part的迭代變量,作者對這部分的講述并不詳細。
總結
以上是生活随笔為你收集整理的attention retain_Attention-Aware Compositional Network的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 三菱系统G90G10L12P9R0.1怎
- 下一篇: lisp点转为vla_一种将Region