當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

attention retain_Attention-Aware Compositional Network

發布時間：2025/4/5 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了 attention retain_Attention-Aware Compositional Network 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Author: CFhM_R

? Mail: CFhM_R@outlook.com

寫在前面

本文介紹了一種Re-ID中利用part和pose信息來提升accuracy的方法，一個highlight是使用了關鍵點技術，也恰如作者在文中給出的 state-of-art 的評價，該方法巧妙地解決了傳統的RoI方式進行part采樣導致的干擾過多的問題，并且在網絡結構上也有一定的創新。

傳統方法的問題

文章開篇即闡述了傳統的Re-ID面臨的問題：復雜的背景、多樣的光照條件、不可控的相機設置參數、嚴重的遮擋關系以及多變的姿態，而觀測角度的不同和pose的差異會使傳統的分格或分區(patches and stripes)的part alignment方式產生較大的誤差，即有種不能”因地制宜“的感覺。

RoI Issues

文章也舉出了簡單的例子：如下圖中對同一個id的probe和gallery的leg-part的選取，可以發現(b)中的人物的腿部框選區要明顯更加符合”leg“的設定，和這也是局限于目前的patches / stripes / RoI 方法都是以矩形框作為采樣區域，同時帶來的還有(a)中大量北京因素對part info的干擾。

而本文中提出的方法則是使用Pose-guided Part Attention來代替傳統的RoI，可以很好的解決背景因素以及相鄰的肢體帶來的干擾，一個簡單的demo如下圖(c)彩色區域所示。

遮擋物帶來的問題

遮擋物對于行人檢索的影響有積極也有消極，所以要分開去看。如下圖中的例子，首先(d)中遮擋指的是手臂對軀干的遮擋，而軀干衣服上的logo可以作為這一對軌跡識別的feature的主要來源(by means)，因此此時手臂的遮擋就產生了negative的影響；而相反的例子則是(f)中的背包，它對軀干這個part造成了完全的遮擋，但是背包恰恰成為了這個id的一個凸顯的特征，因此這個背包帶來的是positive的影響。

文章對遮擋采取3種處理措施：對帶來消極影響的遮擋物采取的自然是弱化其在最終的feature map中的權重，而弱化的”度“又分兩種對于(f)中的手臂對軀干的遮擋，由于沒有完全遮擋，因此這部分僅僅是"弱化"(weaken)

對于(e)中，pose的改變導致軀干消失，變為背部，可以理解為一種完全的遮擋，文章采取的處理方式是”消除“(eliminate)

對產生積極影響的自然采取的是”保留“甚至提升比重(retain)

Attention-Aware Composition Network

綜上所述，為了解決行人檢索中part信息無法對應對齊(misalignment)以及遮擋物的問題(occlusions)，文章提出了AACN這樣一種網絡結構，如下圖。

可以看到AACN大體分兩個部分，上部為Pose-guided Part Attention 模塊，用于提取Part信息，下面則是AACN的主體，Attention-aware Feature Composition Model，AFC部分會先抽取整個圖片的feature，再結合PPA給出的attention信息和visibility score來調整part的權重，最終得出軌跡的feature map。

Pose-guided Part Attention

文章將人體的part分為兩個部分——rigid part 和 non-rigid part，即可形變和不可形變(不知道怎么翻譯了……)部分，non-rigid part包含四肢和脖子，rigid part則是頭肩、上半軀干以及下半軀干(腰到膝蓋)，詳見圖。

PPA參考了RPN提供的關鍵點分類，定義了人體的14個關鍵點，并通過關鍵點的連線以及關鍵點圍成的凸包來確定各個part，通過神經網絡在ground-truth周圍學習part的大致范圍，最終可以如上圖demo中給出的樣子較準確地描繪出part所在的區域，減少了大量的干擾信息。

由此PPA分出了3支，分別學習關鍵點信息、rigid part 和 non-rigid part 的信息，而PPA整體分兩個部分，第一部分是獨立的預測上述三部分的信息，給出結果。而第二部分則是對第一部分的三類結果進行融合修正，給出最終的結果。

關鍵點信息的ground truth由MPII的datasets定義的14個關鍵點標準給出，方法是在標準位置周圍的高斯分布(正態)生成ground truth范圍，并且計算MSE作為Loss。

non-rigid part的ground truth 為指定的兩關鍵的連線的寬度為的一段，attention map為01矩陣。

rigid part的ground truth為指定關鍵點點集的凸包，attention map同樣是01矩陣。

最終還要產生一個visibility score來輔助權衡各個part的權重，由各個部分的attention map的”強弱“來體現。

Attention-Aware Feature Composition

Global Context Network

AFC部分最開始是一個很base的網絡用來抽取全局的feature，文章采用的是GoogleNet，比較trick的改動的是在inception_5b/output層后加了一個128通道的?的卷積層，輸入圖片大小為?，可以看到比一般廣泛采用的?要大，可以推測這樣改動也是為了獲得更好的視域，來適應RPN的關鍵點(避免太過密集等等)。

Attention-Aware Feature Alignment

Global feature map和Part feature map的融合文章采用了一種看起來很”粗暴“的方法——G-feature和每個P-feature(128通道，經過max-歸一化的)做H-Product，之后進行globally average pooling1 ，將Part p的feature maps變成該part的一個特征向量，最后將各個part的向量連接起來就是最終的向量。

[1] 出自network in network，為了解決全連接問題，簡單說就是將feature map所有的特征值均一池化得到一個特征點，最后將這些點組成一個特征向量送進softmax計算。

Weighted Feature Composition

考慮到各個part所占的比重隨著pose、遮擋情況應當不同，文章將attention map和visibility score連接后通過一個全連接層(用1*1卷積層實現的)來生成一個權重向量，最終的feature 由，其中指卷積操作，為各個part的迭代變量，作者對這部分的講述并不詳細。

總結

以上是生活随笔為你收集整理的attention retain_Attention-Aware Compositional Network的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：三菱系统G90G10L12P9R0.1怎
下一篇： lisp点转为vla_一种将Region

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

attention retain_Attention-Aware Compositional Network

總結