當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[论文翻译]Pedestrian Alignment Network for Large-scale Person Re-Identification

發布時間：2025/3/19 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了 [论文翻译]Pedestrian Alignment Network for Large-scale Person Re-Identification 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

傳送門： https://arxiv.org/pdf/1707.00408.pdf https://github.com/layumi/Pedestrian_Alignment
摘要 Person re-Identification 常被當做一個圖像檢索問題，其目的是 search? a query person in?a large image pool。在實際中，re-id 常采用自動檢測器來獲得cropped pedestrian images。然而，在此過程中有兩類detector errors：excessive background 和 part missing。這導致pedestrian alignment（行人對齊）質量的退化同時由于位置尺度的偏差也影響pedestrian matching 的精度。為了解決不對中（misalignment）問題，提出可以在Identification過程中進行對齊。我們介紹PAN（Pedestrian Alignment Network），它可以學習 discriminative embedding 和 pedestrian alignment 而沒有額外的標注。Key observation：當CNN區分不同的identities，學習到的features 在人身體上有很強的activations，而不是在背景上。本文利用這種注意機制的優點在a bounding box 中來調節位置和對齊行人。三個數據集上的實驗展示PAN的
1、Introduction 現在Re-ID 主要工作在于在大數據集上使用CNN學習 discriminative embeddings，結果要勝于手動特征。misalignment 是一個極其重要的因素。此問題的提出是由于detector的使用，在large-scale 數據集常使用現成的檢測器檢測行人，這樣節省了大部分的勞動而且更加貼近實際。但是，只要使用檢測器就不可避免的產生錯誤，這導致兩個常見的噪聲因素：excessive background 和 part missing.前者，背景也許會占據檢測到的圖像中的一大部分比例；后者，檢測到圖像也許只包含部分的身體。如圖1所示 Pedestrian alignment（行人對齊）和 re-id 是兩個相聯系的問題。當我們有行人bounding boxes 的 identity labels，我們能找到最優的仿射變換（the optimal affine transformation）用來更好的區分不同的identities。在仿射變換下，行人可以更好地被對齊。進一步，更好的對齊，更具有區別性的特征將會被學習，反過來，匹配的準確率將會提高。根據上述方面，本文將行人對齊（pedestrian alignment）包含在 re-ID 結構中，產生PAN（Pedestrian Alignment Network）。給定一個行人檢測到的圖像，此網絡可同時重定位 the person 并且把此人分類到預定義的identities中。因此，PAN利用了person alignment 和 re-id 互補的性質。 PAN的訓練過程由三部分組成：（1）一個網絡預測輸入圖像的identity；（2）an affine transportion 對輸入圖像進行重定位進行估計；（3）另一個網絡對重定位的圖像進行預測identity。對于（1）和（3），本文使用兩個CNN分支，分別稱為 the base branch 和 alignment branch，分別對原始圖像和對齊后的圖像預測 identity。內部，兩者共享 low-level features；在測試時，串聯 FC layer 的 features 來生成 the pedestrian descriptor。對于（2），使用 the base branch 的 high-level 卷積層的feature maps 來估計仿射參數。之后，在 the base branch 的 lower-level feature maps 上使用仿射變換。在這步，我們使用一個 differentiable localization network：STN（spatial transformer network）。使用STN，我們可以對包含很多背景的圖像進行crop 或者對missing parts 圖像的邊界進行 pad zeros。結果，我們減少了由于misdetection造成的大小位置變化的影響，并使得匹配更加準確。注意，本方法解決由于檢測錯誤引起的misalignment（不對齊）問題，然而，通常使用 patch matching 策略用于在 well-aligned 圖像找到 matched local structures。使用patch matching的方法假設 the matched local structures 位于the same horizontal stripe or square neighborhood（相同橫條或方形鄰域）。因此，這些算法對于一些小的空間變化具有魯棒性。然而，當發生misdetection，由于搜索范圍的限制，這種類型的方法也許不能找到 matched structures 并且mismatching 的風險也許會高。本文推測本方法與 part matching 會是一個好的互補。貢獻：（1）PAN（Pedestrian Alignment Network）——同時 align pedestrians 和學習pedestrian descriptors。僅使用 identity label 沒有其他額外的標注。（2）手動cropped圖像仍然不完美，在其上可以提高re-ID的性能。（3）在Market-1501、CUHK03 和 DukeMTMC-reID上的實驗取得了 state-of-the-art 的結果。

2、Related Work

本文同時解決兩類任務：Re-id 和 person alignment

2.1 Hand-crafted Systems for Re-ID

Re-ID 需要在不同的攝像頭中找到魯棒且有區分性的features。代表性方法（局部手工特征）：LBP、Gabor、LOMO 和多特征融合度量方法：KISSME 等等

2.2 Deeply-learned Models for Re-ID

現在很多方法使用通過劃分圖像或添加新的patch-matching層來空間限制的CNN（More recent approaches based on CNN apply spatial constraints by splitting images or adding new patch-matching layers）。但是它由于輸入圖像是成對導致計算低效受限制。此外，使用單獨CNN不帶明確的patch-matching有high discriminative ability。本文采用一個相似的CNN branches without explicit part-matching layers。注意，我們針對re-id尋找更魯棒的pedestrian embedding，因此我們可以使用之前的方法進一步提升性能

2.3 Objective Alignment

Face alignment（the rectification（矯正） of face misdetection）廣泛的研究。以目標位置任務驅動的 attention models：STN（spatial transformer network）。在Re-ID中：3D body models（未處理misdetection 問題）、PoseBox。但本方法與PoseBox相似卻不同。

3、Pedestrian Alignment Network

3.1 PAN總述

我們的目的是設計一個結構同時 align the images 和 identify the person。主要的挑戰：設計一個支持端到端訓練并從兩個兩連的任務中受益的模型。PAN由兩個卷積branches 和一個affine estimation branch 同時解決解決這些設計約束。
本文使用ResNet-50 model作為base model，每個Res_i（ i = 1,2,3,4,5）block 定義幾個帶有batch normalization 、ReLU 和 optionally max pooling的卷積層。在每個block后，對features進行down-sampled。

3.2 Base and Alignment Branches

兩個主要的卷積branches，稱為 the base branch 和 the alignment branch。這兩個分支是用于預測訓練圖像的identity的分類網絡。給定原始的檢測圖像，the base branch 不僅學習區分它的identity和其他的identities，而且編碼圖像的appearance并提供空間位置的信息，如下圖所示。The alignment branch 共享一個相似的卷積網絡，但是處理的是由the affine estimation branch產生的aligned features。在base分支，使用在ImageNet上預訓練的除去最后一個FC的ResNet-50。因為在Market-1501訓練集中有K = 751個identities，我們增加一個FC layer 把1*1*2048大小的CNN embedding映射成751unnormalized probabilities。alignment分支包含3個ResBlocks 和一個平均pooling layer，我們也增加一個FC layer 預測多分類的概率。這兩個分支不共享權值。使用W1和W2分別定義兩個卷積分支的參數。更正式地講，給定一個輸入圖像x，p(k|x)定義給定圖像x時屬于類別k∈ {1...K}的概率.具體地說，其中，zi為從CNN網絡中輸出的概率值。對于兩個分支，交叉熵損失函數（cross-entropy losses）為其中，xa定義為aligned input，其可以從原始的輸入求得xa = T(x)。給定label y，真實的分布（ground-truth distribution）q(y|x) = 1 和 q(k|x) = 0 對于所有 k ≠ y。若丟棄Eq.1 和 Eq.2中的0，則losses等于：
因此，在每次迭代中，我們要最小化總共的熵，就等價于最大化正確預測的概率。

3.3 Affine Estimation Branch

為了解決excessive background 和 part missing問題，關鍵是要預測行人的位置并進行相應的空間變換。當excessive background存在，使用cropping策略；當part missing時，我們需要在對應的圖像邊界進行pad zeros的操作。兩種策略都需要找到affine transformation（仿射變換）的參數。在本文，這個功能由affine estimation branch實現。注：下段bo主有修改，Res2和Res4 The affine estimation 分支的輸入為兩個張量（tensors）的激活值：從base分支的14*14*1024和56*56*256，分別稱為Res4 Feature Maps 和Res2 Feature Maps.Res2 Feature Maps包含原始圖像的淺層特征并反映了local pattern（局部模式）的信息。另一方面，Res4 Feature Maps 更接近分類層，它編碼用于協助Identification的關注的行人和語義線索。The affine estimation branch 包含一個雙線性采樣器和一個 Grid Network 的小網絡。Grid Network 包含一個ResBlock 和一個平均pooling層。我們把Res4 Feature Maps通過Grid Network回歸一組6維度的變換參數。學習到的變換參數θ用于產生 the image grid。映射過程如下：其中為在輸出feature map上的目標坐標，為輸入feature map（Res4 Feature Maps）的原始坐標。θ11, θ12, θ21 和 θ22 處理大小和旋轉變換，而θ13 and θ23處理補償。在本文，我們定義坐標：（-1，-1）指的是位于圖像左上的像素，而（1,1）指的是右下的像素。eg：若輸出圖像中（-1，-1）的像素值等價于在輸入features上的（-0.9，-0.7）。使用一個雙線性采樣器來彌補missing pixels，并分配0在超出原始圖像的位置上。因此，我們從原始feature map V 到 aligned 輸出 U中獲得一個injective function。更正式地講，函數如下: 其中，為在通道c的（m，n）位置的輸出feature map，為在通道c的（xs, ys）位置的輸入feature map。若(xt, yt) 接近于(m, n)，我們根據雙線性采樣在（xs, ys）位置添加像素。在本文，我們執行pedestrian alignment 在淺層的features上而不是原始圖像（減少運行時間和模型的參數）。這也解釋了我們在features上使用re-localization grid。雙線性采樣器接受grid，the features 來產生aligned 的輸出xa?？梢暬鐖D3所示?？梢钥吹酵ㄟ^ID的監督，我們在一定程度上可以重定位行人和correct misdetections。

3.4 Pedestrian Descriptor

給定微調的PAN模型和一個輸入圖像xi，the pedestrian descriptor是base分支和alignment分支的FC features 的加權融合。即，我們從原始圖像和aligned圖像中獲得pedestrian characteristic。4.3節的實驗證明：這兩個特征相互互補并提高re-id性能。本文采用一個簡單的late fusion strategy：這里f 1 i and f 2 i 分別是兩個類型圖像的FC層descriptors。我們在最后的平均池化后的tensor（張量）reshape成一維的向量作為每個分支的pedestrian descriptor。pedestrian descriptor表示如下：其中|?·?|操作表示一個L2-normalization步驟。在L2-normalization步驟后，串聯the aligned descriptor 和原始圖像的descriptor。若沒有明確指出，則α = 0.5. 3.5 Re-ranking for re-ID 本文我們首先通過按gallery images與the query之間Euclidean distance的排序獲得the rank list N(q, n) = [x1, x2, ...xn]?。距離計算如下：Di,j = (fi ? fj ) ^2，其中fi 和 fj分別是圖像i和j的L2-normalization features。之后再執行re-ranking來獲得更好的檢索結果。除了Euclidean distance，我們還考慮the Jaccard similarity。為了介紹此距離，我們先對每個圖像定義一個robust retrieval set。The k-reciprocal nearest neighbors?R(p,k)包括對于query為p的top-K檢索的rank：根據 [Zhong et al., 2017], 擴展集合 R to R*以包含更多的正例樣本（positive samples）。對于R*使用Jaccard similarity 來 re-ranking。當我們使用正確的匹配圖像來產生retrieval，我們應該取回一個和原始的query相似的rank list。Jaccard similarity 計算如下：其中| · |定義 the cardinality of the set，若R*(q, k) 和 R*(xi , k)共享更多的元素，xi就更像一個true match。這幫助我們區分一些hard negative samples 與 the correct matches。在測試時，這個相似距離加入Euclidean distance 來 re-rank the result。實驗展示其提升效果。

4? 實驗

數據集：Market-1501、CUHK03 和 DukeMTMC-reID。其中?Market-1501、CUHK03（detected）由DPM自動檢測得到且面臨misdetection問題。我們不知道對于手工標注的圖像進行slight alignment之后會不會帶來額外的好處。所以，我們在手工的bounding boxes上的CUHK03（labeled）和DukeMTMC-reID上進行評估。如圖4所示，這三個數據集有不同的特點（scene variances 和 detection bias）。

4.1 數據集

1、Market-1501——misalignment problem（DPM） 2、CUHK03——分為“detected” set（DPM）和 “labeled” set 3、DukeMTMC-reID——相似的穿著和可能被車和樹遮擋 4、Evaluation Metrics——rank-1,5,20 accuracy 和 mAP（mean average precision） rank-i accuracy 定義在top-i中正確匹配的圖像出現的概率，此指標針對query images。若在top-i中沒有出現正確匹配的圖像則rank-i = 0，否則為1。對于每個query，我們計算PR曲線（Precision-Recall curve）下的面積，即AP（average precision），然后計算均值，這個指標反映了精度和召回的性能。

4.2 實現細節

ConvNet.?(1)基于re-ID數據集微調 the base branch；(2)固定base分支，微調整個網絡。具體講，微調base分支時，在30epochs后，學習率從10^?3 降低到 10^?4。在40th epoch時停止訓練。訓練整個網絡同上。使用mini-batch SGD（stochastic gradient descent）with a Nesterov momentum fixed to 0.9 來更新權重。實現介于Matconvnet。輸入圖像統一resize為224*224，此外，使用簡單的data augmentation（eg: cropping、horizontal flipping） STN.?對于affine estimation 分支，此網絡也許會在早期的迭代中進入一個局部最小值。為了穩定的訓練，我們使用一個小的學習率是有用的。因此在affine分支的最后一個卷基層使用1 × 10^?5的學習率。此外，設置所有的θ = 0除了θ11, θ22 = 0.8。所以，the alignment 分支從注意Res2 Feature Maps的中心開始訓練。 4.3 Evaluation Evaluation of the ResNet baseline.?我們基于常規的基準[Zheng et al., 2016b], 特殊的細節如4.2中說明?；鶞式Y果如Table 1：我們使用batch size為16，dropout rate 為0.75。 Base branch. vs. alignment branch?為了調查alignment如何學習 discriminative pedestrian representations，我們分別用base分支和alignment分支評估Pedestrian descriptors?？赏茢嘁韵聝蓚€結論：（1）在后兩個數據集上，the alignment分支產生更好的結果，在Market-1501上產生一個相似的結果。推測：Market-1501包含更多的intensive detection errors，因此alignment的效果受限。（2）雖然后兩個數據集是手工標注的，使用alignment分支仍然提升了性能。這表明手工的標注對于學習一個好的descriptor也許不是足夠的好。alignment可以學習到更具有區分性的表達。 The complementary of the two branches. 串聯base分支和alignment分支的descriptors在三個數據集都使得性能提升。兩個分支是互補的，因此比一個分支包含更多有意義的信息。簡單的融合不產生額外的計算。 Parameter sensitivity. 評估re-ID準確率對參數α的敏感性。圖5為微調α從0到1的rank-1 accuracy 和 mAP。α對兩者的影響很小。為簡單起見，α = 0.5，對于特定數據集其有可能不是最好的選擇，但是如果預先不知道數據集的分布，這卻是一個簡單的選擇。 Comparison with the state-of-the-art methods.分為如table2\4\3所示。Market-1501——rank-1 accuracy = 85.78%, mAP = 76.56% after re-ranking。最好的結果且適用于以前的方法。結合GAN生成的圖像來訓練還可以提升。CUHK03...DukeMTMC-reID... 結果對比可視化：雖然三個數據集有差異（scene variance 和 detection bias）但是均有提升。 Visualization of the alignment.——網絡不能完美的解決alignment問題，但是或多或少減少大小和位置的方差，這對于學習representations是很關鍵的.

?

總結

以上是生活随笔為你收集整理的[论文翻译]Pedestrian Alignment Network for Large-scale Person Re-Identification的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： cuda7.5 和cuda8共存
下一篇： IntelliJ IDEA 安装问题解决