[论文翻译]Pedestrian Alignment Network for Large-scale Person Re-Identification
生活随笔
收集整理的這篇文章主要介紹了
[论文翻译]Pedestrian Alignment Network for Large-scale Person Re-Identification
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
傳送門:
https://arxiv.org/pdf/1707.00408.pdf
https://github.com/layumi/Pedestrian_Alignment
摘要 Person re-Identification 常被當做一個圖像檢索問題,其目的是 search? a query person in?a large image pool。在實際中,re-id 常采用自動檢測器來獲得cropped pedestrian images。然而,在此過程中有兩類detector errors:excessive background 和 part missing。這導致pedestrian alignment(行人對齊)質量的退化 同時 由于位置尺度的偏差也影響pedestrian matching 的精度。為了解決不對中(misalignment)問題,提出可以在Identification過程中進行對齊。我們介紹PAN(Pedestrian Alignment Network),它可以學習 discriminative embedding 和 pedestrian alignment 而沒有額外的標注。Key observation:當CNN區分不同的identities,學習到的features 在人身體上有很強的activations,而不是在背景上。本文利用這種注意機制的優點在a bounding box 中來調節位置和對齊行人。三個數據集上的實驗展示PAN的
1、Introduction 現在Re-ID 主要工作在于在大數據集上使用CNN學習 discriminative embeddings,結果要勝于手動特征。misalignment 是一個極其重要的因素。此問題的提出是由于detector的使用,在large-scale 數據集常使用現成的檢測器檢測行人,這樣節省了大部分的勞動而且更加貼近實際。但是,只要使用檢測器就不可避免的產生錯誤,這導致兩個常見的噪聲因素:excessive background 和 part missing.前者,背景也許會占據檢測到的圖像中的一大部分比例;后者,檢測到圖像也許只包含部分的身體。如圖1所示 Pedestrian alignment(行人對齊)和 re-id 是兩個相聯系的問題。當我們有行人bounding boxes 的 identity labels,我們能找到最優的仿射變換(the optimal affine transformation)用來更好的區分不同的identities。在仿射變換下,行人可以更好地被對齊。進一步,更好的對齊,更具有區別性的特征將會被學習,反過來,匹配的準確率將會提高。 根據上述方面,本文將 行人對齊(pedestrian alignment)包含在 re-ID 結構中,產生PAN(Pedestrian Alignment Network)。 給定一個行人檢測到的圖像,此網絡可同時重定位 the person 并且 把此人分類到預定義的identities中。因此,PAN利用了person alignment 和 re-id 互補的性質。 PAN的訓練過程由三部分組成:(1)一個網絡預測輸入圖像的identity;(2)an affine transportion 對輸入圖像進行重定位進行估計;(3)另一個網絡對重定位的圖像進行預測identity。對于(1)和(3),本文使用兩個CNN分支,分別稱為 the base branch 和 alignment branch,分別對原始圖像和對齊后的圖像預測 identity。內部,兩者共享 low-level features;在測試時,串聯 FC layer 的 features 來生成 the pedestrian descriptor。對于(2),使用 the base branch 的 high-level 卷積層的feature maps 來估計仿射參數。之后,在 the base branch 的 lower-level feature maps 上使用仿射變換。在這步,我們使用一個 differentiable localization network:STN(spatial transformer network)。使用STN,我們可以對包含很多背景的圖像進行crop 或者 對missing parts 圖像的邊界進行 pad zeros。結果,我們減少了由于misdetection造成的大小位置變化的影響,并使得匹配更加準確。 注意,本方法解決由于檢測錯誤引起的misalignment(不對齊)問題,然而,通常使用 patch matching 策略用于在 well-aligned 圖像找到 matched local structures。使用patch matching的方法假設 the matched local structures 位于the same horizontal stripe or square neighborhood(相同橫條或方形鄰域)。因此,這些算法對于一些小的空間變化具有魯棒性。然而,當發生misdetection,由于搜索范圍的限制,這種類型的方法也許不能找到 matched structures 并且mismatching 的風險也許會高。本文推測本方法與 part matching 會是一個好的互補。 貢獻: (1)PAN(Pedestrian Alignment Network)——同時 align pedestrians 和 學習pedestrian descriptors。僅使用 identity label 沒有其他額外的標注。 (2)手動cropped圖像仍然不完美,在其上可以提高re-ID的性能。 (3)在Market-1501、CUHK03 和 DukeMTMC-reID上的實驗取得了 state-of-the-art 的結果。
本文使用ResNet-50 model作為base model,每個Res_i( i = 1,2,3,4,5)block 定義幾個帶有batch normalization 、ReLU 和 optionally max pooling的卷積層。在每個block后,對features進行down-sampled。
因此,在每次迭代中,我們要最小化總共的熵,就等價于最大化正確預測的概率。
?
摘要 Person re-Identification 常被當做一個圖像檢索問題,其目的是 search? a query person in?a large image pool。在實際中,re-id 常采用自動檢測器來獲得cropped pedestrian images。然而,在此過程中有兩類detector errors:excessive background 和 part missing。這導致pedestrian alignment(行人對齊)質量的退化 同時 由于位置尺度的偏差也影響pedestrian matching 的精度。為了解決不對中(misalignment)問題,提出可以在Identification過程中進行對齊。我們介紹PAN(Pedestrian Alignment Network),它可以學習 discriminative embedding 和 pedestrian alignment 而沒有額外的標注。Key observation:當CNN區分不同的identities,學習到的features 在人身體上有很強的activations,而不是在背景上。本文利用這種注意機制的優點在a bounding box 中來調節位置和對齊行人。三個數據集上的實驗展示PAN的
1、Introduction 現在Re-ID 主要工作在于在大數據集上使用CNN學習 discriminative embeddings,結果要勝于手動特征。misalignment 是一個極其重要的因素。此問題的提出是由于detector的使用,在large-scale 數據集常使用現成的檢測器檢測行人,這樣節省了大部分的勞動而且更加貼近實際。但是,只要使用檢測器就不可避免的產生錯誤,這導致兩個常見的噪聲因素:excessive background 和 part missing.前者,背景也許會占據檢測到的圖像中的一大部分比例;后者,檢測到圖像也許只包含部分的身體。如圖1所示 Pedestrian alignment(行人對齊)和 re-id 是兩個相聯系的問題。當我們有行人bounding boxes 的 identity labels,我們能找到最優的仿射變換(the optimal affine transformation)用來更好的區分不同的identities。在仿射變換下,行人可以更好地被對齊。進一步,更好的對齊,更具有區別性的特征將會被學習,反過來,匹配的準確率將會提高。 根據上述方面,本文將 行人對齊(pedestrian alignment)包含在 re-ID 結構中,產生PAN(Pedestrian Alignment Network)。 給定一個行人檢測到的圖像,此網絡可同時重定位 the person 并且 把此人分類到預定義的identities中。因此,PAN利用了person alignment 和 re-id 互補的性質。 PAN的訓練過程由三部分組成:(1)一個網絡預測輸入圖像的identity;(2)an affine transportion 對輸入圖像進行重定位進行估計;(3)另一個網絡對重定位的圖像進行預測identity。對于(1)和(3),本文使用兩個CNN分支,分別稱為 the base branch 和 alignment branch,分別對原始圖像和對齊后的圖像預測 identity。內部,兩者共享 low-level features;在測試時,串聯 FC layer 的 features 來生成 the pedestrian descriptor。對于(2),使用 the base branch 的 high-level 卷積層的feature maps 來估計仿射參數。之后,在 the base branch 的 lower-level feature maps 上使用仿射變換。在這步,我們使用一個 differentiable localization network:STN(spatial transformer network)。使用STN,我們可以對包含很多背景的圖像進行crop 或者 對missing parts 圖像的邊界進行 pad zeros。結果,我們減少了由于misdetection造成的大小位置變化的影響,并使得匹配更加準確。 注意,本方法解決由于檢測錯誤引起的misalignment(不對齊)問題,然而,通常使用 patch matching 策略用于在 well-aligned 圖像找到 matched local structures。使用patch matching的方法假設 the matched local structures 位于the same horizontal stripe or square neighborhood(相同橫條或方形鄰域)。因此,這些算法對于一些小的空間變化具有魯棒性。然而,當發生misdetection,由于搜索范圍的限制,這種類型的方法也許不能找到 matched structures 并且mismatching 的風險也許會高。本文推測本方法與 part matching 會是一個好的互補。 貢獻: (1)PAN(Pedestrian Alignment Network)——同時 align pedestrians 和 學習pedestrian descriptors。僅使用 identity label 沒有其他額外的標注。 (2)手動cropped圖像仍然不完美,在其上可以提高re-ID的性能。 (3)在Market-1501、CUHK03 和 DukeMTMC-reID上的實驗取得了 state-of-the-art 的結果。
2、Related Work
本文同時解決兩類任務:Re-id 和 person alignment2.1 Hand-crafted Systems for Re-ID
Re-ID 需要在不同的攝像頭中找到魯棒且有區分性的features。 代表性方法(局部手工特征):LBP、Gabor、LOMO 和 多特征融合 度量方法:KISSME 等等2.2 Deeply-learned Models for Re-ID
現在很多方法使用通過劃分圖像或添加新的patch-matching層來空間限制的CNN(More recent approaches based on CNN apply spatial constraints by splitting images or adding new patch-matching layers)。但是它由于輸入圖像是成對導致計算低效受限制。 此外,使用單獨CNN不帶明確的patch-matching有high discriminative ability。本文采用一個相似的CNN branches without explicit part-matching layers。注意,我們針對re-id尋找更魯棒的pedestrian embedding,因此我們可以使用之前的方法進一步提升性能2.3 Objective Alignment
Face alignment(the rectification(矯正) of face misdetection)廣泛的研究。以目標位置任務驅動的 attention models:STN(spatial transformer network)。在Re-ID中:3D body models(未處理misdetection 問題)、PoseBox。但本方法與PoseBox相似卻不同。3、Pedestrian Alignment Network
3.1 PAN總述
我們的目的是設計一個結構同時 align the images 和 identify the person。主要的挑戰:設計一個支持端到端訓練并從兩個兩連的任務中受益的模型。PAN由兩個卷積branches 和一個affine estimation branch 同時解決解決這些設計約束。本文使用ResNet-50 model作為base model,每個Res_i( i = 1,2,3,4,5)block 定義幾個帶有batch normalization 、ReLU 和 optionally max pooling的卷積層。在每個block后,對features進行down-sampled。
3.2 Base and Alignment Branches
兩個主要的卷積branches,稱為 the base branch 和 the alignment branch。這兩個分支是用于預測訓練圖像的identity的分類網絡。給定原始的檢測圖像,the base branch 不僅學習區分它的identity和其他的identities,而且編碼圖像的appearance并提供空間位置的信息,如下圖所示。The alignment branch 共享一個相似的卷積網絡,但是處理的是由the affine estimation branch產生的aligned features。 在base分支,使用在ImageNet上預訓練的除去最后一個FC的ResNet-50。因為在Market-1501訓練集中有K = 751個identities,我們增加一個FC layer 把1*1*2048大小的CNN embedding映射成751unnormalized probabilities。alignment分支包含3個ResBlocks 和 一個平均pooling layer,我們也增加一個FC layer 預測多分類的概率。這兩個分支不共享權值。使用W1和W2分別定義兩個卷積分支的參數。 更正式地講,給定一個輸入圖像x,p(k|x)定義給定圖像x時屬于類別k∈ {1...K}的概率.具體地說, 其中,zi為從CNN網絡中輸出的概率值。對于兩個分支,交叉熵損失函數(cross-entropy losses)為 其中,xa定義為aligned input,其可以從原始的輸入求得xa = T(x)。給定label y,真實的分布(ground-truth distribution)q(y|x) = 1 和 q(k|x) = 0 對于所有 k ≠ y。若丟棄Eq.1 和 Eq.2中的0,則losses等于:因此,在每次迭代中,我們要最小化總共的熵,就等價于最大化正確預測的概率。
3.3 Affine Estimation Branch
為了解決excessive background 和 part missing問題,關鍵是要預測行人的位置并進行相應的空間變換。當excessive background存在,使用cropping策略;當part missing時,我們需要在對應的圖像邊界進行pad zeros的操作。兩種策略都需要找到affine transformation(仿射變換)的參數。在本文,這個功能由affine estimation branch實現。 注:下段bo主有修改,Res2和Res4 The affine estimation 分支的輸入為兩個張量(tensors)的激活值:從base分支的14*14*1024和56*56*256,分別稱為Res4 Feature Maps 和Res2 Feature Maps.Res2 Feature Maps包含原始圖像的淺層特征并反映了local pattern(局部模式)的信息。另一方面,Res4 Feature Maps 更接近分類層,它編碼用于協助Identification的關注的行人和語義線索。The affine estimation branch 包含一個雙線性采樣器和一個 Grid Network 的小網絡。Grid Network 包含一個ResBlock 和一個平均pooling層。我們把Res4 Feature Maps通過Grid Network回歸一組6維度的變換參數。學習到的變換參數θ用于產生 the image grid。映射過程如下: 其中 為在輸出feature map上的目標坐標, 為輸入feature map(Res4 Feature Maps)的原始坐標。θ11, θ12, θ21 和 θ22 處理大小和旋轉變換,而θ13 and θ23處理補償。在本文,我們定義坐標:(-1,-1)指的是位于圖像左上的像素,而(1,1)指的是右下的像素。eg:若 輸出圖像中(-1,-1)的像素值等價于在輸入features上的(-0.9,-0.7)。使用一個雙線性采樣器來彌補missing pixels,并分配0在超出原始圖像的位置上。因此,我們從原始feature map V 到 aligned 輸出 U中 獲得一個injective function。更正式地講,函數如下: 其中, 為在通道c的(m,n)位置的輸出feature map, 為在通道c的(xs, ys)位置的輸入feature map。若(xt, yt) 接近于(m, n),我們根據雙線性采樣在(xs, ys)位置添加像素。 在本文,我們執行pedestrian alignment 在淺層的features上而不是原始圖像(減少運行時間和模型的參數)。這也解釋了我們在features上使用re-localization grid。雙線性采樣器接受grid,the features 來產生aligned 的輸出xa??梢暬鐖D3所示??梢钥吹酵ㄟ^ID的監督,我們在一定程度上可以重定位行人和correct misdetections。3.4 Pedestrian Descriptor
給定微調的PAN模型和一個輸入圖像xi,the pedestrian descriptor是base分支和alignment分支的FC features 的加權融合。即,我們從原始圖像和aligned圖像中獲得pedestrian characteristic。4.3節的實驗證明:這兩個特征相互互補并提高re-id性能。 本文采用一個簡單的late fusion strategy: 這里f 1 i and f 2 i 分別是兩個類型圖像的FC層descriptors。我們在最后的平均池化后的tensor(張量)reshape成一維的向量作為每個分支的pedestrian descriptor。pedestrian descriptor表示如下: 其中|?·?|操作表示一個L2-normalization步驟。在L2-normalization步驟后,串聯the aligned descriptor 和 原始圖像的descriptor。若沒有明確指出,則α = 0.5. 3.5 Re-ranking for re-ID 本文我們首先通過按gallery images與the query之間Euclidean distance的排序獲得the rank list N(q, n) = [x1, x2, ...xn]?。距離計算如下:Di,j = (fi ? fj ) ^2,其中fi 和 fj分別是圖像i和j的L2-normalization features。之后再執行re-ranking來獲得更好的檢索結果。 除了Euclidean distance,我們還考慮the Jaccard similarity。為了介紹此距離,我們先對每個圖像定義一個robust retrieval set。The k-reciprocal nearest neighbors?R(p,k)包括對于query為p的top-K檢索的rank: 根據 [Zhong et al., 2017], 擴展集合 R to R*以包含更多的正例樣本(positive samples)。對于R*使用Jaccard similarity 來 re-ranking。當我們使用正確的匹配圖像來產生retrieval,我們應該取回一個和原始的query相似的rank list。Jaccard similarity 計算如下: 其中| · |定義 the cardinality of the set,若R*(q, k) 和 R*(xi , k)共享更多的元素,xi就更像一個true match。這幫助我們區分一些hard negative samples 與 the correct matches。在測試時,這個相似距離加入Euclidean distance 來 re-rank the result。實驗展示其提升效果。4? 實驗
數據集:Market-1501、CUHK03 和 DukeMTMC-reID。 其中?Market-1501、CUHK03(detected)由DPM自動檢測得到且面臨misdetection問題。我們不知道對于手工標注的圖像進行slight alignment之后會不會帶來額外的好處。所以,我們在手工的bounding boxes上的CUHK03(labeled)和DukeMTMC-reID上進行評估。如圖4所示,這三個數據集有不同的特點(scene variances 和 detection bias)。4.1 數據集
1、Market-1501——misalignment problem(DPM) 2、CUHK03——分為“detected” set(DPM) 和 “labeled” set 3、DukeMTMC-reID——相似的穿著和可能被車和樹遮擋 4、Evaluation Metrics——rank-1,5,20 accuracy 和 mAP(mean average precision) rank-i accuracy 定義在top-i中正確匹配的圖像出現的概率,此指標針對query images。若在top-i中沒有出現正確匹配的圖像則rank-i = 0,否則為1。對于每個query,我們計算PR曲線(Precision-Recall curve)下的面積,即AP(average precision),然后計算均值,這個指標反映了精度和召回的性能。4.2 實現細節
ConvNet.?(1)基于re-ID數據集微調 the base branch;(2)固定base分支,微調整個網絡。具體講,微調base分支時,在30epochs后,學習率從10^?3 降低到 10^?4。在40th epoch時停止訓練。訓練整個網絡同上。使用mini-batch SGD(stochastic gradient descent)with a Nesterov momentum fixed to 0.9 來更新權重。實現介于Matconvnet。輸入圖像統一resize為224*224,此外,使用簡單的data augmentation(eg: cropping、horizontal flipping) STN.?對于affine estimation 分支,此網絡也許會在早期的迭代中進入一個局部最小值。為了穩定的訓練,我們使用一個小的學習率是有用的。因此在affine分支的最后一個卷基層使用1 × 10^?5的學習率。此外,設置所有的θ = 0除了θ11, θ22 = 0.8。所以,the alignment 分支從注意Res2 Feature Maps的中心開始訓練。 4.3 Evaluation Evaluation of the ResNet baseline.?我們基于常規的基準[Zheng et al., 2016b], 特殊的細節如4.2中說明?;鶞式Y果如Table 1: 我們使用batch size為16,dropout rate 為0.75。 Base branch. vs. alignment branch?為了調查alignment如何學習 discriminative pedestrian representations,我們分別用base分支和alignment分支評估Pedestrian descriptors??赏茢嘁韵聝蓚€結論: (1)在后兩個數據集上,the alignment分支產生更好的結果,在Market-1501上產生一個相似的結果。推測:Market-1501包含更多的intensive detection errors,因此alignment的效果受限。 (2)雖然后兩個數據集是手工標注的,使用alignment分支仍然提升了性能。這表明手工的標注對于學習一個好的descriptor也許不是足夠的好。alignment可以學習到更具有區分性的表達。 The complementary of the two branches. 串聯base分支和alignment分支的descriptors在三個數據集都使得性能提升。兩個分支是互補的,因此比一個分支包含更多有意義的信息。簡單的融合不產生額外的計算。 Parameter sensitivity. 評估re-ID準確率對參數α的敏感性。圖5為微調α從0到1的rank-1 accuracy 和 mAP。α對兩者的影響很小。為簡單起見,α = 0.5,對于特定數據集其有可能不是最好的選擇,但是如果預先不知道數據集的分布,這卻是一個簡單的選擇。 Comparison with the state-of-the-art methods.分為如table2\4\3所示。Market-1501——rank-1 accuracy = 85.78%, mAP = 76.56% after re-ranking。最好的結果且適用于以前的方法。結合GAN生成的圖像來訓練還可以提升。CUHK03...DukeMTMC-reID... 結果對比可視化: 雖然三個數據集有差異(scene variance 和 detection bias)但是均有提升。 Visualization of the alignment.——網絡不能完美的解決alignment問題,但是或多或少減少大小和位置的方差,這對于學習representations是很關鍵的.?
總結
以上是生活随笔為你收集整理的[论文翻译]Pedestrian Alignment Network for Large-scale Person Re-Identification的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: cuda7.5 和cuda8共存
- 下一篇: IntelliJ IDEA 安装问题解决