The Devil is in the Details: Self-Supervised Attention for Vehicle Re-Identification(翻译)
摘要 近年來,研究團體已經用基于注意力的模型來解決車輛再識別(re-id)問題,特別關注車輛中包含有識別信息的區域。這些re-id方法依賴于昂貴的關鍵點標簽、部件注釋和附加屬性,包括車輛型號、模型和顏色。考慮到大量具有不同級別注釋的車輛re-id數據集,嚴格監督的方法無法跨不同領域擴展。在本文中,我們提出了車輛重識別的自我監督注意(SAVER),這是一種有效學習車輛特定區分特征的新穎方法。通過廣泛的實驗,我們顯示SAVER在具有挑戰性的VeRi,VehicleID,Vehicle-1M和VERI-Wild數據集方面比最新技術有所改進。
關鍵詞:車輛再識別,自監督學習,變分自動編碼器,深度表示學習
1 簡介
隨著深度卷積神經網絡(DCNN)的發展,重識別(re-id),識別圖庫中特定對象ID的所有圖像的任務,近來已經發生了革命性的變化。這場革命在行人重識別領域最為顯著。 Lou等[28]最近開發了一種強大的基線方法,該方法可以使用經驗得出的“Bag of Tricks””來提高DCNN的判別能力,從而大大替代最新的行人重識別方法。這為研究界創造了一個獨特的機會來開發創新而簡單的方法來突破物體re-id的邊界。
具體來說,車輛re-id在智能交通應用中具有巨大的潛力。然而,車輛重新識別的任務是特別具有挑戰性的,因為不同身份的車輛可能是相同的制造、型號和顏色。此外,車輛的外觀在不同的視點有很大的不同。因此,近年來基于DCNN的re-id方法注重區分區域,以提高對方向和遮擋的魯棒性。為此,許多高性能的re-id方法依賴于對攜帶身份相關信息的局部區域的附加注釋,即除了感興趣對象的ID之外,關鍵點[41,16,17]和部分邊框盒[11,46]。這些額外的注釋幫助DCNNs聯合學習改進的全局和局部表示,顯著提高了性能[16,48],但代價是增加了復雜性。盡管提供了相當大的好處,但是收集昂貴的注釋(如關鍵點和部件位置)不能適應不斷增長的車輛re-id數據集。隨著制造商改變其車輛的設計,研究界承擔了標注新車輛模型的繁重任務。 為了無需昂貴的注釋即可重新設計車輛標識管道,我們建議SAVER自動突出顯示車輛圖像中的顯著區域。這些車輛特定的突出區域攜帶著關鍵的細節,這些細節對于區分兩輛視覺上相似的車輛至關重要。具體來說,我們設計了一個可變的自動編碼器(VAE)[19]來生成一個車輛圖像模板,該模板不受制造商標識、擋風玻璃貼紙、車輪圖案、格柵、保險杠和頭/尾燈設計的影響。通過獲得此粗略重構及其與原始圖像的像素差異,我們構造了殘差圖像。 此殘差包含重新識別所需的關鍵細節,并用作突出顯示圖像中區分區域的偽顯著性或偽注意圖。 圖1顯示了殘差圖如何突出顯示在兩個視覺相似的車輛之間重新識別所需的有價值的細粒度細節。
圖1所示 將車輛圖像分解為粗重構和殘差圖像。最左列(a,e):車輛圖像,第二列(b,f):粗化重建,第三列(c,g):殘差,最右列(d,h):歸一化殘差(便于可視化)。盡管有相同的粗糙重建,但兩輛車有不同的殘差突出關鍵區域,如擋風玻璃貼紙,保險杠設計。
本文的其余部分組織如下。在第二節中,我們簡要回顧了車輛識別方面的最新研究成果。在第3節中討論了所提議的方法中每個步驟的詳細架構。通過第4節中廣泛的實驗,我們展示了我們的方法在多種具有挑戰性的車輛re-id基準上的有效性[43,22,9,27,24],獲得了最先進的結果。最后,在第5節中,我們驗證我們的設計選擇。
2 相關工作
學習強大而有區別的車輛表示,以適應多個攝像機之間較大的視點變化,照明和遮擋對于重新識別至關重要。 由于大量文獻,我們簡要回顧了有關車輛重新識別的最新著作。借助深度學習的最新突破,我們可以通過從大規模車輛數據集中獲取圖像來輕松學習車輛的有區別的embeddings,例如VehicleID, VeRi, VERI-Wild, Vehicle-1M, PKU VD1&VD2 [43], CompCars [44], and CityFlow [40],來訓練DCNN,該DCNN稍后將用作re-id的特征提取器。 但是,對于相同品牌,型號和顏色的車輛,這種全局深度表示通常無法區分兩個外觀相似的車輛。針對這一問題,提出了一些輔助特征和策略來增強學習后的全局外觀表示。Cui等[4]融合了經過不同目標訓練的各種DCNN的融合功能。Suprem等[36]提出將re-id模型集成用于車輛標識和屬性以進行魯棒匹配。[41, 23, 46, 11, 16]提出通過融合全局特征和從突出的車輛部件和區域(如前燈、后視鏡)學習的輔助局部表示來學習增強表示的方法。此外,Peng等人[31]在學習輔助局部表示之前,利用一種圖像到圖像的平移模型來減少來自不同攝像機的車輛圖像的跨攝像機偏倚。Zhou等[50]通過視角感知注意力學習車輛表示。類似地,[48,32]利用車輛屬性分類引導的注意力,如顏色和車輛類型,學習基于屬性的輔助特征,增強全局表示。度量學習是使表示更具區分性的另一種流行方法。[47, 2, 3,21]提出了不同的三元組損失,在不同的視點和載體上仔細選擇難三元組,以學習改進的外觀魯棒表示。另外,為了增強訓練數據,提高訓練的魯棒性,[45]采用了圖形引擎,[42,39]使用生成對抗網絡(GANs)合成具有不同方向、外觀變化等屬性的車輛圖像。[25, 26, 34, 38, 14, 29, 15]提出了利用時空和多模態信息(如視覺特征、車牌、相機間車輛軌跡、相機位置和時間戳)提高匹配性能的方法。
與先前的方法相比,SAVER受益于自我監督的注意力生成,并且不承擔對任何額外注釋,屬性,時空和多模式信息的訪問。
3 車輛識別的自我監督注意力
我們提出的管道由兩個模塊組成,即自我監督殘差生成和深度特征提取。 圖2提出了建議的端到端管道。 自我監督的重建網絡負責創建車輛圖像的整體形狀和結構,同時模糊區分性細節。這使我們能夠突出顯示顯著區域并通過從輸入圖像中減去重構來消除背景干擾物。 接下來,我們將殘差和原始輸入圖像的凸組合(具有可訓練的參數α)饋送到ResNet-50 [12]模型,以生成魯棒的判別特征。為了訓練我們的深度特征提取模塊,我們使用了“Bag of Tricks”[28]中提出的技術,并將其用于車輛再識別,提供了一個強大的基線。
圖2 建議的SAVER管道。輸入圖像通過基于VAE的重建模塊來去除車輛特定的細節。 接下來,從輸入圖像中減去重建圖像,以形成包含車輛特定細節的殘差圖像。隨后,計算輸入和殘差的凸組合(具有可訓練的參數α),并將其通過re-id主干進行深度特征提取。 整個管道通過三元組損失和交叉熵損失進行訓練,并通過[28]中提出的批處理歸一化層(BNNeck)進行分隔。
3.1 自監督殘差生成
為了生成車輛的粗略形狀和結構,同時去除小規模的區分性信息,我們利用圖像分割[1]和生成[19]中的現有工作。具體地說,我們構建了一種新的VAE架構,通過最大pooling將空間大小的輸入圖像H × W向下采樣到空間大小的潛在空間中(H/16)×(W/16).之后,我們通過其均值和協方差將[19]中介紹的重新參數化技巧應用于潛在特征。 接下來,我們按照[30]的建議對潛在特征圖進行上采樣,以防止棋盤偽像。 此步驟生成大小為H×W的重建圖像。圖3說明了所提出的自監督重建網絡。
形式上,我們使用均方誤差(MSE)與Kullback-Leibler (KL)散度對重構模型進行預訓練,從而
圖3.后續殘差生成所需的自我監督圖像重建。輸入圖像經過卷積編碼器,并被映射到三維潛在變量。使用VAE重新參數化技巧,通過潛在變量的均值μ和協方差Σ繪制標準多元高斯樣本并進行縮放。 最后,用卷積解碼器對θ進行上采樣,以生成刪除了最細粒度細節的輸入圖像模板。
在訓練我們的端到端管道(如第4節所述)之前,我們在4.2.1節中介紹的大規模Vehicle Universe數據集上對這個模型進行了預訓練。這種預訓練使重建模型可以泛化到具有更大類型、模型、顏色、方向和圖像質量的車輛圖像上。因此,它捕獲域不變特性,這些特性稍后可以針對特定數據集進行微調。此外,預訓練提高了端到端管道訓練的收斂速度。值得注意的是,與傳統的VAE實現不同,我們使用三維的潛特征圖,即通道、高度和寬度維度,而不是只有通道維度的一維潛向量,以提高重建質量并保留更多的空間信息。此外,我們在計算Eq. 1時縮放LKL,以提高重構質量。我們在第5節中進一步探討了KL散度縮放因子的影響。自監督圖像重構網絡生成粗圖像模板Ig后,我們將其從原始輸入中減去,得到殘差圖像,即Ir = Io?Ig。
3.2深特征提取
由于車輛圖像駐留在一個高維的流形上,我們使用DCNN將圖像投影到一個低維的向量空間上,同時保留能有效地描述車輛獨特身份的特征。為此,我們使用單分支ResNet-50。為了訓練該模型,我們使用“ Bag of Tricks” [28]中提出的技術,這些技術可以幫助DCNN使用基于梯度的優化方法更有效地遍歷優化環境。 特別是,我們觀察到以下技術對車輛re-id基線模型的性能有重大貢獻:
訓練ResNet-50特征提取器模型對三元組損失和交叉熵分類損失進行優化,計算如下:
3.3端到端訓練
在對自監督殘差生成模塊進行預訓練后,我們共同對VAE和深特征提取器進行了訓練。我們使用可學習的參數α計算輸入圖像的凸組合及其各自的殘差
允許特征提取網絡加權每個輸入源的重要性。此外,端到端訓練幫助整個管道適應殘差生成,使其適合于re-id任務。綜上所述,端到端培訓的損失函數為:
在等式中,在圖6中,比例因子η根據經驗設置為100。
4 實驗
在本節中,我們首先展示了不同的數據集,在這些數據集上我們評估所提出的方法,并描述了車輛再識別系統一般如何評估。接下來,我們給出了所提出的自監督殘差生成、深度特征提取和端到端訓練步驟的實現細節。最后,我們報告了該方法的實驗結果。
4.2實現細節
本文討論了自監督殘差生成模塊和深度特征提取模塊的實現。通常,我們將所有圖像調整為(256,256)大小,并在將它們通過各自的網絡之前,將RGB通道上的平均值和標準偏差標準化為0.5。 此外,類似于[17],我們使用Detectron物體檢測器[7]對所有實驗中的所有圖像進行預處理,以將背景噪聲降至最低。
4.2.1自我監督的殘差生成
為了對自監督殘差生成模塊進行預訓練,我們構造了大型Vehicle Universe 數據集。我們特別考慮了來自不同分布的車輛,以提高我們模型的健壯性。我們利用了多個來源的數據,包括CompCars, StanfordCars, BoxCars116K, CityFlow, PKU VD1&VD2, Vehicle-1M, VehicleID, VeRi和VeRi-Wild。總的來說,Vehicle Universe在訓練,測試和驗證集中分別具有3706670、1103404和11146個圖像。
4.2.2深度特征提取
如3.2節所述,我們使用ResNet50進行特征提取。在我們所有的實驗中,學習率都是從
3.5e?5,在前10個epoch中隨3.1e?5的斜率線性增加。此后,它每隔30個epoch就衰變10倍。總的來說,通過Adam[18]優化器,端到端管道被訓練為150個epoch。此外,我們對凸組合使用初始值α= 0.5,對等式(4)中的三元組損失使用γ= 0.3。
4.3實驗評價
在本節中,我們給出了在4.1節討論的不同re-id基準集上的全局外觀模型(基線)和自監督注意增強的全局外觀模型(保護)的評估結果。
總結
以上是生活随笔為你收集整理的The Devil is in the Details: Self-Supervised Attention for Vehicle Re-Identification(翻译)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: windows 进程通信(使用DDE)
- 下一篇: 2013年IT TOP100