CVPR 2019 | 旷视研究院提出Re-ID新方法VPM,优化局部成像下行人再识别
全球計算機視覺三大頂級會議之一 CVPR 2019 將于當地時間 6 月 16-20 日在美國洛杉磯舉辦。屆時,曠視研究院將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。在此之前,曠視每周會介紹一篇被 CVPR 2019 接收的論文,本文是第 13 篇。圍繞行人再識別,并針對實際情況下行人經常被遮擋、僅能被部分成像這一困難,曠視研究院提出一種可見部件感知模型 VPM,其可通過自監督學習感知哪些部件可見或不可見,并在比較兩幅圖像時,聚焦在二者共同可見的部件上,顯著提高部分成像下的行人再識別準確率。
論文名稱:Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification
論文鏈接:https://arxiv.org/abs/1904.00537
導語
簡介
方法
VPM 結構
部件定位器
部件特征提取器
使用 VPM?
訓練 VPM
自監督
實驗
大規模數據集實驗
對比 SOTA
結論
參考文獻
往期解讀
?
導語
?
近年來,行人再識別研究取得迅速進展,2018 年下,在公開數據集 Market-1501 上,SOTA 方法的一選準確率已達到 95% 甚至更高水平;與此同時,CV 產業界也開始發力,推動其場景落地。但是在實際 re-ID 系統中,一些極具挑戰性的問題正等待克服,部分成像下的行人再識別(partial re-ID)即是其中之一。
?
在 partial re-ID 場景下,圖像可能只包含行人的部分可見信息,例如腿部被遮擋、只有上半身被成像。此時,未經針對性設計的行人再識別方法通常會遭遇性能“滑鐵盧”,無法再準確識別行人。
?
為此,曠視研究院聯合清華大學,提出一種可見性感知局部模型 VPM(Visibility-aware Part Model),通過自監督學習感知哪些部件可見/不可見(這種能力稱之為“可見部件感知能力”),并在比較兩幅圖像時,聚焦在共同可見的部件上,顯著提高部分成像下的行人再識別準確率。
?
對于 partial re-ID,VPM 具有兩方面的優勢:1)VPM 引入了部件特征,因此,與在傳統全身的行人再識別(holistic re-ID)問題中一樣,部件特征受益于細粒度信息,獲得更好的鑒別能力;2)由于具備可見部件感知能力,VPM 可估計出兩張圖像之間的共享區域,并在評估其相似性時聚焦在共享區域,這種做法符合人腦識別行人的思維習慣。
?
實驗結果證明,VPM 可顯著改善特征表達,在 re-ID、尤其是 partial re-ID 問題上取得了優異性能。
?
簡介
?
行人再識別需要在行人圖像庫中,檢索出特定身份行人的所有圖像。盡管近年來進展迅速,但在實際應用之前,仍然遇到了一系列嚴峻挑戰,其中之一是局部成像問題。在實際的 re-ID 系統中,一個行人可能被其他物體部分遮擋,或是正在走出攝像機視場,因此相機經常無法對行人進行全身成像,產生所謂的局部成像下的行人再識別問題——partial re-ID。
▲?圖1:局部再識別的兩項挑戰 (a)、(b) 以及曠視研究院提出的VPM方法 (c)? ??
?
直覺上來講,局部成像必然加大行人檢索難度;若仔細分析可以發現,相較于整體的行人再識別,局部成像又額外引入了兩項特有挑戰:
?
1. 局部成像加劇了查詢(query)圖像與庫(gallery)圖像之間的空間錯位。全局 re-ID 場景下,空間錯位主要源自行人姿態變化和觀察視角的變換;然而在局部成像條件下,即便兩個行人姿態相同,從同一個視角觀察,兩張圖像間依然存在嚴重的空間錯位(如圖1(a))。
2. 如果生硬地比較全身圖像和半身圖像,二者之間不共享的區域(如圖 1(b)中藍色區域)不僅不再提供有益的線索,反而引入了額外的干擾噪聲。這種額外噪聲在對比兩幅缺失程度不同的圖像時也會發生。
?
針對上述挑戰,曠視研究院提出可見部件感知模型 VPM。給定一幅行人圖像,VPM 能夠感知哪些區域缺失、哪些區域可見,通過聚焦于兩幅圖共享的區域,VPM 避免或是說緩解了上述與局部重識別相關的兩個特殊困難(如圖1(c))。
?
值得強調的是,VPM 不依賴于頭部、軀干等語義部件,而是依賴于預先定義的方形區域作為部件。這種做法被 PCB 推廣,其性能在全身行人在識別問題上已超過語義部件特征學習。本文把這種思路進一步延續:部件特征學習并不需要依賴人類習慣的語義部件,采用預先定義的方形部件高效且準確率可能更高。VPM 正是由于采用這種做法,不再需要代價高昂的語義部件學習,僅僅通過自動監督學習,即可獲得最關鍵的可見部件感知能力。
?
具體而言,曠視研究員首先在完整出現了人體的圖像上定義一系列區域。在訓練過程中,給定局部行人圖像,VPM 可以學習去定位所有在卷積特征圖上的預定義區域。之后,VPM 會感知可見的區域,并學習區域層級的特征。在測試過程中,給定兩張待比較的圖像,VPM 首先會計算其共享區域之間的本地距離,然后得出兩張圖像的總體距離。
?
方法
?
VPM 結構
? ? ? ?
▲?圖2:VPM結構圖示
?
VPM 是一個全卷積網絡,結構如圖 2 所示。本文在完整的行人圖像上預先定義一個固定的部件分割,將圖像分成 p 個部件(如圖 2 分成上、中、下三個部件,即 p=3)。對于每一幅行人圖像,VPM 輸出固定數量的部件特征,以及相應的部件可見性得分。
?
注意,即使當前輸入圖像有一些部件不可見(例如圖 2 中輸入圖像的下端部件實際不可見),VPM 仍然會為所有部件分別產生一個部件特征(包括那些不可見部件),但不可見部件的可見性得分將很低(趨于零)。這樣,VPM 就能夠知道哪些部件特征有效,哪些部件特征無效、不予采信。
?
為了實現上述功能,VPM 在卷積層輸出 Tensor T 上附加一個部件定位器和一個部件特征提取器,前者通過自監督學習,學習 Tensor T 上的部件位置(及可見性得分),接著,后者則為每個部件生成一個相應特征。
?
自監督學習的構建非常直觀,如圖 2 所示。本文在完整的行人圖像上預先定義一個固定的部件分割,將圖像分成 p 個部件,然后裁剪,把裁減后的圖像縮放到固定尺寸輸入給 VPM。由于裁減參數可自動獲取,從而自然知道哪些部件是可見的(如圖中的上、中兩個部件),哪些部件是不可見的(如圖中的下端部件)。具體訓練方法請參見“訓練VPM”。
部件定位器
?
部件定位器直接在 T 上預測各個部件 pixel-wise 的分布(也可以理解為一個圖像分割器,只不過分割的對象是預先定義好的部件),從而感知哪些區域可見。為此,部件定位器在 T 上使用一層 1 × 1 卷積及一個 Softmax 函數來構建一個 pixel-wise 的部件分類器,這個公式并不必要,但是為了后面引用時清晰明確,將其如下列出:
?
? ? ? ?
?? ? ?
這個部件分類器實際上將產生 p 個分布概率圖,每個分布概率圖對應一個預先定義好的部件。這個分布概率圖以 soft mask 的形式,直接指示出各個部件的位置。如果一個部件實際上不可見,那么對應于它的分布概率圖應該處處為零,即各個像素屬于這個部件的概率很小。
?
自然地,把各個概率圖加起來,即可得到相應的區域可見性得分 C。這個做法非常直觀:如果一個部件的分布概率圖處處很小,那么這個部件可見性則很低(即可能不可見)。
?
部件特征提取器
?
得到部件的概率分布圖后,就可以簡單地利用帶權池化提取部件特征。公式同樣很簡單:
?
? ? ? ??? ? ?
?
再次強調,通過上述公式,VPM 會給每個預先定義好的部件產生一個特征,即使某個部件實際不可見,但這沒關系,因為實際上已知道這個部件不可見,因此可不采信這個部件特征。具體如下節介紹。
使用 VPM
?
給定兩幅待比較的圖像、,VPM 將提取其部件特征,并分別預測所有部件的可見性分數,即、。為了度量兩幅圖像的相似性,首先計算各個部件之間的歐氏距離。在部件距離的基礎上,結合部件可見性得分,VPM 能夠推導兩幅圖像間的總體距離:
?
? ? ? ?
?? ? ?
上式的效果是:采信可見區域之間的距離,忽視不可見區域之間的距離。換而言之,可見部件的距離將主導總體距離;相反,如果一個部件在任何圖像中沒出現,那么其部件特征則被認為不可靠,無法對產生明顯影響。
?
這樣的調用過程非常高效:與 PCB 這種實用方法相比,VPM 僅僅增加了一層卷積運算用于預測部件可見性,計算距離則幾乎不增加時間(僅僅多了公式 4 所示的加權平均)。這使得 VPM 成為了為數不多的、能夠在 Market-1501 數據集上開展 partial re-ID 實驗的方法(也具有在大規模實際數據集上應用的潛力)。
訓練 VPM
?
VPM 的訓練包含 1)部件定位器的訓練和 2)部件特征提取器的訓練。兩者在 Tensor T 之前共享卷積層,并以多任務的方式被端到端訓練。部件定位器的訓練依靠自監督學習,而訓練部件特征提取器也需要自監督信號進行輔助。由實驗可知,自監督學習對 VPM 的性能至關重要。
?
自監督
?
自監督對于 VPM 十分關鍵,它監督 VPM 學習部件定位器,并要求 VPM 在學習部件特征時,放棄對不可靠的部件特征的監督,僅僅對可見區域施加監督。
?
部件定位器的訓練類似 Segmentation 訓練,這里僅強調一下:Label 信息由自監督產生。部件特征的學習雖然也采用了常用的分類+度量學習聯合訓練,但需要做一些重要調整,如圖 3 所示。
▲?圖3:VPM通過輔助性自監督學習區域特征? ?
?
由于 VPM 會為所有部件分別生成一個部件特征,這導致在學習特征時出現一個非常重要的問題:只有可見部件的特征被允許貢獻訓練損失。借助自監督信號,曠視研究員動態地為特征學習選擇可見區域。實驗結果表明,如果不加區分地對所有部件特征施加監督,re-ID 準確率將劇烈降低。
?
總結一下,自監督對訓練 VPM 的貢獻體現在 3 個方面:
?
1. 自監督生成 pixel-wise 的部件標簽用以訓練部件定位器(類似于 Segmentation);
2. 在利用分類損失函數(Softmax Loss)學習部件特征時,自監督使 VPM 僅僅關注可見部件;
3. 利用度量學習(Triplet)學習部件特征時,自監督使 VPM 專注于圖像的共有區域。
實驗
?
大規模數據集實驗
本文首先利用兩個大型全身 re-ID 數據集(Market-1501 和 DukeMTMC-reID)合成相應的部分成像 re-ID 數據集上的實驗評估 VPM 的有效性。
?
本文用了兩種基線作為對比:首先是一個學習全局特征的基線,它是利用分類損失函數和三元組損失函數聯合訓練的;第二個基線則是非常流行的全身部件特征模型 PCB。實驗結果如表 1 所示,可以看到 VPM 相對這兩種基線都有明顯提高。
? ? ? ?
?▲?表1:VPM、baseline與PCB之間的對比? ? ??
?
對比 SOTA
?
本文在兩個公開數據集 Partial-REID 和 Partial-iLIDS 把 VPM 與當前最佳方法做了對比。本文訓練了 3 個版本的 VPM:1)VPM(bottom),訓練時總是丟棄隨機比例的上半身,而下部區域可見;2)VPM(top),訓練時總是丟棄隨機比例的下半身,而圖像的上部區域總是可見;3)VPM(bilateral),訓練時,圖像的上部和下部區域都有可能被隨機比例丟棄。對比結果如表 2 所示。
▲?表2:VPM在Partial-REID和Partial-iLIDS上的評估結果
?
可以看到,訓練時的 crop 策略對性能是有影響的,VPM(bottom)結果比較差。這是因為首先大部分數據集以及在實際情況中,大部分圖像是下半身缺失,而上半身可見,VPM(bottom)在訓練時的策略相反,背離了現實;此外,一般來講,上半身能夠提供的可鑒別線索本身就更為豐富。
?
文中還進行了一些其它有意思的實驗,例如通過 Ablation Study 分析各個環節中自監督對 VPM 性能的影響,VPM 定位各個部件的可視化實驗。
結論
??
本文提出一個基于可見部件感知的行人特征學習方法——VPM,它可解決局部成像下的行人再識別問題。延續 PCB 的思路,VPM 沒有采用語義部件這種直觀做法,而是采用了均勻分割產生若干預定義的部件。通過自監督學習,VPM 能夠感知哪些部件可見、哪些部件缺失,并決定應該如何具體對比兩幅圖像。實驗結果表明,VPM 同時超越了全局特征學習基線和部件特征學習基線,并在公開的 partial re-ID 數據集上取得了國際領先水平。
?
參考文獻
?
L. He, J. Liang, H. Li, and Z. Sun. Deep spatial feature reconstruction for partial person re-identification: Alignment-free approach. CoRR, abs/1801.00881, 2018.
Y. Sun, L. Zheng, Y. Yang, Q. Tian, and S. Wang. Beyond part models: Person retrieval with refined part pooling. In ECCV, 2018.
L. Zhao, X. Li, J. Wang, and Y. Zhuang. Deeply-learned part-aligned representations for person re-identification. In ICCV, 2017.?
L. Zheng, L. Shen, L. Tian, S. Wang, J. Wang, and Q. Tian. Scalable person re-identification: A benchmark. In ICCV, 2015.
L. Zheng, Y. Yang, and A. G. Hauptmann. Person re-identification: Past, present and future. arXiv preprint arXiv:1610.02984, 2016.
W. Zheng, S. Gong, and T. Xiang. Person re-identification by probabilistic relative distance comparison. In The 24th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2011, Colorado Springs, CO, USA, 20-25 June 2011, 2011.
W. Zheng, X. Li, T. Xiang, S. Liao, J. Lai, and S. Gong. Partial person re-identification. In 2015 IEEE International Conference on Computer Vision, ICCV 2015, Santiago, Chile, December 7-13, 2015, 2015.
Z. Zheng, L. Zheng, and Y. Yang. Unlabeled samples generated by gan improve the person re-identification baseline in vitro. In ICCV, 2017.?
?
傳送門
?
歡迎各位同學關注曠視研究院視頻分析組(以及知乎專欄「曠視Video組」:https://zhuanlan.zhihu.com/r-video),簡歷可以投遞給負責人張弛(zhangchi@megvii.com)。
往期解讀:
CVPR 2019 | 曠視提出GIF2Video:首個深度學習GIF質量提升方法
CVPR 2019 | 曠視Oral論文提出GeoNet:基于測地距離的點云分析深度網絡
CVPR 2019 | 曠視提出超分辨率新方法Meta-SR:單一模型實現任意縮放因子
CVPR 2019 | 曠視實時語義分割技術DFANet:高清虛化無需雙攝
CVPR 2019 | 曠視研究院提出ML-GCN:基于圖卷積網絡的多標簽圖像識別模型
CVPR 2019 | 曠視研究院提出新型損失函數:改善邊界框模糊問題
CVPR 2019 | 曠視研究院提出Geo-CNN:建模3D點云的局部幾何結構
CVPR 2019 | 曠視研究院提出DeepLiDAR:通過曲面法線實現稠密深度預測
CVPR 2019 | 曠視研究院提出極輕量級年齡估計模型C3AE
CVPR 2019 | 曠視研究院提出用于全景分割的端到端閉環網絡OANet
CVPR 2019 | 曠視研究院提出TACNet,刷新時空動作檢測技術新高度
CVPR 2019 | 曠視研究院提出一種行人重識別監督之下的紋理生成網絡
點擊以下標題查看更多往期內容:?
CVPR 2019 | 無監督領域特定單圖像去模糊
論文盤點:CVPR 2019 - 文本檢測專題
近期值得讀的10篇GAN進展論文
小樣本學習(Few-shot Learning)綜述
萬字綜述之生成對抗網絡(GAN)
可逆ResNet:極致的暴力美學
CVPR 2019 | 基于池化技術的顯著性目標檢測
CVPR 2019 | 天秤座R-CNN:全面平衡目標檢測器
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結
以上是生活随笔為你收集整理的CVPR 2019 | 旷视研究院提出Re-ID新方法VPM,优化局部成像下行人再识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 招聘 | 平安人寿人工智能研发团队北京研
- 下一篇: 征文通知 | 第十八届中国计算语言学大会