CVPR 2022 部分行人重识别
轉載自CVPR 2022【行人/車輛重識別】相關論文和代碼(更新中...) - 知乎
Person Re-identification
1. Learning with Twin Noisy Labels for Visible-Infrared Person Re-Identification
2. Part-based Pseudo Label Refinement for Unsupervised Person Re-identification
3. Camera-Conditioned Stable Feature Generation for Isolated Camera Supervised Person Re-IDentification
4. Large-Scale Pre-training for Person Re-identification with Noisy Labels
5. Cloning Outfits from Real-World Images to 3D Characters for Generalizable Person Re-Identification
6. Clothes-Changing Person Re-identification with RGB Modality Only
7. Implicit Sample Extension for Unsupervised Person Re-Identification
8. NFormer: Robust Person Re-identification with Neighbor Transformer
9. Dual Cross-Attention Learning for Fine-Grained Visual Categorization and Object Re-Identification
10. Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification
11. Lifelong Unsupervised Domain Adaptive Person Re-identification with Coordinated Anti-forgetting and Adaptation
12. Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Person Search
1. Cascade Transformers for End-to-End Person Search
2. PSTR: End-to-End One-Step Person Search With Transformers
Person Re-identification
1. Learning with Twin Noisy Labels for Visible-Infrared Person Re-Identification
作者:M. Yang, Z. Huang, P. Hu, T. Li, J. Lv, X. Peng
背景:給定行人的可見光(或紅外)相機照片,跨模態行人重識別(VI-ReID)旨在從數據庫匹配出該行人的紅外(或可見光)照片。一個流行的VI-ReID范式是利用行人標注提高不同行人間判別性,同時構建跨模態正負樣本對并進行跨模態學習以縮減模態間鴻溝。由于紅外模態下的識別度較差,行人訓練數據中將不可避免地存在一些噪聲標注(Noisy Annotation,NA)。我們發現,這些NA將進一步導致所構建的跨模態正負樣本呈現噪聲關聯(Noisy Correspondence,NC [1-2])。換言之,跨可見光-紅外行人重標識任務將面臨孿生噪聲標簽(Twin Noisy Labels,TNL)挑戰。針對該挑戰,論文[3]提出了一種新的魯棒VI-ReID方法,名為雙重魯棒訓練器(DuAlly Robust Training,DART),其首先利用神經網絡的記憶效用來計算標注的置信度。基于置信度,DART將跨模態正負樣本分為不同子集并進一步校正其中的關聯。最后,DART利用所設計的雙重魯棒損失函數來實現對孿生噪聲標簽魯棒的跨模態行人重識別。需要說明的是,過去多年,針對分類任務中“噪聲標注”問題(Learning with Noisy Labels)已有許多卓有成效的解決方案。然而,過去多年的大多研究主要針對單模態的圖像分類任務,忽視了跨模態任務中潛在的錯誤關聯問題(Learning with Noisy Correspondence)[1-2],更沒有實際需求出發,對噪聲標注伴生噪聲關聯的孿生噪聲標簽現象的揭示和研究。
創新:一方面,本論文在國際上率先揭示了跨模態Re-ID學習中存在但一直被忽略的一個問題——孿生噪聲標簽學習。其與噪聲標簽存在以下顯著區別:簡要地,與傳統的噪聲標注不同,孿生噪聲標簽指的是訓練數據中同時存在單一樣本的標注錯誤和成對數據的關聯錯誤。另一方面,為解決孿生噪聲標簽問題,該文提出了一種新的魯棒學習方法,即雙重魯棒訓練(DART)。DART的一個主要創新點是,利用所估計的標注置信度將樣本對自適應地劃分為四個不同子集并校正其中的關聯,從而實現魯棒的跨模態行人重識別。DART在跨模態行人重識別的兩個數據集上進行了大量實驗,較為充分驗證了提出方法在對孿生噪聲標簽的魯棒性。
方法:具體地,針對標簽含噪的可見光輸入數據和紅外光輸入數據,通常將不同模態下同一行人(即相同標簽)的樣本作為正樣本對,不同行人(即不同標簽)的樣本作為負樣本對。然而,由于標簽含噪,所以正、負樣本對中可能分別存在假陽性和假陰性樣本對,即錯誤關聯。為處理含噪標簽及其所導致的錯誤關聯,得到魯棒的跨模態行人重識別模型,如圖1所示,利用互學習(Co-teaching)思想,本文分別訓練兩個相同結構但不同初始化的神經網絡,通過模型預熱、樣本置信度建模、樣本對劃分及關聯修正,和雙重魯棒訓練五個階段的建模和訓練得到兩個魯棒的神經網絡模型,融合兩個模型得到最終模型,并用于跨模態行人重識別。
圖1. 訓練流程和模型架構
1. 模型預熱階段:使用行人重識別中常用的交叉熵損失函數進行模型的初始訓練。
具體地,該步驟基于神經網絡的記憶效應,即神經網絡在擬合復雜的噪聲樣本之前傾向于優先擬合簡單的干凈數據樣本。利用該效應,在初始的第1個epoch利用上述loss進行模型訓練,可得到每個樣本的損失值。
2. 樣本置信度建模:利用一個二成分的高斯混合模型(GMM),對模型預熱后得到的所有訓練數據的樣本損失函數值進行擬合。
為優化GMM,采用了期望最大化算法(EM)。基于記憶效應。將均值較低(即損失較小)的成分作為干凈數據集,另一個作為噪聲數據集集,同時將每個樣本屬于較小成分的后驗概率作為第i個樣本的干凈置信度,計算如下:
3. 樣本對劃分及關聯修正:對于構成的跨模態樣本對,DART通過設置一閾值(實驗中固定為0.5),將它們劃分成如下干凈和噪聲集合:
使用如下操作修正樣本對的關聯:
進一步地,使用如下操作召回可能誤判的假陰性樣本對:
4. 雙重魯棒訓練:使用如下的損失函數進行訓練
其中,
是針對噪聲標注的損失函數,其主要利用所估計的樣本標注置信度進行懲罰:
是針對噪聲關聯的損失函數,其實一個新的自適應四元組損失:
其中
針對可能存在的樣本對組合,真陽性-真陰性(TP-TN),真陽性-假陰性(TP-FN),假陽性-真陰性(FP-TN),假陽性-假陰性(FP-FN),
將會分別自適應地(如圖2所示)變成以下形式:
TP-TN:
FP-FN:
TP-FN:
FP-TN:
重復步驟2-4直至網絡收斂,即可得到魯棒的跨模態行人重識別模型。
實驗:本文在VI-ReID的兩個數據集上進行了實驗,包括:SYSU-MM01和RegDB。為驗證DART的魯棒性和有效性,論文分別在噪聲率為0%,20%和50%下和包括ADP在內的目前SOTA方法進行對比。由于目前跨模態行人重識別方法無法標簽含噪數據,為保證公平性,對比方法中包含了ADP-C,其拋棄了含噪數據,只在干凈數據上訓練。以下展示部分實驗結果,更多結果和分析詳見原文。
總結:本文是彭璽教授CVPR2021工作[1]和NeurIPS2021 Oral工作[2]的深入延續。[1]通過探索了對比學習中的假陰性(False Negative)樣本對問題,在國際上以對比學習為背景,初步揭示了數據錯配和樣本對錯誤關聯現象,并構造了一個魯棒的損失函數,賦予對比學習對假陰性樣本的魯棒性。[2]以跨模態匹配任務為背景,基于對真實數據集(Conceptual Captions)的觀察,揭示了假陽性(False Positive)的錯誤配對現象,首次正式提出了噪聲關聯學習的概念和方向,并給出了解決方案。而本文則以跨模態行人重識別任務為應用,揭露了噪聲標注和其帶來的噪聲關聯,即孿生噪聲標簽問題(Twin Noisy Labels)對跨模態行人重標識任務中的影響。
代碼:GitHub - XLearning-SCU/2022-CVPR-DART: PyTorch implementation for Learning with Twin Noisy Labels for Visible-Infrared Person Re-Identification (CVPR 2022).
Reference:https://cs.scu.edu.cn/info/1246/16829.htm
2. Part-based Pseudo Label Refinement for Unsupervised Person Re-identification
作者:Yoonki Cho, Woo Jae Kim, Seunghoon Hong, Sung-Eui Yoon
摘要:無監督行人重識別(re-ID)旨在學習識別表征,從無標簽數據中檢索行人。最近的技術通過使用偽標簽來完成這個任務,但是這些標簽本身就有噪聲,并且降低了準確性。為了克服這一問題,提出了幾種偽標簽細化方法,但它們忽略了對行人重識別至關重要的細粒度局部上下文。本文提出了一種基于局部特征的偽標簽細化(PPLR)框架,該框架利用局部特征與局部特征之間的互補關系來降低標簽噪聲。具體來說,我們設計了一個交叉協議得分作為特征空間之間k近鄰的相似度,以利用可靠的互補關系。在交叉協議的基礎上,通過對局部特征的預測進行集成,提煉出全局特征的偽標簽,共同緩解了全局特征聚類的噪聲。根據給定標簽對每個零件的適用性,應用標簽平滑進一步細化零件特征的偽標簽。由于交叉協議得分提供了可靠的互補信息,我們的PPLR有效地減少了噪聲標簽的影響,并學習了具有豐富局部上下文的區別表示。在Market-1501和MSMT17上的大量實驗結果證明了該方法的有效性。
代碼:https://github.com/yoonkicho/PPLR
arXiv:https://arxiv.org/abs/2203.14675
3. Camera-Conditioned Stable Feature Generation for Isolated Camera Supervised Person Re-IDentification
作者:Chao Wu, Wenhang Ge, Ancong Wu, Xiaobin Chang
摘要:為了學習行人重識別(Re-ID)的相機視角不變的特征,每個人的跨相機圖像對發揮了重要作用。然而,在孤立相機監督(ISCS)環境下,例如在遙遠的場景中部署的監控系統,這種跨視角的訓練樣本可能是不可用的。為了處理這個具有挑戰性的問題,我們引入了一個新的管道,在特征空間中合成跨攝像頭的樣本用于模型訓練。具體來說,特征編碼器和生成器在一種新的方法下進行端到端的優化,即CameraConditioned Stable Feature Generation(CCSFG)。它的聯合學習程序引起了對生成模型訓練穩定性的關注。因此,我們提出了一種新的特征生成器--σ-Regularized Conditional Variational Autoencoder(σReg.CVAE),并對其穩健性進行了理論和實驗分析。在兩個ISCS行人Re-ID數據集上進行的廣泛實驗證明了我們的CCSFG比競爭對手的優勢。
arXiv:Camera-Conditioned Stable Feature Generation for Isolated Camera Supervised Person Re-IDentification
代碼:https://github.com/ftd-Wuchao/CCSFG
4. Large-Scale Pre-training for Person Re-identification with Noisy Labels
作者:Dengpan Fu, Dongdong Chen, Hao Yang, Jianmin Bao, Lu Yuan, Lei Zhang, Houqiang Li, Fang Wen, Dong Chen
摘要:本文旨在解決有噪聲標簽的行人重識別(Re-ID)的預訓練問題。為了設置預訓練任務,我們將一個簡單的在線多目標跟蹤系統應用于現有的無標簽Re-ID數據集 "LUPerson "的原始視頻,并建立稱為 "LUPerson-NL "的噪聲標簽變量。由于這些從追蹤器中自動得出的ID標簽不可避免地包含噪聲,我們開發了一個利用噪聲標簽的大規模預訓練框架(PNL),它由三個學習模塊組成:有監督的Re-ID學習、基于原型的對比學習和標簽引導的對比學習。原則上,這三個模塊的聯合學習不僅可以將相似的例子聚集到一個原型上,還可以根據原型的分配來糾正噪聲標簽。我們證明,直接從原始視頻中學習是一種有希望的預訓練的替代方法,它利用空間和時間的相關性作為弱監督。這個簡單的預訓練任務為在 "LUPerson-NL "上從頭開始學習SOTA的Re-ID表征提供了一種可擴展的方法,而不需要花哨的東西。例如,通過在相同的監督Re-ID方法MGN上的應用,我們的預訓練模型在CUHK03、DukeMTMC和MSMT17上的mAP比無監督的預訓練對應物分別提高了5.7%、2.2%、2.3%。在小規模或少量拍攝的情況下,性能的提高甚至更加明顯,這表明所學到的表征有更好的可遷移性。
arXiv:Large-Scale Pre-training for Person Re-identification with Noisy Labels
代碼:https://github.com/DengpanFu/LUPerson-NL
5. Cloning Outfits from Real-World Images to 3D Characters for Generalizable Person Re-Identification
作者:Yanan Wang, Xuezhi Liang, Shengcai Liao
摘要:最近,大規模的合成數據集被證明對泛化行人重識別非常有用。然而,現有數據集中的合成人物大多是卡通式的,并且是隨機的服裝搭配,這限制了它們的性能。為了解決這個問題,在這項工作中,我們提出了一種自動方法,直接將真實世界的人物圖像中的整個服裝克隆到虛擬的三維人物中,這樣,任何由此產生的虛擬人物都會顯得與真實世界的對應物非常相似。具體來說,基于UV紋理映射,我們設計了兩種克隆方法,即注冊衣服映射和同質布擴展。考慮到在人物圖像上檢測到的衣服關鍵點,并在具有清晰衣服結構的常規UV圖上進行標注,注冊制圖應用透視同源法將真實世界的衣服扭曲成UV圖上的對應物。對于不可見的衣服部分和不規則的UV圖,同質擴展將衣服上的同質區域分割成一個現實的布紋或單元,并擴展單元以填充UV圖。此外,還提出了一種相似性-多樣性擴展策略,通過對人物圖像進行聚類,對每個聚類的圖像進行采樣,并克隆服裝以生成三維角色。這樣一來,虛擬人物可以在視覺相似度上進行密集擴展以挑戰模型學習,在人群中進行多樣性擴展以豐富樣本分布。最后,通過在Unity3D場景中渲染克隆人物,創建了一個更真實的虛擬數據集,稱為ClonedPerson,有5,621個身份和887,766張圖像。實驗結果表明,在ClonedPerson上訓練的模型具有更好的泛化性能,優于在其他流行的真實世界和合成行人重識別數據集上訓練的模型。
arXiv:Cloning Outfits from Real-World Images to 3D Characters for Generalizable Person Re-Identification
代碼:https://github.com/Yanan-Wang-cs/ClonedPerson
6. Clothes-Changing Person Re-identification with RGB Modality Only
作者: Xinqian Gu, Hong Chang, Bingpeng Ma, Shutao Bai, Shiguang Shan, Xilin Chen
摘要:解決換衣行人重識別(re-id)的關鍵是提取與衣服無關的特征,如臉部、發型、體形和步態。目前大多數工作主要集中在從多模態信息(如剪影和草圖)中建模身體形狀,但沒有充分利用原始RGB圖像中與衣服無關的信息。在本文中,我們提出了一種基于衣服的對抗性損失(CAL),通過懲罰re-id模型對衣服的預測能力,從原始RGB圖像中挖掘與衣服無關的特征。大量的實驗表明,僅使用RGB圖像,CAL在廣泛使用的換衣人重新識別基準上優于所有先進的方法。此外,與圖像相比,視頻包含更豐富的外觀和額外的時間信息,這些信息可以用來建立適當的時空模式,以幫助換衣服的重新識別。由于沒有公開可用的換衣視頻重新識別數據集,我們貢獻了一個名為CCVID的新數據集,并表明在時空信息建模方面存在很大的改進空間。
arXiv:Clothes-Changing Person Re-identification with RGB Modality Only
代碼和數據集:https://github.com/guxinqian/Simple-CCReID
7. Implicit Sample Extension for Unsupervised Person Re-Identification
作者: Xinyu Zhang, Dongdong Li, Zhigang Wang, Jian Wang, Errui Ding, Javen Qinfeng Shi, Zhaoxiang Zhang, Jingdong Wang
摘要:大多數現有的無監督行人重識別(Re-ID)方法使用聚類來生成模型訓練的偽標簽。不幸的是,聚類有時會把不同的真實身份混在一起,或者把同一身份分成兩個或多個子聚類。在這些有噪音的聚類上進行訓練會大大影響Re-ID的準確性。由于每個身份的樣本有限,我們認為可能缺乏一些潛在的信息來很好地揭示準確的聚類。為了發現這些信息,我們提出了一個隱性樣本擴展( \OurWholeMethod)的方法,在集群邊界周圍生成我們所說的支持樣本。具體來說,我們通過漸進式線性插值(PLI)策略,從實際樣本和它們在嵌入空間的相鄰集群中生成支持樣本。PLI通過兩個關鍵因素來控制生成,即:1)從實際樣本到其K-nearest集群的方向;2)混合K-nearest集群的背景信息的程度。同時,給定支持樣本,ISE進一步使用標簽保全損失將它們拉向其對應的實際樣本,從而壓縮每個集群。因此,ISE減少了 "子和混合 "聚類誤差,從而提高了Re-ID的性能。大量的實驗表明,所提出的方法是有效的,并且在無監督的行人重識別方面達到了最先進的性能。
arXiv:Implicit Sample Extension for Unsupervised Person Re-Identification
代碼:GitHub - PaddlePaddle/PaddleClas: A treasure chest for visual recognition powered by PaddlePaddle
8. NFormer: Robust Person Re-identification with Neighbor Transformer
作者: Haochen Wang, Jiayi Shen, Yongtuo Liu, Yan Gao, Efstratios Gavves
摘要:行人重識別的目的是在不同的相機和場景中檢索高度不同的人,在這種情況下,強大的和有鑒別力的表征學習是至關重要的。大多數研究考慮從單個圖像中學習表征,忽略它們之間的任何潛在的相互作用。然而,由于身份內的高度變化,忽略這種互動通常會導致離群的特征。為了解決這個問題,我們提出了一個鄰域轉換網絡,即NFormer,它明確地模擬了所有輸入圖像之間的相互作用,從而抑制了離群的特征,并導致了整體上更加穩健的表征。由于模擬大量圖像之間的相互作用是一項具有大量干擾因素的艱巨任務,NFormer引入了兩個新的模塊,即地標代理注意力和互為鄰里的Softmax。具體來說,地標代理注意力通過對特征空間中少數地標的低秩因子化來有效地模擬圖像之間的關系圖。此外,互為鄰里的Softmax實現了對相關鄰里--而不是所有鄰里--的稀疏關注,這減輕了不相關表征的干擾并進一步減輕了計算負擔。在四個大規模數據集的實驗中,NFormer取得了新的先進水平。
arXiv:NFormer: Robust Person Re-identification with Neighbor Transformer
代碼:https://github.com/haochenheheda/NFormer
9. Dual Cross-Attention Learning for Fine-Grained Visual Categorization and Object Re-Identification
作者: Haowei Zhu, Wenjing Ke, Dong Li, Ji Liu, Lu Tian, Yi Shan
摘要:最近,自注意機制在各種NLP和CV任務中表現出令人印象深刻的性能,它可以幫助捕捉序列特征并得出全局信息。在這項工作中,我們探討了如何擴展自我注意力模塊,以更好地學習微妙的特征嵌入,從而識別細粒度的對象,例如不同的鳥類物種或人的身份。為此,我們提出了一種雙交叉注意力學習(DCAL)算法,與自我注意力學習相協調。首先,我們提出全局-局部交叉注意(GLCA),以加強全局圖像和局部高反應區域之間的相互作用,這可以幫助加強識別的空間上的判別線索。其次,我們提出成對交叉注意(PWCA)來建立圖像對之間的相互作用。PWCA可以通過將另一個圖像作為分心物并在推理過程中被移除來規范一個圖像的注意力學習。我們觀察到,DCAL可以減少誤導性的注意力,并分散注意力反應以發現更多的互補部分用于識別。我們對細粒度的視覺分類和目標重新識別進行了廣泛的評估。實驗表明,DCAL的表現與最先進的方法相當,并持續改善了多個自我注意基線,例如,在MSMT17上分別超過DeiT-Tiny和ViT-Base 2.8%和2.4% mAP。
arXiv:Dual Cross-Attention Learning for Fine-Grained Visual Categorization and Object Re-Identification
10. Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification
作者: Shengcai Liao, Ling Shao
摘要:最近的研究表明,明確的深度特征匹配以及大規模和多樣化的訓練數據都可以顯著提高行人重識別的泛化程度。然而,在大規模數據上學習深度匹配器的效率還沒有得到充分的研究。雖然用分類參數或類記憶學習是一種流行的方式,但它會產生大量的內存和計算成本。相比之下,在小批量內進行成對的深度匹配器學習將是一個更好的選擇。然而,最流行的隨機抽樣方法,即著名的PK采樣器,對于深度度量學習來說并不具有信息量和效率。盡管在線硬例挖掘在一定程度上提高了學習效率,但隨機抽樣后在mini-batch中的挖掘仍然是有限的。這激發了我們探索在數據采樣階段更早地使用硬例挖掘。為此,在本文中,我們提出了一種高效的小批量抽樣方法,稱為圖抽樣(GS),用于大規模深度度量學習。其基本思想是在每個時代的開始為所有的類建立一個最近的鄰居關系圖。然后,每個小批量由一個隨機選擇的類和其最近的相鄰類組成,以便為學習提供信息量大且具有挑戰性的例子。與一個適應性的競爭基線一起,我們大大改善了可推廣的人的再識別技術,當在RandPerson上訓練時,在MSMT17上的Rank-1上提高了25.1%。此外,所提出的方法也優于競爭基線,在MSMT17上訓練時,在CUHK03-NP上排名第一,提高了6.8%。同時,在RandPerson上訓練8,000個身份時,訓練時間明顯減少,從25.4小時減少到2小時。
arXiv:Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification
代碼:https://github.com/ShengcaiLiao/QAConv
11. Lifelong Unsupervised Domain Adaptive Person Re-identification with Coordinated Anti-forgetting and Adaptation
作者: Zhipeng Huang, Zhizheng Zhang, Cuiling Lan, Wenjun Zeng, Peng Chu, Quanzeng You, Jiang Wang, Zicheng Liu, Zheng-jun Zha
摘要:無監督領域適應性行人重識別(ReID)已被廣泛研究,以減輕領域差距的不利影響。這些工作假設目標領域的數據可以一次性獲取。然而,對于現實世界的流媒體數據,這阻礙了對不斷變化的數據統計的及時適應和對不斷增加的樣本的充分利用。在本文中,為了解決更多的實際情況,我們提出了一個新的任務,即終身無監督領域自適應(LUDA)行人重識別。這是一個具有挑戰性的任務,因為它要求模型不斷適應目標環境中的無標簽數據,同時為這樣一個細粒度的人物檢索任務減輕災難性的遺忘。我們為這個任務設計了一個有效的方案,稱為CLUDA-ReID,其中反遺忘與適應性和諧地協調。具體來說,我們提出了一個基于元的協調數據重放策略,以重放舊數據并以協調的優化方向來更新網絡,以適應和記憶。此外,我們提出了關系一致性學習,用于舊知識的提煉/繼承,以符合基于檢索的任務的目標。我們設置了兩個評估環境來模擬實際應用場景。廣泛的實驗證明了我們的CLUDA-ReID在靜止的目標流和動態的目標流場景中的有效性。
arXiv:https://arxiv.org/abs/2112.06632
代碼:
12. Feature Erasing and Diffusion Network for Occluded Person Re-Identification
作者:Zhikang Wang, Feng Zhu, Shixiang Tang, Rui Zhao, Lihuo He, Jiangning Song
摘要:遮擋行人重識別(ReID)旨在將被遮擋的人的圖像與不同攝像機視角下的整體圖像相匹配。目標行人(TP)通常會受到非行人遮擋(NPO)和非目標行人(NTP)的干擾。以前的方法主要集中在提高模型對NPO的魯棒性,而忽略了NTP的特征污染。在本文中,我們提出了一種新的特征消除和擴散網絡(FED)來同時處理NPO和NTP。具體來說,NPO特征被我們提出的遮擋消除模塊(OEM)所消除,該模塊在NPO增強策略的幫助下,在整體行人圖像上模擬NPO并生成精確的遮擋掩碼。隨后,我們將行人表征與其他記憶中的特征進行擴散,在特征空間中合成NTP特征,這是通過一個新穎的特征擴散模塊(FDM)通過可學習的交叉注意機制實現的。在原始設備制造商提供的閉塞評分的指導下,特征擴散過程主要在可見的身體部分進行,這保證了合成的NTP特征的質量。通過在我們提出的FED網絡中共同優化OEM和FDM,我們可以極大地提高模型對TP的感知能力,減輕NPO和NTP的影響。此外,提議的FDM只作為訓練的輔助模塊,在推理階段將被丟棄,因此引入的推理計算開銷很小。在遮擋和整體人臉識別基準上的實驗證明了FED比最先進的技術更有優勢,FED在閉塞人臉識別上達到了86.3%的Rank-1準確率,比其他方法至少高出了4.7%。
arXiv:https://arxiv.org/abs/2112.08740
代碼:
Person Search
1. Cascade Transformers for End-to-End Person Search
摘要:行人搜索的目標是從一組場景圖像中定位目標人物,由于大尺度變化、姿勢/視點變化和遮擋,這具有極大的挑戰性。在本文中,我們提出了用于端到端人物搜索的級聯閉塞注意變換器(COAT)。我們的三階段級聯設計側重于在第一階段檢測行人,而后面的階段同時并逐步完善行人的檢測和重新識別的表示。在每個階段,閉塞的注意力轉化器在聯合閾值上應用更緊密的交叉,迫使網絡學習從粗到細的姿勢/比例不變的特征。同時,我們計算每個檢測的閉塞注意力,以將一個人的標記與其他人或背景區分開來。通過這種方式,我們模擬了其他物體在標記水平上遮擋感興趣的人的效果。通過全面的實驗,我們在兩個基準數據集上實現了最先進的性能,從而證明了我們方法的優勢。
paper:https://arxiv.org/abs/2203.09642
code:https://github.com/Kitware/COAT
2. PSTR: End-to-End One-Step Person Search With Transformers
作者:Jiale Cao, Yanwei Pang, Rao Muhammad Anwer, Hisham Cholakkal, Jin Xie, Mubarak Shah, Fahad Shahbaz Khan
摘要:我們提出了一個新穎的基于Transformer的行人檢索框架,PSTR,它在一個單一的架構中聯合執行人檢測和重識別(re-id)。PSTR包括一個人行人檢索專用(PSS)模塊,它包含一個用于行人檢測的檢測編碼器-解碼器和一個用于行人重識別的判別式解碼器。鑒別性重識別解碼器利用一個多級監督方案和一個共享解碼器來進行鑒別性重識別特征學習,還包括一個部分關注塊來編碼一個人的不同部分之間的關系。我們進一步介紹了一個簡單的多尺度方案,以支持不同尺度的人物實例的重識別。PSTR聯合實現了對象級識別(檢測)和實例級匹配(重識別)的不同目標。據我們所知,我們是第一個提出一個端到端的基于Transformer的行人檢索框架。實驗是在兩個流行的基準上進行的。CUHK-SYSU和PRW。我們廣泛的消融實驗顯示了所提出的貢獻的優點。此外,提議的PSTR在兩個基準上都達到了最先進的性能。在具有挑戰性的PRW基準上,PSTR實現了56.5%的平均精度(mAP)得分。
代碼:https://github.com/JialeCao001/PSTR
arXiv:https://arxiv.org/abs/2204.03340
總結
以上是生活随笔為你收集整理的CVPR 2022 部分行人重识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于MatlabSimulink的汽车等
- 下一篇: python文字语音互转