mot数据集_谈谈ReID与MOT的关系
1.ReID與MOT的聯系
在MOT任務中,一般常用的特征模型有運動模型和表觀模型,其中表觀模型以行人重識別(ReID)類算法為主流。Re-ID任務主要解決的是跨攝像頭場景下行人的識別與檢索,其中存在給定了身份的圖片序列query,需要為不同攝像頭場景下的多組圖片gallery的行人身份進行判定。
隨著現在視覺任務需求的增加,車輛重識別任務也隨之誕生,包括與之對應的數據集。對于多目標跟蹤任務而言,由于目前只有行人和車輛的標注,所以基本只針對這兩類目標,不過最近出來一個833類的多目標跟蹤數據集TAO。以行人為例,多目標跟蹤相對于Re-ID多出了空間位置信息和時間聯系,其更多的是針對的同一攝像頭場景,還包括可能出現的相機運動。除此之外,對于Re-ID任務而言,其不需要考慮新身份的誕生和舊身份的消失,所有目標在query中一般都有對應的身份,而MOT任務中需要判定是否有可能不存在現有跟蹤軌跡中,是否需要與已經丟失跟蹤軌跡身份進行匹配等等,二者的異同總結如下:
其中,目標序列嚴格對稱的意思是指的待比對的兩個序列中,目標的id是否一致,如果不一致,則表明兩個序列各自可能存在新的目標。
借鑒這個問題里面的回答行人重識別(re-ID)與跟蹤(tracking)有什么區別
我們可以看到ReID是一個相對底層的任務,隨著檢測、時序信息的加入,就可以拓展至行人檢索和視頻ReID任務,再引入MOT則可以得到更為高層的任務MTMC(跨攝像頭多目標跟蹤)。實際上ReID只是個任務名,我們不要將其具象化成了某一類數據集或者某一類深度框架,我們甚至可以直接用傳統的圖像特征來應用于這個任務,關鍵要看這個任務的定義。
2.MOT/MTMC中的ReID框架設計
2.1 DeepCC
論文題目: Features for multi-target multi-camera tracking and re-identification作者:Ergys Ristani,Carlo Tomasi
備注信息:CVPR2018
論文鏈接:https://arxiv.org/pdf/1803.10859.pdf
代碼鏈接:https://github.com/SamvitJ/Duke-DeepCC
考慮到MOT和MTMC在表征模型方面的相似性,我們一并介紹。DeepCC是MTMC領域的一篇經典論文,我們可以先看看MTMC的基礎流程:
給定多個攝像頭的視頻流,由檢測器得到所有的觀測行人信息,通過提取每個人的特征對每個行人進行關聯匹配/聚類,最后通過后處理進行完善。這篇論文主要做的是ReID任務在MTMC任務上的適配,其關注點不在網絡的設計上,而是從訓練策略上著手。首先我們不妨思考下如果從MTMC/MOT任務中抽象出ReID任務,無非就是數據集的提取(即相同身份行人序列的抽取),網絡框架的設計(特征模型),還有訓練策略(損失函數的設計等),而且這里面抽取出來的行人序列在多樣性等方面可能都與ReID數據集有著差異。當然,不同視頻數據集之間的域自適應性問題是這幾個任務的共性問題。
由于我們這次主要關注的是表觀特征層面,所以對于其他的部分就暫時忽略。DeepCC設計了一種自適應的三元組損失函數:
我們知道的是,在batch-hard triplet loss,選取的是相同身份中距離最遠的樣本組為positive,不同身份中距離最近的為negative組。作者并沒有使用batch-hard的方式,通過自適應權重的設計我們可以看到,作者通過softmax的方式,使得相同身份樣本組中距離越大的權重越大,不同身份樣本組中距離越小的權重越大,相當于給了easy sampels更多的注意力。
為了防止數據量大了之后,很多batch不存在hard samples,作者創建了兩個樣本池:
根據給定的query,設計一組難例樣本池和一組隨機身份樣本池,在訓練的時候就可保證難例樣本對的正常獲取。
很可惜,由于國外對于個人隱私的保護,MTMC相關的數據集都被禁用了。
2.2 NOTA
論文題目:Aggregate Tracklet Appearance Features for Multi-Object Tracking作者:Long Chen , Haizhou Ai, Senior Member, IEEE,RuiChen , and Zijie Zhuang
備注信息:SPL2019
論文鏈接:https://www.sci-hub.shop/10.1109/lsp.2019.2940922
如果說DeepCC關注的是ReID任務在MTMC任務中的訓練策略設計,那NOTA就是針對ReID任務在MOT任務中的網絡框架設計。熟悉MOT任務的人應該知道,由于不同質量觀測信息和遮擋等問題的影響,我們直接根據給定行人框提取的行人特征并不一定可靠,例如下圖中,一個行人框中可能存在多個行人和大量背景信息。
因此這篇文章設計了一種時空注意力網絡,其中空間注意力模型叫做Position-Sensitive Mask,類似于檢測框架中的R-FCN算法,通過將空間分為3x3的網格,每個網格都預測前景/背景的概率,整體打分取平均得到這張圖屬于前景的概率。
緊接著,利用前景背景預測分支的mask對預測的注意力mask進行element-wise乘法,相當于一次過濾,從而得到空間注意力,再對表觀特征進行一次element-wise乘法。那么時間注意力來自哪里呢?
作者所針對的是測試階段的跟蹤序列,以前景背景mask作為時間注意力,然后對跟蹤序列每個patch的特征和前景背景mask進行加權融合得到軌跡特征,用于軌跡相似度計算:
而關于特征模型,這篇論文做了很多實驗,挺有價值的:
2.3 LAAM
論文題目:Locality Aware Appearance Metric for Multi-Target Multi-Camera Tracking作者:Yunzhong Hou, Liang Zheng, Zhongdao Wang, Shengjin Wang
備注信息:CVPR2019 WorkShop
論文鏈接:https://arxiv.org/abs/1911.12037
代碼鏈接:https://github.com/hou-yz/DeepCC-local
LAAM這篇關注的主要是ReID任務在MTMC任務中的數據集構建和訓練策略,這里有作者的詳細講解,我也相應地談談。我們知道無論是Tracktor++[4]還是DeepSort[5],二者都是單獨訓練的ReID特征模型,然后直接應用于MOT任務。LAAM一文就是提出了一個re-ID特征是否適合直接用于跟蹤任務的問題。
作者提到:
由于目標(行人/車輛)軌跡(trajectory)的連續性,在一般情況下,跟蹤系統只需要匹配一個局部鄰域中的目標,而不需要全局匹配。- 局部鄰域:對于單相機跟蹤,指代同相機的連續幀內的樣本;對于跨相機跟蹤,指代相鄰(距離較小)的幾個相機(如下圖小框中的一組相機)內的樣本。
- 全局:指代全部相機中的樣本。
跟蹤系統中的匹配一般被限制在局部鄰域內,而應用于相似度估計的重識別特征,則是從全局學到的,相似度估計的結果直接決定數據匹配的性能。在這個關鍵部分,出現了局部vs全局的失配,則會對系統整體性能有很大影響。
的確,在MTMC任務中,如果處理的是較短時間內的連續視頻幀,目標更傾向于出現在較小的局部空間內,并且特征差異性并沒有很大。
對此作者就提出對相機內和相機之間的樣本分開訓練,即同相機內的正負樣本來自于同一相機,不同相機內的正負樣本來自于不同相機。
雖然方法很簡單,但是也具有一定啟發意義:
2.4 STRN
論文題目:Spatial-temporal relation networks for multi-object tracking作者:Jiarui Xu, Yue Cao, Zheng Zhang, Han Hu
備注信息:ICCV2019
論文鏈接:http://openaccess.thecvf.com/content_ICCV_2019/papers/Xu_Spatial-Temporal_Relation_Networks_for_Multi-Object_Tracking_ICCV_2019_paper.pdf
在MOT任務中,除了表觀特征,還存在運動特征,除此之外,跟蹤序列與跟蹤序列/目標之間的相似度度量也是一個問題。STRN這篇論文所針對的就是運動表觀特征的結合、跟蹤序列特征的融合和目標與周圍目標間的交互。下圖中雖然t幀中中心目標被遮擋了,但是其周圍目標還在,所以依舊被跟蹤到了,這一點對于遮擋問題有一定緩解能力。
首先,作者利用周圍目標表觀特征對中心目標的特征進行更新:
其中周圍目標的注意力模型(ORM)權重是通過一組仿射矩陣求得周圍目標與中心目標的相似度和位置形狀相似度加權得到的。
而對于時間信息,同樣地,就是對于跟蹤序列中不同特征的注意力打分:
接下來,作者對于每條跟蹤序列和每個觀測行人之間的相似度度量進行了研究,首先是將跟蹤序列最新的一部分特征加權融合,再與待比對特征進行拼接,通過一個線性轉換得到表觀關聯性特征。
同樣地,計算出二者的余弦距離:
那么對于位置信息L和運動信息M則有:
我們可以看到的是,這里面大多數的相似性度量都是人為設定的,但是也都引入了線性變換矩陣W,這些都是通過一個小網絡得來的:
整體框架如下:
其效果如下:
3 總結
這次我主要介紹了ReID和MOT/MTMC等跟蹤人物的結合,可以看到ReID任務可以應用于跟蹤人物中的表觀特征模型部分。而應用時則需要注意數據集構建的差異、網絡框架的設計、訓練策略的問題、ReID中域自適應性問題、特征融合與選擇等問題。隨著這兩年聯合檢測和跟蹤的框架的興起,在這類集成框架中引入ReID分支的算法也相繼出現,包括JDE和FairMOT等。那么單獨使用ReID特征進行跟蹤的話效果會如何呢?各位不妨試試。
參考文獻
[1] Ristani E, Tomasi C. Features for multi-target multi-camera tracking and re-identification[C]. in: Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. 6036-6046.
[2] Chen L, Ai H, Chen R, et al. Aggregate Tracklet Appearance Features for Multi-Object Tracking[J]. IEEE Signal Processing Letters, 2019, 26(11): 1613-1617.
[3] Yunzhong H, Liang Z, Zhongdao W, et al. Locality Aware Appearance Metric for Multi-Target Multi-Camera Tracking[J]. arXiv preprint arXiv:1911.12037, 2019.
[4] Bergmann P, Meinhardt T, Leal-Taixe L. Tracking without bells and whistles[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 941-951.
[5] Wojke N, Bewley A, Paulus D. Simple online and realtime tracking with a deep association metric[C]. in: 2017 IEEE international conference on image processing (ICIP). IEEE, 2017. 3645-3649.
[6] Xu J, Cao Y, Zhang Z, et al. Spatial-temporal relation networks for multi-object tracking[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 3988-3998.
[7] Wang Z, Zheng L, Liu Y, et al. Towards Real-Time Multi-Object Tracking[J]. arXiv preprint arXiv:1909.12605, 2019.
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的mot数据集_谈谈ReID与MOT的关系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 余额宝2万元一天收益多少?
- 下一篇: Auto Lisp 标注子样式_CSS