【达摩院OpenVI】视频目标渐进式Transformer跟踪器ProContEXT
論文&代碼
- 論文鏈接:[arxiv]
- 代碼&應用:
- 開源代碼:[github code]
- 開源應用:[modelscope]
背景介紹
視頻目標跟蹤(Video Object Tracking, VOT)任務以一段視頻和第一幀中待跟蹤目標的位置信息(矩形框)作為輸入,在后續視頻幀中預測該跟蹤目標的精確位置。該任務對跟蹤目標的類別沒有限制,目的在于跟蹤感興趣的目標實例。該算法在學術界和工業界都是非常重要的一個研究課題,在自動駕駛、人機交互、視頻監控領域都有廣泛應用。
由于輸入視頻的多樣性,目標跟蹤算法需要適應諸如尺度變化、形狀變化、光照變化、遮擋等諸多挑戰。特別是在待跟蹤目標外觀變化劇烈、周圍存在相似物體干擾的情況下,跟蹤算法的精度往往急劇下降,甚至出現跟蹤失敗的情況。如圖1所示,對于一個輸入視頻,待跟蹤跟蹤物體(紅色虛線圓)會隨著時間而產生劇烈變化,相比于初始幀中的目標外觀,待跟蹤幀中的目標外觀會與中間幀的目標外觀更相似,因此中間幀的目標外觀形態是一個非常好的時域上下文信息。另外,對于跟蹤過程中目標物體周圍的空域上下文信息對算法鑒別相似物體和干擾背景有很大的幫助。
方法介紹
最近,一些基于Transformer網絡的視頻目標跟蹤算法,比如OSTrack[1], MixFormer[2], STARK[3]等,展現了較高的算法精度,基于之前的研究工作,本文提出了ProContEXT(Progressive Context Encoding Transformer Tracker),把時域上下文信息和空域上下文信息共同引入到Transformer網絡中。
ProContEXT的整體結構如圖2所示,該方法具有如下的特點:
實驗結果
本文基于TrackingNet和GOT-10k數據集進行算法實驗,完全遵守各數據集的使用準則。
SOTA對比
首先,與目前SOTA方法的對比如下表所示,ProContEXT在TrackingNet數據集和在GOT-10K數據集均超過對比的算法,達到SOTA精度。
消融實驗
本文對靜態模板數目進行了消融實驗,結果如下表所示,當使用2個靜態模板時,效果最佳。表中實驗數據說明當使用更多靜態模板數目時,會引入冗余信息,導致跟蹤效果下降。
另外,對動態模板的數目和尺度也進行了消融實驗,結果如下表所示,當加入動態模板時,跟蹤算法精度均有提升,并且使用兩個尺度的動態模板比只使用單個尺度算法精度有進一步提升。
最后,對于算法中使用到的令牌修剪模塊中的超參也進行了探索,實驗結果如下表所示,當參數為0.7時達到算法精度和效率的最加平衡。
模型傳送門
視頻跟蹤模型:
- 視頻單目標跟蹤ProContEXT:https://modelscope.cn/models/damo/cv_vitb_video-single-object-tracking_procontext/summary
- 視頻單目標跟蹤OSTrack:https://modelscope.cn/models/damo/cv_vitb_video-single-object-tracking_ostrack/summary
- 視頻多目標跟蹤FairMOT:https://modelscope.cn/models/damo/cv_yolov5_video-multi-object-tracking_fairmot/summary
檢測相關模型:
- 實時目標檢測模型YOLOX:https://modelscope.cn/models/damo/cv_cspnet_image-object-detection_yolox/summary
- 高精度目標檢測模型DINO:https://modelscope.cn/models/damo/cv_swinl_image-object-detection_dino/summary
- 實時目標檢測模型DAMO-YOLO:https://modelscope.cn/models/damo/cv_tinynas_object-detection_damoyolo/summary
- 垂直行業目標檢測模型:https://modelscope.cn/models?page=1&tasks=vision-detection-tracking%3Adomain-specific-object-detection&type=cv
關鍵點相關模型:
- 2D人體關鍵點檢測模型-HRNet: https://modelscope.cn/models/damo/cv_hrnetv2w32_body-2d-keypoints_image/summary
- 2D人臉關鍵點檢測模型-MobileNet:https://modelscope.cn/models/damo/cv_mobilenet_face-2d-keypoints_alignment/summary
- 2D手部關鍵點檢測模型-HRNet:https://modelscope.cn/models/damo/cv_hrnetw18_hand-pose-keypoints_coco-wholebody/summary
- 3D人體關鍵點檢測模型-HDFormer:https://modelscope.cn/models/damo/cv_hdformer_body-3d-keypoints_video/summary
- 3D人體關鍵點檢測模型-TPNet:https://modelscope.cn/models/damo/cv_canonical_body-3d-keypoints_video/summary
智能通行模型:
- https://modelscope.cn/models/damo/cv_ddsar_face-detection_iclr23-damofd/summary
- https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary
- https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary
- https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary
- https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary
- https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary
- https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary
- https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary
- https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary
- https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary
- https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary
- https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary
- https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary
更多模型詳見 ModelScope 主頁。
檢測套件開發工具
ModelScope社區視覺檢測開發套件AdaDet已發布。
參考文獻
- [1] Ye B, Chang H, Ma B, et al., “Joint feature learning and relation modeling for tracking: A one-stream framework”, in ECCV 2022, pp. 341-357.
- [2] Cui Y, Jiang C, Wang L, et al., “Mixformer: End-to-end tracking with iterative mixed attention”, in CVPR 2022, pp. 13608-13618.
- [3] Yan B, Peng H, Fu J, et al., “Learning spatio-temporal transformer for visual tracking”, in ICCV 2021, pp. 10448-10457.
總結
以上是生活随笔為你收集整理的【达摩院OpenVI】视频目标渐进式Transformer跟踪器ProContEXT的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python模拟登录注册知网
- 下一篇: python-matplotlib制作图