基于深度学习的多目标跟踪:从UMA Tracker出发谈谈SOT类MOT算法
?PaperWeekly 原創 ·?作者|黃飄
學校|華中科技大學碩士生
研究方向|多目標跟蹤
之前的文章中我們介紹了聯合檢測和跟蹤的多目標跟蹤框架,這類框架最大優勢在于可以利用優秀的檢測器平衡不同觀測輸入的質量。隨之又介紹了端到端的數據關聯類算法,這類算法的優勢在于可以利用 MOT 數據信息緩解人工提取特征和計算特征距離的弊端。這次我們要介紹的是基于單目標跟蹤(SOT)算法的 MOT 算法,這類算法的優缺點可以看我下面的介紹。
前情回顧(FAMNet、DMAN)
1.1 DMAN
論文標題:Online Multi-Object Tracking with Dual Matching Attention Network
論文來源:ECCV 2018
論文鏈接:https://arxiv.org/abs/1902.00749
代碼鏈接:https://github.com/jizhu1023/DMAN_MOT
DMAN 算法我不小心放在了數據關聯部分,這次我們簡單回顧一下(具體可見上次的文章):
我覺得 DMAN 算法的主要特點在于:
- 利用 Bi-LSTM 網絡實現了觀測框與目標軌跡歷史特征序列的端到端特征提取與比對; 
- 將基于改進版 ECO 的 SOT 模塊嵌入了網絡中,其主要利用的是響應圖信息,而響應圖中包含有目標的定位和分類信息; 
- 在數據關聯部分,我們可以注意到存在兩個識別部分,作者稱之為時空注意力,其中時間注意力就是第一點中的 verfication 任務,而空間注意力就對應圖中的identification任務 ,這里利用 SOT 輸出的響應圖作為注意力 mask,分別基于特征預測了目標身份信息。 
對于第一點,其實通過圖就可以明白,是通過對于歷史軌跡特征的質量進行自適應評估,并對特征自動融合。而對于第二點,關于 SOT 如何融入網絡,可以自行搜索 CFNet 等 SOT 網絡。而對于 ECO 算法,作者考慮到相似表觀目標中容易出現的多峰問題進行了改進:
即將處于目標附近的 hard samples 的懲罰權重變大:
1.2 FAMNet
論文標題:FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking
論文來源:ICCV 2019
論文鏈接:https://arxiv.org/abs/1904.04989
FAMNet 的結構我們也介紹了,這里也總結他的特征:
- 對于相鄰幀中的每個目標,利用 Siamese 網絡進行單目標跟蹤,由此隱式獲取到目標的表觀和位置信息,并基于響應圖進行特征比對; 
- 利用其提出的?R1TA Power Iteration Layer 降低連續多幀數據關聯的復雜度,并實現連續多幀的跟蹤訓練。 
STAM
論文標題:Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention Mechanism
論文來源:ICCV 2017
論文鏈接:https://arxiv.org/abs/1708.02843
STAM 算得上是一篇經典的多目標跟蹤算法,而且仔細閱讀之后還會發現一個亮點。其大致流程如下:
可以簡單看出這里面涵蓋有運動模型、目標特征提取、目標空間注意力,以及目標軌跡時間注意力等等模塊。
看完整個流程我驚了,尤其是 ROI Pooled Features 那一部分,比 Tracktor++ 提出得還早。通過將不同目標映射到特征圖上進行進一步特征提取和位置回歸,只不過作者當時并沒有從檢測入手,所以效果不突出。
其中運動模型其實就是一個在線更新的帶動量的勻速模型:
對于空間注意力,作者主要考慮了遮擋問題,通過訓練可視度響應圖,由此作為特征的 mask,突出前景目標特征:
對于時間注意力,則是軌跡層面的質量考慮:
其通過 triplet loss 訓練,既包含當前幀內的 neg 和 pos,還包含歷史幀的:
其中注意力計算如下:
對于具體的實驗細節,推薦大家去看作者的博士論文《基于深度學習的視頻多目標跟蹤算法研究》。
LSST
論文標題:Multi-Object Tracking with Multiple Cues and Switcher-Aware Classification
論文鏈接:https://arxiv.org/abs/1901.06129
LSST 中作者的出發點也是針對遮擋問題:
由于遮擋導致軌跡特征出現殘缺,甚至身份漂移。而作者的基礎跟蹤器則是 SiamRPN,因為快而準。。。
最左邊就是就 RPN 框架的 SiamRPN 框架,作者稱之為短期線索,這部分的質量是通過下面的公式計算的:
而對于長期線索,則自然是 ReID 所提取的表觀信息了。作者通過 ResNet18 設計了一個質量評估網絡,從而在目標軌跡中選擇 K 個最好質量的特征進行比對,當然每個特征間保留了間距:
這樣就得到了 K 組相似度,基于以上的短期和長期線索,作者利用?regularized Newton boosting decision tree?訓練了一個分類器,由此進行數據關聯。
KCF
論文標題:Online Multi-Object Tracking with Instance-Aware Tracker and Dynamic Model Refreshment
論文來源:WACV 2019
論文鏈接:https://arxiv.org/abs/1902.08231
此 KCF 并非單目標跟蹤中的核相關濾波算法,只是名字巧合罷了(論文里面沒說簡稱,但是 MOT 官網寫的 KCF)。我們可以看到這篇論文的流程十分復雜:
整體來看包含了:
- 綜合前/背景相應和SOT設計Instance-aware SOT跟蹤器: - 這兩個響應圖是直接基于嶺回歸算法疊加的: - 然后利用 KCF 的求解方式對聯合模型進行求解。 
- 基于檢測的校正,即對 SOT 結果和 Detection 信息利用 multicut 進行數據關聯,對于這類圖模型的構建可以參照我之前寫的博客 [7]。有了目標實際上就有了圖節點,那么 SOT 模型就是為邊權而服務的: - 其中 X 表示目標軌跡,O 表示的是預測的目標位置和觀測位置的集合,g 就是上面的聯合損失函數。即如果是相鄰幀之間的邊權,則用 SOT 中的聯合損失函數值。如果是上一幀中目標間的邊,則設置一個固定值。如果是當前幀節點間的邊,則直接使用 IOU 代替。 
- 模型更新 - 作者考慮到場景中可能存在的噪聲信息,導致 SOT 跟蹤結果不準,所以通過一個 CNN 網絡判斷當前 SOT 結果是否需要利用觀測信息進行更新,如果需要,則采用觀測框。 - 有意思的是作者采用了強化學習的策略在線訓練分類器。當觀測框比預測框更精準,但是沒有更新,那么觀測框的特征和預測框的特征會被當作 positive samples。當預測框比觀測框更精準,但是卻更新了,那么就視為 negtive samples,樣本與部分訓練集合并組成在線訓練集進行更新。特征是通過 ROI Pooling 進行提取的。 - 當然,如果當前更新的權重并不適用于接下來的跟蹤,權重還會恢復如初。 
- 目標的管理 - 為了保證目標從遮擋狀態恢復,作者做了一個強假設,即如果目標因遮擋而丟失,那么在出現的那一幀的數據關聯中也沒有與之匹配的目標。因此就可以跨幀匹配: - 利用時間距離、位置形狀、IOU、直方圖等信息作為特征,通過 SVM 進行分類判別。 
效果如下:
UMA
論文標題:A Unified Object Motion and Affinity Model for Online Multi-Object Tracking
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2003.11291
代碼鏈接:https://github.com/yinjunbo/UMA-MOT
這篇文章實際上跟前面我所介紹的 DMAN 算法很像,都是想利用 SOT 實現表觀特征和運動信息的獲取,進而實現在線的匹配關聯:
整體流程也很相似,那么 UMA Tracker 所基于的單目標跟蹤器是 SiamFC:
其中的特征提取都是采用的 AlexNet,從圖中可以看到:
- 對于正樣本對則采用 SOT 進行跟蹤比對,從而得到 SOT 部分的損失。 
- 對于每個目標樣本,還存在一個 embedding 模塊,提取了 256 維的特征信息,進而進行 iidentification 的分類任務; 
- 利用 SENet 的機制,實現 verification 任務。 
可以看到,這個整體就是基于 SENet 的變種,結合 256 個通道注意力而設計的,可以看到訓練得到的特征圖可視化效果還不錯:
其中第 2 行是跟蹤任務中的響應圖(網絡第一行分支),第 3 行是相似度度量任務中的響應圖(網絡第三行分支),所以 SOT 的任務跟偏向于定位和周圍環境信息的提取,而 Affinity 部分更偏向于前景目標的部位。
對于跟蹤流程,作者同樣考慮了遮擋情況:
這里作者直接通過 affinity 相似度和 IOU 的變化情況估計了遮擋情況。另外,為了保證表觀特征部分的信息更準確,作者利用 ROI Align 模塊,將特征圖上 SOT 預測出來的位置區域的目標特征單獨獲取出來作為表觀特征的輸入。
最后在數據關聯部分,作者同樣考慮了跟蹤軌跡的歷史特征,不過使用方式比較簡單:
通過均勻采樣,計算 K 組特征相似度,然后取平均作為最終的相似度。
總結
在 MOT 場景中,由于 Siamese 結構的存在,使得 SOT 任務本身就自帶了定位和識別等信息,所以利用 SOT 替代運動模型和表觀模型的算法相繼涌現。另外,SOT 本身對于觀測缺乏的問題有一定的魯棒性,可以通過區域搜索得到暫時的目標定位信息。
如果 SOT 本身的定位能力強,比如 SiamRPN 這種,甚至都相當于額外做了檢測,所以基于 SOT 的算法理論上是可以跟基于檢測的框架一較高下的。但問題在于,基于 SOT 的 MOT 目前都是針對每個目標進行一次跟蹤,效率方面問題太大了,希望有后續研究可以解決這一點。
參考文獻
[1] Zhu J, Yang H, Liu N, et al. Online multi-object tracking with dual matching attention networks[C]. in: Proceedings of the European Conference on Computer Vision (ECCV). 2018. 366-382.
[2] Chu P, Ling H. Famnet: Joint learning of feature, affinity and multi-dimensional assignment for online multiple object tracking[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 6172-6181.
[3] Chu Q, Ouyang W, Li H, et al. Online multi-object tracking using CNN-based single object tracker with spatial-temporal attention mechanism[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2017. 4836-4845.
[4] Feng W, Hu Z, Wu W, et al. Multi-object tracking with multiple cues and switcher-aware classification[J]. arXiv preprint arXiv:1901.06129, 2019.
[5] Chu P, Fan H, Tan C C, et al. Online multi-object tracking with instance-aware tracker and dynamic model refreshment[C]. in: 2019 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2019. 161-170.
[6] Yin J, Wang W, Meng Q, et al. A Unified Object Motion and Affinity Model for Online Multi-Object Tracking[J]. arXiv preprint arXiv:2003.11291, 2020.
[7] https://zhuanlan.zhihu.com/p/111397247
點擊以下標題查看更多往期內容:?
- 基于深度學習的多目標跟蹤算法:端到端的數據關聯 
- 多目標跟蹤領域近期值得讀的幾篇論文 
- 淺談多目標跟蹤中的相機運動 
- CVPR 2020 | 商湯TSD目標檢測算法解讀 
- CVPR 2020 | 港中文提出3D目標檢測新框架DSGN 
- NAS+目標檢測:AI設計的目標檢測模型長啥樣? 
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的基于深度学习的多目标跟踪:从UMA Tracker出发谈谈SOT类MOT算法的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: Gartner:到 2027 年,生成式
- 下一篇: 农业银行卡税务代扣是什么意思
