【论文推荐】张笑钦团队 | 综述:基于深度学习的视觉跟踪方法进展
導讀
IJAC特約稿件
人眼可以比較輕松地在一段時間內持續定位特定目標,而在計算機視覺領域,這一任務便是高級計算機任務之一——"目標跟蹤"。但對計算機而言,在不同場景下實現目標跟蹤任務是一件較為困難的事情,尤其在跟蹤目標發生劇烈形變、被其他目標遮擋或出現相似物體干擾等復雜情況下。因此,在計算機視覺領域,目標跟蹤(特指單目標跟蹤)是指:給出目標在跟蹤視頻第一幀中的初始狀態(如位置,尺寸),自動估計目標物體在后續幀中的狀態和移動軌跡。近年來,深度學習方法開始在目標跟蹤領域嶄露頭角,并逐漸在性能上超越傳統方法。溫州大學人工智能與計算機學院院長張笑欽教授團隊綜述了基于深度學習的視覺跟蹤方法進展,相關成果已發表于IJAC,全文免費下載!
?圖片來自Springer?(點擊上圖下載全文)
全文導讀
什么是"單目標跟蹤"?如下圖所示,三張圖片分別是同一視頻的第1、第40和第80幀。在第1幀給出一個跑步者的邊框之后,后續的第40幀、第80幀,邊框依然準確對同一個跑步者進行框定。以上展示的其實就是目標跟蹤(visual object tracking)的過程。也就是說,目標跟蹤(特指單目標跟蹤)是指:給出目標在跟蹤視頻第一幀中的初始狀態(如位置,尺寸),自動估計目標物體在后續幀中的狀態。
?圖片來自網絡
單目標跟蹤(Single object tracking)是計算機視覺和視頻處理領域一項基本且關鍵的任務,其在導航、機器人、交通控制和增強現實等行業中應用十分廣泛。因此,不少研究者致力于解決單目標跟蹤任務衍生的各種挑戰,試圖開發出有效的跟蹤算法。然而,由于難以平衡跟蹤算法的準確性和高效性,這項任務仍然十分具有挑戰性。此外,現有算法在復雜場景下(如背景雜波、運動模糊、視點變化、光照變化等)的魯棒性也是一個亟需研究的熱點問題。
單目標跟蹤旨在從視頻的所有幀中定位一個特定目標。為此,跟蹤算法通常是從目標外觀模板(template of target appearance)和搜索框(search frame)中提取一定特征,然后對這些特征進行反復匹配來定位目標。為了保留有效的目標模板,在跟蹤過程中,目標出現的初始幀所呈現的外觀將作為初始值(initialization),并不斷更新。而匹配框架(matching framework)則是在整個跟蹤過程中根據初始值等有效信息進行響應。
因此,整個過程所提取的特征應具有代表性,保證可準確區分目標和背景。傳統的跟蹤算法由于提取出來的特征不能全面反映目標的特征,往往性能欠佳。據此,傳統跟蹤算法可從兩方面改進:一是尋找能夠更好反映目標外觀(characteristics of the object)的特征(features),二是提出有效的匹配框架。例如,基于模板的(template-based)、基于子空間的(subspace-based)以及稀疏表示(sparse-representation)的方法會使用某些元素來表示目標,而不是直接使用裁剪的像素(cropped pixels)或圖像塊(image patches)來表示。諸如boosting、支持向量機(support vector machine)、隨機森林(random forest)、多示例學習(multiple instance learning)以及度量學習(metric learning)等框架也被用于提升跟蹤算法的匹配能力。
隨著深度學習機制(deep learning mechanisms)的發展,許多研究者著手開展計算機視覺、語音識別、自然語言處理等任務。在眾多突破的推動下,深度學習機制也被引入單目標跟蹤任務中。同時,一些跟蹤數據集,如OTB-2013及VOT-2013相繼提出,用以測試與評價跟蹤算法的性能。
一些論文也回顧了基于深度學習的跟蹤算法的進展和挑戰。然而,數據統計結果顯示(見表1),這些論文都沒有綜述近期發表在頂級會議和期刊上的跟蹤方法。此外,現有的研究大多集中于根據深度跟蹤器的方法對其進行分類,或對其性能進行評估。可以注意到,現有的綜述沒有詳細研究當前深度跟蹤器的具體組成部分(details specific components)。
?圖片來自文章
為促進基于深度學習的單目標跟蹤算法的發展,本文總結了現有的基于深度學習的跟蹤算法的一般組成部分(general components),并介紹了深度神經網絡的常用組成部分(popular components),以及提高深度神經網絡的特征表征能力(representative ability of the features)。此外,本文通過收集和分析基準數據集上的指標來比較近期提出的深度跟蹤器(deep trackers)。通過這種方式,本文得出了一些重要的觀察結果。例如,通過比較,我們發現注意力機制(attention mechanisms)被廣泛用于在線更新方法(online-updating methods)和離線訓練方法(offline-trained ones)的結合上。另一方面,由于深度跟蹤器中不同的組件有不同的特性,僅改進單個組件有時無法改進跟蹤過程。
本文其余部分組織如下:第二部分對有效深度學習方法的基本框架和新機制進行了列舉。第三部分介紹了深度跟蹤器的一般組件(general components)。第四部分詳細說明了常用的跟蹤數據集(popular tracking datasets),并進行了比較。本文還介紹了一些常用指標(popular metrics),可在常用跟蹤數據集(popular tracking datasets)中評估跟蹤性能。第五部分基于這些指標,對近期發布的深度跟蹤器的性能進行了分析和比較。基于這些比較結果,第六部分給出了若干觀察結果。第七部分為本文結論。
全文下載
Advances in Deep Learning Methods for Visual Tracking: Literature Review and Fundamentals
Xiao-Qin Zhang, Run-Hua Jiang, Chen-Xiang Fan, Tian-Yu Tong, Tao Wang, Peng-Cheng Huang
https://link.springer.com/article/10.1007/s11633-020-1274-8?????
http://www.ijac.net/en/article/doi/10.1007/s11633-020-1274-8????
特別感謝論文作者:溫州大學張笑欽教授、蔣潤華同學、范晨翔同學、童天宇同學、王濤同學、黃鵬程同學對以上內容的審閱和修改!
點擊"閱讀原文"下載全文
總結
以上是生活随笔為你收集整理的【论文推荐】张笑钦团队 | 综述:基于深度学习的视觉跟踪方法进展的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯视频上如何上传视频
- 下一篇: 深度技术win11 64位正版系统v20