全卷积式在线跟踪器
?PaperWeekly?·?作者|崔玉濤
學(xué)校|南京大學(xué)媒體計(jì)算所博士生
研究方向|目標(biāo)跟蹤
本文介紹我們?cè)趩文繕?biāo)跟蹤領(lǐng)域的新工作 FCOT (Fully Convolutional Online Tracking),目前在 VOT2018 / LaSOT / TrackingNet / GOT10k 等多個(gè)數(shù)據(jù)集上達(dá)到了實(shí)時(shí) trackers 的 state-of-the-art 效果,并且能達(dá)到 47fps。
論文標(biāo)題:Fully Convolutional Online Tracking
論文地址:https://arxiv.org/abs/2004.07109
代碼鏈接:https://github.com/MCG-NJU/FCOT(已公開(kāi)各數(shù)據(jù)集 raw results,代碼整理后放出)
思考
?
近年來(lái),基于 Siamese 的方法可以說(shuō)是占據(jù)了視覺(jué)跟蹤領(lǐng)域的半壁江山,涌現(xiàn)了像 Siamfc, SiamRPN, SiamRPN++, SiamFC++ 等優(yōu)秀的方法,既能保證比較好的跟蹤效果,又達(dá)到了很高的 FPS。而另一類判別式的跟蹤模型也同樣值得矚目,像 ATOM/DiMP 取得了當(dāng)時(shí)的 SOTA 效果,并且也能達(dá)到實(shí)時(shí)。
如果將目標(biāo)跟蹤任務(wù)分為分類(粗定位目標(biāo))和回歸(精確回歸目標(biāo)的框)兩個(gè)子任務(wù),那么 DiMP 這類判別式的方法充分證明了對(duì)分類任務(wù)進(jìn)行跟蹤過(guò)程中的在線訓(xùn)練,可以有效地提升 tracker 的魯棒性,對(duì)于區(qū)分前景和背景頗有幫助,也因此在多個(gè)數(shù)據(jù)集上達(dá)到了當(dāng)時(shí)最好的跟蹤效果。
基于此,我們就思考:既然對(duì)于分類分支的在線訓(xùn)練已經(jīng)證明了其有效性,那是否對(duì)回歸分支進(jìn)行在線訓(xùn)練能使得跟蹤過(guò)程中框的準(zhǔn)確性更高呢?
Motivation
1. 解決跟蹤過(guò)程中由于目標(biāo)形態(tài)變化等引發(fā)的目標(biāo)框回歸不準(zhǔn)確的問(wèn)題,對(duì)回歸分支首次進(jìn)行了在線訓(xùn)練。
?
2. 為了實(shí)現(xiàn)回歸分支的在線訓(xùn)練并且能達(dá)到跟蹤的實(shí)時(shí)性,就需要一個(gè)簡(jiǎn)潔而有效的回歸分支,因此借鑒了檢測(cè)領(lǐng)域 Anchor-free 的工作 FCOS 的思路,直接回歸目標(biāo)的中心點(diǎn)到四個(gè)邊的距離。
?
3. 既然要直接回歸目標(biāo)的中心點(diǎn)到邊界的距離,那么首先分類分支中定位出的目標(biāo)中心點(diǎn)要相對(duì)比較準(zhǔn)確才能保證較高的精度,因此我們產(chǎn)生了更高分辨率的分類 score map。另外我們發(fā)現(xiàn)高分辨率的 score map 對(duì)定位精度有效,而低分辨率的 score map 則對(duì) tracker 的魯棒性有幫助,因此我們提出了將多個(gè)不同分辨率的分類 score map 融合進(jìn)行定位的策略。
具體實(shí)現(xiàn)
?
該網(wǎng)絡(luò)的上半部分為在線訓(xùn)練部分,用來(lái)通過(guò)訓(xùn)練幀(給定的第一幀以及以及跟蹤結(jié)束的之前幀)產(chǎn)生分類 model 和回歸 model(即卷積核),下半部分為測(cè)試部分,通過(guò)上面產(chǎn)生的 model 來(lái)對(duì)當(dāng)前的測(cè)試幀進(jìn)行分類和回歸,得到目標(biāo)的中心點(diǎn)和中心點(diǎn)到四個(gè)邊界的偏移,從而產(chǎn)生最終的目標(biāo)框。
首先 backbone 我們采用了 Encoder-Decoder 的結(jié)構(gòu)來(lái)產(chǎn)生不同分辨率的 score map 和 offset map。Encoder 采用了 R esnet-50 的 Layer1-layer4,Decoder 則采用了簡(jiǎn)單的幾個(gè)上采樣層。在 backbone 提取了公共特征之后,再對(duì)于不同分辨率的分類分支和回歸分支分別采用不同的 head 來(lái)提取針對(duì)特定任務(wù)的特征。
??
3.1 多尺度分類
?
為了保證分類分支定位目標(biāo)中心點(diǎn)的精度,我們生成了大小為 72 的分類 score map,然后發(fā)現(xiàn) score map-72 對(duì)于相似目標(biāo)的判定效果不是好,而大小為 18 的低分辨率 score map,雖然精度沒(méi)有 score map-72 高,但是魯棒性更好一些。因此我們將兩個(gè)不同 scale 的 score map 融合進(jìn)行預(yù)測(cè),下面的消融實(shí)驗(yàn)也會(huì)詳細(xì)驗(yàn)證。
?
3.2 Anchor-free回歸
?
對(duì)于回歸分支,不同于 siamRPN 等方法的 RPN 結(jié)構(gòu)和 ATOM 等采用的 Iou 預(yù)測(cè)來(lái)迭代回歸框的方式,我們借鑒了 FCOS,采用了 anchor-free 的回歸方式,直接預(yù)測(cè)中心點(diǎn)到邊界的距離,不僅簡(jiǎn)化了結(jié)構(gòu),更能高效地實(shí)現(xiàn)該分支的在線訓(xùn)練。
?
3.3 Regression Model Generator
?
該部分用來(lái)實(shí)現(xiàn)回歸分支的在線訓(xùn)練,包括一個(gè)初始化模塊和在線優(yōu)化模塊,初始化模塊僅僅使用第一幀訓(xùn)練圖像產(chǎn)生一個(gè)初始的 regression model,而在線優(yōu)化模塊則采用了最速下降法來(lái)顯式地求出每次迭代的步長(zhǎng)(DiMP 在分類分支在線訓(xùn)練中驗(yàn)證了該方式較梯度下降迭代次數(shù)更快,效率更高一些)。具體的細(xì)節(jié)可以參照論文。
實(shí)驗(yàn)
?
4.1 Ablation
在消融實(shí)驗(yàn)中,我們主要驗(yàn)證了三部分:多尺度分類,回歸分支的在線訓(xùn)練,回歸分支的特征融合。
Score map-18 對(duì)于魯棒性的提高有幫助,而 score map-72 則會(huì)提高定位的精度,從而提升框的精度,我們?cè)谡撐牡?appendix 中也有更詳盡的可視化和討論。
從 VOT2018 和 trackingnet 可以明顯的看出回歸分支在線訓(xùn)練的作用,而 VOT 的 accuracy 這個(gè)指標(biāo)之所以比不用在線訓(xùn)練低,是和 vot 的測(cè)試方式有關(guān)的。在 vot 數(shù)據(jù)集的測(cè)試過(guò)程中,如果跟丟了目標(biāo)就會(huì)計(jì)作 lost 一次,重新給定目標(biāo)的真實(shí)框進(jìn)行跟蹤。
而 FCOT 加上在線訓(xùn)練之后框更加準(zhǔn)確一些,所以也促進(jìn)了分類分支的在線訓(xùn)練效果,因此 lost 次數(shù)更少,每次跟蹤的序列更長(zhǎng)一些,accuracy 在長(zhǎng)序列中就會(huì)降低一點(diǎn)。
?
回歸分支的特征融合對(duì)于跟蹤性能的提升也是有幫助的。
?
4.2 State-of-the-art
?
為了驗(yàn)證 FCOT 的性能,我們?cè)谥髁鞯膯文繕?biāo)跟蹤數(shù)據(jù)集進(jìn)行了測(cè)試,包括 VOT2018 / GOT-10k / OTB100 / UAV123 / NFS 幾個(gè)重要的短時(shí)數(shù)據(jù)集以及 LaSOT 和 TrackingNet 兩個(gè)較大的數(shù)據(jù)集上進(jìn)行了測(cè)試,其中在 VOT2018 數(shù)據(jù)集上的 EAO 和 Robustness 達(dá)到了 0.508 和 0.108,相對(duì)于 ICCV2019 的 DiMP 以及 AAAI2020 的 SiamFC++ 有很大提升。
此外在 TrackingNet 和 LaSOT 數(shù)據(jù)集normalized precision 也提升很大,在 GOT-10k 等數(shù)據(jù)集上也達(dá)到了SOTA的效果。FCOT 在取得當(dāng)前 SOTA 效果的同時(shí),還能達(dá)到 47fps。
總結(jié)
?
FCOT 在較高的 FPS 的基礎(chǔ)上,實(shí)現(xiàn)了很好的定位精度和框的回歸精度,提升了跟蹤的性能。但是目標(biāo)跟蹤領(lǐng)域還是存在著很多問(wèn)題,像如何處理遮擋等等,總之還需要我們?nèi)ミM(jìn)一步發(fā)掘。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術(shù)專家面對(duì)面20年技術(shù)見(jiàn)證,附贈(zèng)技術(shù)全景圖總結(jié)
- 上一篇: 小蓝车停在停车点忘记确认怎么办?
- 下一篇: 消息称三星 Galaxy S25 系列手