CSTrackV2解读
這篇文章是CSTrack原團(tuán)隊的一個新工作,核心出發(fā)點是引入時間信息來修正檢測器結(jié)果以保證軌跡的連續(xù),通過利用前后幀相關(guān)性來進(jìn)行運動建模完善單幀檢測的結(jié)果,從而使得跟蹤更加合理。該方法從實驗數(shù)據(jù)上來看效果是非常猛的,作者后續(xù)也會開放源代碼。
簡介
單階段多目標(biāo)跟蹤方法聯(lián)合檢測和重識別任務(wù),近年來取得了比較大的突破,誕生了非常有影響力的方法如JDE等。然而,當(dāng)前單階段跟蹤器僅僅使用單幀輸入來獲得邊界框預(yù)測,當(dāng)遇到比較嚴(yán)重的視覺障礙如遮擋模糊等時,邊界框可能是不可靠的。一旦一個目標(biāo)框被檢測器誤分為背景類別,其對應(yīng)軌跡段的時序一致性就將難以保持。這篇論文中,作者通過提出一個重檢查網(wǎng)絡(luò)來恢復(fù)錯誤分類的邊界框,即虛假背景。重檢查網(wǎng)絡(luò)通過使用改進(jìn)的互相關(guān)層探索跨幀時間線索與當(dāng)前候選框之間的關(guān)系,從而將先前的軌跡段傳播到當(dāng)前幀。這種前后幀信息的傳播有助于恢復(fù)虛假背景框并且最終修復(fù)被破壞的軌跡段。通過將設(shè)計的重檢查網(wǎng)絡(luò)插入到CSTrack模型中,在MOT16和MOT17上MOTA分別從70.7和70.6漲到了76.7和76.3,漲點是非常恐怖的。
-  
論文標(biāo)題
One More Check: Making “Fake Background” Be Tracked Again
 -  
論文地址
http://arxiv.org/abs/2104.09441
 -  
論文源碼
https://github.com/JudasDie/SOTS
 
介紹
當(dāng)前多目標(biāo)跟蹤(Multiple Object Tracking,MOT)方法大體可以分為兩大類,即二階段(two-step)方法和單階段(one-shot)方法。二階段方法遵循TBD范式(即先檢測再跟蹤),將多目標(biāo)跟蹤任務(wù)解耦成了候選框預(yù)測和軌跡段關(guān)聯(lián)兩個任務(wù)。盡管二階段方法在精度上取得了驚人的表現(xiàn),然而它卻需要巨大的計算資源,這主要是因為它通過一個額外的ReID網(wǎng)絡(luò)來對每個候選框提取特征。近兩年,單階段方法受到了更多的關(guān)注,其通過集成檢測和ReID特征提取到一個網(wǎng)絡(luò)中,取得了較好的速度和精度的權(quán)衡。通過特征共享和多任務(wù)學(xué)習(xí),它們可以接近實時運行。作者觀察到,大多數(shù)現(xiàn)有的單階段跟蹤器都將高質(zhì)量的檢測作為一個默認(rèn)假設(shè),也就是說,每幀中的每個目標(biāo)都能被檢測器正確定位。然而,真實世界的各種情況可能使得這個假設(shè)并不成立,導(dǎo)致跟蹤的效果較差。
下圖所示即為單階段跟蹤器的典型失敗案例,藍(lán)色箭頭代表幀連續(xù)的方向,圖中紅色框表示由于較小的前景概率而被當(dāng)作背景的目標(biāo),從整個幀序列上看,由于這幾個漏檢目標(biāo),導(dǎo)致了軌跡段的時間一致性被破壞。作者經(jīng)過思考發(fā)現(xiàn)這種虛假背景的根本原因其實是過于依賴基于圖像的檢測結(jié)果了。換句話說,檢測器從背景中區(qū)分目標(biāo)僅僅基于單幀的視覺線索。然而,實際跟蹤的場景都是極具挑戰(zhàn)的,比如遮擋、小目標(biāo)、背景雜亂等,這些都會造成視覺特征的有效性下降,最終可能誤導(dǎo)檢測器將目標(biāo)分類為背景。因此,僅僅依靠檢測器得到目標(biāo)的位置在跟蹤中是不太可靠的。但是反觀人類視覺的動態(tài)機制,它不僅僅考慮當(dāng)前的視覺線索,而且能夠連續(xù)感知移動目標(biāo)的時間一致性。這啟發(fā)了作者,可以通過探索時間線索在檢測過程中仔細(xì)檢查目標(biāo)周圍環(huán)境,來恢復(fù)由檢測器引起的誤分類目標(biāo)。
在這篇文章中,作者超越傳統(tǒng)的單幀檢測,通過設(shè)計二次檢查檢測機制來再次跟蹤虛假背景目標(biāo)。作者方法的本質(zhì)是使用跨幀時序線索來作為單幀視覺線索的補充,來完成目標(biāo)檢測任務(wù)。和此前的工作直接使用時序特征來增強當(dāng)前幀的視覺表示不同,作者提出了re-check網(wǎng)絡(luò)通過學(xué)習(xí)轉(zhuǎn)換之前的軌跡段來恢復(fù)誤分類的目標(biāo)。具體來說,考慮上一幀目標(biāo)的位置,轉(zhuǎn)換結(jié)果重新檢查當(dāng)前幀中的周圍環(huán)境并預(yù)測一個候選框,這個框表示一個誤分類的目標(biāo)并且如果檢測器沒有檢測出來它的話它會被重新加載。
作者這個re-check網(wǎng)絡(luò)的靈感源于SOT領(lǐng)域的孿生網(wǎng)絡(luò),在這類方法中,互相關(guān)層(cross-correlation layer)被用來建模時序信息并且預(yù)測目標(biāo)位置。但是,論文的方法中,作者修改了cross-correlation layer使其適配多軌跡段轉(zhuǎn)換。具體來看,在re-check網(wǎng)絡(luò)中,目標(biāo)的時序信息依據(jù)其之前幀的ID embedding表示,即為一個1×1×C1 \times 1 \times C1×1×C的張量。隨著目標(biāo)在序列上移動,通過使用cross-correlation操作來評估ID embedding的相似性來進(jìn)行目標(biāo)位置的傳遞。最終,跟蹤器能夠感知目標(biāo)在當(dāng)前幀上的狀態(tài),因此可以重新檢查檢測器在當(dāng)前幀上的預(yù)測框,以查看目標(biāo)是否被錯誤丟棄。
作者將設(shè)計的re-check network應(yīng)用到CSTrack上,得到一個新的跟蹤器,SiamMOT。在MOT16、MOT17和MOT20上進(jìn)行驗證,該框架實現(xiàn)了新的SOTA。
SiamMOT
這一節(jié)將解讀整個SiamMOT框架,在詳細(xì)理解re-check之前,先簡要了解整個跟蹤框架。
整體框架
基于CSTrack構(gòu)建了一個新的JDE方法,首先來回顧一下JDE和CSTrack。下圖所示即為JDE的核心思路,它通過共享模型完成目標(biāo)檢測和ReID特征提取來構(gòu)建一個實時的單階段多目標(biāo)跟蹤框架。
整體的pipeline可以參考下圖。給定一幀輸入x\mathbf{x}x,首先是特征提取器Ψ\PsiΨ(即backbone和neck)對其進(jìn)行處理,得到特征圖Ft\mathbf{F_t}Ft?(Ft=Ψ(x)\boldsymbol{F}_{t}=\Psi(\boldsymbol{x})Ft?=Ψ(x))。接著,Ft\mathbf{F_t}Ft?被送入head網(wǎng)絡(luò)Φ\PhiΦ中同時預(yù)測檢測結(jié)果和ID embedding,表示如下式。
[Rtde,Ftid]=Φ(Ft)\left[\boldsymbol{R}_{t}^{\mathrm{de}}, \boldsymbol{F}_{t}^{i d}\right]=\Phi\left(\boldsymbol{F}_{t}\right) [Rtde?,Ftid?]=Φ(Ft?)
如上式和上圖所示,這里的Rtde\boldsymbol{R}_{t}^{\mathrm{de}}Rtde?表示檢測結(jié)果,它包含一個前景概率圖Ptde∈RH×W×1\boldsymbol{P}_{t}^{d e} \in \mathbb{R}^{H \times W \times 1}Ptde?∈RH×W×1(通道數(shù)為1表示只有行人這一類)和邊框預(yù)測圖Btde∈RH×W×4\boldsymbol{B}_{t}^{d e} \in \mathbb{R}^{H \times W \times 4}Btde?∈RH×W×4,而Ftid∈RH×W×C\boldsymbol{F}_{t}^{i d} \in \mathbb{R}^{H \times W \times C}Ftid?∈RH×W×C(C=512C=512C=512)表示ID embedding。最后,檢測結(jié)果Rtde\boldsymbol{R}_{t}^{\mathrm{de}}Rtde?經(jīng)過greedy-NMS處理后得到基本檢測結(jié)果Dbase?\boldsymbol{D}_{\text {base }}Dbase??。Dbase?\boldsymbol{D}_{\text {base }}Dbase??中的每個box都對應(yīng)Ftid\boldsymbol{F}_{t}^{i d}Ftid?中的一個1×1×C1 \times 1 \times C1×1×C的embedding。不妨記所有的Dbase?\boldsymbol{D}_{\text {base }}Dbase??中的box對應(yīng)的embedding為一個集合Etid\boldsymbol{E}_{t}^{i d}Etid?。最后,Dbase?\boldsymbol{D}_{\text {base }}Dbase??和Etid\boldsymbol{E}_{t}^{i d}Etid?用于和之前的軌跡段關(guān)聯(lián),關(guān)聯(lián)采用貪婪二分圖匹配算法。
而在最近,CSTrack通過引入互注意力來緩解detection任務(wù)和ReID任務(wù)之間的競爭,從而以很少的開銷大大改善了JDE,CSTrack就是這篇論文工作的baseline(畢竟是作者本人的工作),關(guān)于CSTrack想要了解更多的可以參考我之前的解讀博客。
作者在CSTrack的基礎(chǔ)上,提出了一個re-check network來修復(fù)檢測器得出的虛假背景。如上圖所示,再次使用上一幀ID embedding Et?1id\boldsymbol{E}_{t-1}^{i d}Et?1id?作為一個目標(biāo)的時序線索,re-check network Π\PiΠ通過評估 Et?1id\boldsymbol{E}_{t-1}^{i d}Et?1id?和Ftid\boldsymbol{F}_{t}^{i d}Ftid?之間的相似度來轉(zhuǎn)換之前的軌跡。具體而言,作者修改了孿生網(wǎng)絡(luò)中的cross-correlation layer使之能夠單次前向就跟蹤多個目標(biāo)。此外,作者通過實驗發(fā)現(xiàn),如果一個目標(biāo)在當(dāng)前幀出現(xiàn),那么它傾向于在相似度圖中引入一個假陽性響應(yīng)。為了緩解這個問題,作者將視覺特征圖Ft\boldsymbol{F}_{t}Ft?和相似度圖進(jìn)行了融合,然后將它們精煉為更精細(xì)的guidance map(指導(dǎo)圖)。為了簡化描述,re-check network可以表述如下。
Mp=Π(Ftid,Et?1id,Ft)\boldsymbol{M}_{p}=\Pi\left(\boldsymbol{F}_{t}^{i d}, \boldsymbol{E}_{t-1}^{i d}, \boldsymbol{F}_{t}\right) Mp?=Π(Ftid?,Et?1id?,Ft?)
這個式子中的Mp\boldsymbol{M}_{p}Mp?是網(wǎng)絡(luò)最終的預(yù)測結(jié)果,它是之前軌跡段到當(dāng)前幀的轉(zhuǎn)換結(jié)果。將Mp\boldsymbol{M}_{p}Mp?視為前景概率圖,并將它和原始的邊界框Btde\boldsymbol{B}_{t}^{d e}Btde?一起送入greedy-NMS。NMS輸出的結(jié)果,稱為轉(zhuǎn)換檢測(transductive detections),記為Dtrans?\boldsymbol{D}_{\text {trans }}Dtrans??,和原本的檢測器的檢測框Dbase?\boldsymbol{D}_{\text {base }}Dbase??組合到一起送入作者提出的IOU投票機制來產(chǎn)生最終的候選邊界框Dfinal\boldsymbol{D}_{\text {final}}Dfinal?。此時,才算真正完成了目標(biāo)檢測,Dfinal\boldsymbol{D}_{\text {final}}Dfinal?和其在ID特征圖Ftid\boldsymbol{F}_{t}^{i d}Ftid?上對應(yīng)的ID embedding則用于后續(xù)的數(shù)據(jù)關(guān)聯(lián)。當(dāng)基本檢測結(jié)果誤分類目標(biāo)為背景時,transductive detections能夠重新檢查虛假背景并恢復(fù)漏檢的目標(biāo)框。
上面這個過程,簡要敘述了整個SiamMOT的pipeline,略過了諸多細(xì)節(jié),下面將詳細(xì)分析其中幾個關(guān)鍵的模塊。
重檢查網(wǎng)絡(luò)
為了改善由于虛假背景產(chǎn)生的時序一致性破壞,作者提出了一個輕量的re-check network來恢復(fù)檢測器漏檢的目標(biāo)。更具體而言,re-check network包含兩個模塊,即下圖所示的用于軌跡傳播的transductive detection module(檢測轉(zhuǎn)換模塊)和用于假陽性過濾的refinement module(精煉模塊)。
Transductive Detection Module
首先來看這個轉(zhuǎn)換檢測模塊,它用于將之前的軌跡段傳播到當(dāng)前幀,換句話說,其實就是預(yù)測歷史軌跡在當(dāng)前幀的位置。具體來看,通過評估之前軌跡的embeddings Et?1id={et?11,?,et?1n}\boldsymbol{E}_{t-1}^{i d}=\left\{\boldsymbol{e}_{t-1}^{1}, \cdots, \boldsymbol{e}_{t-1}^{n}\right\}Et?1id?={et?11?,?,et?1n?}和當(dāng)前幀檢測結(jié)果的embeddings特征圖Ftid\boldsymbol{F}_t^{id}Ftid?之間的相似度來預(yù)測目標(biāo)的位置,這里的nnn表示歷史軌跡的數(shù)目。對每個目標(biāo)都通過cross-correlation算子?*?來獲得一個位置響應(yīng)圖mim_imi?,其計算式如下所示,可以看到,這其實就是一個普通的矩陣乘法,每個mi\boldsymbol{m}_{i}mi?的維度就是上圖所示的H×W×1H \times W \times 1H×W×1。
mi=(et?1i?Ftid)∣i=1n\boldsymbol{m}_{i}=\left.\left(\boldsymbol{e}_{t-1}^{i} * \boldsymbol{F}_{t}^{i d}\right)\right|_{i=1} ^{n} mi?=(et?1i??Ftid?)∣∣∣?i=1n?
在每個mi\boldsymbol{m}_imi?中,最大值的位置就是之前軌跡的預(yù)測狀態(tài),這樣的nnn個mi\boldsymbol{m}_imi?組合到一起就形成了一個相似度圖M={m1,?,mn}\boldsymbol{M}=\left\{\boldsymbol{m}_{1}, \cdots, \boldsymbol{m}_{n}\right\}M={m1?,?,mn?},其中的每個元素表示之前軌跡的轉(zhuǎn)換檢測結(jié)果。需要注意的是,改進(jìn)的cross-correlation操作可以很方便地通過矩陣乘法實現(xiàn),通過主流的深度學(xué)習(xí)框架可以方便實現(xiàn)。這部分對應(yīng)上圖Transductive Detection Module部分的下面一部分,即nnn個響應(yīng)圖。
接著,通過縮小高響應(yīng)的范圍,將mi\boldsymbol{m}_imi?離散化為一個二值掩膜圖m^i\hat{\boldsymbol{m}}_{i}m^i?。進(jìn)行這步操作的根本原因在于擁有相似外觀的目標(biāo)可能會帶來較高的響應(yīng)值,縮小高響應(yīng)范圍可以減少這種混淆的預(yù)測。形式上,這個二值掩膜的生成方式如下,這里的m^ixy\hat{\boldsymbol{m}}_{i}^{x y}m^ixy?表示m^i\hat{\boldsymbol{m}}_{i}m^i?上(x,y)(x, y)(x,y)處的值,cxc_xcx?和cyc_ycy?表示mi\boldsymbol{m}_imi?上最大值的位置,rrr表示縮放半徑,在縮放半徑構(gòu)成的正方形內(nèi)置為1否則置為0。接著,這個二值掩膜圖和原始響應(yīng)圖相乘消除模糊的響應(yīng)結(jié)果,這里就是普通的點乘。
m^ixy={1if?∥x?cx∥≤r,∥y?cy∥≤r0otherwise?\hat{\boldsymbol{m}}_{i}^{x y}=\left\{\begin{array}{ll} 1 & \text { if }\left\|x-c_{x}\right\| \leq r,\left\|y-c_{y}\right\| \leq r \\ 0 & \text { otherwise } \end{array}\right. m^ixy?={10??if?∥x?cx?∥≤r,∥y?cy?∥≤r?otherwise??
接著,將nnn個響應(yīng)圖沿著通道逐元素相加得到最終的相似度圖Ms\boldsymbol{M}_{s}Ms?,這個相似度圖表示當(dāng)前幀每個位置包含之前幀中目標(biāo)的概率,如果一個位置有一個高置信度的響應(yīng)得分,那么這里就有一個和之前軌跡相關(guān)的潛在邊界框。
Ms=∑i=1n(m^i?mi)\boldsymbol{M}_{s}=\sum_{i=1}^{n}\left(\hat{\boldsymbol{m}}_{i} \cdot \boldsymbol{m}_{i}\right) Ms?=i=1∑n?(m^i??mi?)
這一部分對應(yīng)上圖的Transductive Detection Module部分。
Refinement Module
但是上面這種軌跡預(yù)測也會帶來一些問題,作者發(fā)現(xiàn)沒有出現(xiàn)在當(dāng)前幀的那些目標(biāo)在tracklet transduction的過程中會帶來一些假陽性樣本。為了緩解這個問題,作者設(shè)計了一個Refinement Module來引入當(dāng)前幀原始的視覺特征Ft∈RH×W×C(C=256)\boldsymbol{F}_{t} \in \mathbb{R}^{H \times W \times C}(\mathrm{C}=256)Ft?∈RH×W×C(C=256)來提供語義信息以進(jìn)行更精細(xì)的定位。作者首先將上面的Ms\boldsymbol{M_s}Ms?通過inverted bottleneck模塊進(jìn)行編碼,這是一個通過兩個3x3卷積先升維再降維的過程,得到精煉的相似度圖Ms′∈RH×W×1\boldsymbol{M}_{s}^{\prime} \in \mathbb{R}^{H \times W \times 1}Ms′?∈RH×W×1和Ft\boldsymbol{F}_tFt?進(jìn)行逐元素相乘得到增強的特征F^∈RH×W×C(C=256)\hat{\boldsymbol{F}} \in \mathbb{R}^{H \times W \times C}(\mathrm{C}=256)F^∈RH×W×C(C=256),這個計算過程如下式。
F^=Ft?Ms′\hat{\boldsymbol{F}}=\boldsymbol{F}_{t} \cdot \boldsymbol{M}_{s}^{\prime} F^=Ft??Ms′?
接著,這個增強的特征F^\hat{\boldsymbol{F}}F^經(jīng)過幾個卷積層得到最終的預(yù)測Mp\boldsymbol{M}_{p}Mp?,這是一個精煉后的響應(yīng)圖,和輸入Refinement Module之前的響應(yīng)圖shape相同。
Optimization
上面通過兩個模塊的分析介紹了re-check network,但是這個模塊引入CSTrack這樣的模型中是需要額外的監(jiān)督的,因此作者設(shè)計了一個新的損失。相似度圖Mp\boldsymbol{M}_pMp?的GT通過多個高斯分布的組合來定義,具體而言,對每個目標(biāo),它的監(jiān)督信號是一個高斯掩膜如下所示,這里的ci=(cix,ciy)c_{i}=\left(c_{i}^{x}, c_{i}^{y}\right)ci?=(cix?,ciy?)表示一個目標(biāo)的中心位置而σi\sigma_{i}σi?是目標(biāo)尺寸自適應(yīng)的標(biāo)準(zhǔn)差。這里需要注意的是,由于GT是根據(jù)當(dāng)前幀產(chǎn)生的,而re-check網(wǎng)絡(luò)的輸入是上一幀,因此網(wǎng)絡(luò)想要預(yù)測出GT必須學(xué)會運動預(yù)測的能力。
ti=exp?(?(x?cix)2+(y?ciy)22σi2)\boldsymbol{t}_{i}=\exp \left(-\frac{\left(x-c_{i}^{x}\right)^{2}+\left(y-c_{i}^{y}\right)^{2}}{2 \sigma_{i}^{2}}\right) ti?=exp(?2σi2?(x?cix?)2+(y?ciy?)2?)
上面的式子生成一系列的GT mask t={t1,…,tn}\boldsymbol{t}=\left\{\boldsymbol{t}_{1}, \ldots, \boldsymbol{t}_{n}\right\}t={t1?,…,tn?},然后沿著通道維度求和就得到了Mp\boldsymbol{M}_pMp?的監(jiān)督信號T\boldsymbol{T}T。為了減少兩個高斯分布之間的重疊,為σi\sigma_{i}σi?設(shè)置一個值為1的上界。使用Logistic-MSE損失來訓(xùn)練re-check網(wǎng)絡(luò),損失公式如下式,Mxy\boldsymbol{M}^{x y}Mxy和Txy\boldsymbol{T}^{x y}Txy分別表示Mp\boldsymbol{M}_pMp?和T\boldsymbol{T}T上(x,y)(x,y)(x,y)位置的值。
Lg=?1n∑xv{(1?Mpxy)log?(Mpxy),if?Txy=1(1?Txy)Mpxylog?(1?Mpxy),else?\mathcal{L}_{g}=-\frac{1}{n} \sum_{x v}\left\{\begin{array}{l} \left(1-\boldsymbol{M}_{p}^{x y}\right) \log \left(\boldsymbol{M}_{p}^{x y}\right), \quad \text { if } \boldsymbol{T}^{x y}=1 \\ \left(1-\boldsymbol{T}^{x y}\right) \boldsymbol{M}_{p}^{x y} \log \left(1-\boldsymbol{M}_{p}^{x y}\right), \text { else } \end{array}\right. Lg?=?n1?xv∑?{(1?Mpxy?)log(Mpxy?),?if?Txy=1(1?Txy)Mpxy?log(1?Mpxy?),?else??
檢測框融合
通過re-check網(wǎng)絡(luò),得到了歷史軌跡在當(dāng)前幀上的預(yù)測框Dtrans\boldsymbol{D}_{trans}Dtrans?和檢測器在當(dāng)前幀上的檢測框Dbase\boldsymbol{D}_{base}Dbase?,但是如何將這兩個融合到一起用于最終的數(shù)據(jù)關(guān)聯(lián)呢?首先,為Dtrans\boldsymbol{D}_{trans}Dtrans?中的每一個邊界框bi\boldsymbol{b}_ibi?計算目標(biāo)度得分(targetness score),得分的計算基于其與檢測框的最大IOU,式子如下。
s=1?max?(IOU?(bi,Dbase?))s=1-\max \left(\operatorname{IOU}\left(\boldsymbol{b}_{i}, \boldsymbol{D}_{\text {base }}\right)\right) s=1?max(IOU(bi?,Dbase??))
sss值越大表明框bi\boldsymbol{b}_ibi?并沒有出現(xiàn)在檢測器的檢測結(jié)果中,因此它就可能是一個漏檢框。若這個框的sss值高于閾值?\epsilon?,那么這個框就作為檢測框的補充加進(jìn)去,作者設(shè)置的?\epsilon?為0.5。通過這個融合,可以將檢測器漏掉的檢測框找回來,保證軌跡的連續(xù)性。具體的算法如下圖,比較清晰明了。
實驗
我們知道在JDE和CSTrack中,anchor和GT之間的偏移是通過sigmoid函數(shù)約束在0到1之間的,這里記anchor的中心為a=(ax,ay)a=\left(a_{x}, a_{y}\right)a=(ax?,ay?),GT的中心為b=(bx,by)b=\left(b_{x}, b_{y}\right)b=(bx?,by?),兩者的偏移通過下式計算,這里的rrr就是回歸分支的輸出。
Δ=b?a=Sigmoid?(r)\boldsymbol{\Delta}=\boldsymbol{b}-\boldsymbol{a}=\operatorname{Sigmoid}(\boldsymbol{r}) Δ=b?a=Sigmoid(r)
但是,作者發(fā)現(xiàn),其實在圖像的邊界上,偏移量經(jīng)常是大于1的。如下圖所示,GT框的中心(綠色表示)已經(jīng)超出了圖像的邊界,然而由于sigmoid函數(shù)的約束。預(yù)測框(紅色表示)很難覆蓋整個目標(biāo)。當(dāng)一個目標(biāo)只出現(xiàn)部分身體,不完整的邊界框預(yù)測將被視為假陽性樣本,這是因為其與GT框的距離很遠(yuǎn)并且不完整,這使得跟蹤的性能最終下降。為了緩解這個問題,作者將回歸機制修改為邊界感知回歸(boundary-aware regression,BAR),它允許跟蹤器通過可見身體推理出目標(biāo)的全身區(qū)域。
具體來看,將上面那個式子修改如下,這里的hhh是一個可學(xué)習(xí)的尺度參數(shù),這個尺度參數(shù)允許網(wǎng)絡(luò)預(yù)測大于1的偏移。如上圖的?所示,BAR能夠通過可見部分預(yù)測出目標(biāo)的不可見部分。
Δ=b?a=(Sigmoid?(r)?0.5)×h\boldsymbol{\Delta}=\boldsymbol{b}-\boldsymbol{a}=(\operatorname{Sigmoid}(\boldsymbol{r})-0.5) \times h Δ=b?a=(Sigmoid(r)?0.5)×h
至于實驗的設(shè)置和評估指標(biāo)的配置之類的,就和CSTrack一樣了,這里就不展開敘述了。下面來看一下SiamMOT在幾個benchmark上的SOTA表現(xiàn),可以看到,其精度是非常卓越的,雖然速度相比原來的CSTrack有所下降。
此外,作者也進(jìn)行了消融實驗對比提出的re-check network(RCNet)和BAR的收益,如下表所示。可以看到,RCNet的效果是非常明顯的,這也進(jìn)一步說明,MOT這個任務(wù)其實是非常依賴顯式的時序信息的。
其他的組件的消融實驗我這里不多說了,感興趣的可以查看原文。可視化方面作者也做了不少,下面這個圖第一列是原始圖像,第二列是Transductive Detection Module輸出,第三列則是Refinement Module輸出的。從圖上第二列可以看出來,之前軌跡的狀態(tài)被有效轉(zhuǎn)移到了當(dāng)前幀,第三列則表示精煉模塊確實有效過濾了假陽性。SiamMOT在遮擋嚴(yán)重的情況下依然可以保證跟蹤的魯棒性切處理較小的目標(biāo)。
總結(jié)
這篇論文將重點放在了MOT的檢測質(zhì)量方面,設(shè)計了一個非常優(yōu)雅的運動模型將歷史軌跡的信息轉(zhuǎn)換到當(dāng)前幀上來補充檢測器沒能準(zhǔn)確檢測的目標(biāo),使得整個軌跡更加平滑連續(xù),在CSTrack的基礎(chǔ)上有了比較大的突破,是很值得關(guān)注的一個方法。本文也只是我本人從自身出發(fā)對這篇文章進(jìn)行的解讀,想要更詳細(xì)理解的強烈推薦閱讀原論文。最后,如果我的文章對你有所幫助,歡迎一鍵三連,你的支持是我不懈創(chuàng)作的動力。
總結(jié)
以上是生活随笔為你收集整理的CSTrackV2解读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: GHM解读
 - 下一篇: 0001-Two Sum(两数之和)