當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CSTrackV2解读

發(fā)布時間：2024/4/11 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 CSTrackV2解读小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

這篇文章是CSTrack原團(tuán)隊的一個新工作，核心出發(fā)點是引入時間信息來修正檢測器結(jié)果以保證軌跡的連續(xù)，通過利用前后幀相關(guān)性來進(jìn)行運動建模完善單幀檢測的結(jié)果，從而使得跟蹤更加合理。該方法從實驗數(shù)據(jù)上來看效果是非常猛的，作者后續(xù)也會開放源代碼。

簡介

單階段多目標(biāo)跟蹤方法聯(lián)合檢測和重識別任務(wù)，近年來取得了比較大的突破，誕生了非常有影響力的方法如JDE等。然而，當(dāng)前單階段跟蹤器僅僅使用單幀輸入來獲得邊界框預(yù)測，當(dāng)遇到比較嚴(yán)重的視覺障礙如遮擋模糊等時，邊界框可能是不可靠的。一旦一個目標(biāo)框被檢測器誤分為背景類別，其對應(yīng)軌跡段的時序一致性就將難以保持。這篇論文中，作者通過提出一個重檢查網(wǎng)絡(luò)來恢復(fù)錯誤分類的邊界框，即虛假背景。重檢查網(wǎng)絡(luò)通過使用改進(jìn)的互相關(guān)層探索跨幀時間線索與當(dāng)前候選框之間的關(guān)系，從而將先前的軌跡段傳播到當(dāng)前幀。這種前后幀信息的傳播有助于恢復(fù)虛假背景框并且最終修復(fù)被破壞的軌跡段。通過將設(shè)計的重檢查網(wǎng)絡(luò)插入到CSTrack模型中，在MOT16和MOT17上MOTA分別從70.7和70.6漲到了76.7和76.3，漲點是非常恐怖的。

論文標(biāo)題

One More Check: Making “Fake Background” Be Tracked Again
論文地址

http://arxiv.org/abs/2104.09441
論文源碼

https://github.com/JudasDie/SOTS

介紹

當(dāng)前多目標(biāo)跟蹤（Multiple Object Tracking，MOT）方法大體可以分為兩大類，即二階段（two-step）方法和單階段（one-shot）方法。二階段方法遵循TBD范式（即先檢測再跟蹤），將多目標(biāo)跟蹤任務(wù)解耦成了候選框預(yù)測和軌跡段關(guān)聯(lián)兩個任務(wù)。盡管二階段方法在精度上取得了驚人的表現(xiàn)，然而它卻需要巨大的計算資源，這主要是因為它通過一個額外的ReID網(wǎng)絡(luò)來對每個候選框提取特征。近兩年，單階段方法受到了更多的關(guān)注，其通過集成檢測和ReID特征提取到一個網(wǎng)絡(luò)中，取得了較好的速度和精度的權(quán)衡。通過特征共享和多任務(wù)學(xué)習(xí)，它們可以接近實時運行。作者觀察到，大多數(shù)現(xiàn)有的單階段跟蹤器都將高質(zhì)量的檢測作為一個默認(rèn)假設(shè)，也就是說，每幀中的每個目標(biāo)都能被檢測器正確定位。然而，真實世界的各種情況可能使得這個假設(shè)并不成立，導(dǎo)致跟蹤的效果較差。

下圖所示即為單階段跟蹤器的典型失敗案例，藍(lán)色箭頭代表幀連續(xù)的方向，圖中紅色框表示由于較小的前景概率而被當(dāng)作背景的目標(biāo)，從整個幀序列上看，由于這幾個漏檢目標(biāo)，導(dǎo)致了軌跡段的時間一致性被破壞。作者經(jīng)過思考發(fā)現(xiàn)這種虛假背景的根本原因其實是過于依賴基于圖像的檢測結(jié)果了。換句話說，檢測器從背景中區(qū)分目標(biāo)僅僅基于單幀的視覺線索。然而，實際跟蹤的場景都是極具挑戰(zhàn)的，比如遮擋、小目標(biāo)、背景雜亂等，這些都會造成視覺特征的有效性下降，最終可能誤導(dǎo)檢測器將目標(biāo)分類為背景。因此，僅僅依靠檢測器得到目標(biāo)的位置在跟蹤中是不太可靠的。但是反觀人類視覺的動態(tài)機制，它不僅僅考慮當(dāng)前的視覺線索，而且能夠連續(xù)感知移動目標(biāo)的時間一致性。這啟發(fā)了作者，可以通過探索時間線索在檢測過程中仔細(xì)檢查目標(biāo)周圍環(huán)境，來恢復(fù)由檢測器引起的誤分類目標(biāo)。

在這篇文章中，作者超越傳統(tǒng)的單幀檢測，通過設(shè)計二次檢查檢測機制來再次跟蹤虛假背景目標(biāo)。作者方法的本質(zhì)是使用跨幀時序線索來作為單幀視覺線索的補充，來完成目標(biāo)檢測任務(wù)。和此前的工作直接使用時序特征來增強當(dāng)前幀的視覺表示不同，作者提出了re-check網(wǎng)絡(luò)通過學(xué)習(xí)轉(zhuǎn)換之前的軌跡段來恢復(fù)誤分類的目標(biāo)。具體來說，考慮上一幀目標(biāo)的位置，轉(zhuǎn)換結(jié)果重新檢查當(dāng)前幀中的周圍環(huán)境并預(yù)測一個候選框，這個框表示一個誤分類的目標(biāo)并且如果檢測器沒有檢測出來它的話它會被重新加載。

作者這個re-check網(wǎng)絡(luò)的靈感源于SOT領(lǐng)域的孿生網(wǎng)絡(luò)，在這類方法中，互相關(guān)層（cross-correlation layer）被用來建模時序信息并且預(yù)測目標(biāo)位置。但是，論文的方法中，作者修改了cross-correlation layer使其適配多軌跡段轉(zhuǎn)換。具體來看，在re-check網(wǎng)絡(luò)中，目標(biāo)的時序信息依據(jù)其之前幀的ID embedding表示，即為一個 $\times 1 \times C$ 的張量。隨著目標(biāo)在序列上移動，通過使用cross-correlation操作來評估ID embedding的相似性來進(jìn)行目標(biāo)位置的傳遞。最終，跟蹤器能夠感知目標(biāo)在當(dāng)前幀上的狀態(tài)，因此可以重新檢查檢測器在當(dāng)前幀上的預(yù)測框，以查看目標(biāo)是否被錯誤丟棄。

作者將設(shè)計的re-check network應(yīng)用到CSTrack上，得到一個新的跟蹤器，SiamMOT。在MOT16、MOT17和MOT20上進(jìn)行驗證，該框架實現(xiàn)了新的SOTA。

SiamMOT

這一節(jié)將解讀整個SiamMOT框架，在詳細(xì)理解re-check之前，先簡要了解整個跟蹤框架。

整體框架

基于CSTrack構(gòu)建了一個新的JDE方法，首先來回顧一下JDE和CSTrack。下圖所示即為JDE的核心思路，它通過共享模型完成目標(biāo)檢測和ReID特征提取來構(gòu)建一個實時的單階段多目標(biāo)跟蹤框架。

整體的pipeline可以參考下圖。給定一幀輸入 $x\mathbf{x}$ ，首先是特征提取器 $Ψ\Psi$ （即backbone和neck）對其進(jìn)行處理，得到特征圖 $Ft\mathbf{F_t}$ （ $Ft=Ψ(x)\boldsymbol{F}_{t}=\Psi(\boldsymbol{x})$ ）。接著， $Ft\mathbf{F_t}$ 被送入head網(wǎng)絡(luò) $Φ\Phi$ 中同時預(yù)測檢測結(jié)果和ID embedding，表示如下式。

$[Rtde,Ftid]=Φ(Ft)\left[\boldsymbol{R}_{t}^{\mathrm{de}}, \boldsymbol{F}_{t}^{i d}\right]=\Phi\left(\boldsymbol{F}_{t}\right)$

如上式和上圖所示，這里的 $Rtde\boldsymbol{R}_{t}^{\mathrm{de}}$ 表示檢測結(jié)果，它包含一個前景概率圖 $Ptde∈RH×W×1\boldsymbol{P}_{t}^{d e} \in \mathbb{R}^{H \times W \times 1}$ （通道數(shù)為1表示只有行人這一類）和邊框預(yù)測圖 $Btde∈RH×W×4\boldsymbol{B}_{t}^{d e} \in \mathbb{R}^{H \times W \times 4}$ ，而 $Ftid∈RH×W×C\boldsymbol{F}_{t}^{i d} \in \mathbb{R}^{H \times W \times C}$ （ $C = 512$ ）表示ID embedding。最后，檢測結(jié)果 $Rtde\boldsymbol{R}_{t}^{\mathrm{de}}$ 經(jīng)過greedy-NMS處理后得到基本檢測結(jié)果 $Dbase?\boldsymbol{D}_{\text {base }}$ 。 $Dbase?\boldsymbol{D}_{\text {base }}$ 中的每個box都對應(yīng) $Ftid\boldsymbol{F}_{t}^{i d}$ 中的一個 $\times 1 \times C$ 的embedding。不妨記所有的 $Dbase?\boldsymbol{D}_{\text {base }}$ 中的box對應(yīng)的embedding為一個集合 $Etid\boldsymbol{E}_{t}^{i d}$ 。最后， $Dbase?\boldsymbol{D}_{\text {base }}$ 和 $Etid\boldsymbol{E}_{t}^{i d}$ 用于和之前的軌跡段關(guān)聯(lián)，關(guān)聯(lián)采用貪婪二分圖匹配算法。

而在最近，CSTrack通過引入互注意力來緩解detection任務(wù)和ReID任務(wù)之間的競爭，從而以很少的開銷大大改善了JDE，CSTrack就是這篇論文工作的baseline（畢竟是作者本人的工作），關(guān)于CSTrack想要了解更多的可以參考我之前的解讀博客。

作者在CSTrack的基礎(chǔ)上，提出了一個re-check network來修復(fù)檢測器得出的虛假背景。如上圖所示，再次使用上一幀ID embedding $Et?1id\boldsymbol{E}_{t-1}^{i d}$ 作為一個目標(biāo)的時序線索，re-check network $Π\Pi$ 通過評估 $Et?1id\boldsymbol{E}_{t-1}^{i d}$ 和 $Ftid\boldsymbol{F}_{t}^{i d}$ 之間的相似度來轉(zhuǎn)換之前的軌跡。具體而言，作者修改了孿生網(wǎng)絡(luò)中的cross-correlation layer使之能夠單次前向就跟蹤多個目標(biāo)。此外，作者通過實驗發(fā)現(xiàn)，如果一個目標(biāo)在當(dāng)前幀出現(xiàn)，那么它傾向于在相似度圖中引入一個假陽性響應(yīng)。為了緩解這個問題，作者將視覺特征圖 $Ft\boldsymbol{F}_{t}$ 和相似度圖進(jìn)行了融合，然后將它們精煉為更精細(xì)的guidance map（指導(dǎo)圖）。為了簡化描述，re-check network可以表述如下。

$Mp=Π(Ftid,Et?1id,Ft)\boldsymbol{M}_{p}=\Pi\left(\boldsymbol{F}_{t}^{i d}, \boldsymbol{E}_{t-1}^{i d}, \boldsymbol{F}_{t}\right)$

這個式子中的 $Mp\boldsymbol{M}_{p}$ 是網(wǎng)絡(luò)最終的預(yù)測結(jié)果，它是之前軌跡段到當(dāng)前幀的轉(zhuǎn)換結(jié)果。將 $Mp\boldsymbol{M}_{p}$ 視為前景概率圖，并將它和原始的邊界框 $Btde\boldsymbol{B}_{t}^{d e}$ 一起送入greedy-NMS。NMS輸出的結(jié)果，稱為轉(zhuǎn)換檢測（transductive detections），記為 $Dtrans?\boldsymbol{D}_{\text {trans }}$ ，和原本的檢測器的檢測框 $Dbase?\boldsymbol{D}_{\text {base }}$ 組合到一起送入作者提出的IOU投票機制來產(chǎn)生最終的候選邊界框 $Dfinal\boldsymbol{D}_{\text {final}}$ 。此時，才算真正完成了目標(biāo)檢測， $Dfinal\boldsymbol{D}_{\text {final}}$ 和其在ID特征圖 $Ftid\boldsymbol{F}_{t}^{i d}$ 上對應(yīng)的ID embedding則用于后續(xù)的數(shù)據(jù)關(guān)聯(lián)。當(dāng)基本檢測結(jié)果誤分類目標(biāo)為背景時，transductive detections能夠重新檢查虛假背景并恢復(fù)漏檢的目標(biāo)框。

上面這個過程，簡要敘述了整個SiamMOT的pipeline，略過了諸多細(xì)節(jié)，下面將詳細(xì)分析其中幾個關(guān)鍵的模塊。

重檢查網(wǎng)絡(luò)

為了改善由于虛假背景產(chǎn)生的時序一致性破壞，作者提出了一個輕量的re-check network來恢復(fù)檢測器漏檢的目標(biāo)。更具體而言，re-check network包含兩個模塊，即下圖所示的用于軌跡傳播的transductive detection module（檢測轉(zhuǎn)換模塊）和用于假陽性過濾的refinement module（精煉模塊）。

Transductive Detection Module

首先來看這個轉(zhuǎn)換檢測模塊，它用于將之前的軌跡段傳播到當(dāng)前幀，換句話說，其實就是預(yù)測歷史軌跡在當(dāng)前幀的位置。具體來看，通過評估之前軌跡的embeddings $Et?1id={et?11,?,et?1n}\boldsymbol{E}_{t-1}^{i d}=\left\{\boldsymbol{e}_{t-1}^{1}, \cdots, \boldsymbol{e}_{t-1}^{n}\right\}$ 和當(dāng)前幀檢測結(jié)果的embeddings特征圖 $Ftid\boldsymbol{F}_t^{id}$ 之間的相似度來預(yù)測目標(biāo)的位置，這里的 $n$ 表示歷史軌跡的數(shù)目。對每個目標(biāo)都通過cross-correlation算子 $?$ 來獲得一個位置響應(yīng)圖 $m_i$ ，其計算式如下所示，可以看到，這其實就是一個普通的矩陣乘法，每個 $mi\boldsymbol{m}_{i}$ 的維度就是上圖所示的 $\times W \times 1$ 。

$mi=(et?1i?Ftid)∣i=1n\boldsymbol{m}_{i}=\left.\left(\boldsymbol{e}_{t-1}^{i} * \boldsymbol{F}_{t}^{i d}\right)\right|_{i=1} ^{n}$

在每個 $mi\boldsymbol{m}_i$ 中，最大值的位置就是之前軌跡的預(yù)測狀態(tài)，這樣的 $n$ 個 $mi\boldsymbol{m}_i$ 組合到一起就形成了一個相似度圖 $M={m1,?,mn}\boldsymbol{M}=\left\{\boldsymbol{m}_{1}, \cdots, \boldsymbol{m}_{n}\right\}$ ，其中的每個元素表示之前軌跡的轉(zhuǎn)換檢測結(jié)果。需要注意的是，改進(jìn)的cross-correlation操作可以很方便地通過矩陣乘法實現(xiàn)，通過主流的深度學(xué)習(xí)框架可以方便實現(xiàn)。這部分對應(yīng)上圖Transductive Detection Module部分的下面一部分，即 $n$ 個響應(yīng)圖。

接著，通過縮小高響應(yīng)的范圍，將 $mi\boldsymbol{m}_i$ 離散化為一個二值掩膜圖 $m^i\hat{\boldsymbol{m}}_{i}$ 。進(jìn)行這步操作的根本原因在于擁有相似外觀的目標(biāo)可能會帶來較高的響應(yīng)值，縮小高響應(yīng)范圍可以減少這種混淆的預(yù)測。形式上，這個二值掩膜的生成方式如下，這里的 $m^ixy\hat{\boldsymbol{m}}_{i}^{x y}$ 表示 $m^i\hat{\boldsymbol{m}}_{i}$ 上 $(x, y)$ 處的值， $c_x$ 和 $c_y$ 表示 $mi\boldsymbol{m}_i$ 上最大值的位置， $r$ 表示縮放半徑，在縮放半徑構(gòu)成的正方形內(nèi)置為1否則置為0。接著，這個二值掩膜圖和原始響應(yīng)圖相乘消除模糊的響應(yīng)結(jié)果，這里就是普通的點乘。

$m^ixy={1if?∥x?cx∥≤r,∥y?cy∥≤r0otherwise?\hat{\boldsymbol{m}}_{i}^{x y}=\left\{\begin{array}{ll} 1 & \text { if }\left\|x-c_{x}\right\| \leq r,\left\|y-c_{y}\right\| \leq r \\ 0 & \text { otherwise } \end{array}\right.$

接著，將 $n$ 個響應(yīng)圖沿著通道逐元素相加得到最終的相似度圖 $Ms\boldsymbol{M}_{s}$ ，這個相似度圖表示當(dāng)前幀每個位置包含之前幀中目標(biāo)的概率，如果一個位置有一個高置信度的響應(yīng)得分，那么這里就有一個和之前軌跡相關(guān)的潛在邊界框。

$Ms=∑i=1n(m^i?mi)\boldsymbol{M}_{s}=\sum_{i=1}^{n}\left(\hat{\boldsymbol{m}}_{i} \cdot \boldsymbol{m}_{i}\right)$

這一部分對應(yīng)上圖的Transductive Detection Module部分。

Refinement Module

但是上面這種軌跡預(yù)測也會帶來一些問題，作者發(fā)現(xiàn)沒有出現(xiàn)在當(dāng)前幀的那些目標(biāo)在tracklet transduction的過程中會帶來一些假陽性樣本。為了緩解這個問題，作者設(shè)計了一個Refinement Module來引入當(dāng)前幀原始的視覺特征 $Ft∈RH×W×C(C=256)\boldsymbol{F}_{t} \in \mathbb{R}^{H \times W \times C}(\mathrm{C}=256)$ 來提供語義信息以進(jìn)行更精細(xì)的定位。作者首先將上面的 $Ms\boldsymbol{M_s}$ 通過inverted bottleneck模塊進(jìn)行編碼，這是一個通過兩個3x3卷積先升維再降維的過程，得到精煉的相似度圖 $Ms′∈RH×W×1\boldsymbol{M}_{s}^{\prime} \in \mathbb{R}^{H \times W \times 1}$ 和 $Ft\boldsymbol{F}_t$ 進(jìn)行逐元素相乘得到增強的特征 $F^∈RH×W×C(C=256)\hat{\boldsymbol{F}} \in \mathbb{R}^{H \times W \times C}(\mathrm{C}=256)$ ，這個計算過程如下式。

$F^=Ft?Ms′\hat{\boldsymbol{F}}=\boldsymbol{F}_{t} \cdot \boldsymbol{M}_{s}^{\prime}$

接著，這個增強的特征 $F^\hat{\boldsymbol{F}}$ 經(jīng)過幾個卷積層得到最終的預(yù)測 $Mp\boldsymbol{M}_{p}$ ，這是一個精煉后的響應(yīng)圖，和輸入Refinement Module之前的響應(yīng)圖shape相同。

Optimization

上面通過兩個模塊的分析介紹了re-check network，但是這個模塊引入CSTrack這樣的模型中是需要額外的監(jiān)督的，因此作者設(shè)計了一個新的損失。相似度圖 $Mp\boldsymbol{M}_p$ 的GT通過多個高斯分布的組合來定義，具體而言，對每個目標(biāo)，它的監(jiān)督信號是一個高斯掩膜如下所示，這里的 $ci=(cix,ciy)c_{i}=\left(c_{i}^{x}, c_{i}^{y}\right)$ 表示一個目標(biāo)的中心位置而 $σi\sigma_{i}$ 是目標(biāo)尺寸自適應(yīng)的標(biāo)準(zhǔn)差。這里需要注意的是，由于GT是根據(jù)當(dāng)前幀產(chǎn)生的，而re-check網(wǎng)絡(luò)的輸入是上一幀，因此網(wǎng)絡(luò)想要預(yù)測出GT必須學(xué)會運動預(yù)測的能力。

$ti=exp?(?(x?cix)2+(y?ciy)22σi2)\boldsymbol{t}_{i}=\exp \left(-\frac{\left(x-c_{i}^{x}\right)^{2}+\left(y-c_{i}^{y}\right)^{2}}{2 \sigma_{i}^{2}}\right)$

上面的式子生成一系列的GT mask $t={t1,…,tn}\boldsymbol{t}=\left\{\boldsymbol{t}_{1}, \ldots, \boldsymbol{t}_{n}\right\}$ ，然后沿著通道維度求和就得到了 $Mp\boldsymbol{M}_p$ 的監(jiān)督信號 $T\boldsymbol{T}$ 。為了減少兩個高斯分布之間的重疊，為 $σi\sigma_{i}$ 設(shè)置一個值為1的上界。使用Logistic-MSE損失來訓(xùn)練re-check網(wǎng)絡(luò)，損失公式如下式， $Mxy\boldsymbol{M}^{x y}$ 和 $Txy\boldsymbol{T}^{x y}$ 分別表示 $Mp\boldsymbol{M}_p$ 和 $T\boldsymbol{T}$ 上 $(x, y)$ 位置的值。

$Lg=?1n∑xv{(1?Mpxy)log?(Mpxy),if?Txy=1(1?Txy)Mpxylog?(1?Mpxy),else?\mathcal{L}_{g}=-\frac{1}{n} \sum_{x v}\left\{\begin{array}{l} \left(1-\boldsymbol{M}_{p}^{x y}\right) \log \left(\boldsymbol{M}_{p}^{x y}\right), \quad \text { if } \boldsymbol{T}^{x y}=1 \\ \left(1-\boldsymbol{T}^{x y}\right) \boldsymbol{M}_{p}^{x y} \log \left(1-\boldsymbol{M}_{p}^{x y}\right), \text { else } \end{array}\right.$

檢測框融合

通過re-check網(wǎng)絡(luò)，得到了歷史軌跡在當(dāng)前幀上的預(yù)測框 $Dtrans\boldsymbol{D}_{trans}$ 和檢測器在當(dāng)前幀上的檢測框 $Dbase\boldsymbol{D}_{base}$ ，但是如何將這兩個融合到一起用于最終的數(shù)據(jù)關(guān)聯(lián)呢？首先，為 $Dtrans\boldsymbol{D}_{trans}$ 中的每一個邊界框 $bi\boldsymbol{b}_i$ 計算目標(biāo)度得分（targetness score），得分的計算基于其與檢測框的最大IOU，式子如下。

$s=1?max?(IOU?(bi,Dbase?))s=1-\max \left(\operatorname{IOU}\left(\boldsymbol{b}_{i}, \boldsymbol{D}_{\text {base }}\right)\right)$

$s$ 值越大表明框 $bi\boldsymbol{b}_i$ 并沒有出現(xiàn)在檢測器的檢測結(jié)果中，因此它就可能是一個漏檢框。若這個框的 $s$ 值高于閾值 $?\epsilon$ ，那么這個框就作為檢測框的補充加進(jìn)去，作者設(shè)置的 $?\epsilon$ 為0.5。通過這個融合，可以將檢測器漏掉的檢測框找回來，保證軌跡的連續(xù)性。具體的算法如下圖，比較清晰明了。

實驗

我們知道在JDE和CSTrack中，anchor和GT之間的偏移是通過sigmoid函數(shù)約束在0到1之間的，這里記anchor的中心為 $a=(ax,ay)a=\left(a_{x}, a_{y}\right)$ ，GT的中心為 $b=(bx,by)b=\left(b_{x}, b_{y}\right)$ ，兩者的偏移通過下式計算，這里的 $r$ 就是回歸分支的輸出。

$Δ=b?a=Sigmoid?(r)\boldsymbol{\Delta}=\boldsymbol{b}-\boldsymbol{a}=\operatorname{Sigmoid}(\boldsymbol{r})$

但是，作者發(fā)現(xiàn)，其實在圖像的邊界上，偏移量經(jīng)常是大于1的。如下圖所示，GT框的中心（綠色表示）已經(jīng)超出了圖像的邊界，然而由于sigmoid函數(shù)的約束。預(yù)測框（紅色表示）很難覆蓋整個目標(biāo)。當(dāng)一個目標(biāo)只出現(xiàn)部分身體，不完整的邊界框預(yù)測將被視為假陽性樣本，這是因為其與GT框的距離很遠(yuǎn)并且不完整，這使得跟蹤的性能最終下降。為了緩解這個問題，作者將回歸機制修改為邊界感知回歸（boundary-aware regression，BAR），它允許跟蹤器通過可見身體推理出目標(biāo)的全身區(qū)域。

具體來看，將上面那個式子修改如下，這里的 $h$ 是一個可學(xué)習(xí)的尺度參數(shù)，這個尺度參數(shù)允許網(wǎng)絡(luò)預(yù)測大于1的偏移。如上圖的?所示，BAR能夠通過可見部分預(yù)測出目標(biāo)的不可見部分。

$Δ=b?a=(Sigmoid?(r)?0.5)×h\boldsymbol{\Delta}=\boldsymbol{b}-\boldsymbol{a}=(\operatorname{Sigmoid}(\boldsymbol{r})-0.5) \times h$

至于實驗的設(shè)置和評估指標(biāo)的配置之類的，就和CSTrack一樣了，這里就不展開敘述了。下面來看一下SiamMOT在幾個benchmark上的SOTA表現(xiàn)，可以看到，其精度是非常卓越的，雖然速度相比原來的CSTrack有所下降。

此外，作者也進(jìn)行了消融實驗對比提出的re-check network（RCNet）和BAR的收益，如下表所示。可以看到，RCNet的效果是非常明顯的，這也進(jìn)一步說明，MOT這個任務(wù)其實是非常依賴顯式的時序信息的。

其他的組件的消融實驗我這里不多說了，感興趣的可以查看原文。可視化方面作者也做了不少，下面這個圖第一列是原始圖像，第二列是Transductive Detection Module輸出，第三列則是Refinement Module輸出的。從圖上第二列可以看出來，之前軌跡的狀態(tài)被有效轉(zhuǎn)移到了當(dāng)前幀，第三列則表示精煉模塊確實有效過濾了假陽性。SiamMOT在遮擋嚴(yán)重的情況下依然可以保證跟蹤的魯棒性切處理較小的目標(biāo)。

總結(jié)

這篇論文將重點放在了MOT的檢測質(zhì)量方面，設(shè)計了一個非常優(yōu)雅的運動模型將歷史軌跡的信息轉(zhuǎn)換到當(dāng)前幀上來補充檢測器沒能準(zhǔn)確檢測的目標(biāo)，使得整個軌跡更加平滑連續(xù)，在CSTrack的基礎(chǔ)上有了比較大的突破，是很值得關(guān)注的一個方法。本文也只是我本人從自身出發(fā)對這篇文章進(jìn)行的解讀，想要更詳細(xì)理解的強烈推薦閱讀原論文。最后，如果我的文章對你有所幫助，歡迎一鍵三連，你的支持是我不懈創(chuàng)作的動力。

總結(jié)

以上是生活随笔為你收集整理的CSTrackV2解读的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： GHM解读
下一篇： 0001-Two Sum(两数之和)

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

CSTrackV2解读

簡介

介紹

SiamMOT

整體框架

重檢查網(wǎng)絡(luò)

檢測框融合

實驗

總結(jié)

總結(jié)