目标跟踪经典论文阅读(1)MOSSE
摘要
雖然不常用,但相關(guān)濾波器可以通過旋轉(zhuǎn)、遮擋和其他干擾來跟蹤復(fù)雜的物體,其速度是目前最先進(jìn)技術(shù)的20倍以上。最古老和最簡單的相關(guān)濾波器使用簡單的模板,通常在應(yīng)用于跟蹤時失敗。更現(xiàn)代的方法,如ASEF和UMACE表現(xiàn)更好,但它們的培訓(xùn)需求不適合跟蹤。視覺跟蹤需要從一幀中訓(xùn)練出魯棒濾波器,并隨著目標(biāo)物體外觀的變化而動態(tài)調(diào)整。
本文提出了一種新型的相關(guān)濾波器——最小輸出平方和(Minimum Output Sum of Squared Error, MOSSE)濾波器,該濾波器在使用單幀初始化時產(chǎn)生穩(wěn)定的相關(guān)濾波器。基于MOSSE濾波器的跟蹤器在每秒運(yùn)行669幀時,對光線、比例、姿態(tài)和非剛性變形的變化具有魯棒性。遮擋是根據(jù)峰旁瓣比檢測到的,這使跟蹤器暫停和恢復(fù)它離開的地方,當(dāng)對象重新出現(xiàn)
注:本文包含額外的數(shù)字和內(nèi)容,這些數(shù)字和內(nèi)容被排除在CVPR 2010中,以滿足長度要求。
本文提出一種新型的相關(guān)濾波器,Minimum Output Sum of Squared Error(MOSSE):輸出的平方差誤差最小濾波器,在初始化時只使用一個單獨的幀就可以產(chǎn)生穩(wěn)定的相關(guān)濾波器,一個基于MOSSE的跟蹤器對光線、比例、姿態(tài)和非剛性變化具有魯棒性。遮擋是根據(jù)(peak-to-sidelobe ratio)峰旁瓣比檢測到的,這使得跟蹤器能夠在對象重新出現(xiàn)時暫停并恢復(fù)到停止的位置。(峰旁瓣比是啥后面再看)
?1.引言
視覺跟蹤在視頻處理中有許多實際應(yīng)用。當(dāng)目標(biāo)在視頻的一幀中被定位時,在隨后的幀中跟蹤該目標(biāo)通常是有用的。成功跟蹤目標(biāo)的每一幀都提供了更多關(guān)于目標(biāo)身份和活動的信息。因為跟蹤比檢測更容易,跟蹤算法比在每幀上運(yùn)行一個對象檢測器可以使用更少的計算資源。
近年來,視覺跟蹤受到了廣泛關(guān)注。許多魯棒跟蹤策略已經(jīng)被提出,容忍目標(biāo)外觀的變化,并通過復(fù)雜的運(yùn)動跟蹤目標(biāo)。最近的例子包括:增量視覺跟蹤(IVT)[17],魯棒碎片跟蹤(FragTrack)[1],基于圖的鑒別學(xué)習(xí)(GBDL)[19]和多實例學(xué)習(xí)(MILTrack)[2]。這些技巧雖然有效,但并不簡單;它們通常包括復(fù)雜的外觀模型和/或優(yōu)化算法,因此很難跟上許多現(xiàn)代相機(jī)產(chǎn)生的每秒25到30幀的速度(見表1)。
在本文中,我們研究了一種更簡單的跟蹤策略。采用自適應(yīng)相關(guān)濾波器對目標(biāo)外觀進(jìn)行建模,通過卷積實現(xiàn)跟蹤。創(chuàng)建濾波器的簡單方法,比如從圖像中裁剪模板,會產(chǎn)生目標(biāo)的強(qiáng)烈峰值,但也會錯誤地響應(yīng)背景。因此,他們不是特別健壯的變化的目標(biāo)外觀和失敗的挑戰(zhàn)跟蹤問題。本文介紹的平均合成精確濾波器(ASEF)、無約束最小平均相關(guān)能(UMACE)和最小輸出平方和誤差(MOSSE)濾波器對外觀變化具有更強(qiáng)的魯棒性,并能更好地區(qū)分目標(biāo)和背景。如圖2所示,結(jié)果是一個更強(qiáng)的峰值,這意味著更少的漂移和更少的丟失軌跡。傳統(tǒng)上,ASEF和UMACE濾波器是離線訓(xùn)練的,用于目標(biāo)檢測或目標(biāo)識別。在這項研究中,我們修改了這些技術(shù),以在線訓(xùn)練和自適應(yīng)莊園的視覺跟蹤。結(jié)果是跟蹤與狀態(tài)的藝術(shù)表現(xiàn),保留了很大程度上的速度和簡單的基礎(chǔ)上的相關(guān)性方法。
盡管方法很簡單,但基于改進(jìn)的ASEF、UMACE或MOSSE濾波器的跟蹤在旋轉(zhuǎn)、尺度、光照和部分遮擋的變化下表現(xiàn)良好(見圖1)。峰旁瓣比(PSR),衡量相關(guān)峰值的強(qiáng)度,可用于檢測遮擋或跟蹤失敗,停止在線更新,并在物體以相似外觀重新出現(xiàn)時重新獲取軌跡。更一般地說,這些高級相關(guān)濾波器的性能與前面提到的更復(fù)雜的跟蹤器一致;然而,基于濾波器的方法的速度超過20倍,每秒可以處理669幀(見表1)。
本文的其余部分組織如下。第2節(jié)回顧了相關(guān)的相關(guān)濾波技術(shù)。第3節(jié)介紹MOSSE濾波器,以及如何使用它來創(chuàng)建一個健壯的基于濾波器的跟蹤器。第4節(jié)介紹了[17]的7個視頻序列的實驗結(jié)果。最后,第5節(jié)將回顧本文的主要發(fā)現(xiàn)。
目標(biāo)在某一幀被定位時,對隨后的幀對該目標(biāo)的定位是有作用的。跟蹤比檢測容易,跟蹤算法比在每一幀上運(yùn)行一個對象檢測器容易。有些跟蹤策略比如......包含了復(fù)雜的外觀模型或優(yōu)化算法,因此很難跟得上現(xiàn)在每秒25-30幀的速度。
本文研究了一種更為簡單的算法,采用自適應(yīng)相關(guān)濾波器進(jìn)行建模,通過卷積實現(xiàn)跟蹤。簡單的方法,比如我直接從圖像中裁剪目標(biāo)的一部分當(dāng)作對象來跟蹤,確實會保存下對象的很多特征,但是背景信息也會被錯誤的保存下來,ASEF、UMACE和本文介紹的MOSSE對變化具有更強(qiáng)的魯棒性,更能區(qū)分目標(biāo)和背景。前倆是離線的,MOSSE是在線的。速度達(dá)到之前的20倍。
峰旁瓣比(PSR):衡量相關(guān)峰值的強(qiáng)度,可用于檢測遮擋或跟蹤失敗,然后停止在線更新,并在物體以相似外觀重新出現(xiàn)時重新獲取軌跡。
2.背景?
在20世紀(jì)80年代和90年代,相關(guān)濾波器的許多變種,包括合成判別函數(shù)(SDF)[7,6]、最小方差合成判別函數(shù)(MVSDF)[9]、最小平均相關(guān)能(MACE)[11]、最優(yōu)權(quán)衡濾波器(OTF)[16]和最小平方誤差合成判別函數(shù)(MSESDF)[10]。這些濾波器訓(xùn)練的目標(biāo)對象的例子具有不同的外觀和強(qiáng)制硬約束,這樣濾波器將始終產(chǎn)生相同高度的峰值。最相關(guān)的是MACE,它產(chǎn)生尖銳的峰值和高psr。
在[12]中,我們發(fā)現(xiàn)基于SDF的濾波器(如MACE)的硬約束會導(dǎo)致失真容忍問題。解決方案是消除硬約束,而不是要求濾波器產(chǎn)生高平均相關(guān)響應(yīng)。這種被稱為最大平均相關(guān)高度(MACH)的新型“無約束”相關(guān)濾波器導(dǎo)致了一種名為UMACE的MACE變體。
一種名為ASEF[3]的新型相關(guān)濾波器引入了一種針對特定任務(wù)的調(diào)整濾波器的方法。以前的方法只指定一個峰值,而ASEF指定每個訓(xùn)練圖像的整個相關(guān)輸出。ASEF在眼睛定位[3]和行人檢測[4]上都表現(xiàn)良好。不幸的是,在這兩項研究中,ASEF都需要大量的訓(xùn)練圖像,這使得它在視覺跟蹤中速度太慢。本文通過引入一種適用于視覺跟蹤的正則化ASEF,減少了對數(shù)據(jù)的需求。
3.基于相關(guān)濾波器的跟蹤
基于濾波器的跟蹤器使用在示例圖像上訓(xùn)練的濾波器來建模對象的外觀。目標(biāo)的初始選擇基于以第一幀目標(biāo)為中心的小跟蹤窗口。從這一點開始,跟蹤和過濾訓(xùn)練一起工作。通過下一幀搜索窗口上的相關(guān)濾波器跟蹤目標(biāo);相關(guān)輸出中最大值對應(yīng)的位置表示目標(biāo)的新位置。然后根據(jù)新位置執(zhí)行在線更新。
為了創(chuàng)建快速跟蹤器,相關(guān)性是在傅里葉域計算快速傅里葉變換(FFT)[15]。首先計算輸入圖像的二維傅里葉變換,濾波器的二維傅里葉變換:。卷積定理表明相關(guān)性在傅里葉域中變成了一種線性乘法。使用符號顯式表示元素級的乘法,?表示復(fù)合共軛,相關(guān)性的形式如下:
?利用反FFT將相關(guān)輸出轉(zhuǎn)換回空間域。該過程的瓶頸在于計算正反fft,使得整個過程的上限時間為O(P log P),其中P為跟蹤窗口中的像素個數(shù)。
在本節(jié)中,我們討論基于濾波器的跟蹤器的組成部分。第3.1節(jié)討論了對跟蹤窗口進(jìn)行的預(yù)處理。第3.2節(jié)介紹了MOSSE濾波器,這是一種改進(jìn)的方法,從少量圖像構(gòu)建穩(wěn)定的相關(guān)濾波器。第3.3節(jié)展示了如何使用正則化來產(chǎn)生更穩(wěn)定的UMACE和ASEF濾波器。第3.4節(jié)討論了用于在線更新濾波器的簡單策略。
目標(biāo)的初始選擇基于第一幀中以目標(biāo)為中心的小窗口,目標(biāo)的跟蹤和過濾器的訓(xùn)練是一起進(jìn)行的,目標(biāo)通過在在下一幀搜索窗口中?correlating the filter來進(jìn)行跟蹤,輸出中最大值的位置即是目標(biāo)的新位置,以此類推。
相關(guān)性是在傅里葉域計算快速傅里葉變換(FFT)。首先計算輸入圖像的FFT,然后,計算濾波器的FFT,在傅里葉域中用線性乘法就可以表示他們的相關(guān)性,然后利用反FFT將輸出變回到空間域。
G就是輸出的相關(guān)性,F就是輸入圖像,H*就是他想要找的濾波器。在輸入幀中找到與濾波器相關(guān)性最大的即為要跟蹤的目標(biāo)。
3.1預(yù)處理
FFT卷積算法的一個問題是圖像和濾波器映射到一個環(huán)面的拓?fù)浣Y(jié)構(gòu)。換句話說,它連接了圖像的左邊緣到右邊緣,頂部到底部。
在卷積過程中,圖像在環(huán)面空間中旋轉(zhuǎn),而不是像在空間域中那樣平移。人為地連接圖像的邊界會引入一種影響相關(guān)輸出的偽影。
通過執(zhí)行[3]中概述的預(yù)處理步驟,可以減少這種影響。首先,像素值轉(zhuǎn)換使用日志函數(shù),這有助于低對比度照明情況。像素值被歸一化為平均值0.0和范數(shù)1.0。最后,將圖像乘以余弦窗,使邊緣附近的像素值逐漸減少到零。這也有一個好處,它把重點放在靠近目標(biāo)中心的地方
人為的連接上下,左右邊界會對原來的信息造成影響,預(yù)處理的作用就是減少邊緣的影響,把關(guān)注的重心放在靠近目標(biāo)中心的地方。
3.2 MOSSE濾波器
MOSSE是一種算法,用于從較少的訓(xùn)練圖像中產(chǎn)生類ASEF的濾波器。首先,它需要一組訓(xùn)練圖像fi和訓(xùn)練輸出gi。一般來說,gi可以是任何形狀。在這種情況下,gi是由真實值生成的,這樣它在訓(xùn)練圖像fi中有一個以目標(biāo)為中心的緊湊(σ = 2.0) 2D高斯形峰值。訓(xùn)練是在傅里葉域進(jìn)行的,以利用簡單的元素之間的輸入和輸出的關(guān)系。在上一節(jié)中,我們將大寫變量Fi 、Gi和濾波器H定義為它們的小寫對應(yīng)變量的傅里葉變換。按元素執(zhí)行除法。
為了找到一個將訓(xùn)練輸入映射到期望訓(xùn)練輸出的濾波器,MOSSE找到一個濾波器H,使卷積的實際輸出和期望輸出之間的平方和誤差最小。最小化問題的形式如下:
?對輸出最小化平方和誤差(SSE)的想法并不是新的。實際上,式3中的優(yōu)化問題與[10]和[12]中的優(yōu)化問題幾乎是相同的。不同的是,在這些工作中,它假設(shè)目標(biāo)總是小心地以fi為中心,輸出(gi)對整個訓(xùn)練集是固定的,而定制每個gi是ASEF和MOSSE背后的基本思想。在跟蹤問題中,目標(biāo)不總是居中的,在目標(biāo)跟蹤中峰值會跟隨目標(biāo)運(yùn)動。在更一般的情況下,gi可以有任何形狀。例如,在[4]中,fi包含多個目標(biāo),gi有多個對應(yīng)的峰值。
解決這個優(yōu)化問題并不是特別困難,但確實需要一些小心,因為被優(yōu)化的函數(shù)是一個復(fù)變量的實值函數(shù)。首先,H的每個元素(由ω和ν索引)都可以獨立求解,因為傅里葉域中的所有操作都是按元素執(zhí)行的。這涉及到把函數(shù)寫成和的形式。然后,部分W.R.T. 設(shè)為零,同時把當(dāng)作自變量[13]。
?通過求解,可以找到MOSSE濾波器的封閉形式表達(dá)式:
?完整的推導(dǎo)過程見附錄A。公式5中的術(shù)語有一個有趣的解釋。分子是輸入和期望輸出之間的相關(guān)性,分母是輸入的能譜。
由式5,我們可以很容易地證明UMACE是MOSSE的一個特例。UMACE被定義為H * = D?1m *,其中m是一個向量,包含平均的中心裁剪訓(xùn)練圖像的FFT, D是一個對角矩陣,包含訓(xùn)練圖像的平均頻譜[18]。因為D是一個對角線矩陣,與它的逆矩陣的乘法本質(zhì)上執(zhí)行了元素的除法。當(dāng)用當(dāng)前的表示法重寫時,UMACE的形式如下:
?但是,UMACE要求目標(biāo)以Fi為中心。再入可以使用相關(guān)性進(jìn)行。如果我們將gi定義為一個克羅內(nèi)克delta(在目標(biāo)中心的峰值為1,在其他地方為0),這將本質(zhì)上使目標(biāo)重新中心并計算一個UMACE濾波器。這種方法和傳統(tǒng)方法的不同之處在于,在這里我們種植然后轉(zhuǎn)化,而傳統(tǒng)方法是翻譯然后轉(zhuǎn)化。
為了證明MOSSE產(chǎn)生比ASEF更好的濾波器,進(jìn)行了一個實驗,改變用于訓(xùn)練濾波器的圖像數(shù)量。濾波器通過對視頻第一幀的跟蹤窗口應(yīng)用隨機(jī)小仿射擾動來初始化。第二幀的PSR被用來衡量濾波器的質(zhì)量。圖3顯示,當(dāng)在少量圖像窗口上訓(xùn)練時,MOSSE產(chǎn)生更好的濾波器。原因?qū)⒃谙乱还?jié)中討論。
1.需要一組訓(xùn)練圖像fi和對應(yīng)的輸出gi,gi是Ground truth,訓(xùn)練在傅里葉域里進(jìn)行。
2.重點就是找到一個合適的濾波器,使他能夠跟蹤目標(biāo)。作者找到的就是使輸出的誤差平方和最小(Minimum Output Sum of Squared Error)。
3.濾波器H的每個元素可以獨立求解,因為傅里葉域中的所有操作都是按元素執(zhí)行的。所以我們可以把函數(shù)寫成和,ω和ν就是濾波器元素的索引,將公式的偏導(dǎo)等于0即可求出濾波器。詳細(xì)過程在這:
?把平方乘開然后對求導(dǎo):
然后我們在從整體來看就是:
?其實要做的就是求出這個濾波器H,然他能根據(jù)輸入圖像輸出更好的響應(yīng)位置信息。
3.3 ASEF的正則化
ASEF采用了一種略有不同的方法來最小化相關(guān)變換中的誤差。事實證明,當(dāng)只有一個訓(xùn)練圖像Fi和一個輸出圖像Gi時,存在一個產(chǎn)生零誤差的濾波器。這個過濾器被稱為精確濾波器,可以通過求解方程1找到:
?一個精確的濾波器訓(xùn)練一個圖像幾乎總是過擬合的圖像。當(dāng)應(yīng)用于新圖像時,該濾波器通常會失敗。平均是用來產(chǎn)生一個更一般的濾波器。平均的動機(jī)來自Bootstrap Aggregation[5],其中弱分類器的輸出可以平均產(chǎn)生一個強(qiáng)得多的分類器。經(jīng)過一些處理,ASEF濾波器的方程可以顯示為:
?如果只使用一張圖像進(jìn)行訓(xùn)練,MOSSE和ASEF都會產(chǎn)生精確的濾波器(過擬合)。
ASEF濾波器在少量圖像上訓(xùn)練時是不穩(wěn)定的,因為當(dāng)訓(xùn)練圖像中的頻率包含很少的能量(或分母接近于零)時,方程8中的元素除法變得不穩(wěn)定。對大量精確濾波器進(jìn)行平均可以彌補(bǔ)這一問題,并產(chǎn)生魯棒的ASEF濾波器。因為MOSSE的分母是更多圖像上能量的總和,它很少產(chǎn)生小的數(shù)字,因此更穩(wěn)定。
另外,正則化可以用于校正低能量頻率和產(chǎn)生更穩(wěn)定的ASEF濾波器。這是通過給能譜中的每個元素添加一個小值來實現(xiàn)的。被取代,為正則化參數(shù)。
正則化類似于來自O(shè)TF理論的結(jié)果,通常與UMACE濾波器一起使用。這一結(jié)果表明,將背景噪聲的能譜與訓(xùn)練圖像的能譜相結(jié)合,可以得到一個噪聲容忍能力較好的濾波器[16]。這里我們添加了白噪聲
圖4顯示了調(diào)整的效果。通過適當(dāng)?shù)恼齽t化,所有的濾波器都產(chǎn)生了良好的峰值,并且應(yīng)該足夠穩(wěn)定,以產(chǎn)生良好的軌跡。
?平均的思想,正則化防止數(shù)據(jù)太少時過擬合。
3.4初始化濾波器和在線更新?
方程8和5描述了在初始化期間如何構(gòu)造濾波器。利用隨機(jī)仿射變換構(gòu)造訓(xùn)練集,生成初始幀中跟蹤窗口的8個小擾動(fi)。訓(xùn)練輸出(gi)也產(chǎn)生,其峰值對應(yīng)于目標(biāo)中心。
在跟蹤過程中,目標(biāo)通常可以通過改變其旋轉(zhuǎn)、比例、姿態(tài),通過在不同的光照條件下移動,甚至通過進(jìn)行非剛性變形來改變外觀。因此,濾波器需要快速適應(yīng)以跟蹤對象。運(yùn)行平均值用于此目的。例如,從第i幀學(xué)習(xí)到的ASEF濾波器計算為:
和從第i幀學(xué)習(xí)到的MOSSEF濾波器計算為:?
?其中η為學(xué)習(xí)率。這給最近的幀增加了更多的權(quán)重,讓以前幀的效果隨著時間指數(shù)衰減。在實踐中,我們發(fā)現(xiàn)η = 0.125允許濾波器快速適應(yīng)外觀變化,同時仍然保持一個健壯的濾波器。
我們訓(xùn)練mosse,就要通過一些輸入fi和輸出gi,對于初始化第一幀,它本身就是fi,為了防止過擬合,作者利用隨機(jī)仿射生成了8個擾動fi,gi由高斯函數(shù)給出防止過擬合,然后依次采用10,11,12的更新策略來進(jìn)行更新,mosse的。由式子可以看出,更新的濾波器是由當(dāng)前幀和上一幀共同決定的。
3.5失效檢測和PSR?
如前所述,峰強(qiáng)度的簡單測量稱為峰旁瓣比(PSR)。為了計算PSR,將相關(guān)輸出g分為峰值和副瓣,其中峰值是最大值,副瓣是峰值周圍除11 × 11窗口外的其余像素。然后將PSR定義為,其中g(shù)max為峰值,μsl和σsl為副瓣的均值和標(biāo)準(zhǔn)差。
根據(jù)我們的經(jīng)驗,正常跟蹤條件下UMACE、ASEF和MOSSE的PSR通常在20.0到60.0之間,這表明峰值非常強(qiáng)。我們已經(jīng)發(fā)現(xiàn)當(dāng)PSR下降到7.0左右時,這是一個對象被遮擋或跟蹤失敗的跡象。對于Naive實現(xiàn),PSR范圍在3.0到10.0之間,對于預(yù)測軌跡質(zhì)量沒有幫助。
?4.評價
最初,我們創(chuàng)建了一個基于MOSSE的實時跟蹤系統(tǒng),并在網(wǎng)絡(luò)攝像頭的實時視頻上進(jìn)行評估。實時反饋可以很容易地測試跟蹤器配置的小變化,并對各種目標(biāo)和跟蹤條件下的跟蹤器性能進(jìn)行定性分析。這些測試為跟蹤器的操作提供了有價值的見解,并幫助產(chǎn)生本文中提出的快速和健壯的跟蹤器。
可以從http://www.cs.toronto.edu/~dross/ivt/免費(fèi)下載的7個常用測試視頻進(jìn)行了更有針對性的評價。測試視頻都是灰度的,包括具有挑戰(zhàn)性的燈光變化、姿勢和外觀。在所有的視頻中,攝像機(jī)本身都在移動,這增加了目標(biāo)的不穩(wěn)定運(yùn)動。這七個序列包括兩個車輛跟蹤場景(car4, car11),兩個玩具跟蹤場景(魚,sylv),和三個人臉跟蹤場景(davidin300, dudek,和trellis70)。
4.1濾波器比較
本節(jié)評估UMACE、ASEF和MOSSE濾波器的跟蹤質(zhì)量。與簡單濾波器相比,簡單濾波器是基于在線更新的平均預(yù)處理跟蹤窗口。跟蹤輸出被手工標(biāo)記為良好跟蹤、偏離中心的跟蹤或丟失的跟蹤(見圖5)
定性地說,所有的濾鏡,包括簡單濾波器,都能夠在測試集中發(fā)現(xiàn)的所有尺度、旋轉(zhuǎn)和照明變化的范圍內(nèi),以很小的漂移跟蹤物體。大多數(shù)漂移和故障發(fā)生在目標(biāo)經(jīng)歷大的面外旋轉(zhuǎn)時。有關(guān)davidin300序列的示例,請參見圖6。濾波器傾向于跟蹤目標(biāo)中心的一個點,隨著目標(biāo)的旋轉(zhuǎn),該點向目標(biāo)邊界移動,跟蹤器最終處于跟蹤窗口被背景覆蓋的狀態(tài)。濾波器適應(yīng)這個半背景窗口,當(dāng)目標(biāo)旋轉(zhuǎn)回一個正面姿態(tài),濾波器有時會轉(zhuǎn)移到一個新的位置,或者他們可能會失去目標(biāo)和跟蹤背景。
這些結(jié)果表明,先進(jìn)的相關(guān)濾波器比樸素方法跟蹤目標(biāo)的時間更長。尖銳的峰值也有好處,PSR是一個很好的跟蹤質(zhì)量預(yù)測器,而PSR不是特別為樸素濾波器提供信息。對于高級濾波器,漂移和故障總是與較低的psr有關(guān)。如圖7所示,這表明MOSSE PSR可以定位該視頻中最具挑戰(zhàn)性的部分。
對于基于濾波器的跟蹤器,很難斷言任何一種濾波器類型明顯優(yōu)于另一種類型。在7個視頻序列中的4個,相關(guān)濾波器表現(xiàn)完美。在davidin300上,所有的濾鏡在同一平面外旋轉(zhuǎn)過程中從臉部中心漂移到眼睛,在sylv中,濾鏡在該序列中相同困難的部分漂移。這兩個序列表明濾波器類型的選擇不是特別重要,因為濾波器以完全相同的方式失敗。
只有在dudek序列上,三個濾波器之間有顯著的差異。雖然MOSSE完美地完成了這一序列,但UMACE和ASEF在具有挑戰(zhàn)性的視頻部分出現(xiàn)了問題。即使在第3節(jié)中提出的證據(jù)表明MOSSE可能是這項任務(wù)的最佳濾波器,一個視頻序列上的單個失敗不足以支持一個強(qiáng)有力的主張;還需要更多的研究。
4.2與其他跟蹤器的比較
為了評估算法維護(hù)軌跡的能力,我們將我們的輸出與IVT[17]和MILTrack[2]作者發(fā)布的視頻進(jìn)行了比較(參見第4.1節(jié))。這些視頻還包含了健壯在線外觀模型(漫游)[8],在線Ada-Boost (OAB)[14]和FragTrack[1]的樣本結(jié)果。我們考慮過下載其他算法的代碼,但我們選擇研究作者自己的視頻,這些視頻代表了這些算法的最佳性能,這也緩解了我們未能正確實現(xiàn)或調(diào)整這些算法的爭論。在這些比較中,我們的方法能夠與那些算法保持相同或更好的軌跡。本著這種精神,我們還將我們的結(jié)果發(fā)布在我們的網(wǎng)站/Y ouTube (http://youtube.com/users/bolme2008),以便其他人進(jìn)行相同的比較。圖8描述了視頻中的格式和注釋。
在[17]中,IVT[17]和ROAM[8]在圖5的四個序列上進(jìn)行比較。其中,davidin300和dudek序列成功完成。sylv在620幀附近IVT失敗,trellis70在330幀附近IVT失敗。在發(fā)布的視頻序列中,漫游跟蹤器表現(xiàn)完美;然而,sylv和trellis70的視頻在IVT失敗后不久就停止了,目前尚不清楚“漫游”是否成功完成了這些序列。這兩種跟蹤器的一個特點是基于濾波器的跟蹤器所缺乏的,即它們估計目標(biāo)的規(guī)模和方向,從而提供更多的目標(biāo)在空間中的位置信息。
在[2]中,在davidin300和sylv序列上比較MILTrack[2]、OAB[14]和FragTrack[1]。所有的追蹤器都顯示出顯著的漂移,OAB和FragTrack在davidin300上失敗。這些追蹤器的漂移與使用過濾器看到的非常不同。在這些視頻中,跟蹤窗口在目標(biāo)上來回移動。當(dāng)濾鏡漂移時,當(dāng)目標(biāo)姿態(tài)發(fā)生變化時,它們往往會偏離中心,然后鎖定在一個新的中心點上。
4.3實時性能
在一臺2.4Ghz酷睿2雙核MacBook Pro的單處理器上進(jìn)行了測試。本文中測試的跟蹤器是使用PyVision庫、OpenCV和SciPy.1用Python編寫的當(dāng)使用64 × 64跟蹤窗口時,最初的Python實現(xiàn)平均每秒大約250個跟蹤更新。為了更好地測試跟蹤器的運(yùn)行時性能,代碼中一些較慢的部分被用C重新實現(xiàn),其中包括更好的內(nèi)存管理和更有效地計算耗時任務(wù),如規(guī)范化、fft和PSRs。這些優(yōu)化的結(jié)果是幀率中值為每秒669次更新,如圖9所示。
?基于濾波器的跟蹤計算復(fù)雜度為O(P log P),其中P為濾波器中的像素個數(shù)。這來自于相關(guān)操作和在線更新期間使用的fft。跟蹤初始化的一次代價為O(N P log P),其中N是用于初始化第一個濾波器的仿射擾動的數(shù)量。雖然這比在線更新慢很多倍,但初始化仍然比實時更新快,每秒66.32次更新。
5.總結(jié)
本文表明,視覺跟蹤問題,傳統(tǒng)的解決方法是使用重權(quán)重分類器,復(fù)雜的外觀模型和隨機(jī)搜索技術(shù),可以取代高效和更簡單的MOSSE相關(guān)濾波器。其結(jié)果是一個易于實現(xiàn)的算法,可以同樣準(zhǔn)確,而且速度快得多。
在本文中,保持跟蹤器簡單,以評估濾波器的跟蹤能力和適應(yīng)困難的跟蹤場景。有許多簡單的方法可以改進(jìn)這個跟蹤器。例如,如果目標(biāo)的外觀是相對穩(wěn)定的,漂移可以通過基于初始幀偶爾重新進(jìn)入濾波器來緩解。跟蹤器還可以擴(kuò)展到估計規(guī)模和旋轉(zhuǎn)的變化,通過過濾的對數(shù)變換跟蹤窗口后更新。
總結(jié)
以上是生活随笔為你收集整理的目标跟踪经典论文阅读(1)MOSSE的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第六章 参数估计
- 下一篇: [Bugku][Web][CTF] 9-