《MOSSE》简述
引言
??近些年來,目標(biāo)追蹤備受關(guān)注。一系列較魯棒的追蹤策略被提出,來適應(yīng)目標(biāo)外觀的變化。最近的算法有增量目標(biāo)追蹤 IVT,魯棒的基于目標(biāo)分塊的跟蹤 Frag Track,甄別學(xué)習(xí) GBDL 以及多實(shí)例學(xué)習(xí)。這些技術(shù)是有效的,但是技術(shù)實(shí)現(xiàn)上并不簡(jiǎn)單。他們通常包括復(fù)雜的外觀模型和優(yōu)化算法,并且,實(shí)時(shí)性也保證不了,適應(yīng)不了 25幀或者30幀的攝像頭。見下表:
??本文提出一種更簡(jiǎn)單的追蹤策略。通過自適應(yīng)相關(guān)濾波器對(duì)目標(biāo)外形進(jìn)行建模,并通過卷積進(jìn)行跟蹤。創(chuàng)建濾波器有幾種簡(jiǎn)單的方法,比如,從一幀圖像中裁剪模板,為目標(biāo)生成強(qiáng)大的峰值,但是也會(huì)對(duì)背景產(chǎn)生響應(yīng)。因此,對(duì)于目標(biāo)外觀的變化,跟蹤結(jié)果不是特別魯棒,在一些具有挑戰(zhàn)性的追蹤場(chǎng)景上會(huì)失敗。ASEF ,UMACE以及本文提出的 MOSSE產(chǎn)生的濾波器,對(duì)目標(biāo)外觀的改變更加魯棒,同時(shí),區(qū)分目標(biāo)和背景的效果也更好。如下圖所示:
相關(guān)工作
??在20世紀(jì)八九十年代,相關(guān)濾波器有很多變體。比如綜合判別函數(shù) SDF,最小化方差綜合判別函數(shù) MVSDF,最小化平均相關(guān)能(MACE),最優(yōu)全局濾波器(OTF),最小化平方差綜合判別函數(shù)(MSESDF),這些濾波器的訓(xùn)練依賴目標(biāo)物體的外觀變化和一些硬約束,因此,總是產(chǎn)生相同高度的峰值。其中最好的是產(chǎn)生尖銳峰值和高的PSRS的MACE濾波器。
??基于像MACE那類方法的包含硬約束的 SDF 濾波器,會(huì)造成失真容差問題。解決方法就是消除硬約束,而不是使濾波器產(chǎn)生較高的平均相關(guān)響應(yīng)。這種新型的無約束的相關(guān)濾波器被稱為最大化 MACH,這也使得 MACE 的進(jìn)化版稱為 UMACE。
??之前的方法僅僅指定了一個(gè)峰值,而ASEF對(duì)每一幀訓(xùn)練圖像都明確指定整個(gè)的相關(guān)輸出。 ASEF 在眼部追蹤和行人檢測(cè)上表現(xiàn)良好。遺憾的是,在這兩項(xiàng)研究中,ASEF 需要大量的訓(xùn)練樣本圖像,這使得跟蹤速度非常慢。
方法
??基于追蹤的濾波器以物體的外觀作為模型。在第一幀中選擇一個(gè)追蹤窗口,來初始化目標(biāo)。從此時(shí)開始,追蹤模塊和濾波器訓(xùn)練模塊同時(shí)開始工作。通過將濾波器與下一幀的搜索窗口關(guān)聯(lián)起來,進(jìn)行目標(biāo)追蹤。與相關(guān)輸出中的最大值相對(duì)應(yīng)的位置,就是下一幀目標(biāo)的位置。
??為了創(chuàng)建更快速的追蹤器,相關(guān)性的計(jì)算是通過快速傅里葉變換(FFT),首先,先對(duì)輸入的圖像計(jì)算 2D 的傅里葉變換F = F(f)和濾波器H = F(h)。卷積定理指出,在傅里葉域,相關(guān)性可以表示成對(duì)應(yīng)元素相乘。本文使用?表示對(duì)應(yīng)元素相乘。*表示共軛復(fù)數(shù)。相關(guān)性的任務(wù)可以被描述成:
??先介紹在追蹤窗口上的預(yù)處理方法是:首先,使用一個(gè)log函數(shù)對(duì)像素進(jìn)行轉(zhuǎn)換,有助于應(yīng)對(duì)低對(duì)比度照明。這些像素值被歸一化:均值為0,標(biāo)準(zhǔn)差為1。最后,將圖像乘以一個(gè)余弦窗,逐漸將圖像邊緣的像素值減小為0。這還有一個(gè)好處就是,將更多的重點(diǎn)放在目標(biāo)的中心位置。
??然后介紹MOSSE濾波器:MOSSE 算法可以從較少的訓(xùn)練樣本中,產(chǎn)生類似于ASEF的濾波器。首先,它需要一系列訓(xùn)練圖像fi和訓(xùn)練輸出gi,一般而言,gi可以取任何形狀。在這種情況下,gi是從ground truth中生成的,因此,在訓(xùn)練圖像的目標(biāo)物體上,會(huì)產(chǎn)生一個(gè)非常緊湊的標(biāo)準(zhǔn)差為2的2D高斯尖峰。濾波器H的計(jì)算為:
??為了找到一個(gè)濾波器來使訓(xùn)練圖片輸出接近于ground true,MOSSE來找一個(gè)H使得實(shí)際輸出和ground true輸出之間誤差平方和最小。最小化問題如下:
??對(duì)H的每個(gè)元素進(jìn)行獨(dú)立求導(dǎo)運(yùn)算分別得出結(jié)果:
??最后近似求解為:
??UMACE是MOSSE的一個(gè)特殊形式,公式可以表達(dá)為:
??ASEF公式為:
??在追蹤過程中,目標(biāo)經(jīng)常會(huì)改變外觀,比如旋轉(zhuǎn)、尺度、姿態(tài)、光照,甚至通過非剛性變換。利用平均值就是為了解決此類問題。比如,從第 i 幀圖像中學(xué)習(xí) ASEF 濾波器可以這樣被計(jì)算;
??MOSSE 濾波器:
??其中,η 是學(xué)習(xí)率。這給最近的一些幀增加了一些權(quán)重,并且,之前的若干幀對(duì)濾波器的影響,是隨著時(shí)間的推移呈指數(shù)式衰減。實(shí)際上,我們?cè)趯?shí)踐中發(fā)現(xiàn),η = 0.125,能讓濾波器快速適應(yīng)目標(biāo)外觀的變化,同時(shí)也能保證濾波器比較魯棒。
??最后介紹一種對(duì)峰值強(qiáng)度的一種簡(jiǎn)單測(cè)量方法:Peak to Sidelobe Ratio(PSR),為了計(jì)算PSR,將相關(guān)性輸出g分為兩部分:峰值和旁瓣,峰值即為最大值,旁瓣是峰值周圍的11×11窗口內(nèi),除峰值以外的其余像素。然后將PSR定義為(g_max-μ_sl)/σ_sl ,其中g(shù)_max是峰值,而μ_sl和σ_sl是旁瓣的平均值和標(biāo)準(zhǔn)差。
??這里文章有一段原話翻譯后如下:“根據(jù)我們的經(jīng)驗(yàn),在正常跟蹤條件下,用于UMACE,ASEF和MOSSE的PSR通常在20.0至60.0之間,這表示非常強(qiáng)的峰值。我們發(fā)現(xiàn),當(dāng)PSR降至7.0左右時(shí),表明該對(duì)象被遮擋或跟蹤失敗。對(duì)于樸素的實(shí)施(最一般的方法),PSR的范圍是3.0到10.0,對(duì)于預(yù)測(cè)軌道質(zhì)量沒有用。”
實(shí)驗(yàn)
??在七個(gè)測(cè)試視頻序列里對(duì)濾波器進(jìn)行了測(cè)評(píng), 這些視頻都是灰度的,并且在光照,姿勢(shì)和外觀上都具有挑戰(zhàn)性。存在攝像機(jī)運(yùn)動(dòng),這增加了目標(biāo)的不穩(wěn)定運(yùn)動(dòng)。這七個(gè)序列分別是car4,car11,fish,sylv,davidin300,dudek和trellis70。
??上圖評(píng)估UMACE,ASEF和MOSSE濾波器的跟蹤質(zhì)量。將這些與樸素濾波器進(jìn)行比較,該濾波器基于在線更新的平均預(yù)處理跟蹤窗口。跟蹤輸出被手動(dòng)標(biāo)記為良好跟蹤、偏離中心的跟蹤或跟蹤失敗,其中綠色表示跟蹤良好,黃色表示跟蹤偏離中心,紅色表示跟蹤失敗。黑線表示將PSR剪切到[0,20]范圍,并表示視頻每一幀的跟蹤質(zhì)量。
??定性實(shí)驗(yàn)表明,包括樸素濾波器在內(nèi)的所有濾波器,在對(duì)象存在比例變化,旋轉(zhuǎn)以及光照變化時(shí),都能夠以很小的漂移定位到目標(biāo)。但是當(dāng)目標(biāo)發(fā)生超出畫面之外的大面積旋轉(zhuǎn)時(shí)(非平面旋轉(zhuǎn)),窗口大漂移和故障就會(huì)發(fā)生。當(dāng)旋轉(zhuǎn)目標(biāo)時(shí),跟蹤點(diǎn)將移向目標(biāo)邊界,并且跟蹤器最終處于大部分跟蹤窗口被背景覆蓋的狀態(tài)。濾波器會(huì)適應(yīng)這半個(gè)背景窗口,并且當(dāng)目標(biāo)旋轉(zhuǎn)回正面姿勢(shì)時(shí)移至新位置,否則它們可能會(huì)丟失目標(biāo),反而跟蹤背景。下圖舉了一例有關(guān)davidin300序列的測(cè)試結(jié)果
總結(jié)
??這是第一篇將Correlation filter引入Tracking領(lǐng)域內(nèi)的文章,提出基于 MOSSE(Minimum Output Sum of Squared Error)的濾波器,其能提供穩(wěn)定的相關(guān)濾波器,對(duì)光照、尺度、姿勢(shì)和變形具有健壯性,同時(shí)實(shí)現(xiàn)極快的跟蹤速度,在作者的實(shí)驗(yàn)中可以達(dá)到669FPS。當(dāng)目標(biāo)發(fā)生遮擋時(shí),可以根據(jù)PSR值來判斷目標(biāo)跟蹤是否失敗來決定是否更新濾波器參數(shù),當(dāng)目標(biāo)再次出現(xiàn)在視野中時(shí),可以再次跟上目標(biāo)。
??這篇論文存在許多數(shù)學(xué)描述和公式推導(dǎo),這一點(diǎn)想要讀懂花費(fèi)了大量時(shí)間;而且在全文結(jié)構(gòu)上,我一開始認(rèn)為有一點(diǎn)不太明白:在摘要中,是說ASEF、UMACE等濾波器很優(yōu)秀,但需求不適用于跟蹤,然后在正文中雖然也有提到說ASEF需要大量的訓(xùn)練圖像,但是本文卻引入正則化降低其數(shù)據(jù)要求影響,并且在后面UMACE,ASEF和MOSSE三個(gè)相關(guān)濾波的算法基本是一起出現(xiàn),即使是在后面的對(duì)比實(shí)驗(yàn)中,也僅在dudek序列上,三個(gè)濾波器之間存在顯著差異,顯得MOSSE會(huì)更好一點(diǎn),并且即使PSR,也只是說對(duì)于傳統(tǒng)濾波器無效果,而不只是MOSSE專屬。這一系列讓我迷惑:這難道不是介紹MOSSE優(yōu)點(diǎn)的論文嗎?咋感覺是在看綜述文章,然后在網(wǎng)上搜索為什么也看不到有人心存疑慮的博客,甚至懷疑過是不是我下的論文是草稿版,后面再對(duì)著論文看幾遍,發(fā)現(xiàn)可能是我一開始想錯(cuò)了,并不一定得單講一個(gè)提出來的算法比其他好在哪,該論文的貢獻(xiàn)點(diǎn)就是在于作為第一篇將相關(guān)濾波引入目標(biāo)跟蹤的論文,并提出了MOSSE濾波器。
總結(jié)
- 上一篇: 代码走查-放过疑点就是埋雷
- 下一篇: Jenkins 使用 maven 出现C