MOSSE到KCF
Table of Contents
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?正文開始
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?MOSSE
相關濾波跟蹤(MOSSE)
1? ? ? MOSSE與其他算法的具體比較
2? ? ? ?背景
3? ? ? ?基于追蹤的相關性濾波器。
3.1? ?預處理
3.2 MOSSE過濾器
3.3 ASEF的正則化
3.4?過濾器初始化和在線更新
3.5? 失敗檢測和PSR
4? ? 評估
4.1? 過濾器比較
4.2? 與其他追蹤器的比較
4.3? 實時性能
5? 結論
相關文獻
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?KCF
相關濾波跟蹤在跟蹤領域的突破(MOSSE)
算法產生
算法塊建立
線性回歸
循環轉換
循環矩陣
組合以上部分
和相關濾波器的關系
5 線性回歸
5.1?Kernel trick(核方法) 簡要概述
5.2? 快速核回歸
5.3? ?快速檢測
? ? ? ? ? ? ? ?
6? ?快速核相關
6.1?點積和多項式核
6.2? ?徑向基函數和高斯粒
6.3 其他核函數
7? ?多通道
7.1 通常情況
7.2線性內核
8 實驗部分
8.1? 追蹤部分
8.2 推理
8.3? ?對全數據集的實驗
8.4? ?序列屬性實驗
9? 總結與展望
其他:
算法衍生過程:看下圖(取自foolwood的維護圖)。
學習目的:為學習C-COT和其衍生的ECO打基礎。
ECO論文地址:http://www.robots.ox.ac.uk/~joao/publications/henriques_tpami2015.pdf
?
Table of Contents
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?正文開始
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?MOSSE
相關濾波跟蹤(MOSSE)
1? ? ? MOSSE與其他算法的具體比較
2? ? ? ?背景
3? ? ? ?基于追蹤的相關性濾波器。
3.1? ?預處理
3.2 MOSSE過濾器
3.3 ASEF的正則化
3.4?過濾器初始化和在線更新
3.5? 失敗檢測和PSR
4? ? 評估
4.1? 過濾器比較
4.2? 與其他追蹤器的比較
4.3? 實時性能
5? 結論
相關文獻
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?正文開始
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?MOSSE
算法作者:David S. Bolme J. Ross Beveridge Bruce A. Draper Yui Man Lui
算法提出時間:
算法論文地址:http://www.cs.colostate.edu/~vision/publications/bolme_cvpr10.pdf
相關濾波跟蹤(MOSSE)
相關濾波器在跟蹤領域在之前并沒有被很好地應用,但是相關性濾波器夠追蹤發生旋轉、遮蔽、和其他干擾的復雜物體,并且速度是當時技術的20倍以上,這這種特性正是優秀的目標跟蹤所需要的。
一開始,最簡單的相關性濾波器用簡單的模板,在應用于追蹤領域的時候通常以失敗告終。之后出現了更加先進的方法如:ASEF、UMACE等則表現較好,但是這些算法的訓練需求和追蹤是很不匹配的。視覺追蹤需要從一個單個的幀訓練穩定而強健的濾波器,并能夠隨著物體外表發生變化而自適應。
作者一開始在論文中提了一下大環境,并舉出幾個當時表現不錯的幾個例子,指出其訓練需求難滿足,算法結構復雜等缺點。然后提出了他自己的算法————————最小輸出平方誤差(MOSSE)濾波器。MOSSE能夠在初始化單個幀的時候產生穩健的濾波器。作者提到,基于MOSSE過濾器的跟蹤器對照明、縮放、姿態和非剛性變形的變化非常有效,同時運行速度為669幀/秒。根據峰值-托旁比的比率(PSR)檢測到遮擋,這使得跟蹤器能夠暫停并當對象重新出現時的位置重新開始追蹤。
算法在當時諸如:增量視覺跟蹤(IVT)[17],基于健壯的碎片跟蹤(FragTrack)[1],基于圖形的鑒別學習(GBDL)[19],以及多個實例學習(MILTrack)[2],雖然表現很好,但是這些算法本身或者包含的技術都十分復雜,它們通常包含復雜的外觀模型和算法結構,因此,這些算法的幀率就顯得有些差強人意了——25~30FPS。
對比很明顯————在相同或者類似的準確度地情況下,MOSSE比其他算法更簡潔,更加高速。
1? ? ? MOSSE與其他算法的具體比較
MOSSE以一種更簡單的跟蹤策略實現。它對目標的外觀用自適應相關性濾波器來建模,并用卷積來追蹤。而以往簡單的創建過濾器的方法,例如從圖像中裁剪模板,為目標生成強大的峰值,卻也會對背景產生錯誤的響應。因此,他們對目標外觀的變化并沒有特別的魯棒性,并且在具有挑戰性的跟蹤問題上失敗了。合成精確濾波器(ASEF)的平均值,不受約束的最小平均相關能(UMACE),以及最小輸出平方誤差(MOSSE)(本文介紹)產生的濾波器對外觀變化更有彈性,并且更好地區分目標和背景
如上圖2所示,結果顯示,以上提到的三種方法(ASEF、YMACE、MOSSE)比老套的過濾器在峰值上更高,換句話說,出現了更少的漂移和更少的掉落軌道。通常,ASEF和UMACE的過濾器都是離線訓練的,并用于對象檢測或者目標識別。作者在這些技術的基礎上做了在線訓練和自適應的改進,來用于視覺追蹤。結果,用改進后的算法的追中保留了很多底層相關性方法的速度和簡單性。
盡管這種方法很簡單,但是基于修改后的ASEF、UMACE或者MOSSE過濾器在旋轉,刻度,照明,和部分遮擋方面的變化表現很好(看Figure 1)。主副峰比(PSR)用于測量相關性峰值的強度,能夠被用于遮擋或者追蹤失敗的檢測,來停止在線更新,并在目標重新以類似的外觀出現時重新開始追蹤。更一般地說,這些高級相關過濾器實現了與前面提到的更復雜的跟蹤器的性能一致;然而,基于過濾器的方法速度快了20倍,每秒可以處理669幀。
2? ? ? ?背景
20世紀80年代和90年代,出現了很多相關性濾波器的變種,包括合成判別函數(SDF)[7,6]、最小方差合成判別函數(MVSDF)[9]、最小平均相關能(MACE)[11]、最優權衡濾波器(OTF)[16]和最小平方誤差合成判別函數(MSESDF)[10]。這些過濾器是根據不同外觀的物體和強制的硬約束的例子來進行訓練的,這樣過濾器就會產生同樣高的峰值。而MACE能產生高峰和高的PSRs,更具這種特性。
在[12]中,研究發現,像MACE這樣的基于SDF的硬約束的過濾器會導致失真容限的問題。該問題的解決辦法是通過消除硬約束,而不是要求過濾器去產生一個高平均相關性回應。這種新型的無約束相關性濾波器稱為稱為最大平均相關高度(MACH),這種濾波器也導致了一種叫做UMACE的MACE變體的產生。
一種稱為ASEF [3]的新類型的關聯過濾器引入了一種針對特定任務調優過濾器的方法。以前的方法只指定一個峰值值,ASEF指定每個訓練圖像的整個相關性輸出。ASEF在眼睛定位[3]和行人檢測[4]方面都表現良好。不幸的是,在這兩項研究中,ASEF需要大量的訓練圖像,這使得視覺跟蹤的速度太慢。
于是,作者開始通過引入一種適合于視覺跟蹤的ASEF的正則化變體來減少這種數據需求。
3? ? ? ?基于追蹤的相關性濾波器。
基于追蹤器的過濾器通過在例樣圖片上訓練過的過濾器來對物體外形進行建模。目標最初是基于一個以第一幀中的對象為中心的小型跟蹤窗口來選擇的。從這一點開始,跟蹤和過濾訓練一起工作。在下一幀中,通過將過濾器與搜索窗口關聯起來,跟蹤目標。在相關輸出中對應于最大值的位置表示目標的新位置。然后根據這個新位置進行在線更新。
為了創建一個快速跟蹤器,在傅里葉域快速傅里葉變換(FFT)[15]中計算出相關性。首先,輸入圖像的二維傅里葉變換:和濾波器:。卷積定理說,相關性成為傅里葉域的一個元素乘法。通俗地說,卷積定理中,圖像在時域上的卷積等于圖像在頻域上的乘法。使用這個符號⊙來顯式地表示元素的乘法并用?表示復共軛,相關性如下形式表達:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)
然后通過反FFT將相關輸出從傅里葉域轉換回空間域。這個過程的瓶頸是前向計算和逆FFTs,這樣整個過程就有一個O(P log P)的上限時間P,P就是跟蹤窗口中像素的數量
3.1? ?預處理
FFT卷積算法的一個問題是圖像和濾波器被映射到一個環面的拓撲結構。換句話說,它將圖像的左邊緣連接到右邊緣,并將頂部與底部連接起來。在卷積的過程中,圖像在環形空間中旋轉,而不是像在空間域中那樣進行轉換。人為地連接圖像的邊界會引入一個工件,它會影響相關輸出。
通過遵循Average of synthetic exact filters. In CVPR, 2009(可以參考這篇博客簡單了解)中列出的預處理步驟,可以減少這種效果。首先,像素值是使用對數函數進行轉換的,這有助于低對比度的照明情況。像素值被規范化為0.0的平均值和1.0的范數。最后,圖像乘以一個余弦窗口,它會逐漸減少邊緣附近的像素值為0。這也有好處它將更多的重點放在目標中心附近
3.2 MOSSE過濾器
MOSSE是一種從較少的訓練圖像中產生類似于ASEF相似的過濾器的算法。首先,它需要一組訓練圖像和訓練輸出,一般而言能夠取任何形狀。在這種情況下,是由正確的標注數據(即我們常說的label)產生的,它有一個緊湊的(=2.0)的二維高斯形狀的峰在訓練圖像的目標上。訓練是在傅里葉域進行的,以利用輸入和輸出之間簡單的元素之間的關系。和前一節一樣,我們定義大寫的變量,和過濾器是它們小寫字母的傅里葉變換.
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)
在這里,除法是由元素來執行的
為了找到一個將訓練輸入映射到所需訓練輸出的過濾器,MOSSE找到一個濾波器H,它最小化了卷積的實際輸出和卷積的期望輸出之間的平方誤差之和。這個最小化問題的形式
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)
將平方誤差(SSE)與輸出最小化的想法并不新鮮。實際上,方程(3)中的優化問題與Minimum squared error synthetic discriminant functions. Optical Engineering, 31:915, 1992. 2和Unconstrained correlation filters. Applied Optics, 33(17):3751–3759, 1994中給出的優化問題幾乎相同。不同之處在于,在這些作品中,我們假設目標總是在中心處,而輸出()是固定在整個訓練集上的,而定制每個是ASEF和MOSSE背后的基本思想。在跟蹤問題中,目標并不總是以中心為中心,而的峰值則在中跟隨目標。在更一般的情況下,可以取任何shape。
解決這個優化問題并不是特別困難,但是確實需要一些注意,因為優化的函數是一個復雜變量的實值函數。首先,H的每個元素(索引和)都可以獨立地解決,因為傅里葉域中的所有運算都是由元素來執行的。這涉及到從和來重寫函數。然后,W.R.T. 的部分被設定為零,同時把當作一個獨立的變量(D. Messerschmitt. Stationary points of a real-valued function of a complex variable. Technical report, EECS, U.C. Berkeley, 2006. 4, 10)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ?(4)
通過求解MOSSE濾波器的封閉形式表達式,得到:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(5)
一個完整的推導是在附錄A中,方程式5中的術語有一個有趣的解釋。分子是輸入和期望輸出之間的關系,分母是輸入的能量譜
從方程5中,我們可以很容易地看出UMACE是一個特殊的MOSSE案例。UMACE被定義為其中m是一個包含平均中心裁剪訓練圖像FFT的矢量,D是一個對角矩陣包含訓練圖像的平均能量譜.因為D是一個對角矩陣,乘以它的逆本質上是一個元素的除法。當用當前的符號重寫時,UMACE會采用這種形式:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(6)
然而,UMACE要求目標以為中心。重新進入可以使用相關性進行。如果我們將定義為克羅尼克三角洲(在目標中心有一個峰值,而在其他地方則為0),這將本質上重新進入目標并計算一個UMACE過濾器。這個和傳統的實現的區別在于我們在這里裁剪然后轉換,傳統的方法是先轉換后裁剪。
為了證明MOSSE能產生比ASEF更好的過濾器,我們進行了一個實驗,它改變了用于訓練過濾器的圖像的數量。通過對視頻的第一幀的跟蹤窗口應用隨機小的仿射干擾來初始化過濾器。第二幀的PSR被用作過濾質量的一種測量方法。圖3顯示,在對少量圖像窗口進行訓練時,MOSSE會產生更好的過濾器。原因將在下一節中討論。
3.3 ASEF的正則化
ASEF采用了一種稍微不同的方法來最小化相關轉換中的錯誤。事實證明,當只有一個訓練圖像和一個輸出圖像時,有一個過濾器可以產生零錯誤。這個過濾器被稱為精確濾波器可以通過求解方程1來找到:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(7)
在一個圖像上訓練的精確過濾器幾乎總是超出了這個圖像。當應用到一個新圖像時,這個過濾器通常會失敗。平均用于產生更一般的過濾器。平均的動機來自于Bootstrap Aggregation(出自L. Breiman. Bagging Predictors. Machine Learning, 24(2):123–140, 1996. 5),其中弱分類器的輸出可以被平均地產生一個更強的分類器。通過一些操作,ASEF過濾器的方程可以顯示為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(8)
如果只使用一個圖像進行訓練,MOSSE和ASEF都能產生精確的過濾器
ASEF過濾器在對少量圖像進行訓練時是不穩定的,因為當訓練圖像中的頻率幾乎沒有能量時(或者分母接近于零)時,方程8中的元素的劃分就變得不穩定了。平均大量的精確過濾器彌補了這個問題,并產生了健壯的ASEF過濾器。因為MOSSE的分母是能量除以更多圖像的總和,它很少會產生小的數字因此更穩定。
另一種方法是,正則化可以用來校正低能量頻率,并產生更穩定的ASEF過濾器。這是通過在能量譜中添加一個小值來實現的。i被替換為其中是正則化參數.
正則化類似于OTF理論的結果,它通常與UMACE過濾器一起使用。這一結果表明,將背景噪音的能量譜添加到訓練圖像中,將產生一個更好的噪聲容差(出自P. Refregier. Optimal trade-off filters for noise robustness, sharpness of the correlation peak, and Horner efficiency. Optics Letters, 16:829–832, June 1991.)。這里我們添加了白噪聲。
圖4顯示了調整%的效果。通過適當的正則化所有的過濾器都產生了良好的峰值并且應該足夠穩定以產生良好的追蹤。
3.4?過濾器初始化和在線更新
方程式8和5描述了在初始化過程中如何構造過濾器。訓練集是使用隨機仿射變換構造的,在初始幀中產生8個小的擾動()。訓練輸出()也會產生與目標中心相對應的峰值。
在跟蹤過程中,目標通常可以通過改變其旋轉、尺度、姿態,通過不同的光照條件,甚至是通過非剛性的變形來改變外觀。因此,過濾器需要快速適應以跟蹤對象。運行平均值用于此目的。例如,從坐標系i中學習的ASEF過濾器被計算為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? (9)
MOSSE過濾器則是這樣的:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (10)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ?(11)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? (12)
其中代表學習速率。這將使最近的幀更有分量,并讓前幀的效果隨著時間的推移呈指數衰減。在實踐中,我們發現=0.125允許過濾器快速適應外觀的變化,同時仍然保持一個健壯的過濾器。
3.5? 失敗檢測和PSR
正如前面提到的,一個簡單的峰值強度測量被稱為峰到斜比(PSR)。為了計算PSR,相關輸出g被分割成最大值,也就是最大值和側面,也就是像素的其余部分,不包括在峰值附近的11 ×11個窗口。PSR被定義為中是峰值值而和是側面的平均值和標準偏差。
根據我們的經驗,在正常跟蹤條件下,PSR、ASEF和MOSSE通常在20.0到60.0之間,這表示非常強的峰值。我們發現,當PSR下降到7時左右,這表明物體被遮擋或跟蹤失敗了。對于簡單的實現PSR在3.0到10.0之間,對于預測跟蹤質量沒有用處。
4? ? 評估
最初,一個實時的基于MOSSE的跟蹤系統是在網絡攝像頭的實時視頻中創建和評估的。實時反饋可以很容易地測試跟蹤器配置的小變化,并對各種目標和跟蹤條件的跟蹤性能進行定性分析。這些測試為跟蹤器的操作提供了有價值的見解,并幫助生成了本文中介紹的快速和健壯的跟蹤器。
對7個常用的測試視頻進行了更有控制的評估,這些視頻可以從http://www.cs.toronto.edu/~dross/ivt/免費下載。測試視頻都是灰度級的,包括在照明、姿勢和外觀方面的挑戰。攝像機本身在所有的視頻中都在移動,這增加了目標的不穩定運動。這七個序列包括兩個車輛跟蹤場景(car4,car11),兩個玩具跟蹤場景(fish,sylv)和三個面部跟蹤場景(davidin300,dudek和trellis70)。
4.1? 過濾器比較
節評估UMACE、ASEF和MOSSE過濾器的跟蹤質量。這些都與一個簡單的過濾器進行了比較,該過濾器基于一個平均預先處理的跟蹤窗口,并帶有在線更新。跟蹤輸出被手動標記為良好的跟蹤,跟蹤是偏離中心的,或者是丟失的軌跡(見圖5)
從定性上說,所有的過濾器,包括單純的過濾器,都能夠在測試集中的范圍、旋轉和光照變化的范圍內追蹤物體的軌跡,而大多數的漂移和失敗都發生在目標經歷了一個大的外平面旋轉時。請參見圖6中的davidin300序列示例。過濾器傾向于跟蹤目標中心的一個點。當目標旋轉時,這個點移動到目標邊界,跟蹤器最終進入一個狀態,其中大部分跟蹤窗口都被背景所覆蓋。過濾器適用于這個半背景窗口當目標旋轉回到一個正面的位置時,過濾器有時會轉移到一個新的位置或者它們可能會松開目標并跟蹤背景。
這些結果表明,先進的相關濾波器跟蹤目標的時間比單純的方法要長。峰值也有好處,PSR可以很好地預測軌跡質量,而PSR對天真的過濾器來說并不是特別有用。對于高級過濾器來說,漂移和故障總是與低PSRs有關。如圖7所示,這表明MOSSE PSR可以定位該視頻中最具挑戰性的部分。
對于基于過濾器的追蹤器來說,很難斷言任何一個過濾器類型都能很好地執行另一個過濾器。在這七個視頻序列中的四個,相關過濾器執行得很好。在davidin300上所有的過濾器在相同的平面旋轉過程中從臉部的中心漂移到眼睛里在這個序列的相同的困難部分中過濾器漂移。這兩個序列表明,篩選類型的選擇并不特別重要,因為過濾器以完全相同的方式失敗。
只有在dudek序列中,這三個過濾器之間有顯著的區別。雖然MOSSE完美地完成了這一過程,但UMACE和ASEF在視頻的部分內容上遇到了問題。盡管在第3節中提供的證據表明MOSSE可能是這個任務的最佳過濾器,但是在一個視頻序列上的單個故障不足以支持一個強有力的聲明;還需要更多的研究
4.2? 與其他追蹤器的比較
為了評估算法維護軌跡的能力,我們將我們的輸出與IVT 17和MILTrack 2的作者發布的視頻進行了比較(見第4節)。這些視頻還包含了健壯的在線外觀模型(漫游)8、在線Ada-Boost(OAB)14和碎片1的示例結果。我們考慮過為其他算法下載代碼但我們選擇研究作者自己的視頻這代表了這些算法的最佳性能同時也減少了我們未能正確實現或優化這些算法的論點。在這些比較中,我們的方法能夠保持軌跡,或者比那些算法更好。本著這種精神,我們還將我們的結果發布到我們的網站youtube上(http://youtube.com/users/bolme2008),這樣其他人就可以進行相同的比較。圖8描述了視頻中的格式和注釋。
在D. Ross, J. Lim, R. Lin, and M. Yang. Incremental learning for robust visual tracking. IJCV, 77(1):125–141, 2008. 1, 2, 7中,IVT 和ROAM在圖5的四個序列中進行了比較。其中,davidin300和dudek的序列成功地完成了。IVT在sylv的第620幀附近失敗了,在框架330的框架下也失敗了。在已發布的視頻序列中,漫游跟蹤器執行得很好。這兩個追蹤器所缺少的兩個追蹤器的一個特點是,它們估計了目標的規模和方向,提供了關于它在空間位置的更多信息。
?
I在[2]中,MILTrack [2]、OAB [14]和FragTrack [1]在davidin300和sylv序列上進行了比較。所有的追蹤器都顯示出明顯的漂移,在davidin300上失敗了。這些追蹤器的漂移與過濾器所看到的完全不同。在這些視頻中,跟蹤窗口在目標之間來回移動。當過濾器漂移時,當目標發生改變時,它們傾向于偏離中心,然后它們被鎖定在一個新的中心點。
4.3? 實時性能
測試是在一個2.4 Ghz的核心2雙核MacBook Pro的處理器上進行的。本文中測試的跟蹤器是用Python編寫的,使用PyVision庫、OpenCV和SciPy。最初的Python實現在使用64 64跟蹤窗口時,平均每秒大約250次跟蹤更新。為了更好地測試跟蹤器的運行時性能,代碼中一些較慢的部分在C中重新實現,其中包括更好的內存管理和更有效的時間消耗任務,如標準化、FFTs和PSRs。這些優化的結果是,幀速率為每秒669次,如圖9所示。
基于過濾器的跟蹤的計算復雜度是O(P log P),其中P是過濾器中像素的數量。這來自于相關操作和在線更新中使用的FFTs。跟蹤初始化會產生一種O(NP log P)的時間成本,其中N是用來初始化第一個過濾器的仿射擾動的數量。雖然這比在線更新慢很多倍,但是初始化仍然比實時的速度快,每秒66.32幀更新。
5? 結論
摘要本文研究了利用重權分類器、復雜的外觀模型和隨機搜索技術來解決的視覺跟蹤問題,可以用高效、簡單的MOSSE相關濾波器代替。其結果是一種易于實現的算法,可以是準確的,而且速度要快得多。
在這篇論文中,跟蹤器被簡單地用來評估過濾器的跟蹤和適應困難的跟蹤場景的能力。有很多簡單的方法可以改進這個跟蹤器。
例如,如果目標的外觀相對穩定,可以通過偶爾重新進入基于初始幀的過濾器來減輕漂移。跟蹤器還可以通過在更新后過濾跟蹤窗口的log極坐標轉換來估計規模和旋轉的變化。
相關文獻
[1] A. Adam, E. Rivlin, and I. Shimshoni. Robust fragmentsbased tracking using the integral histogram. In CVPR, 2006. 1, 2, 7
[2] B. Babenko, M.-H. Yang, and S. Belongie. Visual Tracking with Online Multiple Instance Learning. In CVPR, 2009. 1, 2, 7
[3] D. S. Bolme, B. A. Draper, and J. R. Beveridge. Average of synthetic exact filters. In CVPR, 2009. 2, 3
[4] D. S. Bolme, Y. M. Lui, B. A. Draper, and J. R. Beveridge. Simple real-time human detection using a single correlation filter. In PETS, 2009. 2, 3
[5] L. Breiman. Bagging Predictors. Machine Learning, 24(2):123–140, 1996. 5
[6] D. Casasent. Unified synthetic discriminant function computational formulation. Appl. Opt, 23(10):1620–1627, 1984. 2
[7] C. Hester and D. Casasent. Multivariant technique for multiclass pattern recognition. Appl. Opt., 19(11):1758–1761, 1980. 2
[8] A. Jepson, D. Fleet, and T. El-Maraghi. Robust online appearance models for visual tracking. T-PAMI, 25(10):1296–1311, 2003. 7
[9] B. Kumar. Minimum-variance synthetic discriminant functions. J. Opt. Soc. of America., 3(10):1579–1584, 1986. 2
[10] B. Kumar, A. Mahalanobis, S. Song, S. Sims, and J. Epperson. Minimum squared error synthetic discriminant functions. Optical Engineering, 31:915, 1992. 2, 3
[11] A. Mahalanobis, B. V. K. V. Kumar, and D. Casasent. Minimum average correlation energy filters. Appl. Opt., 26(17):3633, 1987. 2
[12] A. Mahalanobis, B. Vijaya Kumar, S. Song, S. Sims, and J. Epperson. Unconstrained correlation filters. Applied Optics, 33(17):3751–3759, 1994. 2, 3
[13] D. Messerschmitt. Stationary points of a real-valued function of a complex variable. Technical report, EECS, U.C. Berkeley, 2006. 4, 10
[14] N. C. Oza. Online Ensemble Learning. PhD thesis, U.C. Berkeley, 2001. 7
[15] W. Press, B. Flannery, S. Teukolsky, and W. Vetterling. Numerical Recipes in C. Cambridge Univ. Press, 1988. 3
[16] P. Refregier. Optimal trade-off filters for noise robustness, sharpness of the correlation peak, and Horner efficiency. Optics Letters, 16:829–832, June 1991. 2, 5
[17] D. Ross, J. Lim, R. Lin, and M. Yang. Incremental learning for robust visual tracking. IJCV, 77(1):125–141, 2008. 1, 2, 7
[18] M. Savvides, B. Kumar, and P. Khosla. Face verification using correlation filters. In AIAT, 2002. 4
[19] X. Zhang, W. Hu, S. Maybank, and X. Li. Graph based discriminative learning for robust and efficient object tracking. In ICCV, 2007. 1, 2
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?KCF
算法作者:Jo?o F. Henriques, Rui Caseiro, Pedro Martins, and Jorge Batista
算法提出時間:
算法論文地址:http://www.cs.colostate.edu/~vision/publications/bolme_cvpr10.pdf
相關濾波跟蹤在跟蹤領域的突破(MOSSE)
在MOSSE成功地將相關濾波加入到追蹤領域,并利用卷積定理:在時域的卷積即傅里葉域中元素的點乘。
Real-time compressive tracking,Tracking-learning-detection,Robust object tracking with online multiple instance learning,On-line random forests等算法都是當時最流行的算法類型----------------判別模型類。判別模型類包括在網絡上訓練一個分類器,受統計機器學習方法的啟發,來預測圖像中目標的存在與否。跟蹤-檢測范式的典型例子包括那些基于Support Vec-tor Machines (SVM) , Random Forest classifiers, or boosting variants。以上提到的幾種算法都必須適應在線學習,以便對跟蹤有用。
作者的目標是能夠在轉換過的圖像塊上能夠有效地學習和檢測。和KCF不一樣,大多數其他的方法都把心思花在去除不相關的圖像塊上。在檢測方面,可以使用分支定界來查找分類器的最大響應,避免在不相關的候選塊花費資源。
算法產生
作者的idea萌生于MOSSE網路的產生。
這一工作的初步版本早在29年就提出了。它第一次證明了脊回歸與周期性變化的樣本和經典相關濾波器之間的聯系。這使得快速學習與O(n log n)快速的傅里葉變換而不是消耗的矩陣代數。第一個核相關過濾器也被提出,盡管僅限于一個單獨的通道。此外,它還提出了在所有循環移位中計算內核的封閉形式的解決方案。這些都帶有相同的O(n log n)的計算成本,并且它們是由徑向基和點積核推導出來的
算法塊建立
線性回歸
脊回歸能夠提供一個簡單封閉性的解決方案,并且能夠實現與更復雜方法如SVM相當的性能。訓練的目標是找到一個函數:.能夠最小化樣本和它們的回歸值之間的平方差。:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)
是一個正則化參數用于控制過擬合。正如之前提到的,這個最小化函數有一個閉合形式:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)
矩陣X每一行X有一個樣本,y的每一個元素都是一個回歸目標y i。I是一個單位矩陣.
在4.4中,作者的工作不得不在傅里葉域中進行,而在傅里葉域中數量通常是復雜的。但是只要用EQ(2)來處理就不會變得更困難。
是厄米矩陣的轉置,也就是,是X的復共軛。對于實數等式3會降級到等式2
循環轉換
考慮一個n個矢量,它表示一個帶特征的物體的patch,表示為x。我們將把它作為基本樣本。我們的目標是用基本樣本(一個積極的例子)和通過轉換獲得的幾個虛擬樣本(作為反面例子)來訓練一個分類器。我們可以用一個循環移位算子來模擬這個矢量的一維變換,也就是置換矩陣
?
乘積通過一個元素轉換x,建模一個小的轉換。我們可以通過使用矩陣來把u移到更大的轉換
由于循環性質,我們每n次移動得到相同的信號x。這意味著所有的移位信號都是通過(5)獲得的
? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(5)
由于循環性質,我們可以把這個集合的前半部分看成是正的負向,而下半部分則是負方向的變化
循環矩陣
為了用轉換過的樣本來計算回歸,用式子(5)作為矩陣X的一行數據
所有的循環矩陣都是由離散傅里葉變換(DFT)對角化的,可以表達為:
? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (7)
其中,F是一個常量矩陣無關于X,并且表示離散傅里葉變換生成的向量,。從現在起我們將會用?來標記離散傅里葉變換產生的向量。
常數矩陣F已知為DFT矩陣。并且是用來計算任何輸入向量的DFT的唯一矩陣,寫為。因為DFT是一個線性操作,所以寫為這樣是完全可行的。
組合以上部分
當訓練數據由循環轉換組成時,我們可以運用新的知識來簡化等式3中的線性回歸問題。
取,它可以被看作是一個非中心的協方差矩陣。取代等式7中的部分。
? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? (8)
因為對角矩陣是對稱的,取厄密共軛的轉置只留下了一個復共軛,.
另外,我們可以消去因子.這個性質是F的單位性可以在很多表達式中被消掉,我們只剩下
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(9)
因為對角矩陣的運算是元素的,我們可以定義元素的乘積并得到
? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (10)
?
以上的步驟總結了通常采用的方法-----用循環矩陣在對角表達式中。通過運用這些方法,可以將它們遞歸到完整的線性回歸的表達式(等式3),我們將大部分的表達式放入對角矩陣中:
? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (11)
或者更好:
? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (12)
分數部分表示為元素級別的除法。我們可以輕易地將w用反向DFT轉換回空間域,這和前向DFT所花費的代價一樣。
另外,在這一點上作者剛剛發現了一個來自經典信號處理的意外公式解決方案是一個正則化的相關濾波器。在進一步探索這種關系之前,我們必須對Eq的計算效率進行高強度的計算,與一般的提取patch的方法相比,并解決一般的回歸問題。
和相關濾波器的關系
自80年代以來,相關濾波器一直是信號處理的一部分,在傅里葉域中有無數個目標函數的解。這些過濾器的解決方案看起來像Eq.12,但是有兩個關鍵的區別。首先,MOSSE篩選器是從一個在傅里葉域中特別制定的目標函數中得到的.其次,正則化器以一種特別的方式添加,以避免按零分。我們上面所展示的推導增加了相當的洞察力,通過將起始點指定為帶循環移位的脊回歸,并到達相同的解。
循環矩陣使我們能夠通過經典的信號處理和現代的相關濾波器來豐富工具集,并將傅里葉的技巧應用到新的算法中。在下一節中,我們將看到一個這樣的例子,在培訓非線性濾波器中。
5 線性回歸
允許更強大的非線性回歸函數f(z)的一種方法是使用內核技巧23。最吸引人的特性是優化問題仍然是線性的,盡管是在不同的變量集合中(雙空間)。在不利方面,評估f(z)通常會隨著樣本數量的增加而增長。
然而,使用我們的新分析工具,我們將證明有可能克服這一限制,并獲得與線性相關濾波器一樣快的非線性過濾器,用于培訓和評估。
5.1?Kernel trick(核方法) 簡要概述
本節將簡要回顧內核技巧,并定義相關的符號。
.將線性問題的輸入映射到非線性特性空間(x)和內核技巧包括:
? ? (1)? 將解決方案w表示為樣本的線性組合:
? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (13)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ?因此,優化下的變量是以w代替的。這個替代表示被認為是在雙空間中,而不是原始空間w
? ? ( 2 )? ?用點積來編寫算法,這些都是用核函數(例如,高斯函數或多項式)來計算的。
所有成對樣品之間的點積通常是存儲在n x n內核矩陣K中,原理如下:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (14)
內核技巧的威力來自于對高維特性空間的隱式使用,而不需要實例化該空間中的向量。不幸的是,這也是它最大的弱點,因為回歸函數的復雜性隨著樣本數量的增加而增加.
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (15)
5.2? 快速核回歸
通過對脊回歸的角化版本的解決方案
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (16)
K是內核矩陣,是coeffi-cient i的矢量,它代表了對偶空間中的解.
現在,如果我們能證明K是循環移位數據集的循環,我們可以對Eq.16進行對角化,得到一個快速解,就像線性情況一樣。這似乎是正確的,但一般來說是不成立的。任意的非線性映射不能保證任何形式的結構。然而,我們可以施加一個條件,使K可以循環。結果是相當寬泛的,適用于最有用的內核
定理1:給定循環數據,對于任何排列矩陣M,如果內核函數滿足,則對應的內核矩陣是循環的
為了證明,請參閱附錄A.2。這意味著,對于內核來說,要保持循環結構,它必須平等地對待數據的所有維度。幸運的是,這包括了最有用的內核
檢查這個事實是很容易的,因為對這些內核重新排序和 0同時不會改變。這適用于任何通過交換操作結合維度的內核,比如sum、product、min和max。
知道我們可以用哪些核來做K循環,就可以對角化Eq,16在線性情況下,得到:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(17)
是內核矩陣的第一行,再一次,帽子表示一個向量的DFT形式。詳細的推導在附錄A.3中。
為了更好地理解的作用,我們發現定義一個更一般的內核相關性是很有用的。兩個任意向量的核相關,和,是帶有元素的向量,用元素
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (18)
總的來說,它包含了對兩個參數的不同相對移位的評估。然后是和自身的核相關,在傅里葉域中。我們可以把它稱為內核自動相關,與線性情況類似.
這個類比可以更進一步。因為內核等同于高維空間中的點積,另一種看待Eq.18的方法是:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ?(19)
這就是在高維空間中和的相互關系
請注意,我們只需要計算和操作內核自動相關,即n x 1矢量,它隨樣本數量線性增長。這與內核方法的傳統智慧相反,它需要計算一個n x?n內核矩陣,并與樣本進行二次伸縮。我們對K的精確結構的了解使我們比一般算法做得更好.
找到最優的并不是唯一可以加速的問題,因為在跟蹤檢測的環境中無處不在的翻譯補丁。在下一段中,我們將研究循環移位模型對檢測階段的影響,甚至在計算內核相關性方面
5.3? ?快速檢測
很少有這樣的情況,我們想要單獨地評估一個圖像塊的回歸函數。為了檢測感興趣的對象,我們通常希望在幾個圖像位置上評估。對于幾個候選塊。這些塊可以通過循環移位來建模。
用表示所有訓練樣本和所有候選補丁之間的(不對稱)內核矩陣。由于樣本和補丁是基本樣本和基帶的循環移位,所以K z的每個元素都是由給出的。很容易驗證這個內核矩陣是否滿足定理1,并且是合適的內核的循環.
與Section 5.2相似,我們只需要第一行來定義內核矩陣:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (20)
是和的內核相關性,就像之前定義的那樣
從Eq.15,我們可以計算所有候選塊的回歸函數
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(21)
請注意,是一個向量,它包含了的所有循環移位的輸出。完整的檢測反應。為了有效地計算Eq.21,我們把它對角化
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (22)
直觀地說,在所有位置對進行評估可以看作是內核值的空間過濾操作。每一個是來自的相鄰內核值的線性組合,由學習系數加權。因為這是一個過濾操作,它可以在傅里葉域中更有效地表述
? ? ? ? ? ? ? ?
6? ?快速核相關
盡管我們已經找到了更快的訓練和檢測算法,但它們仍然依賴于計算一個內核的關系(分別是和)。回想一下,內核相關性包括計算兩個輸入向量的所有相對移位的內核。這代表了最后一個站立的計算瓶頸,因為對于n內核的n個內核的簡單評估將具有二次復雜度。然而,使用循環移位模型將使我們能夠有效地利用這個昂貴的計算中的冗余
6.1?點積和多項式核
點積核有形式,對一些函數g。然后,有元素
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(23)
讓g在任何輸入向量上都能工作。這樣我們就可以用矢量形式來寫Eq.23。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (24)
這使得它很容易成為對角化的目標
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(25)
表示逆DFT的地方
特別地,對于一個多項式內核
然后,在O(n log n)的時間內,只使用少量的DFT/IDFT和元素操作來計算這些特別的內核相關性。
6.2? ?徑向基函數和高斯粒
對于一些函數,RBF內核有形式。的元素是
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (27)
我們將展示(Eq,29)這實際上是一個點積內核的特殊情況。我們只需要引申到一般情況:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(28)
由于Parseval s定理21,置換不影響x的范數。由于和是常數,Eq.28具有與點積核(Eq.23)相同的形式。利用上一節的結果
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(29)
作為一個特別有用的特殊情況,對于高斯核??,我們得到
? ? ? ? ? ? ? ? ? ? ? ? (30)
和以前一樣,我們可以只在O(n log n)時間內計算完整的內核相關性
6.3 其他核函數
前兩部分的方法依賴于單個轉換的內核值,比如DFT。這對于其他內核來說并不適用,例如,交集內核。我們仍然可以使用快速訓練和檢測結果(第5.2和5.3節),但是必須用更昂貴的滑動窗口方法來評估內核相關性。
7? ?多通道
在這一節中,我們將看到在雙重性中工作的優點是,只需在傅里葉域中簡單地對它們進行求和,就可以允許多個通道(例如,一個HOG描述符20)。這一特性擴展到線性情況,在特定條件下,簡化了最近提出的多通道相關性過濾器。
7.1 通常情況
了處理多個通道,在本節中,我們將假設一個向量x將C通道的單個向量連接起來(例如,一個HOG的梯度方向箱),請注意,第6節中研究的所有內核都是基于點積或參數的規范。一個點積可以通過簡單地對每個通道的單獨的點積來計算。通過DFT的線性關系,這使得我們可以對傅里葉域中的每個通道的結果求和。作為一個具體的例子,我們可以將這個推理應用到高斯內核中,獲得Eq的多通道模擬。
? ? ? ? ? ? ? ? ? ? (31)
值得強調的是,我們只需要在計算內核相關性時對通道進行求和,多通道的集成并不會導致更困難的推理問題.
7.2線性內核
對于一個線性內核,上一節的多通道擴展會產生:
? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (32)
我們把它命名為雙相關過濾器(DCF)。這個過濾器是線性的,但是在雙空間中訓練。我們將很快討論其他多通道過濾器的優點.
最近將線性相關濾波器擴展到多個通道,由3組獨立發現。它們允許比非結構化算法更快的訓練時間,通過將問題分解為每個DFT頻率的一個線性系統,在脊回歸的情況下。亨利科等人另外31人將分解分解為其他訓練算法
然而,Eq.32表明,通過在雙線性內核中工作,我們可以用多個通道來訓練一個線性分類器,但是只使用元素的操作。
我們通過指出這是可能的,因為我們只考慮一個基本的x樣本。在這種情況下,不管有多少特性或通道,內核矩陣都是n? x n。它與基本樣本的n次循環移位有關,并且可以由DFT的n個基底對角化。因為K是完全對角的,所以我們可以只使用元素的操作。但是,如果我們考慮兩個基本樣本,K就變成了2n x 2n而n DFT的基礎已經不足以完全對角化它了.這種不完全的對角化(塊-對角化)需要更昂貴的操作來處理,這是在這些工作中提出的.
有了一個有趣的對稱的論點,可以在原始的基礎上進行訓練,并且只有元素的操作(附錄a.6)。在此之后,將相同的推理應用于非中心的協方差矩陣,而不是。在這種情況下,我們獲得了原始的MOSSE過濾器
總之,對于快速元素的操作,我們可以選擇多個通道(在雙通道中,獲得DCF)或多個基本樣本(在原始數據中,獲得MOSSE),但不能同時進行。這對時間關鍵的應用程序有重要的影響,比如跟蹤。一般情況下31的成本要高得多,而且適用于離線培訓應用程序
8 實驗部分
8.1? 追蹤部分
我們在Matlab中實現了兩個簡單的跟蹤器,它基于所建議的kerne化相關過濾器(KCF),使用高斯內核,以及使用線性內核的雙相關濾波器(DCF)。我們不會報告一個多項式內核的結果,因為它們實際上與高s-sian內核的結果完全相同,并且需要更多的參數。我們測試了另外兩種變體:一種直接作用于原始像素值,另一種則適用于具有4像素大小的豬描述符,特別是Felzenszwalb的變種20、22。請注意,我們的線性DCF在單個通道(原始像素)的極限情況下相當于MOSSE 9,但它也有支持多個通道的優勢(例如,HOG)。我們的跟蹤器只需要很少的參數,并且我們報告了我們在表2中使用的所有視頻的值
KCF的大部分功能在算法1中作為Matlab代碼呈現。與此工作29的早期版本不同,它準備處理多個通道,作為輸入陣列的第三個維度。它的功能是:train(Eq,17),detect(Eq,22)和kernel_correlation(Eq,31),這是前兩個函數所使用的算法。
跟蹤器的管道故意簡單,不包括任何用于故障檢測或mo-建模的啟發式。在第一幀中,我們在目標的初始位置上訓練一個帶有圖像補丁的模型。這個補丁比目標大,以提供一些上下文。對于每一個新框架,我們檢測到前一個位置的補丁,并且目標位置被更新到產生最大值的那個位置。最后,我們在新位置上訓練一個新模型,并線性地將所獲得的值和x與上一幀中的值進行插值,以便為跟蹤器提供一些內存。
8.2 推理
我們使用一個包含50個視頻序列11的基準測試(見圖1)來測試我們的跟蹤器,這個數據集收集了以前工作中使用的許多視頻,因此我們避免了過度擬合的危險。
對于性能標準,我們沒有選擇平均位置錯誤或其他在框架上平均的度量,因為它們對依賴于偶然因素的丟失的跟蹤器施加了任意的懲罰(例如這條軌道失去的位置),使它們無法與之相比。一個類似的選擇是邊界框重疊,這有一個缺點,那就是嚴重地懲罰那些不按比例追蹤的追蹤器,即使目標位置被完美地跟蹤。
我們選擇的一個越來越受歡迎的選擇,是精確曲線11,5,29。如果預測的目標中心在距離地面真理的距離范圍內,那么一個框架就可以被正確地跟蹤。Preci-sion曲線僅僅顯示了一系列距離閾值的正確跟蹤幀的百分比。請注意,通過繪制所有閾值的精度,不需要參數。這使得曲線清晰且易于解釋。在低閾值上更高的精度意味著跟蹤器更準確,而丟失的目標將阻止它在一個非常大的閾值范圍內達到完美的精度。當需要一個具有代表性的精度分數時,所選的閾值是20個像素,就像在以前的工作中所做的那樣。
8.3? ?對全數據集的實驗
我們首先總結一下表1和圖4中所有視頻的結果。為了進行比較,我們還報告了其他幾個系統的結果,包括7、4、9、5、14、3,其中包括一些最具彈性的跟蹤器,即“Struck”和“TLD”。與我們簡單的實現(算法1)不同,這些跟蹤器包含了大量的工程改進。Struck對許多不同的特性和越來越多的支持向量進行了操作。TLD專門用于重新檢測,使用一組具有許多參數的結構規則。
盡管存在這種不對稱性,但我們的kerne化相關性(KCF)可以通過僅靠原始像素來實現競爭性能,如圖4所示。在這個設置中,由高斯內核引起的豐富的隱式特性比所提議的雙相關過濾器(DCF具有明顯的優勢。)
我們說,帶有單通道特性(原始像素)的DCF在理論上相當于一個MOSSE過濾器。為了進行直接比較,我們將在圖4中為作者MOSSE跟蹤器9提供結果。兩者的性能都非常接近,這表明它們的實現之間的任何特定差異似乎并不重要。然而,我們建議的kerne化算法(KCF)確實能顯著提高性能。
用hog代替像素特征允許KCF和DCF超越甚至TLD和襲擊,以較大的優勢(圖4)。這表明,高績效的最重要因素,相比其他追蹤器使用類似的功能,有效整合成千上萬的負樣本目標環境,它們非常小的開銷
Timing:如前所述,我們的封閉形式解決方案的整體復雜性是O(n log n),從而導致其高速(表1)。跟蹤器的速度與跟蹤區域的大小直接相關。這是比較基于相關過濾器的追蹤器的一個重要因素
MOSSE 9跟蹤一個與目標對象有相同支持的區域,而我們的實現跟蹤一個2.5倍大的區域(平均為116x170)。減少跟蹤區域將允許我們接近其615(表1)的FPS,但是我們發現它會損害性能,特別是對于內核變體。表1的另一個有趣的發現是,在每個空間單元中運行31個HOG的特性比在原始像素上操作要快一些,即使我們考慮到計算HOG的特性的開銷。因為每個4x4像素的單元格都是由一個HOG描述符來表示的,這個較小的DFTs計數器——平衡了遍歷特性通道的成本。利用臺式計算機的所有4個核心,kcf/dcf用不到2分鐘的時間處理所有50個視頻(29000幀)
8.4? ?序列屬性實驗
基準數據集11中的視頻被注釋為屬性,描述了跟蹤器在每個序列中所面臨的挑戰,例如,光照變化或-。這些屬性對于診斷和在如此大的數據集中對跟蹤器的行為進行分析是很有用的,而不需要分析每一個單獨的視頻。我們報告圖5中4個屬性的結果:非剛性的變形、遮擋、視圖外目標和背景混亂
我們的跟蹤器對非剛性hog變形和遮擋的健壯性的健壯性并不令人驚訝,因為這些特征被認為是高度歧視的20。然而,僅在原始像素上的KCF仍然幾乎和敲擊和TLD一樣好,內核彌補了特性的不足。
我們所實施的系統的一個挑戰是一個不可見的目標,因為缺乏一個失敗的恢復。在這種情況下,TLD比大多數其他追蹤器表現得更好,這說明了它對重新檢測和故障恢復的關注。這樣的工程改進可能會使我們的跟蹤器受益,但是kcf/dcf仍然可以比TLD更好的事實表明它們不是決定性的因素。
背景雜亂會嚴重影響幾乎所有的追蹤器,除了那些被提議的追蹤器,而且在較小程度上也會受到影響。對于我們的跟蹤器變體,這可以通過在跟蹤對象周圍的數千個負樣本的隱式來解釋。因為在這種情況下,即使是我們的追蹤器的原始像素變異體的性能也非常接近于最優,而TLD,CT,ORIA和MIL顯示出性能下降,我們推測這是由于它們對底片的采樣不足造成的
我們還報告了圖7中其他屬性的結果。一般來說,建議的追蹤器是7個挑戰中最強大的6個,除了低分辨率,它同樣影響所有的追蹤器,除了Struck
?
?
9? 總結與展望
在這項工作中,我們證明了對自然圖像翻譯進行分析是可能的,這表明在某些條件下,得到的數據和內核矩陣是-循環的。DFT的對角化提供了一個通用的藍圖,用于創建處理翻譯的快速算法。我們已經將這個藍圖應用到線性和內核山脊回歸中,獲得了最先進的跟蹤器,運行在數百FPS下,并且只需幾行代碼就可以實現。我們的基本方法的擴展似乎在其他問題上很有用。自該工作的第一個版本以來,循環數據已經成功地應用于其他算法,用于檢測31和視頻事件檢索30。進一步工作的一個有趣的方向是放松對周期邊界的假設,這可能會提高性能許多有用的算法也可以從研究其他目標函數的循環數據中獲得,包括經典的濾波器,如SDF或MACE還有比損失更大的損失函數。我們還希望將這個框架推廣到其他操作符,比如仿射轉換或非剛性變形
其他:
總結
- 上一篇: [Leetcode][第98 450 7
- 下一篇: 使用python matplotlib