背景建模与前景检测2(Background Generation And Foreground Detection Phase 2)
背景建模與前景檢測2(Background Generation And Foreground Detection Phase 2)
作者:王先榮
??? 本文嘗試對《學習OpenCV》中推薦的論文《Nonparametric Background Generation》進行翻譯。由于我的英文水平很差,斷斷續續搞了好幾天才勉強完成,里面肯定會有諸多錯誤,歡迎大家指正,并請多多包涵。翻譯本文的目的在于學習研究,如果需要用于商業目的,請與原文作者聯系。
非參數背景生成
劉亞洲,姚鴻勛,高文,陳熙霖,趙德斌
哈爾濱工業大學
中國科學院計算所
摘要
??? 本文介紹了一種新穎的背景生成方法,該方法基于非參數背景模型,可用于背景減除。我們介紹一種新的名為影響因素描述(effect components description ECD)的模型,用于描述背景的變動;在此基礎上,我們可以用潛在分布的局部極值推導出最可靠背景狀態(most reliable background mode MRBM)。該方法的基本計算過程采用Mean Shift這一經典的模式識別過程。Mean Shift通過迭代計算,能夠在數據的密度分布中找到最近位置的點(譯者注:即找到數據最密集的點)。這種方法有三個優點:(1)能從包含混亂運動對象的視頻中提取出背景;(2)背景非常清晰;(3)對噪聲和小幅度的(攝像機)振動具有魯棒性。廣泛的實驗結果證明了上述優點。
??? 關鍵詞:背景減除,背景生成,Mean Shift,影響因素描述,最可靠背景狀態,視頻監視
1 引言
??? 在許多計算機視覺和視頻分析應用中,運動對象的分割是一項基本任務。例如,視頻監視,多媒體索引,人物檢測和跟蹤,有知覺的人機接口,“小精靈”視頻編碼。精確的對象分割能極大的提高對象跟蹤,識別,分類和動態分析的性能。識別運動對象的通用方法有:光流,基于時間差異或背景減除的方法。其中,背景減除最常用。背景模型被計算出,并逐幀進化;然后通過比較當前幀和背景模型間的差異來檢測運動對象。這種方法的關鍵之處在于建立并維持背景模型。盡管文獻【1-4】提出了很多有前途的方法,但是運動對象檢測的精度這一基本問題仍然難以解決。第一個問題是:背景模型必須盡可能精確的反映真實背景,這樣系統才能精確的檢測運動對象的外形。第二個問題是:背景模型必須對背景場景的改變足夠靈敏,例如對象開始運動及停止運動。如果不能適當的解決上述問題,背景減除會檢測出虛假對象,它們通常被稱為“幽靈”。
??? 目前已經有了許多用于背景減除的背景建立和維持方法。按背景建模的步驟來分類,我們可以將其分為參數化的和非參數化的方法。參數化的背景建模方法通常假設:單個像素的潛在概率密度函數是高斯或者高斯混合函數,詳情請參看文獻【5-7】。Stauffer和Grimson在文獻【8】中提出了一種自適應的背景減除方法,用于解決運動分割問題。在他們的工作成果中,他們為每個像素建立了高斯混合概率密度函數,然后用即時的近似值更新該模型。文獻【9,10】提出了對高斯混合模型的一些改進方法。Toyama等人在文獻【2】中提出了一種三層的Wallflower方案,該方案嘗試解決背景維持中現存的許多問題,例如燈光打開關閉,前景孔穴等等。Haritaoglu等人在文獻【1】中提出的W4方法,該方法為背景建模而對每個像素保留了三個值的方法,包括最大值(M),最小值(N)和最大幀間絕對差值(D)。Kim等人在文獻【11】中,將背景值量化到編碼本,編碼本描述了長視頻中背景模型的壓縮形式。
??? 另一類經常用到的背景模型方法基于非參數化的技術,例如文獻【3,12-16】。Elgammal等人在文獻【3】中,通過核密度估計建立了一種非參數化的背景模型。對每個像素,為了估計潛在的概率密度函數而保留了觀測強度值,而新強度值的概率能通過該函數計算得出。這種模型具有魯棒性,能夠適應混亂及不完全靜止但包含小擾動場合下的背景,例如擺動的樹枝和灌木。
??? 與參數化的背景模型方法相比,非參數化的背景模型方法具有以下優點:不需要指定潛在的模型,不需要明確的估計參數【14】。因此,它們能適應任意未知的數據分布。這個特性使非參數化的方法成為許多計算機視覺應用的有力工具。在許多計算機視覺應用中,許多問題牽涉到多元多種形式的密度,數據在特征空間中沒有規則的形態,沒有遵循標準的參數形式。但是,從時間和空間復雜度這一方面來看,非參數化的方法不如參數化的方法有效。參數化的方法產生簡潔的密度描述(例如高斯或高斯混合),得出有效的估計狀態。相對的,非參數化的方法在學習階段幾乎不需要計算,然而在評估階段需要高密度的計算。因此,非參數化方法的主要缺陷是它們的計算量。不過一些革新的工作成果已經被提出,它們能加快非參數化方法的評估速度,例如文獻【13】中的快速高斯變換(FGT),文獻【17】中的新ball tree算法,核密度估計和K近鄰(KNN)分類。
??? 本文專注于非參數化的方法,跟Elagammal在文獻【3】中提出的方法有緊密的聯系,但是有兩點本質上的區別。從基本原理上看,我們用影響因素描述(ECD)來為背景的變化建模,最可靠背景模型(MRBM)對背景場景的估計具有魯棒性。從計算過程來看,通過使用Mean Shift過程,我們避免了對每個新觀測強度值計算概率的核密度估計過程,節約了處理時間。在我們的方法中,僅用幀差即可決定像素的屬性。因此能提高背景減除的魯棒性和效率。
??? 本文余下的部分按以下方式來組織:第二節中提出了影響因素描述,用于反映背景的變化;第三節詳細解釋了最可靠背景模型;第四節包含了實驗結果;第五節討論了有待擴充的部分。
2 影響因素描述
??? 本節討論影響因素描述(ECD),我們試圖通過它來有效的模擬背景的變化。
??? 背景減除的關鍵因素在于怎樣建立并維持好的背景模型。由于在不同的應用中,攝像機類型、捕獲的環境和對象完全不同,背景模型需要足夠的自適應能力來適應不同的情況。為了有效的為背景建模,我們從最簡單的理想情況開始。在理想情況下,對于視頻中的每個空間位置,沿時間軸的強度值為常量C;常量C表示固定攝像機攝錄了固定的場景(沒有運動對象和系統噪聲)。我們將這種情況下的場景稱為理想背景場景。但是在實際應用中,很少能遇到這種理想情況。因此,背景像素可以看成是理想背景場景和其他影響部分的組合體。我們將這種方法定義為背景的影響成分描述,包括以下方面:
系統噪聲 N-sys:它由圖像傳感器和其他硬件設備引起。如果環境不太嚴密,系統噪聲不會從根本上影響常量C,僅僅引起適度的偏差。
運動的對象 M-obj:它由實際運動的對象及其陰影引起。大多數時候,它對C有極大的干擾。
運動的背景 M-bgd:它由運動的背景區域引起,例如戶外場景中隨風擺動的樹枝,或者水中的波紋。
光照 S-illum:它表示戶外隨太陽位置改變而漸變的光照,或者室內燈光的關閉和打開而改變的照明。
攝像機位移 D-cam:它表示攝像機的小幅度位移而引起的像素強度變化。
??? 場景的觀測值(記為V-obsv)由理想背景場景C和有效成分組成,如公式(1)所示。
??? V-obsv = C + N-sys + M-obj + M-bgd + S-illum + D-cam??? (1)
??? 在這里我們用符號+來表示影響因素的累積效果。
??? 實際上,上述影響因素能進一步分為表1所示的不同屬性。首先需要被強調的屬性是過程,我們可以按過程將影響因素分為長期影響和短期影響。我們沿時間軸將視頻流分成長度相等的塊,如圖1所示。長期表示影響因素會持續數塊或者一直存在,例如N-sys、S-illum和D-cam。而M-obj和M-bgd僅僅偶爾發生,不會長期持續,因此我們稱之為短期影響。
圖1 將視頻流分為等長的塊
??? 另一種分類的標準是偏差。我們把S-illum、D-cam、M-bgd看作時間不變的常駐偏差影響。在較長的過程中,這些影響可以看作是對理想背景值C持久的增加(減少),或者替代。以S-illum為例,如果處于室內場景,并且打開照明,在接下來的幀中S-illum可以看成是對C持久的增加。而N-sys和M-obj在不同時刻有隨機的值,我們稱之為隨時間變化的隨機偏差影響。上述分析歸納到了表1中。
表1 影響因素的分類
?? ?????????????????????? 長期? ? ? ? ? 短期?? ?
常駐偏差?? ?S-illum,D-cam?? ?M-bgd?? ?
隨機偏差?? ?N-sys?? ? ? ? ? ? ? ?? M-obj?? ?
??? 在此必須闡明以下兩點:(1)上述分類并不絕對,取決于我們選擇的塊長度;但是它不影響我們接下來的分析;(2)也許某人會指出對S-illum的分類不正確,例如行駛汽車的燈光不是長期影響;這種情況下的光照變化屬于短期影響,跟M-obj類似,因此我們不把它單獨列為獨立的影響因素。
??? 由于S-illum和D-cam對理想背景C有長期持續的偏差,我們將它們合并到理想背景中,得到C' = C + S-illum + D-cam。對這種合并的直接解釋是:如果光照發生變化或者攝像機變動位置,我們有理由假設理想背景已經改變。因此將公式(1)表示成:
V-obsv = C' + N-sys + M-obj + M-bgd??? (2)
??? 到目前為止,觀測值V-obsv由新的理想背景值C' 和影響因素(N-sys、M-obj、M-bgd)組成。這些影響因素對C'有不同的影響,歸納成以下兩點:
N-sys在整個視頻流中存在,并對C'有些許影響。因此,大部分觀測值都不會偏離C'太遠。
M-obj和M-bgd僅僅偶爾發生,但對C'引起很大的偏差。因此,僅僅小部分觀測值顯著的不同于C'。
??? 得出以下結論:空間位置的像素值在大部分時間內保持穩定并伴隨些許偏差(由于長期存在的隨機偏差N-sys);僅僅當運動對象通過該像素時引起顯著的偏差(由于短期偏差M-obj和M-bgd)。因此一段時間內,少數顯著偏差形成了極值。大部分時間都存在這種屬性,不過有時也并非如此。在圖2中顯示了白色圓心處像素值隨時間而變化的圖表。圖2(a)~(c)節選自一段長達360幀的視頻,圖2(d)描繪了像素強度的變化。從圖2(d)我們可以看出:由系統噪聲引起的小幅度偏差占據了大部分時間,僅當有運動對象(及其陰影)經過時引起了顯著的偏差。這與影響因素描述是相符的。
圖2 顯示ECD效果的例子
??? 我們的任務是從觀測值序列{V-obsv t}(t=1....T,T指時間長度)中找到理想背景C'的估計值C'^。通過上述分析,我們發現C'^位于多數觀測值的中點。從另一方面來看,C'^處于潛在分布梯度為0和最密集的地方。這個任務可由Mean Shift過程來完成。我們將C'^稱為最可靠背景狀態。
3 用于運動對象檢測的最可靠背景狀態
基于第二節所講的影響因素描述,我們推知:大部分觀測值所處區域的中心是背景的理想估計。我們將這個估計用符號C'^表示,并稱為最可靠背景狀態(MRBM)。定位MRBM的基本計算方式是Mean Shift。一方面,通過使用MRBM,我們能夠為混亂運動對象的視頻生成非常清晰的背景圖像。另一方面,Mean Shift過程能發現強度分布的一些局部極值,這種信息能從真實的運動對象中區別出運動的背景(例如戶外隨風擺動的樹枝,或者水中的波紋)。
3.1 用于MRBM的Mean Shift
??? Mean Shift是定位密度極值的簡明方式,密度極值處的梯度為0.該理論由Fukunaga在文獻【18】中提出,而Mean Shift的平滑性和收斂性由Comaniciu和Meer在文獻【19】中證實。近幾年它已成為計算機視覺應用的有力工具,并報道了許多有前途的成果。例如基于Mean Shift的圖像分割【19-21】和跟蹤【22-26】。
??? 在我們的工作成果中,我們用Mean Shift來定位強度分布的極值(注意:可能有多個局部極值)。我們將最大密度狀態定義為MRBM。算法的要點如圖3所示,包括下列步驟:
樣本選擇:我們為每個像素選擇一組樣本S = {xi},i=1,...,n,其中xis是像素沿時間軸的強度值,n是樣本數目。我們直接對樣本進行Mean Shift運算,以便定位密度的極值。
典型點選擇:為了減少計算量,我們從S中選擇或者計算出一組典型點(典型點數目為m,m<<n),并將這組典型點記為P = {pi},i=1,...,m。P中的典型點可以是樣本的抽樣結果,也可以是原始樣本點的局部平均值。在我們的實驗中,我們選擇局部平均值。
Mean Shift過程:從P中的典型樣本點開始運用Mean Shift過程,我們可以得到收斂點m。值得注意的是,Mean Shift計算仍然基于整個樣本點集S。所以,梯度密度估計的精度并未因為使用典型點而降低。
提取候選背景模型:由于一些收斂點非常接近甚至完全一樣,這些收斂點m可以被聚集為q組(q≤m)。我們能夠獲取q帶權重的聚集中心,C = {{ci,wi}},i=1,....,q,其中ci是每個聚集中心的強度值,wi是聚集中心的權重。每組的點數記為li, i=1,....,q,∑i=1qli=m。每組中心的權重定義為:wi = li / m, i=1,....,q。
獲取最可靠背景模型:C'^ = ci*,其中i* = argi max{wi},C'^是第二節提到的最可靠背景模型。
圖3 MRBM算法的要點
??? 對于每個m典型點,第三步中的Mean Shift實現過程依照以下步驟:
(1)初始化Mean Shift過程的起點:y1=pi。
(2)反復運用Mean Shift過程yt+1 = ....直至收斂。(這里我們選用跟文獻【19】一樣的Mean Shift過程,函數g(x)是核函數G(x)。)
(3)保存收斂點yconv,用于后續分析。
??? 在對所有像素運用上述步驟之后,我們能用MRBM生成背景場景B。通過上述分析,我們發現背景生成過程的時間復雜度為O(N·m),空間復雜度為O(N·n),其中N是視頻的長度。
3.2 運動對象檢測與背景模型維持
??? 生成背景模型之后,我們可以將其用于檢測場景中的運動區域。為了使我們的背景模型對運動背景具有魯棒性(例如戶外隨風擺動的樹枝,或者水中的波紋),我們將k個聚集中心選為可能的背景值。我們將這組集合定義為Cb = {{ci,wi} | wi ≥ θ},i=1,....,k,其中Cb?C,θ是預定義的閥值。對于每個新的觀測強度值x0,我們僅僅計算x0與Cb中元素的最小差值d,其中d = min{(x0-ci) | {ci,wi}∈Cb}。如果差值d大于預定義的閥值t,我們認為新的觀測強度值是前景,否則為背景。
??? 背景維持能讓我們的背景模型適應長期的背景變化,例如新停泊的汽車或者逐漸改變的光照。當我們觀察一個新像素值時,背景模型按下列步驟來更新:
(1)對每個新像素值,我們視其為新典型樣本點。因此典型樣本點的數目變為:m = m + 1。
(2)如果新像素值屬于背景區域,假設其強度值與聚集中心{ci,wi}最近,我們將該中心的權重更新為:wi =? (li + 1) / m。
(3)如果新像素值屬于前景區域,我們從這點開始運用新的Mean Shift過程,這樣可以獲取到新的收斂中心{cnew,wnew},其中wnew初始化為:wnew = 1 / m。聚集中心C被擴充成:C = C ∪ {{cnew,wnew}}。
??? 背景減除的時間復雜度是O(N),背景維持的時間復雜度是O(R),其中N是視頻的幀數,R是運動對象的數目。
4 實驗
??? 我們專注于兩類MRBM應用:背景生成和背景減除。我們在合成視頻和標準PETS數據庫上比較MRBM與其他常用的方法。源代碼用C++實現,測試用電腦的配置如下:CPU為Pentium 1.6GHZ,內存512M。
??? 我們自己捕獲或者合成的視頻尺寸為320×240像素,PETS數據庫的視頻尺寸為384/360×288像素,幀速率均為25fps。在所有的實驗中,我們選擇YUV(4:4:4)色彩空間作為特征空間。算法實現的描述見第三節,我們采用了Epanechnikov核,K(t) = 3 / 4 *(1 - t2) 。
??? 理論上,更大的訓練集能得到更穩定的背景模型,但是會犧牲適應性。我們的實驗表明,當n=100時,能夠使背景圖像得到最佳的可視質量和適應性。典型點數m影響訓練時間及背景模型的可靠性。在我們的實驗中,我們為Mean Shift過程選擇m=10個典型點,這時的訓練時間與高斯混合模型接近。閥值θ和t影響檢測的精度,對不同的數據集可能有不同的θ和t。在我們的實驗中當θ=0.3,t=10時,能夠得到最大的準確率和最小的錯誤率。如果沒有特別說明,所有實驗使用上述設置。
4.1 背景生成
??? 在許多監控和跟蹤應用中,期望生成沒有運動對象的背景圖像,它能為更進一步的分析提供參考信息。但是很多時候,并不容易獲得沒有運動對象的的視頻。我們的算法能從包含混亂運動對象的視頻中提取非常清晰的背景圖像。圖4顯示了一些生成的背景。視頻共有360幀,我們將前100幀用于生成背景。圖中顯示了第1,33,66,99幀圖像。圖4的底部顯示了算法生成的背景。以圖4(c)為例,這段視頻攝自校園的上下課時間,每幀中都有10名步行的學生。觀察圖4(c)最下面的背景圖像,我們發現背景非常清晰,所有運動對象都被成功的抹去了。
圖4 由MRBM生成的背景圖像(每段視頻顯示了第1,33,66,99幀)
??? 運動對象的移動速度是關鍵因素,它能顯著的影響背景模型,包括我們的背景模型。我們用一段300幀的視頻來評估算法,該視頻里有一位緩慢走動的女士。第1,30,60,90,120幀圖像分別顯示在圖5(a)~(e)中。用不同數目的樣本圖像生成的背景顯示于圖5(f)~(j)。當保持100幀樣本圖像時,生成的背景中有一些噪點,但是背景的整體質量得以保證。噪點區域用白色橢圓標出了,如圖5(f)所示。當我們將樣本數目增加到300時,背景變得非常清晰,如圖5(j)所示。
圖5 由不同樣本數(n=100,150,200,250,300)生成的背景圖像(視頻中有一位緩慢走動的女士,顯示了視頻中的第1,30,60,90,120幀圖像)
??? 我們也對我們的背景生成方法與其它基本方法做了比較,例如高斯模型具有多個聚集中心的高斯混合模型。為了區分比較結果,我們合成了一段多模態背景分布視頻。背景的像素由高斯混合分布生成,pbg(x) = ∑i=12αiGμi,σi(x),其中參數α1=α2=0.5,σ1=σ2=6,μ1=128,μ2=240。前景對象的像素由高斯分布生成,pfg(x) = Gμ,σ(x),其中參數μ=10,σ=6。上述兩式中,Gμ,σ(·)代表具有均值μ和標準偏差σ的高斯分布。背景像素及前景像素的強度分布見圖6。
圖6 視頻中的背景像素強度分布(藍色曲線)及前景像素強度分布(紅色曲線)
??? 視頻共有120幀,我們用前100幀來生成背景。圖7(a)~(e)顯示了一些選定的幀,生成的背景圖像顯示在圖7(f)~(i)中,從潛在分布生成的“地面實況”樣本顯示于圖7(j)中。 對于高斯模型,背景像素的強度值被選為高斯均值,生成的背景圖像如圖7(f)所示。對于高斯混合模型,我們選擇帶maxim的高斯混合均值為背景值。圖7(g)顯示了2個中心的高斯混合模型,圖7(h)顯示了3個中心的高斯混合模型。實驗所用的高斯混合模型使用OpenCV中的實現,見文獻【27】。MRBM方法得到的結果如圖7(i)所示。
圖7 由不同模型從合成視頻中生成的背景圖像。(a)~(e)中顯示了第1,20,40,60,80幀圖像。(f)~(i)顯示了由高斯模型、2中心高斯混合模型、3中心? 高斯混合模型及最可靠背景模型生成的背景圖像。(j)顯示了地面實況樣本背景圖像。
??? 比較地面實況圖像和生成的背景圖像,我們發現非參數模型MRBM優于其它方法。憑直覺,在處理多模分布時,MRBM看起來與高斯混合模型類似。但是關鍵的不同之處在于高斯模型依賴均值和方差。它們的1階和2階統計數據對外部點(outliers 遠離數據峰值的點)非常敏感。如果對象的運動速度慢,存在足夠的前景值導致錯誤的均值,結果得出錯誤的背景值。作為對照,MRBM跟分布無關,僅僅使用極值作為可能的背景值,它對外部點更魯棒。其他參數方法存在類似的問題,當預定義的模型不能描述數據分布時更加明顯。
4.2 背景減除
??? 圖8顯示了我們算法的背景減除結果。圖8(a)顯示觀測到的當前幀,圖8(b)顯示用MRBM從100幀樣本生成的背景圖像,圖8(c)顯示了背景減除的結果圖像,我們發現運動對象變得很突出。我們比較了MRBM和其它常用的基本方法,例如文獻【1】中的最大最小值法,文獻【28,29】中的中值法,文獻【8,6】中的高斯混合模型。比較結果顯示于圖9。由于我們不能修改這些原始工作成果的實現方式,只能按以下方式來管理基礎算法:(1)對于W4,我們按原始成果中的建議來設置參數;(2)對于中值法和高斯混合模型,我們調整參數使其達到最好的檢測精度。另外,為了使比較盡量公平,我們只做背景減除,沒有進行降噪和形態學處理。
圖8 背景減除結果
??? 最佳的視頻序列選自PETS數據庫【30-32】,選定幀如圖9(a)所示。對所有的視頻序列,我們用100幀來生成背景,用第40幀做背景減除。這些視頻序列包含兩種主要的場景:緩慢運動的對象(如PETS00和PETS06),多模態背景(如PETS01中擺動的樹);這兩種場景是背景減除中的不同情況。對于緩慢運動的對象,高斯模型的結果比較差,因為高斯均值對外部點敏感,如圖9(d)所示。而MRBM依賴于背景分布的極值,外部點對其影響很小。同樣,中值法和最大最小值法不能很好的應對多模態背景,PETS01中擺動的樹被誤認為前景。跟預期一致,MRBM優于其它三種方法。
圖9 不同方法得到的背景減除結果。(a)標準PETS數據庫,(b)最大最小值法,(c)中值法,(d)高斯混合模型,(e)最可靠背景模型
4.3 討論可能的欠缺
??? 盡管MRBM適用于許多應用,仍然存在一些不能應對的場合,圖10就是不能應對的例子。在這個實驗中,視頻共有300幀,我們用前120幀來生成背景。圖10(a)~(g)分別顯示了第1,20,40,60,80,100,120幀,背景圖像顯示在圖10(h)中。前景人物的很大一部分被誤認為背景。
圖10 一個MRBM不能正確處理的例子。分別顯示了第1,20,40,60,80,100,120幀圖像。
通常,前景和背景的定義從自身來看并不明確。它包含在場景的語義中,在不同的應用中可能不一致。在我們的應用中,我們將運動對象定義為前景,將靜止(或者幾乎靜止)的東西定義為背景,這與大多數視頻監控應用的定義一致。通過第二節的分析,我們試圖用ECD模型來近似觀測值。在圖10的實驗中,人物在大部分時間保持靜止,然后突然運動。這種情況下,大部分觀測強度值屬于人物,而非背景。對于人物的肩膀部分尤其明顯,肩膀部分有相似的顏色,以致于檢測不到運動。因此前景人物的大部分被誤認為背景。
??? 實際上,這個例子反映了背景模型的根本問題:穩定性與適應性。理論上,如果我們增加用于訓練的背景幀數,我們能得到更清晰的背景圖像。但是同時,會極大的犧牲背景模型的適應性。當背景改變(例如新停泊的汽車或者突然改變的光照),背景模型需要很長的時間才能適應新情況,將產生大量的錯誤。
??? 針對該問題,一種有效的解決方案是:將現有的基于像素的方法擴展為基于區域或者基于幀的方法。通過分割圖像或者完善像素級的低級分類可以實現它。更進一步,可以同時使用低級對象分割和高級信息(例如跟蹤或者事件描述)。因此,我們接下來的工作將專注于如何結合空間和高級信息。
5 結論
??? 本文主要有兩點貢獻:(1)我們介紹的影響因素描述可用于對變化的背景進行建模;(2)基于ECD,我們開發了一種魯棒的背景生成方法——最可靠背景模型。應用MRBM,能從包含混亂運動對象的視頻序列中生成高質量的背景圖像。一些例子顯示了這種方法的有效性和魯棒性。
??? 然而,仍然存在一些有待解決的問題。當前的工作中僅僅考慮了像素的時間信息。怎么結合空間信息來提高本方法的魯棒性是后續工作的重點。一種直接的擴展是:將當前基于像素的方法修改成熔合了鄰域信息基于區域的方法。另外,結合使用低級分割和高級跟蹤信息,對我們的工作成果也將有極大的提高。
6 致謝
??? 在此要感謝陳熙霖博士和山世光博士,他們跟作者進行了很有幫助的討論。這項研究的經費由以下單位贊助:中國自然科學基金會、中國科學院百名人才培養計劃、上海銀晨智能識別科技有限公司。
參考文獻
[1] I.Haritaoglu, D.Harwoodand, L.S.Davis, W4:real-time surveillance of people and their activities, IEEE Transactions on Pattern Analysis and Machine Intelligence 22 (8) (2000) 809–830.
[2] K.Toyama, J.Krumm, B.Brumitt,B.Meyers., WallFlower: Principles and Practice of background maintenance, in: IEEE International Conferenceon Computer Vision, Corfu, Greece, 1999, pp. 255–261.
[3] A.Elgammal, D.Harwood, L.Davis, Non-parametric model for background subtraction, in: European Conference on Computer Vision, Dublin, Ireland, 2000, pp. 751–767.
[4] T.E.Boult, R.J.Micheals, X.Gao, M.Eckmann, Intothewoods: visual Surveillance of noncooperative and camouflaged targets in complex outdoor?
settings, Proceedings of the IEEE 89 (2001) 1382–1402.
[5] C.R.Wren, A.Azarbayejani, T.Darrell, A.P.Pentland, Pfinder: Real-time Tracking of the human body, IEEE Transactions on Pattern Analysis and?
Machine Intelligence 19 (7) (1998) 780–785.
[6] C.Stauffer, W.Grimson, Adaptive background mixture models for real-time tracking, in: IEEE Conference on Computer Vision and Pattern Recognition, FortCollins, USA, 1999, pp. 246–252.
[7] S.Rowe, A.Blake, Statistical background modelling for tracking with a virtual camera, in: British Machine Vision Conference, Birmingham, UK, 1995, pp. 423–432.
[8] C.Stauffer, W.E.L.Grimson, Learning patterns of activity using real-time tracking, IEEE Transactions on Pattern Analysis and Machine Intelligence 22 (8) (2000) 747–757.
[9] L.Li, W.Huang, I.Y.Gu, Q.Tian, Foreground object detection in changing Background based on color co-occurrence statistics, in: IEEE Workshop on Applications of Computer Vision, Orlando, Florida, 2002, pp. 269–274.
[10] P.KaewTraKulPong, R.Bowden, An improved adaptive background mixture Model for real-time tracking with shadow detection, in: European Workshop on Advanced Video Based Surveillance Systems, Kluwer Academic, 2001.
[11] K.Kim, T.Chalidabhongse, D.Harwood, L.Davis, Real-time foreground-Background segmentation using codebook model, Real Time Imaging 11 (3) (2005) 172–185.
[12] A.Elgammal, R.Duraiswami, L.Davis, Effcient non-parametric adaptive color Modeling using fast gauss transform, in: IEEE Conference on Computer Vision And Pattern Recognition, Vol. 2, 2001, pp. 563–570.
[13] A.M.Elgammal, R.Duraiswami, L.S.Davis, Effcient kernel density estimation Using the fast gauss transform with applications to color modeling and tracking., IEEE Transactions on Pattern Analysis and Machine Intelligence 25 (11) (2003) 1499–1504.
[14] A.Elgammal, Effcient nonparametric kernel density estimation for realtime computer vision, Ph.D. thesis, Rutgers, The State University of New Jersey (2002).
[15] H.Askar, X.Li, Z.Li, Background clutter suppression and dim moving point Targets detection using nonparametric method, in: International Conference on Communications, Circuits and Systems and West Sino Expositions, Vol. 2, 2002, pp. 982–986.
[16] D.Thirde, G.Jones, Hierarchical probabilistic models for video object Segmentation and tracking, in: International Conference on Pattern?
Recognition, Vol. 1, 2004, pp. 636–639.
[17] T.Liu, A.W.Moore, A.Gray, Effcient exact k-nn and nonparametric Classification in high dimensions, in: Neural Information Processing Systems, 2003, pp. 265–272.
[18] K.Fukunaga, L.Hostetler, The estimation of the gradient of adensity function, With applications in pattern recognition, IEEE Transactions on Information Theory 21 (1975) 32–40.
[19] D.Comaniciu, P.Meer, Mean shift: a robust approach toward feature space analysis, IEEE Transactions on Pattern Analysis and Machine Intelligence 24 (5) (2002) 603–619.
[20] I.Y.-H.Gu, V.Gui, Colour image segmentation using adaptive mean shift filters, in: International Conference on Image Processing, 2001, pp. 726–729.
[21] L.Yang, P.Meer, D.J.Foran, Unsupervised segmentation based on robust Estimation and color active contour models, IEEE Transactions on Information Technology in Biomedicine 9 (3) (2005) 475–486.
[22] D.Comaniciu, V.Ramesh, P.Meer, Kernel-based object tracking, IEEE Transactions on Pattern Analysis and Machine Intelligence 25 (5) (2003) 564– 577.
[23] R.T.Collins, Y.Liu, On-line selection of discrimin ative tracking features, in: International Conference on Computer Vision, 2003, pp. 346–352.
[24] R.Collins, Y.Liu, M.Leordeanu, On-line selection of discriminative tracking features, IEEE Transactions on Pattern Analysis and Machine Intelligence 27 (10) (2005) 1631–1643.
[25] O.Debeir, P.V.Ham, R.Kiss, C.Decaestecker, Tracking of migrating cells under phase-contrast video microscopy with combined mean-shift processes, IEEE Transactions on Medical Imaging 24 (6) (2005) 697–711.
[26] C.Shen, M.J.Brooks, A.van den Hengel, Fast global kernel density Mode seeking with application to localisation and tracking, in: International?
Conference on Computer Vision, 2005, pp. 1516–1523.
[27] Intel open source computer vision library (2004).
URL http://www.intel.com/technology/computing/opencv/
[28] B.Lo, S.Velastin, Automatic congestion detection system for underground platforms, in: International Symposium on Intelligent Multimedia, Video and Speech Processing, Hong Kong, China, 2001, pp. 158–161.
[29] R.Cucchiara, C.Grana, M.Piccardi, A.Prati, Detecting moving objects, ghosts, and shadows in video streams, IEEE Transactions on Pattern Analysis and Machine Intelligence 25 (10) (2003) 1337–1342.
[30] IEEE international workshop on performance evaluation of tracking and surveillance (2000).
URL ftp://ftp.pets.rdg.ac.uk/pub/PETS2000/
[31] IEEE international workshop on performance evaluation of tracking and surveillance (2001).
URL ftp://ftp.pets.rdg.ac.uk/pub/PETS2001/
[32] IEEE international workshop on performance evaluation of tracking and surveillance (2006).
URL http://pets2006.net/data.html
寫在最后的話
??? 本文所述的方法可說是像素級背景建模方式的巔峰之作。在接下來的時間里,我將嘗試按照我自己的理解來實現文中的算法,對于論文中沒有講述透徹的部分,我也試圖完善它。敬請期待~~
??? 在翻譯文章的過程中得到了趙德斌博士的指導,在此表示感謝。
??? 同時,也感謝您耐心看完,希望對您有所幫助。
??? 欲知后事如何,且聽下回分解。
網頁中的文本編輯器不方便寫公式,文中的公式恐怕很難看清楚,建議您下載本文的WORD文檔。
總結
以上是生活随笔為你收集整理的背景建模与前景检测2(Background Generation And Foreground Detection Phase 2)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 背景建模与前景检测1(Backgroun
- 下一篇: 背景建模与前景检测3(Backgroun