行为识别特征综述
???????????? 原文鏈接:http://blog.csdn.net/zhoutongchi/article/details/8276013
行為識別特征提取綜述
???????? 轉(zhuǎn)自:http://www.cnblogs.com/tornadomeet/archive/2012/06/22/2558548.html
???????? 主要參考“Human Activity Analysis: A Review”
摘要
人體行為識別目前處在動作識別階段,而動作識別可以看成是特征提取和分類器設(shè)計(jì)相結(jié)合的過程。特征提取過程受到遮擋,動態(tài)背景,移動攝像頭,視角和光照變化等因素的影響而具有很大的挑戰(zhàn)性。本文將較全面的總結(jié)了目前行為識別中特征提取的方法,并將其特征劃分為全局特征和局部特征,且分開介紹了其優(yōu)缺點(diǎn)。
關(guān)鍵字: 行為識別 特征提取 全局特征 局部特征
1. 前言
如今人體行為識別是計(jì)算機(jī)視覺研究的一個(gè)熱點(diǎn),人體行為識別的目標(biāo)是從一個(gè)未知的視頻或者是圖像序列中自動分析其中正在進(jìn)行的行為。簡單的行為識別即動作分類,給定一段視頻,只需將其正確分類到已知的幾個(gè)動作類別,復(fù)雜點(diǎn)的識別是視頻中不僅僅只包含一個(gè)動作類別,而是有多個(gè),系統(tǒng)需自動的識別出動作的類別以及動作的起始時(shí)刻。行為識別的最終目標(biāo)是分析視頻中哪些人在什么時(shí)刻什么地方,在干什么事情,即所謂的“W4系統(tǒng)”。
下面將4個(gè)方面對行為識別做初步介紹。
1.1 行為識別應(yīng)用背景
人體行為識別應(yīng)用背景很廣泛,主要集中在智能視頻監(jiān)控,病人監(jiān)護(hù)系統(tǒng),人機(jī)交互,虛擬現(xiàn)實(shí),智能家居,智能安防,運(yùn)動員輔助訓(xùn)練,另外基于內(nèi)容的視頻檢索和智能圖像壓縮等有著廣闊的應(yīng)用前景和潛在的經(jīng)濟(jì)價(jià)值和社會價(jià)值,其中也用到了不少行為識別的方法。
1.2 行為識別研究歷史
行為識別分析的相關(guān)研究可以追溯到1975年Johansson[1]的一個(gè)實(shí)驗(yàn),作者提出了12點(diǎn)人體模型,這種描述行為的點(diǎn)模型方法對后來基于人體結(jié)構(gòu)的行為描述算法起到了重要的指導(dǎo)作用。從那以后,行為識別的研歷史究進(jìn)展大致可以分為以下3個(gè)階段,第1個(gè)是20世紀(jì)70年代行為分析的初步研究階段,第2個(gè)是20世紀(jì)90年代行為分析的逐步發(fā)展階段,第3個(gè)是最近幾年來行為分析的快速發(fā)展階段。從文獻(xiàn)[2]~[7]這6篇較有名的行為識別綜述論文可以看出, 研究行為識別的人數(shù)在不斷增加,論文數(shù)量也是猛增,并且產(chǎn)生了許多種重要的算法和思想。
1.3 行為識別方法分類體系
關(guān)于視覺上人體運(yùn)動分析和識別的方法論體系有很多種。Forsyth[8]等人側(cè)重與將動作從視頻序列中人的姿態(tài)和運(yùn)動信息恢復(fù)過來,這屬于一個(gè)回歸問題,而人體行為識別是一個(gè)分類問題,這2個(gè)問題有很多類似點(diǎn),比如說其特征的提取和描述很多是通用的。Turaga[5]等人將人體行為識別分為3部分,即移動識別(movement),動作識別(action)和行為識別(activity),這3種分類分別于低層視覺,中層視覺,高層視覺相對應(yīng)。Gavrila[9]采用2D和3D的方法來分別研究人體的行為。
對于行為識別方法論的劃分中,最近出現(xiàn)了一種新的劃分[7], Aggarwal將人體行為研究分為2大類,其一是基于單個(gè)層次來實(shí)現(xiàn),其二是基于等級體系來實(shí)現(xiàn)。單層實(shí)現(xiàn)由分為時(shí)空特征和序列特征2種,等級體系實(shí)現(xiàn)分為統(tǒng)計(jì)方法,句法分析法和基于描述的方法3種。圖1 Aggarwal對行為識別方法論體系的層次結(jié)構(gòu)圖。
圖1 行為識別方法層次結(jié)構(gòu)
該分類體系比較完善,也能很好的體現(xiàn)目前的研究進(jìn)展。按照Turaga的3個(gè)層次劃分理論,目前關(guān)于行為識別基本上還停留在第二個(gè)階段,即action識別。而action識別比現(xiàn)實(shí)生活中的行為較簡單,所以我們識別這些行為只需對這些行為進(jìn)行正確的分類即可。這樣一個(gè)行為識別系統(tǒng)就分成了行為特征提取和分類器的設(shè)計(jì)兩個(gè)方面,通過對訓(xùn)練數(shù)據(jù)提取某種特征,采用有監(jiān)督或無監(jiān)督來訓(xùn)練一個(gè)分類模型,對新來的數(shù)據(jù)同樣提取特征并送入該模型,得出分類結(jié)果?;谶@個(gè)思想,本文主要是從行為識別的特征提取方面做了一個(gè)較為全面的介紹。
1.4 行為識別研究難點(diǎn)
行為識別發(fā)展至今,取得了很大的進(jìn)展,在低層,中層和高層都取得了一定的突破,但是行為識別算法并不成熟,目前不存在一個(gè)算法適合所有的行為分類,3個(gè)視覺層次中都還有很多嚴(yán)峻的問題有待解決。其研究的難點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:
1.4.1 動作類內(nèi)類間的變化太大
對于大多數(shù)的動作,即使是同一動作都有不同的表現(xiàn)形式。比如說走路,可以在不同的背景環(huán)境中完成,走路的速度也可以從慢到快,走路的步長亦有長有短。其它的動作也有類似的結(jié)果,特別是一些非周期的運(yùn)動,比如過馬路時(shí)候的走路,這與平時(shí)周期性的走路步伐明顯不同。由此可見,動作的種類本身就很多,再加上每一種類又有很多個(gè)變種,所以給行為識別的研究帶來了不少麻煩。
1.4.2 環(huán)境背景等影響
環(huán)境問背景等因素的影響可謂是計(jì)算機(jī)視覺各個(gè)領(lǐng)域的最大難點(diǎn)。主要有視角的多樣性,同樣的動作從不同的視角來觀察會得到不同的二維圖像;人與人之間,人與背景之間的相互遮擋也使計(jì)算機(jī)對動作的分類前期特征提取帶來了困難,目前解決多視覺和遮擋問題,有學(xué)者提出了多攝像機(jī)融合通過3維重建來處理;另外其影響因素還包括動態(tài)變化和雜亂的背景,環(huán)境光照的變化,圖像視頻的低分辨率等。
1.4.3 時(shí)間變化的影響
總所周知,人體的行為離不開時(shí)間這個(gè)因素。而我們拍攝的視頻其存放格式有可能不同,其播放速度有慢有快,這就導(dǎo)致了我們提出的系統(tǒng)需對視頻的播放速率不敏感。
1.4.4 數(shù)據(jù)的獲取和標(biāo)注
既然把行為識別問題當(dāng)成一個(gè)分類問題,就需要大量的數(shù)據(jù)來訓(xùn)練分類模型。而這些數(shù)據(jù)是視頻數(shù)據(jù),每一個(gè)動作在視頻中出現(xiàn)的位置和時(shí)間都不確定,同時(shí)要考慮同一種動作的不同表現(xiàn)形式以及不同動作之間的區(qū)分度,即數(shù)據(jù)的多樣性和全面性。這一收集過程的工作量不小,網(wǎng)上已經(jīng)有一些公開的數(shù)據(jù)庫供大家用來實(shí)驗(yàn),這將在本文的第3部分進(jìn)行介紹。
另外,手動對視頻數(shù)據(jù)標(biāo)注非常困難。當(dāng)然,有學(xué)者也提出了一些自動標(biāo)注的方法,比如說利用網(wǎng)頁圖片搜索引擎[10],利用視頻的字幕[11],以及利用電影描述的文本進(jìn)行匹配[12][13][14]。
1.4.5 高層視覺的理解
上面一提到,目前對行為識別的研究尚處在動作識別這一層(action recognition)。其處理的行為可以分為2類,一類是有限制類別的簡單規(guī)則行為,比如說走、跑、揮手、彎腰、跳等。另一類是在具體的場景中特定的行為[15]~[19],如檢測恐怖分子異常行為,丟包后突然離開等。在這種場景下對行為的描述有嚴(yán)格的限制,此時(shí)其描述一般采用了運(yùn)動或者軌跡。這2種行為識別的研究都還不算完善,遇到了不少問題,且離高層的行為識別要求還相差很遠(yuǎn)。因此高層視覺的理解表示和識別是一個(gè)巨大的難題。
2. 行為識別特征提取
這一節(jié)中,將主要討論怎樣從圖片序列中提取特征。本文將行為識別的特征分為2大類:全局特征和局部特征。
全局特征是把一對象當(dāng)做成一個(gè)整體,這是一種從上到下的研究思維。這種情況下,視頻中的人必須先被定位出來,這個(gè)可以采用背景減圖或者目標(biāo)跟蹤算法。然后對定位出來的目標(biāo)進(jìn)行某種編碼,這樣就形成了其全局特征。這種全局特征是有效的,因?yàn)樗巳梭w非常多的信息。然而它又太依賴而底層視覺的處理,比如說精確的背景減圖,人體定位和跟蹤。而這些處理過程本身也是計(jì)算機(jī)視覺中的難點(diǎn)之處。另外這些全局特征對噪聲,視角變化,遮擋等非常敏感。
局部特征提取是收集人體的相對獨(dú)立的圖像塊,是一種從下到上的研究思維。一般的做法是先提取視頻中的一些時(shí)空興趣點(diǎn),然后在這些點(diǎn)的周圍提取相應(yīng)的圖像塊,最后將這些圖像塊組合成一起來描述一個(gè)特定的動作。局部特征的優(yōu)點(diǎn)是其不依賴而底層的人體分割定位和跟蹤,且對噪聲和遮擋問題不是很敏感。但是它需要提取足夠數(shù)量的穩(wěn)定的且與動作類別相關(guān)的興趣點(diǎn),因此需要不少預(yù)處理過程。
2.1 全局特征提取
全局特征是對檢測出來的整個(gè)感興趣的人體進(jìn)行描述,一般是通過背景減圖或者跟蹤的方法來得到,通常采用的是人體的邊緣,剪影輪廓,光流等信息。而這些特征對噪聲,部分遮擋,視角的變化比較敏感。下面分別從其二維特征和三維特征做介紹。
2.1.1 二維全局特征提取
Davis[20]等人最早采用輪廓來描述人體的運(yùn)動信息,其用MEI和MHI 2個(gè)模板來保存對應(yīng)的一個(gè)動作信息,然后用馬氏距離分類器來進(jìn)行識別。MEI為運(yùn)動能量圖,用來指示運(yùn)動在哪些部位發(fā)生過,MHI為運(yùn)動歷史圖,除了體現(xiàn)運(yùn)動發(fā)生的空間位置外還體現(xiàn)了運(yùn)動的時(shí)間先后順序。這2種特征都是從背景減圖中獲取的。圖2是坐下,揮手,蹲伏這3個(gè)動作的運(yùn)動歷史圖MHI。
圖2 三種動作對應(yīng)的MHI
為了提前剪影信息,Wang[21]等人利用r變換獲取了人體的剪影。Hsuan-Shen[22]則提取了人體的輪廓,這些輪廓信息是用星型骨架描述基線之間夾角的,這些基線是從人體的手,腳,頭等中心延長到人體的輪廓。而Wang[23]同時(shí)利用了剪影信息和輪廓信息來描述動作,即用基于輪廓的平均運(yùn)動形狀(MMS)和基于運(yùn)動前景的平均能量(AME)兩個(gè)模板來進(jìn)行描述。當(dāng)把輪廓和剪影模板保存下來后,新提取出的特征要與其進(jìn)行比較,Daniel[24]采用歐式距離來測量其相似度,隨后他又改為用倒角距離來度量[25],這樣就消除了背景減圖這一預(yù)處理步驟。
除了利用輪廓剪影信息外,人體的運(yùn)動信息也經(jīng)常被采用。比如說基于像素級的背景差法,光流信息等。當(dāng)背景差法不能很好的工作時(shí),我們往往可以采用光流法,但是這樣經(jīng)常會引入運(yùn)動噪聲,Effos[26]只計(jì)算以人體中心點(diǎn)處的光流,這在一定程度上減少了噪聲的影響。
2.1.2 三維全局特征提取
在三維空間中,通過給定視頻中的數(shù)據(jù)可以得到3D時(shí)空體(STV),STV的計(jì)算需要精確的定位,目標(biāo)對齊,有時(shí)還需背景減圖。Blank[27][28]等人首次從視頻序列中的剪影信息得到STV。如圖3所示。然后用泊松方程導(dǎo)出局部時(shí)空顯著點(diǎn)及其方向特征,其全局特征是通過對這些局部特征加權(quán)得到的,為了處理不同動作的持續(xù)時(shí)間不同的問題,Achard[29]對每一個(gè)視頻采用了一系列的STV ,并且每個(gè)STV只是覆蓋時(shí)間維上的一部分信息。
還有一種途徑是從STV中提取相應(yīng)的局部描述子,這一部分將在局部特征提取一節(jié)中介紹,在這里,我們還是先把STV特征當(dāng)做是全局特征。Batra[30]存儲了STV的剪影,并且用很小的3D二進(jìn)制空間塊來采樣STV。Yilmaz[31]提取了STV表面的不同幾何特征,比如說其極大值點(diǎn)和極小值點(diǎn)。當(dāng)然,也有學(xué)者Keel[32]將剪影的STV和光流信息結(jié)合起來,作為行為識別的全局特征。
圖3 跳躍,走,跑3個(gè)動作的STV圖
2.2 局部特征提取
人體行為識別局部特征提取是指提取人體中感興趣的點(diǎn)或者塊。因此不需要精確的人體定位和跟蹤,并且局部特征對人體的表觀變化,視覺變化和部分遮擋問題也不是很敏感。因此在行為識別中采用這種特征的分類器比較多。下面從局部特征點(diǎn)檢測和局部特征點(diǎn)描述2部分來做介紹。
2.2.1 局部特征點(diǎn)的檢測
行為識別中的局部特征點(diǎn)是視頻中時(shí)間和空間中的點(diǎn),這些點(diǎn)的檢測發(fā)生在視頻運(yùn)動的突變中。因?yàn)樵谶\(yùn)動突變時(shí)產(chǎn)生的點(diǎn)包含了對人體行為分析的大部分信息。因此當(dāng)人體進(jìn)行平移直線運(yùn)動或者勻速運(yùn)動時(shí),這些特征點(diǎn)就很難被檢測出來。
Laptev[33]將Harris角點(diǎn)擴(kuò)展到3D Harris,這是時(shí)空興趣點(diǎn)(STIP)族中的一個(gè)。這些時(shí)空特征點(diǎn)鄰域的像素值在時(shí)間和空間都有顯著的變化。在該算法中,鄰域塊的尺度大小能夠自適應(yīng)時(shí)間維和空間維。該時(shí)空特征點(diǎn)如圖4所示。
圖4 時(shí)空特征點(diǎn)檢測圖
Dollar[34]指出上述那種方法存在一個(gè)缺點(diǎn),即檢測出來穩(wěn)定的興趣點(diǎn)的數(shù)量太少,因此Dollar單獨(dú)的在時(shí)間維和空間維先采用gabor濾波器進(jìn)行濾波,這樣的話檢測出來興趣點(diǎn)的數(shù)目就會隨著時(shí)間和空間的局部鄰域尺寸的改變而改變。類似的,Rapantzikos[35]在3個(gè)維度上分別應(yīng)用離散小波變換,通過每一維的低通和高通的濾波響應(yīng)來選擇時(shí)空顯著點(diǎn)。同時(shí),為了整合顏色和運(yùn)動信息,Rapantzikos[36]加入了彩色和運(yùn)動信息來計(jì)算其顯著點(diǎn)。
與檢測整個(gè)人體中興趣點(diǎn)的出發(fā)思路不同,Wong[37]首先檢測與運(yùn)動相關(guān)的子空間中的興趣點(diǎn),這些子空間對應(yīng)著一部分的運(yùn)動,比如說手臂擺動,在這些子空間中,一些稀疏的興趣點(diǎn)就被檢測出來了。類似的方法,Bregonzio[38]首先通過計(jì)算后面幀的不同來估計(jì)視覺注意的焦點(diǎn),然后利用gabor濾波在這些區(qū)域來檢測顯著點(diǎn)。
2.2.2 局部特征點(diǎn)的描述
局部特征描述是對圖像或者視頻中的一個(gè)塊進(jìn)行描述,其描述子應(yīng)該對背景的雜亂程度,尺度和方向變化等均不敏感。一個(gè)圖像塊的空間和時(shí)間尺寸大小通常取決于檢測到的興趣點(diǎn)的尺寸。圖5顯示的是cuboids描述子[34]。
圖5 cuboids描述子
特征塊也可以用基于局部特征的網(wǎng)格來描述,因?yàn)橐粋€(gè)網(wǎng)格包括了局部觀察到的領(lǐng)域像素,將其看成一個(gè)塊,這樣就減少了時(shí)間和空間的局部變化的影響。二維的SURF特征[39]被Willems[40]擴(kuò)展到了3維,這些eSURF特征的每個(gè)cell都包含了全部Harr-wavelet特征。Laotev[14]使用了局部HOG(梯度直方圖)和HOF(光流直方圖)。Klaser[41]將HOG特征擴(kuò)展到3維,即形成了3D-HOG。3D-HOG的每個(gè)bin都是由規(guī)則的多面體構(gòu)成,3D-HOG允許 在多尺度下對cuboids進(jìn)行快速密度采樣。這種將二維特征點(diǎn)檢測的算法擴(kuò)展到3維特征點(diǎn)類似的工作還有是將SIFT算法[42]擴(kuò)展到3維SIFT Scovanner[43]。在Wang[44]的文章中,他比較了各種局部描述算子,并發(fā)現(xiàn)在大多數(shù)情況下整合了梯度和光流信息的描述算子其效果最好。
另外還有一種描述子比較流行,即單詞袋[45][46],這是利用的單詞頻率直方圖特征。
2.3 全局、局部特征融合
全局和局部特征的融合,結(jié)合了全局特征的足夠信息量和局部特征的對視角變化,部分遮擋問題不敏感,抗干擾性強(qiáng)的優(yōu)點(diǎn)。這樣的文章比較多,其主要思想結(jié)合從2.1和2.2的方法。Thi[47]就將這2種特征結(jié)合得很好,其全局特征是采用前面介紹的MHI算子,并且采用AIFT算法[48]進(jìn)一步選擇更好的MHI。局部特征也是采用前面提到的STIP特征,并且采用SBFC(稀疏貝葉斯特征選擇)[49]算法過濾掉一些噪聲比較大的特征點(diǎn)。最后將2種特征送入到擴(kuò)展的3維ISM模型中,其ISM[50]是一種目標(biāo)識別常用算法,即訓(xùn)練出目標(biāo)的隱式形狀模型。Thi[47]的方法結(jié)構(gòu)如圖6所示。
圖6 局部特征和全局特征結(jié)合
3. 行為識別常見數(shù)據(jù)庫
3.1 Weizmann
Weizmann[27]數(shù)據(jù)庫包含了10個(gè)動作分別是走,跑,跳,飛跳,向一側(cè)移動,單只手揮動,2只手揮動,單跳,2只手臂揮動起跳,每個(gè)動作有10個(gè)人執(zhí)行。在這個(gè)視頻集中,其背景是靜止的,且前景提供了剪影信息。該數(shù)據(jù)集較為簡單。
3.2 KTH
KTH[45]行人數(shù)據(jù)庫包含了6種動作,分別為走,慢跑,跑揮手和鼓掌。每種動作由25個(gè)不同的人完成。每個(gè)人在完成這些動作時(shí)又是在4個(gè)不同的場景中完成的,4個(gè)場景分別為室外,室內(nèi),室外放大,室外且穿不同顏色的衣服。
3.3 PETS
PETS[51],其全稱為跟蹤與監(jiān)控性能評估會議,它的數(shù)據(jù)庫是從現(xiàn)實(shí)生活中獲取的,主要來源于直接從視頻監(jiān)控系統(tǒng)拍攝的視頻,比如說超市的監(jiān)控系統(tǒng)。從2000年以后,基本上每年都會組織召開這個(gè)會議。
3.4 UCF
UCF包含個(gè)數(shù)據(jù)集,這里是指UCF的運(yùn)動數(shù)據(jù)庫[52],該視頻數(shù)據(jù)包括了150個(gè)視頻序列,共有13個(gè)動作。因?yàn)槭乾F(xiàn)實(shí)生活中的視頻數(shù)據(jù),所以其背景比較復(fù)雜,這些種類的動作識別起來有些困難。
3.5 INRIA XMAS
INRIA XMAS數(shù)據(jù)庫[53]是從5個(gè)視角拍攝的,室內(nèi)的4個(gè)方向和頭頂?shù)?個(gè)方向。總共有11個(gè)人完成14種不同的動作,動作可以沿著任意方向執(zhí)行。攝像機(jī)是靜止的,環(huán)境的光照條件也基本不變。另外該數(shù)據(jù)集還提供有人體輪廓和體積元等信息。
3.6 Hollywood
Hollywood電影的數(shù)據(jù)庫包含有幾個(gè),其一[14]的視頻集有8種動作,分別是接電話,下轎車,握手,擁抱,接吻,坐下,起立,站立。這些動作都是從電影中直接抽取的,由不同的演員在不同的環(huán)境下演的。其二[54]在上面的基礎(chǔ)上又增加了4個(gè)動作,騎車,吃飯,打架,跑。并且其訓(xùn)練集給出了電影的自動描述文本標(biāo)注,另外一些是由人工標(biāo)注的。因?yàn)橛姓趽?#xff0c;移動攝像機(jī),動態(tài)背景等因素,所以這個(gè)數(shù)據(jù)集非常有挑戰(zhàn)。
4. 總結(jié)
本文較全面的介紹了行為識別中特征提取的方法,并將其分為全局特征提取和局部特征提取2個(gè)部分介紹,雖然自行為識別研究以來已經(jīng)取得了不少成果,但是由于視覺中的動態(tài)環(huán)境,遮擋等問題存在,其挑戰(zhàn)非常大,需要提取出魯棒性更好,適應(yīng)性更強(qiáng),效果更好的特征,而這仍是后面幾年甚至幾十年不斷追求努力才能達(dá)到的目標(biāo)。
參考文獻(xiàn):
10. Ikizler-Cinbis, N., R. G. Cinbis, et al. (2009). Learning actions from the web, IEEE.
11. Gupta, S. and R. J. Mooney (2009). Using closed captions to train activity recognizers that improve video retrieval, IEEE.
12. Cour, T., C. Jordan, et al. (2008). Movie/script: Alignment and parsing of video and text transcription.
13. Duchenne, O., I. Laptev, et al. (2009). Automatic annotation of human actions in video, IEEE.
14. Laptev, I., M. Marszalek, et al. (2008). Learning realistic human actions from movies, IEEE.
15. Haritaoglu, I., D. Harwood, et al. (1998). "W 4 S: A real-time system for detecting and tracking people in 2 1/2D." Computer Vision—ECCV'98: 877-892.
16. Tao, D., X. Li, et al. (2006). Human carrying status in visual surveillance, IEEE.
17. Davis, J. W. and S. R. Taylor (2002). Analysis and recognition of walking movements, IEEE.
18. Lv, F., X. Song, et al. (2006). Left luggage detection using bayesian inference.
19. Auvinet, E., E. Grossmann, et al. (2006). Left-luggage detection using homographies and simple heuristics.
20. Bobick, A. F. and J. W. Davis (2001). "The recognition of human movement using temporal templates." Pattern Analysis and Machine Intelligence, IEEE Transactions on23(3): 257-267.
21. Wang, Y., K. Huang, et al. (2007). Human activity recognition based on r transform, IEEE.
22. Chen, H. S., H. T. Chen, et al. (2006). Human action recognition using star skeleton, ACM.
23. Wang, L. and D. Suter (2006). Informative shape representations for human action recognition, Ieee.
24. Weinland, D., E. Boyer, et al. (2007). Action recognition from arbitrary views using 3d exemplars, IEEE.
25. Weinland, D. and E. Boyer (2008). Action recognition using exemplar-based embedding, Ieee.
26. Efros, A. A., A. C. Berg, et al. (2003). Recognizing action at a distance, IEEE.
27. Blank, M., L. Gorelick, et al. (2005). Actions as space-time shapes, IEEE.
28. Gorelick, L., M. Blank, et al. (2007). "Actions as space-time shapes." Pattern Analysis and Machine Intelligence, IEEE Transactions on29(12): 2247-2253.
29. Achard, C., X. Qu, et al. (2008). "A novel approach for recognition of human actions with semi-global features." Machine Vision and Applications 19(1): 27-34.
30. Batra, D., T. Chen, et al. (2008). Space-time shapelets for action recognition, IEEE.
31. Yilmaz, A. and M. Shah (2008). "A differential geometric approach to representing the human actions." Computer vision and image understanding 109(3): 335-351.
32. Ke, Y., R. Sukthankar, et al. (2007). Spatio-temporal shape and flow correlation for action recognition, IEEE.
33. Laptev, I. (2005). "On space-time interest points." International journal of computer vision64(2): 107-123.
34. Dollár, P., V. Rabaud, et al. (2005). Behavior recognition via sparse spatio-temporal features, IEEE.
35. Rapantzikos, K., Y. Avrithis, et al. (2007). Spatiotemporal saliency for event detection and representation in the 3D wavelet domain: potential in human action recognition, ACM.
36. Rapantzikos, K., Y. Avrithis, et al. (2009). Dense saliency-based spatiotemporal feature points for action recognition, Ieee.
37. Wong, S. F. and R. Cipolla (2007). Extracting spatiotemporal interest points using global information, IEEE.
38. Bregonzio, M., S. Gong, et al. (2009). Recognising action as clouds of space-time interest points, IEEE.
39. Bay, H., T. Tuytelaars, et al. (2006). "Surf: Speeded up robust features." Computer Vision–ECCV 2006: 404-417.
40. Willems, G., T. Tuytelaars, et al. (2008). "An efficient dense and scale-invariant spatio-temporal interest point detector." Computer Vision–ECCV 2008: 650-663.
41. Klaser, A. and M. Marszalek (2008). "A spatio-temporal descriptor based on 3D-gradients."
42. Mikolajczyk, K. and C. Schmid (2004). "Scale & affine invariant interest point detectors." International journal of computer vision60(1): 63-86.
43. Scovanner, P., S. Ali, et al. (2007). A 3-dimensional sift descriptor and its application to action recognition, ACM.
44. Wang, H., M. M. Ullah, et al. (2009). "Evaluation of local spatio-temporal features for action recognition."
45. Niebles, J. C., H. Wang, et al. (2008). "Unsupervised learning of human action categories using spatial-temporal words." International journal of computer vision79(3): 299-318.
46. Schuldt, C., I. Laptev, et al. (2004). Recognizing human actions: A local SVM approach, IEEE.
47. Thi, T. H., L. Cheng, et al. (2011). "Integrating local action elements for action analysis." Computer vision and image understanding.
48. Liu, G., Z. Lin, et al. (2009). "Radon representation-based feature descriptor for texture classification." Image Processing, IEEE Transactions on 18(5): 921-928.
49. Carbonetto, P., G. Dorkó, et al. (2008). "Learning to recognize objects with little supervision." International journal of computer vision77(1): 219- 237.
50. Leibe, B., A. Leonardis, et al. (2008). "Robust object detection with interleaved categorization and segmentation." International journal of
computer vision 77(1): 259-289.
51. http://www.cvg.rdg.ac.uk/slides/pets.html.
52. Rodriguez, M. D. (2008). "Action mach a spatio-temporal maximum average correlation height filter for action recognition." CVPR.
53. Weinland, D., R. Ronfard, et al. (2006). "Free viewpoint action recognition using motion history volumes." Computer vision and image
understanding 104(2): 249-257.
54. Marszalek, M., I. Laptev, et al. (2009). Actions in context, IEEE.?
總結(jié)
- 上一篇: 不休的乌拉拉法师加点
- 下一篇: kinect:0x80080014