行人检测 读书笔记 综述
行人檢測 讀書筆記 綜述(1)
朱文佳-基于機器學習的行人檢測關鍵技術研究
本文是博主對上海交通大學的朱文佳的碩士畢業(yè)論文的學習筆記,如果不當或理解錯誤之處,敬請指導,不勝感激。
緒論
1.1 典型應用
1.2 研究現(xiàn)狀(2008)
整體趨勢:
1.訓練集越來越大
2.檢測速度從10秒每幀到一秒多幀
3.精度從50%提升至90%
1.3 研究難點
1.4 文章組織
綜述
2.1 引言
算法分類
1. 基于整體特征的算法:將人看成一個整體,用矩形框表示行人,首先對其進行特征提取如小波特征、hog特征等,然后用分類器,如svm等進行分類,其優(yōu)點是框架簡單,易于實現(xiàn),單在處理遮擋等問題時不夠靈活。可用解決1.3中1,3,6
2. 基于多部位的方法:將人分為多個部位,然后根據(jù)相互約束關系來得到最終結果。問題在于如何定義部位及整合檢測信息。可用于解決1.3中2,4
3. 基于多視角的方法。將不同視角的的行人,分開訓練,減小類內(nèi)變化,簡化訓練難度。問題在于如何自動區(qū)別不同視角,如何利用不同視角的相似性減小計算量。可用于解決1.3中的5
2.2 基于整體特征的方法
2.2.1 小波特征
提出:Oren 1997年,小波提取特征,用svm分類
負樣本的定義:bootstrap。首先隨機選取真的負樣本,然后將訓練之后分類錯誤的負樣本,加入訓練。
2.2.2 邊緣模板
提出: Gavrila 1999年
首先作者標注了1000個人的邊緣模板,首先利用聚類,得到一個模板樹。
然后,搜索圖中的輪廓,如果匹配度達到一個閾值,就判斷為人,使用的方法為chamfer距離。
其運行速度為每秒1-5幀,但是該算法依賴于邊緣的提取,如果邊緣不是那么明顯,可能會出現(xiàn)漏檢
2.2.3 hog 特征
提出:Dalal 2005年
hog=histogram of gradient 梯度分布直方圖
計算過程:
將輸入圖片分為若干塊,每塊在分為若干格子,對每個格子統(tǒng)計其中所有像素的梯度值在各個方向的分布,得到特征向量,再把一個塊內(nèi)所有格子的特征向量串聯(lián)起來,得到該塊的特征向量,然后進一步把所有塊的特征向量串聯(lián)起來,作為一個樣本特征向量。
能夠很好地刻畫邊緣特征,適用于圖像匹配和物體檢測
2.2.4 edgelet 特征
提出 Bo wu
利用小邊來描述人體某個部位的整體,Bo wu 定義了80多萬個上圖中的edgelet,經(jīng)過boosting,篩選出上千個最利于識別人體的edgelet。如果圖上的邊緣與最后的edgelet越相似,得到的相應越高(利用一個函數(shù)),分類結果越像人。
其特點有:
1. 不需要像邊緣模板一樣二值化,只用sobel算子,計算邊緣,受關照等影響較小
2. 同時考慮了邊緣的強度和方向(判斷相似的函數(shù)中有體現(xiàn))
3. 每個edgelet僅負責一小塊區(qū)域,計算量小,更靈活
4. edgelet由一定的規(guī)則自動生成(比如1/4圓弧),然后由機器學習算法自動篩選,減少了人工干預
在Mit數(shù)據(jù)集上,該算法的效果遠遠超過了小波算法。
2.2.5 shapelet 特征
提出:sabzmeydani 2007年
與edgelet不同的是,shapelet利用圖中的曲線來生成一段段的人體邊緣
流程為:
1.提取底層特征
2.用boosting生成shapelet
作者在底層特征上定義了0度、45度、90度、135度四個方向的邊緣,然后進行篩選,下圖可以看出edgelet與shapelet的區(qū)別、
其中第二排是shapelet
3.訓練好的shapelet在使用boosting,訓練出最強分類器
該算法效果顯著,超越了以往所有的算法
2.3基于多部位的方法
2.3.1 自適應組合分類器
提出:Mohan 2001年
方法:
1. 將人體分為 頭肩 下半身 左肩 右肩4個部分,每部分與2.2.1中的小波算法基本一致
2. 將4個部分的輸出作為輸入,將部位檢測效果整合起來,輸出分類結果
注意,考慮到人體的非剛性,四個部位分類器必須在一定的范圍和尺度內(nèi)進行搜索
2.3.2 基于貝葉斯推斷的組合算法
提出:Bo Wu
方法:
1. 將人體分為頭肩、軀干、腿三個部分,分別訓練分類器
2. 與mohan不同的是,其整合方法是使用貝葉斯概率的方法來分析哪里有行人
Bo Wu 的實驗表明,基于多部位的方法只有在出現(xiàn)遮擋時才會有優(yōu)勢
2.3.3 隱式形狀模型
提出:Leibe
以上兩種方法需要對人體部位進行手工設定,leibe的implicit shape model 把人體看成許許多多的圖片塊構成。
1. 建立圖片塊字典
2. 利用difference of gaussian 提取興趣點
3. 計算圖片塊與興趣點的位置等關系
4. 檢測興趣點,搜素相應的圖片塊,進行投票,當票數(shù)超過一定值,便認為是人
2.4 CBT 多視角
特點:檢測速度快,不需要人為劃分視角
方法:
用樹的方法,先選擇一部分特征,依據(jù)樣本對特征的相應,進行聚類,然后重復整個過程
如圖
1. 第一級選出3個特征,根據(jù)這這3個特征進行聚類
2. 分成兩個子集 繼續(xù)訓練
(其特征提取方法本文并未提及)
3 基于boosted cascade的物體檢測
提出:viola
簡單來說boosted cascade就是先利用adaboost之類的boost方法將弱分類器,變?yōu)閺姺诸惼?#xff0c;用不同的特征來合成不同的強分類器,然后用這些強分類器來排除不是行人的大量負樣本,逐步分類,如下圖:
圖中第1層的分類器,是由一定量的特征做成的強分類器,(至于組成強分類的弱分類器類型這里沒有提到,在后面作者有提及)其分類效果略差,目的器排除大量的負樣本,以節(jié)省時間。
至于什么是adaboost,看下鏈接:
http://blog.csdn.net/bea_tree/article/details/50460634#t10
另外還有對于物體檢測很重要的就是特征的選取,這里作者介紹的是viola提出的積分圖片與矩形特征,它表征了灰度的變化。
如圖:
計算方法為將圖片分為若干像素塊后,用圖中黑色區(qū)域的像素灰度平均值減去白色區(qū)域內(nèi)的像素灰度平均值。
為了方便計算上面提到的差值,viola,提出了積分圖,就是遍歷一遍像素,然后將位于遍歷點左前方的所有像素的值之和計算賦值,如圖:
如果計算d區(qū),那么其值便為:4所在的和值-2所在的和值-3所在的和值+1所在的和值.
4 作者對boosted cascade的改進
作者主要在特征選取,adaboost及弱分分類器三方面進行了改進
1. 特征的選取上作者結合了haar 與 shog。其中shog 是hog的簡化(simple)版,其思想為,因為在弱分類器中使用,將hog圖片分割的步驟去掉,直接在整個圖片進行梯度分布。據(jù)作者介紹其結果比單獨的haar好,且與haar+hog效果相似。
2. 在adaboost改進方面,不再單獨輸出分類結果,而是輸出了正樣本的可信度。據(jù)作者介紹,這樣的改動可以減少特征使用數(shù)量,減少訓練時間。
3. 在弱分類器方面,作者采用將shog特征轉(zhuǎn)化為一維特征,然后采用查表的方法,作者并未在論文中具體實現(xiàn),但據(jù)記效果較好。
總結
全文前半部分適合入門閱讀,了解綜述。
行人檢測 讀書筆記 綜述(2)2007
賈慧星 張毓晉- 車輛輔助駕駛系統(tǒng)中基于計算機視覺的行人檢測研究綜述 2007-自動化學報
本文主要介紹了感興趣區(qū)分隔和目標識別兩模塊的常用分析方法。
1 ROIs分隔
ROIs=regions of interest
其分隔方法主要有基于運動、距離、圖像特征、攝像機參數(shù)等,在應用中可以相互結合。
如下圖:
注:1、基于距離的方法有根據(jù)雷達或者立體視覺等方法
2、基于圖像特征中的特征主要有:邊緣、熵、紅外圖中的熱圖
2 目標識別
主要有基于運動的識別和形狀的識別方法兩種,應用中可以相互結合。
作者將其總結如下表:
其中基于形狀所計入的方法與上一遍碩士論文中的記載相似
3 典型系統(tǒng)的性能
總結
原文還有設計評價指標等,未在本文闡述。
其中,目標識別中,分為基于運動和基于形狀的方法。如果能對其識別的特征進行綜合闡述將更好。
行人檢測 讀書筆記 綜述(3)2007
杜友田等 基于視覺的人的運動識別綜述 2007 電子學報
看過前兩篇文章之后前面的引言可以省略了
1 人運動的類別
Bobick 人的運動分類
- 動作 movement 例如動一動手指
- 行為 activity 例如完成的手勢
- 行為 action 例如多人交互
2 人運動的表示方法
首先,作者闡述了衡量運動表示的標準:緊湊性(minimalism)、完備性(completeness)、連續(xù)性(continuity)、唯一性(uniqueness)
其次,關于人運動吧表示方法:
- 基于表觀(appearance)的表示方法:采用圖像上的顏色、灰度等信息直接分析
1)網(wǎng)格特征(mesh feature),先將圖像劃分為若干網(wǎng)格,將人從圖像中提取,看每個網(wǎng)格中人體的像素的比例,以此描述人體運動,研究者Yamato,T.Nishimura。方法簡單,精度低。
2)利用人的輪廓或者區(qū)域信息。kale的步態(tài)識別問題:提取輪廓->計算每一行的輪廓寬度作為特征向量。Veeraraghavan利用輪廓上的標記點來分析人的運動。
3)利用人的運動信息,如光流,目標軌跡以及速度等。Pasarrou等人采用時空軌跡(spatio-tempral trajectory)來表達人的行為,用一階馬爾科夫過程對其建模。
- 基于人體模型的表示方法
基于人體模型的表示方法=將人體及其姿態(tài)參數(shù)化,主要有三種:線圖模型,2-D模型和立體模型,前兩者使用較多(2007年之前)。這類方法,特征空間維度高,對圖像分辨率要求較高。栗子:feng和Perona采用2-d模型建模,將人體模型分為10個矩形,每個矩形有5個自由度,采用當前幀和下一幀中的模型參數(shù)聯(lián)合表示人體姿態(tài);Arie等人采用3D模型,將人體分為9個圓柱和球體,其特征向量由其角度和角速度表示,姿態(tài)由上肢、下肢、軀干最終確定,具體計算時投影到2d平面。
3 人運動的識別方法
3.1 基于模板的方法
將運動圖像轉(zhuǎn)化為一個或一組靜態(tài)的模板,將待識別樣本與一直模板進行匹配:Bobick和Davis將圖像序列轉(zhuǎn)化為運動能量圖像(MEI)和運動歷史圖像(MHI),前者反應運動范圍和強度,后者反應時間變化,通過計算馬氏距離(mahalanobis distance)來衡量其余模板的相似性。
另外,由于同一模式的運動持續(xù)時間不同,所以在模板匹配時需要對其進行規(guī)整,動態(tài)時間規(guī)整dynamic time warping 是一種很好的非線性規(guī)整方法。
3.2 基于概率網(wǎng)格的方法
基于概率網(wǎng)格的方法是當前(2007)最主要的人的運動識別的方法。
主要種類:
- 隱馬爾科夫模型 Hidden markov Models, HMMs
- 動態(tài)貝葉斯網(wǎng)絡 Dynamic Bayesian Networks,DBNs
前者是后者的特殊形式
后來又出現(xiàn)了條件隨機場(Conditional random field)及隱馬爾科夫的變體:
Brand等人 coupled hidden markov model 耦合隱馬爾科夫模型
luhr nguye 分層隱馬爾科夫模型 hierarchical hidden markov models
Duong 將時間融入 提出switching hidden-semi markov model(S-HSMM)
動態(tài)貝葉斯網(wǎng)絡對于動態(tài)過程的建模和分析、多信息融合、復雜動態(tài)系統(tǒng)的分析識別更為有效和靈活,相比隱馬爾科夫可分析動態(tài)復雜系統(tǒng),降低復雜度
3.3 基于文法技術(syntactic technique)的方法
文法技術多用于文本分析和語音識別等領域,在運動識別中主要用于靜態(tài)圖片的紋理識別
主要優(yōu)勢在于對復雜結構的理解和先驗信息的利用
4 存在問題
*更本質(zhì)的表達方式:
1. 三維重建,復雜度高,假設多
2. 動態(tài)瞬間和間隔,表達行為的速度,方向,及加速度
3. 特征向量維數(shù)的高低,可采用多分辨率方法,有高有低
*連續(xù)運動的實時識別
1. 如何判斷運動的起點和終點
2. 如何學習長運動序列中的心行為:半監(jiān)督
*算法評價
缺少標準的測試數(shù)據(jù)集
*如何根據(jù)外部環(huán)境自主學習
行人檢測 讀書筆記 綜述(4)2008
許言午等-行人檢測系統(tǒng)研究新進展及關鍵技術展望-電子學報
本文中的行人檢測系統(tǒng)簡寫為pds,即pedestrian detection system
1 早期工作回顧
1.1 技術方面的早期進展
早期PDS大多都直接借鑒與靜態(tài)攝像頭的靜態(tài)視覺監(jiān)控技術,包括圖像處理的圖像分割、邊緣提取、光流、運動檢測等技術 及模式識別中的一些簡單分類方法。
以圖像處理技術為基礎的代表性工作有:
1. Gavrila 基于模板匹配
2. Lipton 運動區(qū)域的殘余光流
3. Heisele 利用行人退步的運動特征
算法方面有徑向基函數(shù)及神經(jīng)網(wǎng)絡等算法
總結:1、借助傳感器 2、直接套用一般物體檢測算法以及靜態(tài)攝像頭監(jiān)控技術
2 2003-2008工作進展
2.1 技術進展
2.1.1 特征提取
2.1.1.1 特征表示
pds主要使用的特征包括1物理特征和2抽象特征,前者包括1.1外觀特征如行人的形狀、輪廓、紋理等靜態(tài)特征,還有1.2動態(tài)特征,主要描述行人運動時的變化和規(guī)律。抽象特征典型的代表有haar特征。
早期的工作一般只是用一種外觀特征或一種運動特征,其中外觀特征主要有原始灰度和輪廓,也有少量使用了顏色,一般只使用一種特征的pds都難以獲得較好的檢測性能
近年來新特征:
a. 新的外觀特征
1. Amnon等提出了基于人體的9個關鍵部位及其相對位置關系構成的13個關鍵特征
2. Havasi 提出了基于人腿的三次對稱特征
b. 新的運動特征:Ran等提出了人腿形態(tài)周期特征
c.新的抽象特征:Lowe等提出了SIFT特征,具有尺度不變的良好特性,這一特征也被Amnon引入到PDS中用于形狀特征的表示
d.多特征綜合的表示方法,Viola2003提出結合運用外觀與運動特征的特征聯(lián)合表示方法,采用串聯(lián)的組合分類裝置
e.使用頭、腿等局部特征來作為全局特征的補充
2.1.1.2 特征的選擇方法
Viola 引入Adaboost
基于協(xié)同進化
2.1.1.3 特征降維方法
Munder Gavrila PCA
2.1.2 分類機制
2.1.2.1 單個支持向量機
理論基礎好,其他領域得到較好效果,但是分類速度慢,無法滿足使用需求
2.1.2.2 基于組合的分類機制
a.簡單串聯(lián),分級
b.簡單并聯(lián),投票
c.串并聯(lián)結合及樹狀分類
2.1.3 傳感器融合
早期:光學攝像頭,紅外攝像頭
近年:專用雷達,多傳感器融合
各種傳感器,各有優(yōu)缺點;
1. 光學與雷達傳感器融合
2. 普通光學攝像頭和紅外攝像頭融合
3. 多類傳感器分層融合
2.1.4 其他技術
2.2 存在問題
行人檢測 讀書筆記 綜述(5)2012
蘇志松等-行人檢測技術綜述-電子學報 2012
文章對2005到2011這段時間內(nèi)行人檢測技術中最核心的兩個問題:特征提取,分類器與定位的研究現(xiàn)狀進行綜述
1 特征提取
作者將特征分為以下三類
底層特征:顏色、紋理、梯度等
基于學習的特征:通過機器學習的方法從大量的行人樣本中學到的特征
混合特征:多種底層特征的融合,或者底層特征的高階統(tǒng)計表示
作者總結了2005-2011的行人特征概覽表
如下圖:
其中
LBP=local binary pattern 局部二值模式
最早由Ojala等提出用于紋理分類的特征提取方法
Cov:Tuzel利用特征的協(xié)方差來表示行人的局部特征
Go-Hog: Watanabe 共生梯度方向直方圖特征 co-occurrence Histograms ofOriented Gradients
GGP(疑似表中GG應為GGP)=Granularity-tunable Gradients Partition 用來定義霍夫空間中線段的空間位置和角度的不確定性
積分通道:提出者Dollar
自適應輪廓特征:Gao 利用adaboost算法在方向粒度空間中進行特征選擇,定義了’生長‘,’合并‘,’切割‘三種操作
CSS:提出者Walk
CENTRIST:census transform histogram
2 分類與定位
分類:判斷當前檢測窗口是否有行人
定位:行人在窗口的具體位置
方法:滑動窗口法,超越滑動窗口法
a. 滑動窗口法
a.1 整體法
主要分類器:svm,boosting,多示例學習
分述之:
svm:oren最早,maji基于直方圖交叉核支持向量機 Histogram Intersection Kernel ssvm
boost:最早viola:haar+adaboost+級聯(lián)分類器=第一個實時人臉檢測,chen改進級聯(lián)結構,每級中引入meta stage,每級輸出構建分類器,Tuzel利用logitboost,Kim提出多分類增強算法MCBoost(multiple classifier boost)對圖像和視覺特征進行協(xié)同聚類
多示例學習:lin等和babenko等提出,自動對齊行人的局部特征,對形變進行建模
a.2 部位法
Felzenszwalb提出形變部位模型(deformable part model)
Pedersoli等由粗到細的快速形變部位模型,現(xiàn)在低分辨率下檢測,保留下來的再在高分辨率下檢測
部位檢測法中parikh的研究表明,部位法中部位檢測器對檢測性能的影響大于部位之間的幾何關系對檢測性能的影響
b 超越滑動窗口法
基于bag-of-wards,BOW詞袋的發(fā)展,一般包含三個步驟:視覺詞典構建-基于詞典的圖片表示-分類器學習
分為以下三種
b.1 高效子窗口搜索法efficient subwindow search ESS
b.2 隱式形狀模型,通過局部特征檢測算子尋找關鍵點(中心點),在關鍵點周圍用聚類等方式建立空間分布模式,最后投票
b.3 跳躍窗口法,與隱式形狀模型類似,不同是不是對行人中心點進行投票
經(jīng)驗細節(jié)
訓練樣本:
- 樣本場景應多樣,提高泛化能力
-
最好能收集固定場景下的正樣本和負樣本
預處理
-
在實用性要求高的場景中,可預先利用先驗信息預先確定行人可能出現(xiàn)的區(qū)域
- 視頻監(jiān)控系統(tǒng)中,背景信息相對固定,可采用減背景法獲取運動目標區(qū)域,將其作為候選區(qū)域
-
車輛輔助駕駛中,可使僅掃描路面信息
后處理
-
對檢測結果進行篩選,降低誤檢率
行人檢測 綜述 (6)
由于課程作業(yè),總結下近期國內(nèi)關于行人檢測的文獻,雖然是2013 2014年寫的,但是綜述的內(nèi)容還都是經(jīng)典的東西。作為瀏覽回顧就行。
許騰,黃鐵軍,田永鴻 . 車載視覺系統(tǒng)中的行人檢測技術綜述[J]. 中國圖象圖形學報,2013,18( 4) : 359 -367.
本文對 2005 年以來該技術中最重要的兩個環(huán)節(jié)———感興趣區(qū)域分割以及目標識別的研究現(xiàn)狀進行綜述。
1 ROIs ( regions of interest) 分隔
ROIs的分隔方法主要有這五類:1. 基于運動 2. 基于立體視覺 3. 基于圖像特征 4. 基于雷達 5基于規(guī)則,如下表
2 目標識別
主要總結了2005-2012年間目標識別方法
2.1 特征提取
2.1.1 對原有特征的改進
原文中對原有特征的改進主要講了對hog的改進,hog看下文
http://blog.csdn.net/liulina603/article/details/8291093
有人將其中的塊大小可變,有人使用積分圖 (http://blog.csdn.net/bea_tree/article/details/51106359#t19),有人取消了cell,有人構造圖像金字塔,還有人利用gpu進行加速計算。
2.1.2 新特征
主要集中在利用局部梯度、輪廓、紋理信息以及多種底層特征組合方面。
例如共生梯度方向直方圖特征( CoHOG)、二階梯度方向直方圖、Edgelet 、自適應的輪廓特征( ACF) 、積分通道特征( integral channel features) 、 CSS( 顏色通道自相似) 、中心對稱的金字塔 LBP
2.1.3 非可視光譜數(shù)據(jù)上的使用
主要就是對原有特征轉(zhuǎn)變?yōu)樵诩t外線、立體視覺或者其他非可視光譜
2.2 分類器構造
主要是對svm和boosting的改造
Maji 等人提出了直方圖交叉核( HIK)的一種近似算法,Felzenszwalb 等人利用形變部件模型( DPM) 方法檢測人體、汽車等對象。
Kim 等人提出使用多分類器 Boosting 算法。lin等人基于多實例學習( MIL) 的 Boosting 框架。Babenko 利用多姿態(tài)學習( MPL) 的方式對訓練樣本自動按照姿態(tài)進行分類。
2.3 搜索框架
滑動窗口在目前的搜索框架中十分流行采用非極大抑制( NMS) 或MeanShift 的方法進行合并,從而得到檢測結果。研究者借鑒了在對象分類中十分流行的“詞袋”( BOW) 模型,在圖像中進行全局最優(yōu)搜索。目前此類算法主要有隱式形狀模型( ISM) 和高效子窗口搜索法( ESS) 。
3作者展望
張春鳳,宋加濤,王萬良 . 行人檢測技術研究綜述[J]. 電視技術,2014,38( 3) .
這篇文章主要介紹了各種行人檢測的方法,總體將其分為基于全局特征、基于局部特征和基于立體視覺的方法。另外文章總結了目前的幾種數(shù)據(jù)庫
1 行人檢測方法
1.1 基于全局特征
首先附上關于HOG haar 和lbp三種特征比較好的文章 http://www.open-open.com/lib/view/open1440832074794.html
1.1.1 haar
Papageorgiou 和 Poggio最早提出 Harr 小波的概念;Viola 等引進了積分圖的概念,加快了 Harr 特征的提取速度,并將該方法應用于行人檢測,結合人體的運動和外觀模式構建行人檢測系統(tǒng),取得了較好的檢測效果,為行人檢測技術的發(fā)展奠定了基礎。
1.1.2 hog
Dalal 和 Triggs在 2005 年提出梯度方向直方圖( Histogram of Oriented Gradients,HOG) 的概念,并將其用于行人檢測, 在包含視角、光照和背景等變化的 INRIA 行人數(shù)據(jù)庫上,也取得了大約 90%的檢測成功率。HOG
是目前使用最為廣泛的行人特征描述子。Zhu 等人提出積分直方圖的概念,加速了 HOG 特征的計算,Qu 等人提出無背景情況下的 HOG 特征的概念,既消除了通常情況下背景因素對目標 HOG 特征的影響,又加速了 HOG 特征提取的速度; Wang 等人將 HOG特征與局部二值模式( Local Binary Pattern,LBP) 相結合,用于存在部分遮擋情況下的行人檢測,使用線性支持向量機( Linear Support Vector Machine,SVM) 作為分類器,在INRIA 行人庫上取得了 97% 的檢測率,但是它的高運算復雜度也限制了實時應用。
1.1.3 edgelet
B. Wu 等人提出了“小邊”( Edgelet) 特征的概念,即一些短的直線或者曲線片段,并將其應用于復雜場景的單幅圖像的行人檢測,在CAVIAR 數(shù)據(jù)庫上取得了大約92%的檢測率。缺點是由于每個 Edgelet 特征需要手動標定,所以比較耗時費力,而且對于一些本身較復雜的曲線,很難通過手工標定的方法來得到完全符合人體曲線的“小邊”特征。
1.1.4 Shapelet
針對上述 Edgelet 特征存在的缺點,Sabzmeydani在2007 年提出了一種可以利用機器學習的方法自動得到的特征,即 Shapelet 特征。該算法首先從訓練樣本提取圖片不同方向的梯度信息,然后利用 AdaBoost 算法進行訓練,從而得到 Shapelet 特征。Yao 等利用 Shapelet特征訓練得到一個全身檢測器,該算法優(yōu)于基于 Haar -like 特征的部分檢測器; 他們進一步將上述兩種檢測器相結合構成一個行人檢測系統(tǒng),在 INRIA 數(shù)據(jù)集上取得了95% 的行人檢率,檢測效果優(yōu)于單獨使用其中任何一個檢測器的情況。
1.1.5 基于輪廓模板的方法
在這個系列第一篇文章中就提到了這種方法,其需要大量的模板,標記較為繁瑣。
1.1.6 基于運動特征的方法
其中較具代表性的算法包括:
1) Viola 等人針對攝像機靜止的情況提出在不同圖像上計算 Haar - like 特征,然后將運動信息與圖像的灰度信息相結合構建行人檢測系統(tǒng)。且適用于雨雪天氣等惡劣氣候條件下低分辨率場景的行人檢測,但對于行人被遮擋的情況檢測效果較差;
2) Dalal等針對攝像機運動的情況,提出將基于外觀的梯度描述子和基于運動的差分光流描述子相結合來構建行人檢測器,但該方法只對單個窗口的檢測比較有效,對于整幅圖像檢測效果則很差。
1.2 基于局部特征
該類方法的基本思想是把人體分成幾個組成部分,然后對圖像中每部分分別檢測,最后將檢測結果按照一定的約束關系進行整合,最終判斷是否存在行人。目前已有一些較有效的算法: Mohan 等將人體分為頭肩部、腿部以及左手臂和右手臂4 個部分,然后使用 Harr 小波特征訓練 SVM 檢測器。Mikolajczyk 等將人體分成正面的人臉/頭部、側面的人臉/頭部、正面和背面的頭肩
部、側面的頭肩部以及腿部,然后對每個部分采用 SIFT( Scale - Invariant Feature Transform) 特征進行描述,Vinay D. Shet等提出了一種基于雙網(wǎng)格邏輯推理的行人檢測方法,將人體分為頭、上身和腿部三個部分,在 USC 數(shù)據(jù)庫上獲得了92%左右的檢測成功率,對存在不同程度遮擋的行人檢測率也達到了 90% 以上。該類方法的優(yōu)點是:1) 降低了人體某一部分被遮擋時對行人檢測結果的影響;2) 對人體各部分分而治之的思想,降低了整體檢測的難度而且各個部分之間的幾何約束關系也對最終檢測的精度有很大的幫助。
1.3 基于立體視覺的方法
該類方法是指通過 2 個或 2 個以上的攝像機進行圖像采集,然后分析圖像中目標的三維信息以識別出行人。可以利用三維信息估計路面參數(shù)用來篩選出感興趣區(qū)域( ROI) ,并利于這些信息對所獲得區(qū)域進行分類,構建了一個檢測率較高的行人檢測系統(tǒng)。也可以對左右視角的多個圖像進行 ROI 提取,并其用于模式分類,降低了目標檢測的誤報率。也可以利用車載立體攝像機,將圖像亮度信息和三維密集立體信息相結合,構建了一個直立行人檢測系統(tǒng)。該類方法的優(yōu)點是充分利用場景中目標圖像的深度信息進行行人區(qū)域的分割,速度較快。
2 數(shù)據(jù)庫總結
1) MIT 行人數(shù)據(jù)庫是較早公開的行人數(shù)據(jù)庫,太簡單。
2) INRIA 行人數(shù)據(jù)庫是目前使用較多的靜態(tài)行人數(shù)據(jù)庫更加符合實際場景。
3) Daimer 行人數(shù)據(jù)庫的圖像來源于車載攝像機,圖片均是灰度圖像。測試集是一段大約27 min的視頻,其中包含完整的以及被部分遮擋的行人。
4) Caltech 行人數(shù)據(jù)庫是目前規(guī)模較大的行人數(shù)據(jù)庫,庫中的圖像來源于車載攝像機,與現(xiàn)實生活中圖像的實際遮擋頻率一致,其中包含質(zhì)量不太好的圖像。
5) TUD 行人數(shù)據(jù)庫提供圖像對以便計算光流信息,該數(shù)據(jù)庫主要用于評估運動信息在行人檢測中的作用,常用于行人檢測及跟蹤研究中。
6) NICTA 行人數(shù)據(jù)庫是目前規(guī)模較大的靜態(tài)圖像行人數(shù)據(jù)庫,包含25 551 張單人的圖像和5 207 張高分辨率非行人圖像,但不包含運動信息,已經(jīng)劃分訓練集和測試集。
7) ETH 行人數(shù)據(jù)庫是基于雙目視覺的行人數(shù)據(jù)庫,采用一對車載攝像頭拍攝獲得,給出了標定信息和行人標注信息,同時采用置信度傳播方法獲取深度信息。
8) CVC 行人數(shù)據(jù)庫目前包含 3 個數(shù)據(jù)集該數(shù)據(jù)庫主要用于車輛輔助駕駛中的行人檢測研究。
9) USC 行人數(shù)據(jù)庫的圖像大部分來源于監(jiān)控視頻,是一個比較小的行人數(shù)據(jù)庫,該數(shù)據(jù)庫主要用于存在遮擋和多視角情況下的行人檢測研究。
行人檢測 深度學習篇
- 樊恒徐俊等基于深度學習的人體行為識別J武漢大學學報2016414492-497
- 引言
- 行為識別整體流程
- 前景提取
- 行為識別過程
- 實驗分析
- 芮挺等 基于深度卷積神經(jīng)網(wǎng)絡的行人檢測 計算機工程與應用 2015
- 引言
- 卷積神經(jīng)網(wǎng)絡結構與特點
- 行人檢測卷積神經(jīng)網(wǎng)絡結構
- 實驗對比總結
- 張 陽 基于深信度網(wǎng)絡分類算法的行人檢測方法J 計算機應用研究 20163302
- 引言
- 改進的深信度網(wǎng)絡分類算法
- 1 帶 T 分布函數(shù)顯層節(jié)點的 BM
- 2 深信度網(wǎng)絡搭建及預訓練
- 3 微調(diào)
- 基于深信度網(wǎng)絡的行人特征分類
- 1 預處理
- 2 行人特征分類器
- 性能評價
總體來說大部分瀏覽下就行。
樊恒,徐俊等.基于深度學習的人體行為識別[J].武漢大學學報,2016,41(4):492-497.
0 引言
目前研究行為識別的方法一般分為基于模型方法和基于相似性度量的方法,前者首先建立某種準則,然后從運動圖像序列中提取目標的外形、運動等特征,根據(jù)所獲得的特征信息,通過人工或半監(jiān)督的方法來定義正常行為的數(shù)學模型。而基于相似度量的方法考慮到人體行為難定義、易發(fā)現(xiàn)的特點,避免顯示定義人體行為的數(shù)學模型。其基本原理是自動從運動圖像序列數(shù)據(jù)中學習各種人體行為,根據(jù)學習結果判斷測試視頻中的行為類型。 本文提出了一種基于深度信念網(wǎng)絡(deep belief networks)的人體行為識別方法。1 行為識別整體流程
流程圖如下:
左側分支為模型訓練,右側模型為識別過程。
2 前景提取
目前,目標檢測方法主要有背景減法、光流法以及時間差分法等。為了實現(xiàn)檢測的自適應性和實時性,本文選擇基于高斯混合模型的背景減法,該方法實現(xiàn)簡單、運算速度快,同時能夠適應背景變化。(時間差分法一般較難提取出完整的運動目標,在運動目標內(nèi)部容易產(chǎn)生空洞。光流法的計算相對復雜,抗噪能力較差。)具體數(shù)學運算,博客里不再詳述,下圖是效果:
(背景要不要這么單純~~)
3 行為識別過程
行為識別過程中用到的深度學習相關內(nèi)容這里不再詳述,后面會有單獨的博客的討論。可先借鑒這篇http://blog.csdn.net/zouxy09/article/details/8781396
深度學習常用的模型有自動編碼器、稀疏編碼、深度信念網(wǎng)絡等,本文選擇DBNs模型。
在深度神經(jīng)網(wǎng)絡中,任意兩個相鄰的隱含層構成一個受限玻爾茲曼機(Restricted Boltzmann Machine RBM),深度信念網(wǎng)絡是一個包含多個隱含層的概率模型,每一層從前一個隱含層獲取高度相關的關聯(lián),可以看作多個RBM 的累加,每個低層的RBM 輸出結果作為輸入數(shù)據(jù)用于訓練下一個RBM,通過貪婪學習得到一組RBM,這一組RBM 可以構成一個DSNs,如下圖
本文選擇貪婪的逐層訓練算法。在貪婪學習的過程中,采用了wake-sleep算法思想。學習過程如下:
4 實驗分析
本文對比了不同的隱含層數(shù),隱含層單元數(shù)及迭代次數(shù)與訓練誤差的關系。
同時與其他文獻對比得到的結果顯示較好。
芮挺等 基于深度卷積神經(jīng)網(wǎng)絡的行人檢測 計算機工程與應用 2015
通過本文可以熟悉普通卷積神經(jīng)網(wǎng)絡應用的過程
0 引言
與hog+svm或adaboost對比,得到的更好的結果
1 卷積神經(jīng)網(wǎng)絡結構與特點
卷積神經(jīng)網(wǎng)絡的講解,下面這篇文章講的比較好
http://www.36dsj.com/archives/24006
2 行人檢測卷積神經(jīng)網(wǎng)絡結構
經(jīng)典卷積神經(jīng)網(wǎng)絡不能有效完成行人檢測任務,網(wǎng)絡深度、卷積核大小、最終提取特征維數(shù),是影響結果的主要因素。因此需要針對行人檢測問題的具體特點,對卷積神經(jīng)網(wǎng)絡的結構進行重新的設計。主要考慮一下問題:
1. 卷積核的影響。卷積核是卷積神經(jīng)網(wǎng)絡模型中最具特性的部分,可以理解為生物視覺中感受野的模型化表示。它的性質(zhì)直接決定了特征提取的好壞、網(wǎng)絡收斂的速度等。卷積核的大小決定了感受野的大小,感受野過大,提取的特征超出卷積核的表達范圍,而感受野過小,則無法提取有效的局部特征。因此,卷積核大小對整個網(wǎng)絡的性能有著至關重要的影響。
2. 通過增加網(wǎng)絡的層數(shù),其特征信息表達能力逐步增強,但層數(shù)過多也會致使網(wǎng)絡結構過于復雜,訓練時間增加,易出現(xiàn)過擬合現(xiàn)象
3. 分類器輸入特征維數(shù)的影響
基于上述分析,對行人檢測卷積神經(jīng)網(wǎng)絡進行了重新設計,并通過實驗對上述思想及網(wǎng)絡結構參數(shù)進行了驗證。最終確定深度卷積神經(jīng)網(wǎng)絡結構共分7 層,卷積核大小為9x9,隱含層輸出特征維數(shù)為360 維左右。
3 實驗對比總結
還是老樣子,實驗結果很好,方法很好……
張 陽 基于深信度網(wǎng)絡分類算法的行人檢測方法[J] 計算機應用研究 2016,33(02)
0 引言
通過搭建帶 T 分布函數(shù)顯層節(jié)點的受限波茲曼機輸入端改進深信度網(wǎng)絡的輸入方式,將行人特征提取信息通過輸入端的顯層結構轉(zhuǎn)換為分類器可以識別的伯努利分布方式; 搭建多隱層受限波茲曼機中間層結構,實現(xiàn)隱層結構間的數(shù)傳遞,保留關鍵信息。最后,利用 BP 神經(jīng)網(wǎng)絡搭建分類結構的輸出端,實現(xiàn)分類誤差信息反向傳播并對分類結構的參數(shù)進行微調(diào),不斷優(yōu)化分類器結構。
1 改進的深信度網(wǎng)絡分類算法
1.1 帶 T 分布函數(shù)顯層節(jié)點的 RBM
由于利用深信度網(wǎng)絡實現(xiàn)特征分類時,輸入一般為二值向量信息,而行人檢測領域中,行人特征值信息的數(shù)值屬性為連續(xù)整數(shù)或?qū)崝?shù)值。所以,直接使用 DBN 算法實現(xiàn)行人特征分類和識別勢必會造成信息數(shù)據(jù)的丟失而影響分類效果。本文對深信度網(wǎng)絡深度學習算法進行改進,通過引入帶 T 分布函數(shù)顯層節(jié)點的輸入層使其能夠更好地處理行人特征信息,進而通過網(wǎng)絡預訓練和網(wǎng)絡微調(diào)實現(xiàn)信息分類和行人識別。
如上圖 所示,顯層結構 v 和隱層結構 h 共同構建一個 RBM結構,通過比較顯層結構單元與隱層結構單元之間的關聯(lián)差異性,可調(diào)整各單元權值。由于本文采用的行人特征近似服從 T分布函數(shù)(LABH 算法提取行人特征,該特征的累積概率分布近似滿足 T 分布),本文搭建一種新的帶 T 分布函數(shù)顯層節(jié)點的 RBM,在顯層結構和隱層結構之間實現(xiàn)將 T 分布函數(shù)轉(zhuǎn)換成伯努利分布的功能。在帶 T 分布函數(shù)顯層節(jié)點的 RBM 中,顯層結構服從 T 分布,隱層結構服從伯努利分布,其能量函數(shù)表達式如下:
u為 T 分布函數(shù)的自由度,用于控制分布形態(tài)變化,uu?2為 T 分布函數(shù)的方差值.
和傳統(tǒng)的 RBM 類似,帶 T 分布函數(shù)顯層節(jié)點的 RBM 的聯(lián)合分布與能量函數(shù)的關系表達式為:
帶 T 分布函數(shù)顯層節(jié)點的 RBM 中,顯層和隱層節(jié)點對應的條件概率可表示為
1.2 深信度網(wǎng)絡搭建及預訓練
本文搭建的深信度網(wǎng)絡由一層帶 T 分布函數(shù)顯層節(jié)點的RBM、多層傳統(tǒng)的隱層 RBM 和一層 BP 網(wǎng)絡構成。其中,帶 T分布函數(shù)顯層節(jié)點的 RBM 為數(shù)據(jù)輸入層,將行人特征信息轉(zhuǎn)換為深信度網(wǎng)可以識別的伯努利數(shù)據(jù),數(shù)據(jù)經(jīng)過轉(zhuǎn)換后,在多層 RBM 中經(jīng)過提取和抽象,保留關鍵信息并剔除冗余信息,最后一層 BP 網(wǎng)絡是系統(tǒng)的輸出層,經(jīng)多層 RBM 轉(zhuǎn)換后的信息進入 BP 層,利用 BP 網(wǎng)絡的反向傳播能力,對輸出結構進行監(jiān)督,反向微調(diào)整個深信度網(wǎng)絡模型參數(shù),達到優(yōu)化模型分類效果的目的。本文搭建的深信度網(wǎng)絡模型示意圖如下圖 所示。該示意圖由一層帶 T 分布函數(shù)顯層節(jié)點的 RBM、兩層隱層RBM 和一層 BP 網(wǎng)絡構成,數(shù)據(jù)由底部的帶 T 分布函數(shù)顯層節(jié)點的 RBM 輸入,由頂部 BP 網(wǎng)絡輸出,頂部 BP 網(wǎng)絡有反向轉(zhuǎn)播和微調(diào)整個深信度網(wǎng)絡模型的能力,從而優(yōu)化模型結構。
1.3 微調(diào)
深信度網(wǎng)絡微調(diào)階段的實現(xiàn)過程分兩個步驟: a) 利用 BP 網(wǎng)絡的向前傳播性能,將連接 BP 網(wǎng)絡的RBM 處理后的信息經(jīng)進一步處理后,將分類結果輸出; b) 反向傳播,通過比較 BP 網(wǎng)絡輸出結果與真實結果,得出兩者之間的誤差值,將其反向傳播至輸入端,利用共軛梯度法優(yōu)化分類模型的參數(shù)。
2 基于深信度網(wǎng)絡的行人特征分類
2.1 預處理
本文使用 LABH 算法提取行人特征,該特征的累積概率分布近似滿足 T 分布。將行人樣本庫進行如下處理: a) 利用 LABH 算法提取行人特征; b) 確定 T 分布的自由度參數(shù)取值,擬合行人特征分布; c) 根據(jù)行人特征分布區(qū)間計算特征項的權重值。
2.2 行人特征分類器
3 性能評價
其結構特征對性能影響
現(xiàn)有的深信度網(wǎng)絡分類器多采用高斯( 顯層) —伯努利( 隱層) RBM 實現(xiàn)語音、圖像等數(shù)據(jù)的分類識別。本節(jié)通過實驗對傳統(tǒng)的高斯( 顯層) —伯努利( 隱層) RBM 和本文提出的帶 T 分布( 顯層) —伯努利( 隱層) 的 RBM 檢測結果加以對比,并對本文所提出算法的檢測性能進行分析和評估。
對各分類的比較
總結
以上是生活随笔為你收集整理的行人检测 读书笔记 综述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 目标检测简要综述
- 下一篇: MongoDB 聚合操作