行人重识别基本介绍
行人重識別(ReID)基本介紹
前言
最近一段時間開始了深度學習領域的學習,但總是東看看西看看停留在表面。看過的東西很快就忘了,遇到不懂的地方也都就扔到了一邊,鑒于學術和畢業上的壓力,決定開始更新這個博客,一方面記錄整理自己學過的東西,另一方面也為了督促自己每天都能夠有所進步。
這篇文章是在學習羅浩老師發布在bilibili上的課程后進行的,對于那些準備進入行人重識別領域的小白來說,在這里推薦一下羅浩老師的課程。雖說發布時間已經是幾年前了,有些框架或者知識已經更新,但仍是不可多得的入門材料。
b站浙江大學羅浩博士行人重識別課程鏈接
定義
行人重識別(Person re-identification)也稱行人再識別, 被廣泛認為是一個圖像檢索的子問題, 是利用計算機視覺技術判斷圖像或者視頻中是否存在特定行人的技術, 即給定一個監控行人圖像檢索跨設備下的該行人圖像。行人重識別技術可以彌補目前固定攝像頭的視覺局限, 并可與行人檢測、行人跟蹤技術相結合, 應用于視頻監控、智能安防等領域。
行人重識別系統
一個完整的行人重識別系統包括以下幾個部分:
1.數據
- 原始視頻幀
就是我們通過攝像設備獲取的正常視頻圖像。舉個栗子,假如是警察在追查犯罪嫌疑人的逃跑路徑,那么原始視頻幀就是犯罪現場周圍的所有監控視頻。 - 帶檢索行人圖像
指的就是我們所要查找的行人的圖片,作為Probe輸入。還是上面那個栗子的話,帶檢索行人圖像就是嫌犯的圖像。
2.行人重識別系統
- 行人檢測
主要用于檢測視頻中出現的人像,作為一個行人重識別首先要做到的就是能夠將圖片中的行人識別出來,稱為Gallery輸入。當然,在學術研究領域,行人重識別主要還是關注的下面這個部分,而對于行人檢測這部分多選擇采用目前已經設計好的框架。 - 行人重識別
這一部分就是對上面的Probe以及Gallery進行特征提取,當然提取的方式可以是手工提取,也可以使用卷積神經網絡進行提取。然后呢,就是對圖片的相似度進行度量,根據相似圖進行排序。
針對行人重識別系統從細節來說,包括下面幾個部分:
- 特征提取(feature Extraction):學習能夠應對在不同攝像頭下行人變化的特征。
- 度量學習(Metric Learning) :將學習到的特征映射到新的空間使相同的人更近不同的人更遠。
- 圖像檢索(Matching):根據圖片特征之間的距離進行排序,返回檢索結果。
數據集
數據集通常是通過人工標注或者檢測算法得到的行人圖片,目前與檢測獨立,注重識別
? 數據集分為訓練集 、 驗證集 、 Query 、Gallery
? 在訓練集上進行模型的訓練,得到模型后對Query與Gallery中的圖片提取特征計算相似
度,對于每個Query在Gallery中找出前N個與其相似的圖片
? 訓練、測試中人物身份不重復
現存的數據集可以分為兩類:
單幀數據集
單幀呢就是指采集的圖片為單張的,不連續的圖片。在標注時,一張圖片就是一個id。
序列數據集
相比較單幀的我們可以看出序列數據集的圖片都是連續的動作。而且不同于單幀的圖片,是一組圖片才是一個id。
在這里順便給出一個網站,這個網站歸納了常用的行人再識別領域的數據集網站,但最常用的還是上面列舉的幾個:行人再識別數據集.
常用評價指標
1.rank-k
rank-k:算法返回的排序列表中,前k位為存在檢索目標則稱為rank-k命中
2.CMC曲線
Cumulative Match Characteristic (CMC) curve:計算rank-k的擊中率,形成rank-acc的曲線
3.mAP曲線
mAP(mean average precision):反應檢索的人在數據庫中所有正確的圖片排在排序列表前面的程度,能更加全面的衡量ReID算法的性能。
評價模式
1.single shot vs multi shot
Single shot是指gallery中每個人的圖像為一張(N=1),而multi shot是指gallery中每個人的圖像為N>1張圖像。同樣的Rank-k下,一般N越大,得到的識別率越高。
2.single query vs multi query
Single query是指probe中每個人的圖像為一張(N=1),而multi query是指probe中每個人的圖像為N>1張圖像,然后融合N張圖片的特征(最大池化或者平均池化)作為最終特征。同樣的Rank-k下,一般N越大,得到的識別率越高。
行人重識別方法
傳統方法——手工設計特征+距離度量
- 手工特征:
- 顏色空間:RGB、HSV、LAB、XYZ、YCbCr、ELF、ELF16
- 紋理空間:LBP、Gabor
- 局部特征:SIFT、HOG、SURF
- 專用特征:LDFV、ColorInv、SDALP、LOMO
- 距離度量:
- 常用距離:歐式距離、馬氏距離、余弦距離
- 度量學習:LFDA、MFA、LMNN、LADF、XQDA、KISSME
深度學習方法
在這里總結概括一下基于深度學習的行人重識別方法,根據訓練損失可以分為基于表征學習和度量學習;根據特征是否考慮局部特征可以分為基于全局特征和基于局部特征特征;根據數據不同可以分為基于單幀圖像和基于視頻序列的方法;除此之外呢,還有一類基于GAN的的方法。(這些方法在后面都會提到)
- 基于表征學習的方法
- 基于度量學習的方法
- 基于局部特征的方法
- 基于視頻序列的方法
- 基于GAN網絡的方法
可視化
本身就是對識別出來的圖片進行一種聚類分析。
好了,我的這篇博客到這里就結束了,歡迎研究這個方向的朋友一起交流。
總結
- 上一篇: 翻转课堂融入计算机课,“翻转课堂”教学模
- 下一篇: 腾讯+字节+阿里面经真题汇总,总结到位