光流估计和物体跟踪
光流估計和物體 跟蹤
1:視頻的基礎概念
-
視頻:由一系列的圖片拼接而成的,按照一定的速度順序播放
-
幀:組成視頻的靜態圖像
-
幀率:每一秒鐘內視頻內靜態圖像的數量
- 24,人眼是認為動態的視頻
- 人眼的極限是55幀,一般的視頻都是30幀。倍速的話,是幀率的提高嗎?
-
視頻的壓縮
- 幀內的壓縮
- 每一幀之間可能有顏色或者是樣式相似的區域
- 幀間的壓縮
- 相似視頻幀之間可能只有很小的變化
- 幀內的壓縮
-
幀的分類
- I幀(關鍵幀):幀內壓縮
- P幀(預測):參考前一個I幀 / P幀來進行壓縮
- B幀(雙向預測):參考前一個和后一個的 I 幀/ P 幀來進行壓縮
2:光流
-
光流:相對于觀察者的運動所造成的觀測目標,表面或者是邊緣的運動
-
光流估計:估計視頻幀中的每一個點的光流
- purpose:估計視頻幀中的每一個點的光流
- input:視頻
- output:光流
- challenge:準確性,計算量
-
Lucas & Kanade
- 假設在連續的幀中,同一個運動物體的亮度不變,也就是像素值不變
- 像素點(x,y)及周圍領域內的像素點的運動方向是一致的,采用最小二乘法進行求解。
-
深度學習的方法
-
FlowNetSimple:將兩張圖片簡單排列在一起作為CNN encoder的輸入
-
:分別先對兩張圖像進行卷積,獲得較為高層的feature之后,再引入人為定義的規則將信息合并
-
LOSS:給定每個像素的groundTruth的光流,每個像素的損失定義為預測的和groundtruth之間的歐氏距離
-
FlowNet2.0
- 疊加了多個FlowNet網絡,實現了由粗到細的光流估計
- 針對于較小的物體估計不準,減小了卷積核的大小,并且縮短了卷積的步長
- 得到了新的數據
-
PWC net
- 采用了圖像金字塔
- 做到了視頻上的實時光流估計
-
MaskFlowNet
- 在被遮擋的情況下,也能夠進行工作
-
應用
- 視頻分析
- 每幀獨立的處理是比較慢的
- 復用上一次的,精度會有損失
- 對行為進行預測
- 物體檢測
- 分割
- 視頻分析
3:目標跟蹤 / 物體跟蹤(Object Tracking)
-
purpose:對于指定的物體,給出他在每個視頻幀中的位置
-
input:輸入一個視頻,一個或者是多個物體
-
output:指定物體的邊界線軌跡
-
challenge:姿態改變;亮度;遮擋
-
基本思路
- 輸入初始化的目標框,選取一些候選框,并對候選框進行評分,在這些候選框中得到一個得分最高的作為預測的目標
- 怎么樣產生候選框框
- 怎么樣提取特征
- 怎么樣為候選框評分
- 怎么更新模型
- 怎么集成決策
- 輸入初始化的目標框,選取一些候選框,并對候選框進行評分,在這些候選框中得到一個得分最高的作為預測的目標
-
評價基準
- OTB:OTB50 和 OTB100
- VOT:ICCV + ECCV
- OTB VOT
- VOT
- VOT是比較好的,他是全是彩色的,但是OTB有 25 %是灰色的
- VOT的分辨率普遍比較好
- 并且你如果跟蹤丟了,他會在五幀后會給你調回來,
- OTB是隨機幀開始,但是VOT是一直從第一幀開始
- OTB VOT
-
相關濾波
- 利用濾波的模板和目標候選區域做相關的運算,最大輸出響應的位置就是當前幀的目標位置
-
深度學習
- 底層的特征具有較高的分辨率,能夠對目標進行精準的定位
- 高層的特征則包含更多的語義信息,處理較大的變換和防止跟蹤器漂移,對目標進行范圍定位
- 訓練和速度
-
物體軌跡提議
- purpose:給出視頻中可能包含物體的邊界框的軌跡
- 輸入:視頻
- output:一組邊界框的軌跡
- challenge:組合爆炸,似物性估計
-
總結
- 上一篇: MASK -RCNN
- 下一篇: 如何写综述???