深度学习在处理视频上几种主要技术方法
深度學習在視頻內容表達上主要的幾種技術方法。
參考:https://yq.aliyun.com/articles/39134
這里只做簡要總結,具體請參考原文章
1. 基于單幀的識別方法
一種最直接的方法就是將視頻進行截幀,然后基于圖像粒度(單幀)的進行deep learninig 表達,視頻的某一幀通過網絡獲得一個識別結果。然而一張圖相對整個視頻是很小的一部分,特別當這幀圖沒有那么的具有區分度,或是一些和視頻主題無關的圖像,則會讓分類器摸不著頭腦。因此,學習視頻時間域上的表達是提高視頻識別的主要因素。當然,這在運動性強的視頻上才有區分度,在較靜止的視頻上只能靠圖像的特征了。?
2. 基于CNN擴展網絡的識別方法
它的總體思路是在CNN框架中尋找時間域上的某個模式來表達局部運動信息,從而獲得總體識別性能的提升。網絡結構總共有三層,在第一層對10幀 (大概三分之一秒)圖像序列進行MxNx3xT的卷積(其中 MxN是圖像的分辨率,3是圖像的3個顏色通道,T取4,是參與計算的幀數,從而形成在時間軸上4個響應),在第2、3層上進行T=2的時間卷積,那么在第3層包含了這10幀圖片的所有的時空信息。該網絡在不同時間上的同一層網絡參數是共享參數的。
它的總體精度在相對單幀提高了2%左右,特別在運動豐富的視頻,如摔角、爬桿等強運動視頻類型中有較大幅度的提升,這從而也證明了特征中運動信息對識別是有貢獻的。在實現時,這個網絡架構可以加入多分辨的處理方法,可以提高速度。
3. 雙路CNN的識別方法
這個其實就是兩個獨立的神經網絡了,最后再把兩個模型的結果平均一下。一個就是普通的單幀的CNN,而且文章當中提到了,這個CNN是在ImageNet的數據上pre-train,然后在視頻數據上對最后一層進行調參。一個是CNN網絡,就是把連續幾幀的光流疊起來作為CNN的輸入。 另外,它利用multi-task learning來克服數據量不足的問題。其實就是CNN的最后一層連到多個softmax的層上,對應不同的數據集,這樣就可以在多個數據集上進行multi-task learning。
4. 基于LSTM的識別方法
它的基本思想是用LSTM對幀的CNN最后一層的激活在時間軸上進行整合。這里,它沒有用CNN全連接層后的最后特征進行融合,是因為全連接層后的高層特征進行池化已經丟失了空間特征在時間軸上的信息。相對于方法2,一方面,它可以對CNN特征進行更長時間的融合,不對處理的幀數加以上限,從而能對更長時長的視頻進行表達;另一方面,方法2沒有考慮同一次進網絡的幀的前后順序,而本網絡通過LSTM引入的記憶單元,可以有效地表達幀的先后順序。
上圖中紅色是卷積網絡,灰色是LSTM單元,黃色是softmax分類器。LSTM把每個連續幀的CNN最后一層卷積特征作為輸入,從左向右推進時間,從下到上通過5層LSTM,最上的softmax層會每個時間點給出分類結果。同樣,該網絡在不同時間上的同一層網絡參數是共享參數的。在訓練時,視頻的分類結果在每幀都進行BP(back Propagation),而不是每個clip進行BP。在BP時,后來的幀的梯度的權重會增大,因為在越往后,LSTM的內部狀態會含有更多的信息。
在實現時,這個網絡架構可以加入光流特征,可以讓處理過程容忍對幀進行采樣,因為如每秒一幀的采樣已經丟失了幀間所隱含的運動信息,光流可以作為補償。
5.? 3維卷積核(3D CNN)法
3D CNN 應用于一個視頻幀序列圖像集合,并不是簡單地把圖像集合作為多通道來看待輸出多個圖像(這種方式在卷積和池化后就丟失了時間域的信息,如下圖左), 而是讓卷積核擴展到時域,卷積在空域和時域同時進行,輸出仍然是有機的圖像集合(如下圖右)。
實現時,將視頻分成多個包含16幀的片段作為網絡的輸入(維數為3 × 16 × 128 × 171)。池化層的卷積核的尺寸是d x k x k, 第一個池化層d=1,是為了保證時間域的信息不要過早地被融合,接下來的池化層的d=2。有所卷積層的卷積核大小為3x3x3,相對其他尺寸的卷積核,達到了精度最優,計算性能最佳。 網絡結構如下圖所示。這個是學習長度為16幀(采樣后)視頻片段的基礎網絡結構。對于一個完整的視頻,會被分割成互相覆蓋8幀的多個16幀的片段,分別提取他們的fc6特征,然后進行一個簡單平均獲得一個4096維的向量作為整個視頻的特征。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
通過可視化最后一個卷積層對一個連續幀序列的特征表達,可以發現,在特征開始著重表達了畫面的信息,在特征的后面著重表達的是運動信息,即在運動處有相對顯著的特征。如下圖。
和單幀圖特征在視頻測試集上進行對比,3D CNN有更強的區分度
?
?
總結
以上是生活随笔為你收集整理的深度学习在处理视频上几种主要技术方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于深度学习的视频预测研究综述
- 下一篇: 《围城》观后感