超分论文笔记2020CVPR视频超分:Zooming Slow-Mo- VSR with Temporal Group Attention-TDAN
Space-Time Video Super-Resolution (STVSR) 問題定義:
從一個低像素低幀率恢復出高幀率高分辨率的視頻。
1.Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution
代碼鏈接
1.1 總結
之前的一些方法采用手工制作的正則化方法,并做出比較強的假設,這些方法限制了模型的容量和擴展到更多樣的模式,同時計算量大。
現在的一些深度學習的方法,一種直接的方法是組合對視頻插針和視頻超分,形成一個two-stage方式。先對LR視頻進行查證,然后重建高分辨率圖像。然而這兩部分是結合在一起的,使用two-stage的方式將這兩部分分開。
作者提出了一個統一的one-stage STVSR框架通過做時間和空間的超分。提出了自適應學習一個可變形的特征插值函數來臨時插值中間LR幀特征,而不是像兩階段方法那樣合成像素級LR幀。插值函數可以集合local temporal contexts,可以處理復雜的運動。同時引入了一個新的可變性的ConvLSRM模型利用全局紋理信息,并同時進行時空對齊和聚合。然后通過一個深度SR重建網絡從聚合的LR特征重建HR視頻。
1.2 方法
任務設定:
給了低幀低分辨率視頻序列:IL={I2t?1L}t=1n+1I^{L} = \{I_{2t-1}^L\}_{t=1}^{n+1}IL={I2t?1L?}t=1n+1?,重建出對應的高分辨率慢動作視頻序列:IH={ItH}t=12n+1I^H = \{I_t^H\}_{t=1}^{2n+1}IH={ItH?}t=12n+1?。對于中間從幀{I2tH}t=1n\{I_{2t}^H\}_{t=1}^n{I2tH?}t=1n?,沒有對應的低像素輸入。
作者提出了一個一階段的空間時間超分框架。包括了四部分:
- feature extractor
- frame feature temporal interpolation module
- deformable ConvLSTM
- HR frame reconstructor
1.2.1 Frame Feature Temporal Interpolation
這個模塊的設計如下所示。以往的方法是先得到中間幀的低分辨率圖像,其實就是把視頻超分分成了兩部分。這個網絡是直接得到中間幀的特征,然后通過上一幀,中間幀和下一幀的低分辨率特征做超分。
所以這個模塊主要是做中間層的特征。讓前一幀得到一個前向運動信息,后一幀得到后向運動信息,合在一起得到中間幀的特征,所以得到了兩個offset field。然后通過一個混合函數得到最后的特征。
F2L=α?T1(F1L,Φ1)+β?T3(F3L,Φ3)F_2^L = \alpha * T_1(F_1^L, \Phi_1) + \beta * T_3(F_3^L,\Phi_3)F2L?=α?T1?(F1L?,Φ1?)+β?T3?(F3L?,Φ3?)
這里覺得還挺不錯的,α\alphaα 和 β\betaβ 是兩個可學習的 1×11 \times 11×1 卷積核。然后得到了中間幀的特征~~
1.2.2 Deformable ConvLSTM
使用一個sequence-to-sequene mapping,除了從對應的低像素圖片做超分,還集合了相鄰幀的時序特征。使用了ConvLSTM結構。然而convLSTM只能通過小的感受野隱式捕獲運動信息。這個時候ht?1h_{t-1}ht?1?和ct?1c_{t-1}ct?1?傳遞的是不匹配的噪聲,而不是全局信息。重建的圖像會有偽影。于是作者顯示地嵌入了一個具有可變形對齊的狀態更新單元。
ghg_hgh?和gcg_cgc?卷積運算,Δpth\Delta p_t^hΔpth? 和 Δptc\Delta p_t^cΔptc?是預測的偏差,ht?1ah_{t-1}^aht?1a?和ct?1ac_{t-1}^act?1a?是對齊的隱藏狀態和單元格狀態。相比以往的,這里顯示地將ht?1h_{t-1}ht?1?和ct?1c_{t-1}ct?1?與 FtLF_t^LFtL?對齊。此外,為了充分挖掘時間信息,我們以雙向方式使用可變形ConvLSTM。將時間反轉的特征映射到同一個可變形的convLSTM中,并將前向和后向的隱藏狀態串聯起來作為最終的隱藏狀態ht,用于HR幀重建。
1.2.3 Frame Reconstruction
lrec=∣∣ItGT?ItH∣∣2+?2l_{rec} = \sqrt{||I_{t}^{GT} - I_t^H||^2 + \epsilon^2}lrec?=∣∣ItGT??ItH?∣∣2+?2?
2. Video Super-resolution with Temporal Group Attention
代碼地址
2.1 總結
作者提出一個新的方法,可以有效地將時間信息以分層的方式合并。輸入的序列被分成幾個組,每一個組對應一個幀率,這些組提供了恢復丟失細節的補充信息,之后進一步與注意模塊和深層組內融合模塊集成在一起。
2.2 方法
給定一個連續的低分辨率視頻序列,ItLI_t^LItL?和2N2N2N個相鄰的幀 {It?NL:It?1L,It+1L:It+NL}\{I_{t-N}^L: I_{t-1}^L,I_{t+1}^L:I_{t+N}^L\}{It?NL?:It?1L?,It+1L?:It+NL?},通過相鄰幀的時空信息重現出高分辨率的視頻序列 。I^t\hat I_tI^t?。
2.2.1 Temporal Group Attention
輸入不同幀率的視頻序列
Temporal Grouping
將原來2N2N2N幀圖片分成{G1,...,Gn},n∈[1:N]\{G_1, ..., G_n\}, n \in [1:N]{G1?,...,Gn?},n∈[1:N]組,每一組記成Gn={It?nL,ItL,It+nL}G_n = \{I_{t-n}^L, I_t^L, I_{t+n}^L\}Gn?={It?nL?,ItL?,It+nL?}。所以網絡可以泛化到任意幀的輸入。這樣可以更好地提取特征,特別是有一些幀有遮擋現象之類的。
Intra-group Fusion
Inter-group Fusion with Temporal Attention
對每個組,得到一個一通道的特征層FngF_n^gFng?,計算每個channel的權重,然后再時間軸上使用softmax根據FngF_n^gFng?計算attention maps。最后attention weighted feature可以這樣計算得到F^ng=Mn⊙Fng,n∈[1:N]\hat F_n^g = M_n ⊙ F_n^g, n\in[1:N]F^ng?=Mn?⊙Fng?,n∈[1:N]
2.2.2 Fast Spatial Alignment
先檢測出interest point,然后再建立點之間的對應關系。以往對每個點都做的光流法,會比較容易引進pixel-level的失真,同時是獨立地做鄰幀和參考幀的預測,會帶來很多冗余的計算。
3.TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution
代碼地址
3.1 總結
對于VSR,有個重要的問題時如何對齊supporting frames 和 reference frames。之前主要有光流估計和image warp操作,這些方法容易引進偽影。使用光流方法也不易得到高質量的運動估計。即使有比較準確的運動場,imagewarp會產生偽影。作者采用了一個不依賴于光流的方法。同時,由于固定核設置,CNN在對幾何變形有固有的局限,以往也有通過可變形卷積的操作實現高層任務。所以作者引進了可變形卷積。
3.2 方法
問題設置:
輸入為ItLR∈RH×W×CI_t^{LR}\in R^{H\times W\times C}ItLR?∈RH×W×C,輸出為ItHR∈RsH×sW×CI_t^{HR} \in R^{sH \times sW \times C}ItHR?∈RsH×sW×C,sss是上采樣倍數。輸入除了ItLRI_t^{LR}ItLR?,還有supporting LR frames {It?NLR,...,It?1LR,It+1LR,...,It+NLR}\{I_{t-N}^{LR}, ... ,I_{t-1}^{LR},I_{t+1}^{LR},...,I_{t+N}^{LR}\}{It?NLR?,...,It?1LR?,It+1LR?,...,It+NLR?},總共輸入了連續的2N+12N + 12N+1 幀,網絡包括一個時序變形對齊網絡(TDAN)和一個超分重建網絡。最后得到目標幀的超分圖。
3.2.1 Temporally-Deformable Alignment Network
將support frame序列和參考幀對齊。包括三個部分
- feature extraction
- deformable alignment
- aligned frame reconstruction 這里還用了一個對齊loss作為讓變形對齊模塊可以采樣到有用的信息。
3.2.2 SR Reconstruction Network
- temporal fusion 先做concatenate,然后卷
- nonlinear mapping 將shadow融合特征作為輸入然后得到deep feature
- HR frame reconstruction 提取特征后,通過ESPCN的方法實現重建
3.2.3 Loss
Lalign=12N∑i=t?N,≠tt+N∣∣IiLR′?ItLR∣∣22L_{align} = \frac{1}{2N}\sum_{i=t-N,\neq t}^{t+N}||I_i^{LR^{'}} - I_t^{LR}||_2^2Lalign?=2N1?i=t?N,=t∑t+N?∣∣IiLR′??ItLR?∣∣22?
Lsr=∣∣ItHR′?ItHR∣∣22L_{sr} = ||I_t^{HR'} - I_t^{HR}||_2^2Lsr?=∣∣ItHR′??ItHR?∣∣22?
L=Lalign+LsrL = L_{align} + L_{sr}L=Lalign?+Lsr?
第一個loss沒有label,所以作者將reference frame的特征作為gt。
總結
以上是生活随笔為你收集整理的超分论文笔记2020CVPR视频超分:Zooming Slow-Mo- VSR with Temporal Group Attention-TDAN的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vue 动态获取的图片路径不显示_Vue
- 下一篇: 跨界 Bio+IT,推文汇总(推荐收藏)