【论文解读】传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分...
作者丨Happy
編輯丨極市平臺
導讀
?本文將傳統圖像處理中的自相似性、金字塔等思路與深度學習相結合進行視頻超分,得到了SOTA指標,并為傳統圖像處理思路與深度學習提供了一個新的結合點。>>
本文是港中文賈佳亞老師團隊提出的一種視頻超分方案,它拋棄了已有光流、形變卷積等進行幀間對齊的方式,轉而采用自相似性進行幀間對齊,這無疑為傳統圖像處理思路與深度學習又提供了一個新的結合點;在幀內信息融合方面,該文采用多尺度自相似方案,盡管這個idea并非首次在深度學習中應用,但上述兩種idea的創造性組合使其在視頻超分領域取得了SOTA性能。盡管該文并未超越EDVR,但從模型部署、計算量等方面來看,該文無疑具有更好的可擴展性、部署性等。
Abstract
視頻超分旨在采用多個連續低分辨率圖像重建高分辨率圖像,在這個過程中,幀間與幀內信息是探索時序與空域信息的關鍵源。現有視頻超分方案往往存在這樣幾個局限性:(1) 采用光流進行時序相關估計,然而光流估計本身是存在誤差,進而影響重建質量;(2) 圖像中存在的相似模式在視頻超分中鮮少有所應用。
受此啟發,作者提出了一種時序相關集成策略以更好的利用幀間的相似塊,提出一種跨尺度非局部相關集成策略以更好探索圖像不同尺度見的自相似性。基于上述兩個新提出的模塊,作者構建了一種有效的MuCAN(Multi-Correspondense Aggregation Network)用于視頻超分,所提方法在多個公開數據集上取得了SOTA性能。
該文主要貢獻包含以下幾點:
提出一種新的MuCAN用于視頻超分,它在多個公開數據集取得了SOTA性能;
提出兩種有效的模塊:TM-CAM與CN-CAM以更好的探索時序和多尺度的相似性;
提出一種Edge-aware損失以促使網絡生成更好的邊緣。
Method
MuCAN上圖給出了本文所提出的MuCAN網絡結構示意圖。它以個連續低分辨率圖像作為輸入,輸出中間幀的高分辨率圖像。它包含三個關鍵模塊:TM-CAM、CN-CAM以及重建模塊。接下來,我們將分別針對三個模塊進行詳細介紹。
Temporal Multi-Correspondence Aggregation Module
相鄰幀見的運動具有正反兩方面性:一方面,大的運動需要進行消除以構建相似內容的相關性;另一方面,小運動的精確估計非常重要,它是細節的增強的根源。受FlowNet與PWCNet啟發,作者設計了一種分層相關集成策略以更好的同時處理大運動和小運動,見下圖。
給定兩個相鄰低分辨率圖像和, 首先將其編碼到更低分辨率,然后在低分辨率階段開始集成補償大運動,并漸進式向高分辨率階段補償小運動(亞像素運動)。不同于FRVSR、DRVSR在圖像空間直接回歸光流,所提模塊在特征空間進行處理,進而使得所提模塊更為穩定與魯棒。
Aggreagation上圖給出了TM-CAM中的集成單元示意圖,很明顯,它采用塊匹配策略。由于1對1的映射難以捕獲真正的幀間相關性,故而作者提出采用多對1的方式集成融合,類似于非局部均值的方式。
首先,我們定位并選擇Top-K最相似塊,然后采用相似自適應集成方式進行融合。以?到?為例進行說明,給定圖像塊,我們首先在上尋找與之最相近的塊(為簡單起見,這里采用進行度量,在實現過程中,作者采用FlowNet中的相關性作為度量方式)。特征塊之間的相關性可以同時如下方式進行計算:
在完成相關性計算后,我們選擇Top-K最相關的塊進行降序排列并進行Concat與集成:
注:Aggr表示卷積操作。不同于非局部均值中的賦予不同塊相同的權值,在這里作者設計了一種像素自適應的集成策略,融合權值通過如下方式計算得到:
正如Fig4所示,位置p出的輸出將通過如下方式得到:
通過重復上述過程2N次,我們將得到一組對齊特征?。為處理統一特征層面的所有幀特征,我們采用了一個額外的TM-CAM用于自集成并輸出。最后,所有特征通過卷積和PixelShuffle進行融合得到高分辨率特征。
Cross-Scale Nonlocal-Correspondence Aggregation Module
自然圖像中存在大量的自相似性,這種自相似有助于圖像的細節重建(在深度學習之前,這種自相似性曾被廣泛應用與各種low-level圖像處理中)。在這里,作者設計了一種跨尺度集成策略以更好的捕獲跨尺度非局部相關性,見下圖。
CNCAM在這里我們采用表示t時刻s尺度的特征,我們首先對輸入特征進行下采樣并得到特征金字塔:
給定中位置q處的query塊,我們需要在其他三個尺度進行相似塊的非局部搜索:
在進行集成合并之前,先對所搜到的相似塊通過自注意力模塊判別是否真正有用。最后通過如下方式進行特征集成融合:
Edge-Aware Loss
已有視頻超分方案在重建的高分辨率圖像中邊緣往往存在鋸齒問題,為緩解該問題,作者提出了一種edge-aware損失以更好的調整邊緣。首先,采用邊緣檢測器提取GT圖像的邊緣信息;然后,對于邊緣區域賦予更多的損失權重以迫使網絡在這些區域賦予更多的注意力。
在這里,作者采用Laplacian濾波器進行邊緣提取得到邊緣圖,然后得到二值Mask圖:
注:表示預訂的閾值。在訓練過程中,損失函數為CharbonnierLoss,總體損失定義如下:
其中L表示CharbonnierLoss。
Experiments
訓練數據:(1)REDS,參考EDVR中的數據重組方式進行了處理;(2) Vimeo90K。度量指標:PSNR、SSIM。
關于網絡架構,作者采用連續5(7)幀作為輸入,特征提取與重建模塊數量分別為5和40(當輸入為7幀時設置為20)個殘差模塊,通道數為128。
關于訓練超參信息,硬件信息:8卡1080Ti,每個GPUbatch=3,優化為為Adam,初始學習率為,學習調整機制為Consine,輸入塊大小為,數據增廣為隨機裁剪、隨機鏡像、隨機旋轉。訓練600K次迭代。
我們先來看一下消融實驗效果對比以更好的說明所提模塊的有效性,見下圖。可以看到TM-CAM對齊模塊取得了1.15dB的性能提升;CN-CAM在此基礎上取得了額外的0.12dB提升;EAL在此基礎上取得了0.06dB的性能提升。
Ablation Study與此同時,作者還對比了添加TM-CAM與否兩種情況下的重建差異對比熱圖,見下圖。可以看到:添加TM-CAM后,重建圖像與GT之間的誤差更小,且誤差分布更均勻,即更平滑。
Hotmap下表還給出了不同數量的相似塊的性能對比,可以看到:采用4個相似塊集成時效果更佳。
K-of-TM-CAM下圖給出了CN-CAM模塊的有效性示意圖,CN-CAM可以在TM-CAM的基礎上取得0.12dB的性能提升。下圖同樣說明了CN-CAM對于重建圖像的結構信息有更好的保持性。
CN-CAM下圖給出了添加EAL前后重建圖像視覺效果,可以看到:添加EAL后重建圖像的銳利度更優。
EAL最后,我們再來看一下所提方法與其他SOTA方法的性能對比。從表中結果可以看到:(1)在REDS數據集上,MuCAN以至少0.17dB指標優于其他方法;(2) 在Vimeo90K-Test數據集上,MuCAN以1.2dB(RGB空間)指標優于DUF。
SOTA最后的最后,作者對比MuCAN與EDVR的重建效果,見下圖。可以看到:EDVR生成的圖像在某些情況下會存在偽影問題,而MuCAN則不存在該問題。
Generalization◎作者檔案
Happy,一個愛“胡思亂想”的AI行者
個人公眾號:AIWalker
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯 獲取本站知識星球優惠券,復制鏈接直接打開: https://t.zsxq.com/y7uvZF6 本站qq群704220115。加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【论文解读】传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【论文解读】KDD20 | 图神经网络在
- 下一篇: 【机器学习基础】机器学习距离与相似度计算