【图像超分辨率论文】BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment
BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment
Abstract
遞歸結構是視頻超分辨率任務的一個流行框架選擇。最先進的方法BasicVSR采用雙向傳播與特征對齊,有效地利用了整個輸入視頻的信息。在這項研究中,我們通過提出二階網(wǎng)格傳播和流動引導的可變形對齊來重新設計BasicVSR。我們表明,通過增強傳播和對齊的遞歸框架,我們可以更有效地利用錯位視頻幀的時空信息。在類似的計算約束下,新的組件導致了性能的提高。
特別是,我們的模型BasicVSR++在參數(shù)數(shù)量相似的情況下,PSNR超過BasicVSR 0.82 dB。除了視頻超級分辨率外,BasicVSR++還能很好地適用于其他視頻修復任務,如壓縮視頻增強。在NTIRE 2021中,BasicVSR++在視頻超級分辨率和壓縮視頻增強挑戰(zhàn)中獲得三個冠軍和一個亞軍。代碼和模型將被發(fā)布到MMEditing1
1. 引言
視頻超級分辨率(VSR)具有挑戰(zhàn)性,因為人們需要在錯位排列的視頻幀中收集互補的信息進行修復。一種普遍的方法是滑動窗口框架[9, 32, 35, 38],其中視頻中的每一幀都是利用短時窗內的幀進行修復。與滑動窗口框架相反,遞歸框架試圖通過傳播潛在的特征來利用長期的依賴關系。一般來說,這些方法[8, 10, 11, 12, 14, 27]與滑動窗口框架中的方法相比,模型更緊湊。然而,在一個循環(huán)模型中,長期信息的傳遞和跨幀特征的對齊問題仍然很棘手。
Chan等人最近的一項工作[2]仔細研究了這些問題。它將常見的VSR管道總結為四個部分,即傳播、對齊、聚合和升頻,并提出BasicVSR。在BasicVSR中,雙向傳播被采用來利用整個輸入視頻的形成來進行重建。對于對齊,光流被用于特征扭曲。BasicVSR是一個簡潔而強大的骨干,其中的組件可以很容易地被添加以提高性能。然而,它在傳播和對齊方面的初級設計限制了信息聚合的功效。因此,該網(wǎng)絡往往難以恢復精細的細節(jié),特別是在處理被遮擋的復雜區(qū)域時。這些缺點要求我們在傳播和排列方面進行完善的設計。
在這項工作中,我們通過設計二階網(wǎng)格傳播和流動引導的可變形排列來重新設計BasicVSR,使信息能夠更有效地被傳播和聚集。
上述兩個組件是新穎的,更多的討論可以在相關工作部分找到。通過更有效的設計,BasicVSR++可以采用比其同行更輕的骨架。因此,BasicVSR++超越了現(xiàn)有的技術水平,包括BasicVSR和IconVSR(更精細的BasicVSR變體),同時保持了效率(圖1(c))。特別是,與它的前身BasicVSR相比,在REDS4[35]上,在類似的參數(shù)數(shù)量下,PSNR獲得了0.82dB的增益。此外,BasicVSR++在NTIRE 2021視頻超分辨率[29]和壓縮視頻增強[39]挑戰(zhàn)賽中獲得了三個冠軍和一個亞軍。
2. 相關工作
遞歸網(wǎng)絡
遞歸框架是各種視頻處理任務中采用的流行結構,如超分辨率[8, 10, 11, 12, 14, 27]、去模糊環(huán)[24, 41]和幀插值[36]。例如,RSDN[12]采用單向傳播,帶有遞歸細節(jié)結構塊和隱藏狀態(tài)適應模塊,以增強對外觀變化和錯誤積累的魯棒性。Chan等人[2]提出BasicVSR。這項工作證明了雙向傳播比單向傳播的重要性,以更好地利用時間上的特征。此外,該研究還顯示了特征對齊在對齊高度相關但不對齊的特征方面的優(yōu)勢。我們請讀者參考[2],了解這些組件與更傳統(tǒng)的傳播和對齊方式的詳細比較。在我們的實驗中,我們著重于與BasicVSR進行比較,因為它是最先進的VSR方法。
網(wǎng)格連接
網(wǎng)格狀的設計在各種視覺任務中都可以看到,如物體檢測[5, 30, 34],語義分割[7, 30, 34, 43],以及幀插值[25]。一般來說,這些設計將一個給定的圖像/特征分解成多個分辨率,并在不同的分辨率下采用網(wǎng)格來捕捉精細和粗略的信息。與上述方法不同,BasicVSR++不采用多尺度設計。相反,網(wǎng)格結構被設計為以雙向的方式跨時傳播。我們將不同的框架用網(wǎng)格連接起來,反復細化特征,提高表達能力。
高階傳播
高階傳播已經(jīng)被研究用來改善梯度流[16, 20, 28]。這些方法在不同的任務中表現(xiàn)出改進,包括分類[16]和語言建模[28]。然而,這些方法沒有考慮時間對齊,這在VSR的任務中被證明是至關重要的[2]。為了允許二階傳播中的時間對齊,我們將對齊納入我們的傳播方案,將我們的流指導的可變形對齊擴展到二階設置。
可變形對齊
一些作品[32, 33, 35, 37]采用了可變形對齊。TDAN[32]使用可變形卷積在特征水平上進行對齊。EDVR[35]進一步提出了一個具有多尺度設計的金字塔級聯(lián)可變形(PCD)對齊。最近,Chan等人[3]分析了可變形的對齊方式,并表明與基于流的對齊方式相比,性能增益來自于偏移的多樣性。受[3]的啟發(fā),我們采用了可變形配準,但采用了重新表述的方式來克服訓練的不穩(wěn)定性[3]。我們的流動引導的可變形對齊與偏移保真損失[3]不同。后者在訓練中使用光流作為損失函數(shù)。相比之下,我們直接將光流納入我們的模型,作為基礎偏移量,允許在訓練和推理過程中提供更明確的指導。
3. 方法
BasicVSR++由兩個有效的修改組成,用于改進傳播和對齊。如圖2所示,給定一個輸入視頻,首先應用剩余塊從每一幀中提取特征。然后,這些特征在我們的二階網(wǎng)格傳播方案下進行傳播,其中對齊是由我們的流動引導的可變形對齊進行的。在傳播之后,聚合的特征被用來通過卷積和像素洗牌來生成輸出圖像。
3.1. 二階網(wǎng)格傳播
大多數(shù)現(xiàn)有方法采用單向傳播[12, 14, 27]。一些作品[2, 10, 11]采用雙向傳播,以利用視頻序列中的可用信息。特別是IconVSR[2]由一個耦合的傳播方案組成,它有順序連接的分支,以促進信息交流。
在雙向傳播有效性的激勵下,我們設計了一個網(wǎng)格傳播方案,以便通過傳播實現(xiàn)重復細化。更具體地說,中間特征在時間上以交替的方式向后和向前傳播。通過傳播,來自不同幀的信息可以被 "重訪 "并被用于特征的細化。與現(xiàn)有的只傳播一次特征的工作相比,網(wǎng)格傳播從整個序列中反復提取信息,提高了特征的可表達性。
為了進一步提高傳播的穩(wěn)健性,我們放寬了BasicVSR中一階馬爾可夫屬性的假設,采用二階連接,實現(xiàn)了二階馬爾可夫鏈。通過這種放松,信息可以從不同的時空位置聚集起來,提高了在遮擋和精細區(qū)域的魯棒性和有效性。綜合上述兩個部分,我們設計了如下的二階網(wǎng)格傳播。設xi為輸入圖像,gi為通過多個殘差塊從xi中提取的特征,f j i為在第j個傳播分支的第i個時間步計算的特征。在這一節(jié)中,我們描述了前向傳播的程序,后向傳播的程序定義與此類似。為了計算特征f j i,我們首先使用我們提出的流動引導的可變形對齊方式對f j i-1和f j i-2進行對齊(遵循二階馬爾科夫鏈),這將在下一節(jié)討論。
3.2. 流動引導的可變形對齊
可變形對齊[33, 35]比基于流動的對齊[9, 38]有明顯的改進,這要歸功于可變形卷積(DCN)[6, 42]中固有的偏移多樣性[3]。然而,可變形配準模塊可能很難訓練[3]。訓練的不穩(wěn)定性常常導致偏移量溢出,惡化了最終的性能。為了利用偏移量的多樣性,同時克服不穩(wěn)定性,我們建議采用光流來指導可變形配準,這是由可變形配準和基于光流的配準之間的密切關系所激發(fā)的[3]。圖3中顯示了圖形說明。在本節(jié)的其余部分,我們將詳細介紹前向傳播的對齊程序。后向傳播的程序定義與此類似。為了簡化記法,上標j被省略了。
圖3:流動引導的可變形對齊。光流是 用來預對準特征。然后,對齊的特征被連接起來以產生DCN偏移(對光流的殘留物)。A 然后將DCN應用于未扭曲的特征。只有一階連接,二階連接被省略了 為了簡單起見,省略了二階連接。
討論。與現(xiàn)有的直接計算DCN偏移量的方法[32, 33, 35, 37]不同,我們提出的流動引導的可變形對準采用了光流作為引導。其好處是雙重的。首先,由于CNN已知有局部感受野,通過使用光流對特征進行預對準,可以幫助學習關集。其次,通過只學習殘差,網(wǎng)絡工作只需要學習與光流的微小偏差,減少了典型的可變形對齊模塊的負擔。此外,DCN中的調制掩碼不是直接連接扭曲的特征,而是作為注意力圖來權衡不同像素的貢獻,提供額外的靈活性。
總結
以上是生活随笔為你收集整理的【图像超分辨率论文】BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【图像超分辨率论文】BasicVSR:
- 下一篇: 美国最大连锁院线 AMC 推出影厅分区售