【图像超分辨率论文】BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond
BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond
Abstract
視頻超級分辨率(VSR)方法往往比圖像對應的組件多,需要利用額外的時間維度,復雜的組成并不罕見。在這項研究中,我們希望解開這個結,并在四個基本功能的指導下重新考慮VSR的一些最基本的組件,即傳播、對齊、聚合和上采樣。通過重新使用一些現有的組件,加上最小的重新設計,我們展示了一個簡潔的管道,BasicVSR,與許多最先進的算法相比,在速度和修復質量方面實現了驚人的改進。我們進行了系統的分析,以解釋如何獲得這種增益,并討論了其中的陷阱。我們進一步展示了BasicVSR的可擴展性,提出了一個信息補給機制和一個耦合傳播方案來促進信息聚合。BasicVSR和它的前張力IconVSR可以作為未來VSR方法的強大基線。
1.Introduce
與單幅圖像超分辨率相比,視頻超分辨率(VSR)帶來了額外的挑戰,因為它涉及到視頻序列中多個高度相關但錯位的幀的信息匯總。
已經提出了各種方法來應對這一挑戰。有些設計可能是非常復雜的。例如,在有代表性的方法EDVR[32]中,采用了一個多尺度可變形對齊模塊和多個注意力層來對齊和整合來自不同幀的特征。在RBPN[9]中,多個投影模塊被用來依次聚合來自多個幀的特征。這種設計是有效的,但不可避免地增加了運行時間和模型的復雜性(見圖1)。此外,與SISR不同,VSR方法潛在的復雜和不相似的設計給實現和擴展現有方法帶來了困難,阻礙了再生產和公平比較。
我們有必要退一步,重新考慮VSR模型的不同設計,目的是為VSR尋找一個更通用、更有效、更容易實現的基線。我們通過將流行的VSR方法分解為基于功能的子模塊來開始我們的搜索。正如表1所總結的,大多數現有的方法需要四個相互關聯的組件,即傳播、對齊、聚合和上采樣。這樣的分解使我們能夠系統地研究每個組件下的各種選擇,并了解它們的優點和缺點。
通過廣泛的實驗,我們發現,通過對現有選項進行小規模的重新設計,我們已經可以達到一個強大而高效的VSR基線,而不需要花哨的東西。在本文中,我們強調了這種可能性之一,名為BasicVSR。我們觀察到,在上述四個組件中,傳播和對齊組件的選擇可能導致性能和效率方面的巨大波動。我們的實驗建議使用雙向傳播方案來最大限度地收集信息,并使用基于光流的方法來估計兩個相鄰幀之間的對應關系以進行特征對齊。通過簡單地將這些傳播和對齊組件與普遍采用的聚合(即特征串聯)和上采樣(即像素散列[27])的設計進行簡化,BasicVSR在性能(高達0.61 dB)和效率(高達24倍的速度)上都優于現有的技術水平[9, 12, 32]。
由于它的簡單性和多功能性,BasicVSR為擴展到更復雜的網絡提供了一個可行的起點。通過使用BasicVSR作為基礎,我們提出了IconVSR,它包括兩個新的擴展來改進聚合和傳播部分。第一個擴展被命名為信息補給。該機制利用一個額外的模塊從稀疏選擇的幀(關鍵幀)中提取特征,然后將這些特征插入到主網絡中進行特征細化。第二個擴展是一個耦合傳播方案,它促進了前向和后向傳播分支之間的信息交流。這兩個模塊不僅減少了傳播過程中由于遮擋和圖像邊界造成的錯誤積累,而且還降低了傳播過程中獲取完整信息的順序,以生成高質量的特征。有了這兩個新設計,IconVSR超過了BasicVSR,PSNR提高了0.31dB。
我們認為,鑒于圍繞VSR研究的方法越來越多,我們的工作是及時的。我們需要一個強大、簡單而又可擴展的基線。在VSR方法的主要功能的指導下,我們重新考慮了現有管道中的一些基本組件,并提出了一個高效的VSR基線。我們表明,簡單的組件在適當地整合后,會產生協同作用,并帶來最先進的性能。我們進一步介紹了一個用兩個新模塊擴展BasicVSR的例子,以完善傳播和聚合組件。
2. 相關工作
現有的VSR方法[10, 21, 28, 34, 20, 12, 13]主要可以分為兩個框架–滑動窗口和遞歸。早期的方法[1, 29, 33]在滑動窗口框架中預測低分辨率(LR)幀之間的光流,并執行空間扭曲來進行對齊。后來的方法則訴諸于更復雜的隱式配準方法。例如,TDAN[30]采用可變形卷積(DCNs)[5, 37]在特征層面對齊不同的幀。EDVR[32]進一步以多尺度的方式使用DCNs來進行更精確的對齊。DUF[16]利用動態上采樣濾波器來隱含地處理運動。一些方法采取了復租的框架。RSDN[12]提出了一個遞歸的細節結構塊和一個隱藏的狀態適應模塊,以提高對外觀變化和錯誤累積的魯棒性。RRN[13]采用了層與層之間的殘差映射與身份跳過連接,以確保形成流的流暢性并長期保存紋理信息。上述研究導致了許多新的和復雜的組件來解決VSR中的傳播和排列問題。在這里,我們重新研究了一些組件,發現雙向傳播加上一個簡單的基于光流的特征對齊,就足以勝過許多最先進的方法。
IconVSR中的信息補給機制讓人想起基于間隔的處理概念[4, 15, 26, 35, 36, 38, 39]。這些方法將視頻幀分為獨立的區間,其特征是關鍵幀和非關鍵幀。然后,關鍵幀和非關鍵幀由不同的管道進行處理。例如,FAST[35]應用SRCNN[6, 7]來超解關鍵幀。然后,非關鍵幀被使用放大的關鍵幀和存儲在壓縮視頻編解碼器中的運動向量進行恢復。IconVSR繼承了關鍵幀的概念,但與現有的獨立處理區間的方法不同,我們通過傳播分支連接區間,進行了一次進步。通過這種設計,長期信息可以在相互連接的區間內傳播,進一步提高了效果。
3. 方法
視頻超分辨率,從本質上講,涉及到一個漫長而復雜的處理管道,因為它不僅需要從空間維度,也需要從時間維度進行匯總形成?,F有的研究通常專注于某一方面的功能,以取得進展,可能不會集體考慮各種組件的協同作用。我們有必要從宏觀上重新審視各個組成部分,并發現一個繼承了現有方法優點的通用基線。在這項工作中,我們進行了廣泛的分析,并提出了一個簡單、強大和通用的基線,即BasicVSR,它可以作為設計中具有豐富靈活性的骨干。
3.1. BasicVSR
為了發現通用框架以促進VSR方法的分析和開發,我們將搜索范圍限制在普遍采用的元素上,如光流和殘余塊。圖2描述了基本VSR的概況。
傳播
傳播是VSR中最有影響力的組件之一。它規定了視頻序列中的信息如何被利用?,F有的傳播方案可以分為三個主要組別:本地、單向和雙向傳播。在下文中,我們將討論前兩者的弱點,以激勵我們在BasicVSR中選擇雙向傳播的方式。
- 本地傳播
滑動窗口方法[9, 13, 32]將局部窗口內的LR圖像作為輸入,并采用局部信息進行修復。在這種設計中,可獲得的信息被限制在一個局部鄰域內。對遠處圖像的忽略不可避免地限制了滑動窗口方法的潛力。為了驗證我們的主張,我們從一個全局性的接受場(在時間維度上)開始,逐漸縮小接受場。我們將測試序列分成K個片段,并使用我們的BasicVSR來獨立恢復每個片段。圖3描述了與K=1(全局傳播)情況的PSNR差異。首先,當片段的數量減少時(即時間接受領域增加),PSNR的差異減少(即性能更好)。這表明,遠處幀的信息對修復是有益的,不應該被忽視。其次,PSNR的差異在每個片段的兩端最大,表明有必要采用長序列來積累長期信息。 - 單向傳播
上述問題可以通過采用單向傳播來解決[8, 12, 14, 25],即信息按順序從第一幀傳播到最后一幀。然而,在這種情況下,不同幀收到的信息是不平衡的。具體來說,第一幀除了自身之外沒有收到來自視頻序列的信息,而最后一幀則收到來自整個序列的信息。因此,較早的幀預計會出現次優結果。為了證明其效果,我們將BasicVSR(使用雙向傳播)與它的單向變體(具有可比的網絡復雜性)進行比較。從圖4中,我們看到單向模型在早期時間段獲得的PSNR明顯低于雙向傳播,而且隨著幀數的增加,更多的信息被聚合,差異逐漸減少。此外,在只采用部分信息的情況下,觀察到性能持續下降0.5dB。這些觀察揭示了單向傳播的次優性。人們可以通過從序列的最后一幀傳播信息來提高輸出質量。 - 雙向傳播
上述兩個問題可以通過雙向傳播來同時解決,在雙向傳播中,特征在時間上是獨立向前和向后傳播的。受此啟發,BasicVSR采用了一個典型的雙向傳播方案。給定一個LR圖像xi,其相鄰的幀xi-1和xi+1,以及從其相鄰幀傳播的相應特征,表示為h f i-1和h b i+1,我們有
對齊
空間對齊在VSR中起著重要的作用,因為它負責對齊高度相關但不對齊的圖像/特征,以便隨后進行聚合。主要的工作可以分為三類:無對齊、圖像對齊和特征對齊。在本節中,我們將進行實驗來分析每一個類別,并驗證我們對特征對齊的選擇。
-
無對齊方式
現有的遞歸方法[8, 10, 11, 12, 14]在傳播過程中一般不進行對齊。不對齊的特征/圖像阻礙了聚合,并最終導致了不合格的性能。這種次優性可以通過我們的實驗反映出來,我們在BasicVSR中刪除了空間對齊模塊。在這種情況下,我們直接將非對齊的特征串聯起來進行還原。如果沒有適當的對齊,傳播的特征與輸入圖像在空間上是不對齊的。因此,局部操作,如卷積,具有相對較小的接受域,在匯總相應位置的信息時效率很低。觀察到PSNR下降了1.19dB。這一結果表明,采用具有足夠大的接受域的操作來聚合來自遙遠空間位置的信息是非常關鍵的。 -
圖像對齊
早期的工作[17, 33]通過計算光流并在修復前對圖像進行扭曲來進行對齊。最近,Chan等人[2]表明,將空間對齊從圖像層面轉移到特征層面會產生明顯的改善。在這項工作中,我們進一步進行實驗來驗證他們的說法。我們在BasicVSR的一個變體上比較了圖像扭曲和特征扭曲。由于光流估計的不準確,扭曲的圖像不可避免地會出現模糊和不正確的情況。細節的損失最終導致了輸出的降低。在我們的實驗中,當采用圖像對齊時,觀察到0.17dB的下降。這一觀察證實了將空間對齊轉移到特征層面的必要性。 -
特征對齊
重新移動/圖像對齊的劣質性能促使我們訴諸于特征對齊。與基于流的方法[17, 25, 33]類似,BasicVSR采用光流進行空間對齊。但我們沒有像以前的工作那樣對圖像進行扭曲,而是對特征進行扭曲以獲得更好的性能。然后,對齊的特征被傳遞給多個剩余塊進行細化。從形式上看,我們有
聚合和升頻
BasicVSR采用了聚合和上采樣的基本組件。具體來說,給定中間特征h {b,f} i,一個由多個卷積和像素洗牌組成的上采樣模塊[27]被用來生成輸出的HR圖像。
BasicVSR的總結
上面的分析激勵了BasicVSR的設計選擇。對于傳播,BasicVSR選擇了雙向傳播,強調長期和全局傳播。對于對齊,BasicVSR采用了一個簡單的基于流的對齊,但在特征層面上進行。對于聚合和上采樣,流行的特征連接和像素洗牌的選擇就足夠了。盡管是一個簡單扼要的方法,BasicVSR在修復質量和效率方面都取得了很好的表現。BasicVSR還具有高度的通用性,因為它可以很容易地容納額外的組件來處理更具挑戰性的場景,正如我們接下來所展示的。
3.2. 從BasicVSR到IconVSR
以BasicVSR為骨干,我們引入了兩個新的組件–信息填充機制和耦合傳播(IconVSR),以減輕傳播過程中的錯誤積累并促進信息的聚合。
信息補給
在遮擋區域和圖像邊界上的不準確對齊是一個突出的挑戰,會導致錯誤積累,特別是當我們在框架中采用長期傳播時。為了減輕這種錯誤特征帶來的不良影響,我們提出了一種信息重填機制來完善特征。如圖5(a)所示,一個額外的特征提取器被用來從輸入幀(關鍵幀)的子集和它們各自的鄰居中提取深度特征。然后,提取的特征通過卷積與對齊的特征hˉ i(公式2)融合。值得注意的是,特征提取器和特征融合只應用于稀疏選擇的關鍵幀。因此,信息重填機制帶來的計算負擔是微不足道的。雖然信息重填繼承了關鍵幀的思想,但我們在此指出,與現有的基于區間的方法[15, 35]不同的是,耦合傳播中的區間(由關鍵幀分隔)是獨立處理的。
在雙向設置中,特征通常在兩個相反的方向上獨立傳播。在這種設計中,每個傳播分支中的特征都是根據部分信息計算的,這些信息來自以前的幀或未來的幀。為了利用序列中的信息,我們提出了一個耦合的傳播方案,其中傳播模塊是相互連接的。如圖5(b)所示,在耦合傳播中,向后傳播的特征h b i被作為前向傳播模塊的輸入(參見公式1,3)。通過耦合傳播,前向傳播分支接收來自過去和未來幀的信息,導致更高質量的特征,從而獲得更好的輸出。更重要的是,由于耦合傳播只需要改變分支的連接,可以在不引入計算開銷的情況下獲得性能的提高。
5. 消融研究
5.1. 從BasicVSR到IconVSR的信息重填
我們對信息填充前后的特征進行定性的可視化,以獲得對該機制的深入了解。如圖8(a)所示,在信息填充之前,由于不存在對應關系,扭曲的特征中的邊界像素基本上成為零。丟失的信息不可避免地惡化了特征的質量,導致輸出結果的下降。通過我們的信息補給機制,額外的特征可以用來 "補給 "那些特征排列不整齊的區域中丟失的信息。然后,檢索到的信息可以被用于后續的特征細化和傳播。上述效果在具有精細細節的區域尤其明顯。在這些區域,由于對齊錯誤,來自相鄰幀的信息不能有效地匯總,往往導致質量下降。通過信息再填充,額外的特征有助于恢復細節,從而提高質量。例如,如圖9所示,通過補給機制,車牌號可以更清晰地重建。耦合傳播。為了消除耦合傳播方案,我們禁用了信息填充機制,并將IconVSR與BasicVSR進行比較。在圖8(b)中,黃色方框表示一個在以前的幀中被遮擋的區域,BasicVSR中的前向傳播分支不能接收該區域的信息。紅色方框表示一個在序列的所有幀中都存在的區域,因此可以在后面的幀中找到該區域的大量 “快照”。通過耦合傳播,向后傳播的特征被更有效地利用,因此可以重建更多的細節和更精細的邊緣。
總結
以上是生活随笔為你收集整理的【图像超分辨率论文】BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 天猫宝和余额宝有什么区别?天猫宝和余额宝
- 下一篇: 【图像超分辨率论文】BasicVSR++