【图像超分辨率】Learning Texture Transformer Network for Image Super-Resolution
論文地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Yang_Learning_Texture_Transformer_Network_for_Image_Super-Resolution_CVPR_2020_paper.pdf
Learning Texture Transformer Network for Image Super-Resolution
- 摘要
- 1 簡介
- 2 相關工作
- 3 本文方法
- 3.1 Texture Transformer
- 可學習的紋理提取器(Learnable Texture Extractor)
- 相關性嵌入模塊(Relevance Embedding)
- Hard-Attention(硬注意力)
- Soft-Attention(軟注意力)
- 3.2 Cross-Scale Feature Integration(跨尺度特征整合)
- 3.3 損失函數
- Reconstruction loss(重建損失)
- Adversarial loss(對抗損失)
- Perceptual loss(感知損失)
- 3.4 實現細節
- 4 實驗與結果
- 4.1 數據庫和評價指標
- 4.2 定量評估
- 4.3 消融實驗
摘要
本文研究的是圖像超分辨率(SR)領域,其目的是從低分辨率(LR)圖像中恢復真實的紋理。目前,現有的圖像超分辨率方法并沒有從注意力機制的角度來考慮將參考圖像中的紋理信息轉移到高分辨率(HR)圖像中。在本文中,提出了一種新穎的用于圖像超分辨率的紋理Transformer網絡(TTSR:TextureTransformer Network for ImageSuper-Resolution ),其中低分辨率LR和參考Ref圖像分別表示為Transformer中的查詢和關鍵字。TTSR由四個緊密相關的模塊組成,這些模塊針對圖像生成任務進行了優化,包括:DNN的可學習紋理提取器(learnabletexture extractor by DNN),相關性嵌入模塊(a relevance embedding module),用于紋理傳遞的硬注意力模塊(hard-attention module for texture transfe)和用于紋理合成的軟注意力模塊(soft-attention module for texture synthesi)。這樣的設計鼓勵在低分辨率圖像LR和參考Ref圖像之間進行聯合特征學習,其中可以通過注意發現深層特征對應關系,從而可以傳遞準確的紋理特征。所提出的紋理Transformer可以以跨尺度的方式進一步堆疊,這使得能夠從不同級別(例如,從1x倍到4x倍放大率)恢復紋理。大量的實驗表明,在定量和定性評估方面,TTSR都比最新技術有了顯著改善。
1 簡介
圖像超分辨率的目的在于從退化的低分辨率圖像中恢復高分辨率圖像中的自然和逼真的紋理。因此,圖像超分辨率SR的成功可以極大地提高媒體內容的質量,以獲得更好的用戶體驗。圖像超分辨率在智能手機數碼變焦、超清電視機、醫學圖像、衛星圖像中應用都十分廣泛。
圖像SR的研究通常以兩種形式進行,包括單圖像超分辨率(SISR)和基于參考的圖像超分辨率(RefSR)。其中,基于深度學習的SISR方法將這個問題視為密集的圖像回歸任務,該任務學習了在LR和HR圖像之間的圖像映射功能。代表的方法有:SRCNN 、VDSR、DRCN等。
但是,傳統的SISR通常會導致效果模糊,因為高分辨率(HR)紋理在退化過程中被過度破壞,無法恢復。盡管提出了基于生成對抗網絡(GAN)的圖像SR方法來緩解上述問題,但由GAN引起的幻覺和偽像進一步給圖像SR任務帶來了巨大挑戰。最近,基于參考的圖像超分辨率(RefSR)取得了不錯的進展,該方法從給定的參考Ref圖像傳輸高分辨率(HR)紋理以產生視覺上令人愉悅的結果。但是,SOTA方法通常采用一種直接的方法來傳輸紋理,這可能會導致不滿意的SR圖像(如圖1所示)。
圖1.提出的TTSR和最新的RefSR方法之間的4×倍放大SR結果比較。TTSR學習從Ref圖像(以綠色表示)中搜索相關紋理以尋找目標LR區域(以黃色表示),從而避免錯誤的紋理轉移(以紅色表示)。
為了解決這些問題,本文提出了一種新穎的用于圖像超分辨率的紋理轉換器網絡(TTSR),特別是針對圖像生成任務優化了四個緊密相關的模塊。
首先,提出了可學習的紋理提取器,其中的參數將在端到端訓練過程中進行更新。這樣的設計實現了低分辨率圖像LR和參考Ref圖像的聯合特征嵌入,從而為在SR任務中應用注意機制奠定了堅實的基礎。
其次,提出一個相關嵌入模塊來計算低分辨率圖像LR和參考Ref圖像之間的相關性。更具體地說,將從LR和Ref圖像中提取的特征公式化為轉換器中的查詢和關鍵字,以獲得硬注意力圖和軟注意力圖。
最后,提出了一個硬注意力模塊和一個軟注意力模塊,以將高分辨率圖HR特征從參考Ref圖像轉移并融合到通過注意力圖從主干提取的LR特征中。因此,TTSR的設計了一種更精確的方法來搜索和從Ref圖像轉換為LR圖像的相關紋理。
此外,提出了一個跨尺度特征集成模塊來堆疊紋理transformers,其中跨不同尺度(例如從1x到4x)學習特征以實現更強大的特征表示。如上面圖1所示,總體設計使TTSR能夠從Ref圖像(以綠色表示)中搜索并傳輸相關紋理,與SOTA方法相比,可以獲得更好的視覺效果。
2 相關工作
3 本文方法
TextureTransformer Network for ImageSuper-Resolution (TTSR)
圖2.提出的紋理變換器Transformer。Q,K、Vare分別是從上采樣的LR圖像,依次向下/上采樣的Ref圖像和原始Ref圖像中提取的紋理特征。修正從DNN主干提取的LR特征,并進一步與傳遞的紋理特征T融合以生成SR輸出。
3.1 Texture Transformer
紋理轉換器的結構如圖2所示。LR,LR↑和Ref分別代表輸入圖像,4倍bicubic-upsampled 的輸入圖像和參考圖像。依次對Ref應用具有相同4倍因子的bicubic下采樣和上采樣,以獲得與LR↑domain-consistent的Ref↓↑。紋理轉換器將Ref,Ref↓↑,LR↑和主干產生的LR特征作為輸入,并輸出同樣大小的特征圖,該特征圖將進一步用于生成HR預測。
紋理轉換器包含四個部分:可學習的紋理提取器(LTE),相關性嵌入模塊(RE),用于功能轉移的硬注意模塊(HA)和用于特征合成的軟注意模塊(SA)。
可學習的紋理提取器(Learnable Texture Extractor)
在RefSR任務中,參考圖像的紋理提取至關重要,因為準確而正確的紋理信息將有助于生成SR圖像。本文沒有使用像VGG 這樣的預訓練分類模型所提取的語義特征,而是設計了一種可學習的紋理提取器,其參數將在端到端訓練過程中進行更新。這種設計能夠在LR和Ref圖像上進行聯合特征學習,從而可以捕獲更準確的紋理特征。紋理提取的過程可以表示為:
其中,LTE(·)表示可學習的紋理提取器的輸出。提取的紋理特征Q(query),K(key)和V(value)表示轉換器transformer內部注意機制的三個基本元素,并將在相關性嵌入模塊中進一步使用。
相關性嵌入模塊(Relevance Embedding)
相關性嵌入旨在通過估計Q和K之間的相似性來嵌入LR和Ref圖像之間的相關性。通過歸一化內積計算這兩個patch之間的相關性:
相關性還將用于獲得硬注意力圖和軟注意力圖。
Hard-Attention(硬注意力)
硬注意力模塊用來從Ref圖像傳遞HR紋理特征V。傳統注意力機制對每個查詢qi轉移V。但是,這樣的操作可能會導致模糊效果,而這種效果缺乏傳遞HR紋理特征的能力。因此,在本文的硬注意力模塊中僅從對每個查詢qi中最相關的位置轉移紋理特征V。
hi的值可以看作是一個硬指標,它將Ref圖像中最相關的位置表示為LR圖像中的第i個位置。為了從Ref圖像中獲取轉移的HR紋理特征T,使用硬注意力map作為索引對未展開的patch塊應用索引選擇(indexselection operation)操作,最終獲得了用于LR圖像的HR特征表示T。
Soft-Attention(軟注意力)
軟注意力模塊用于將從DNN主干網絡backbone中傳輸的HR紋理特征和LR特征進行融合并生成融合特征。在合成過程中,應增強相關的紋理轉移,而應恢復較不相關的紋理轉移。為了實現這一點,從ri,j計算出的軟注意力圖Sis表示T中每個位置的已轉移紋理特征的置信度。
其中Si表示軟注意力圖的第i個位置。首先將HR紋理特征T與LR功能F融合在一起,以利用LR圖像中的更多信息,而不是直接應用注意力圖S,將這些融合的特征進一步與軟注意圖逐元素相乘,然后再添加到F中。
綜上所述,紋理轉換器Transformer可以有效地將相關的HR紋理特征從Ref圖像轉換為LR特征,從而促進了更精確的紋理生成過程。
3.2 Cross-Scale Feature Integration(跨尺度特征整合)
前面介紹的紋理轉換器可以使用跨尺度特征集成模塊以跨尺度的方式進一步堆疊。該架構如圖3所示。
圖3.跨尺度特征集成模塊(CSFI)以跨尺度方式堆疊多個紋理轉換器的體系結構。RB表示一組殘余塊。
堆疊的紋理轉換器輸出三個分辨率級別(1×,2×和4×)的合成特征,以便可以將不同尺度的紋理特征融合到LR圖像中。而跨尺度特征集成模塊(CSFI),以在不同尺度的特征之間交換信息。每次將LR功能上采樣到下一個比例時,都會應用CSFI模塊。CSFI模塊通過上/下采樣來接收來自其他級別的交換特征,隨后是通道尺寸中的級聯操作。然后,卷積層會將要素映射到原始數量的通道中。
在這樣的設計中,從堆疊的紋理轉換器傳遞來的紋理特征可以跨每個比例進行交換,從而獲得更強大的特征表示。
3.3 損失函數
Reconstruction loss(重建損失)
其中(C,H,W)是高分辨率圖HR的大小。使用了L1loss,與L2loss相比,L1loss被證明在性能上更加清晰,并且更易于收斂。
Adversarial loss(對抗損失)
生成對抗網絡被證明可以有效生成清晰且視覺上令人滿意的圖像。在這里采用WGAN-GP ,該算法提出了梯度范數的二次化處理來代替權重削減,從而得到更穩定的訓練和更好的性能。這種損失可以解釋為:
Perceptual loss(感知損失)
感知損失的關鍵思想是增強預測圖像和目標圖像之間特征空間的相似性。在這里,這里的感知損失包含兩個部分:
其中第一部分是傳統的感知損失,其中φvggi(·)表示第i層的VGG19特征圖,而(Ci,Hi,Wi)表示該層的特征圖的形狀。ISR是預測的SR圖像。我們的感知損失的第二部分是傳遞感知損失,其中φltej(·)表示從LTE的第j層提取的紋理特征圖,而(Cj,Hj,Wj)表示該層的形狀。這種傳遞感知損失將預測的SR圖像約束為具有與傳遞的紋理特征T相似的紋理特征,這使更有效地傳遞Ref紋理。
3.4 實現細節
可學習的紋理提取器包含5個卷積層和2個合并層,它們以三種不同的比例輸出紋理特征。為了減少時間和GPU內存的消耗,相關性嵌入僅應用于最小scale,并進一步傳播到其他scale。對于判別器discriminator,采用SRNTT [中使用的相同網絡,并刪除所有BN層。
在訓練過程中,通過水平和垂直隨機翻轉,然后隨機旋轉90°,180°和270°來增強訓練圖像。每個mini-batch包含9個大小為40×40的LR patch以及9個大小為160×160的HR和Ref patch。
4 實驗與結果
4.1 數據庫和評價指標
數據集:CUFED5
評價指標:在YCbCr空間的Y通道上的PSNR和SSIM上評估SR結果
4.2 定量評估
表1顯示了定量評估結果。紅色數字表示最高分,藍色數字表示第二高分。如比較結果所示,TTSR在所有四個測試數據集上均明顯優于最新的SISR方法和最新的RefSR方法。在Sun80和Manga109數據集上仍然具有最佳性能,在其他兩個數據集CUFED5和Urban100上,TTSR模型可以達到與最新模型相當的性能。
提升效果還是很明顯的。
4.3 消融實驗
更多實驗細節,可以參考原文。
總結
以上是生活随笔為你收集整理的【图像超分辨率】Learning Texture Transformer Network for Image Super-Resolution的全部內容,希望文章能夠幫你解決所遇到的問題。