adcsr图像超分代码_图像超分:RealSR
paper?csjcai.github.iocsjcai/RealSR?github.com現(xiàn)有大多SISR方法是在模擬數(shù)據(jù)集(LR通過對HR執(zhí)行簡單的雙三次下采樣得到)上進行訓練與評估。然而,真實世界的LR圖像往往更復雜,因此在模擬數(shù)據(jù)集上訓練的模型應(yīng)用到真實數(shù)據(jù)是性能會出現(xiàn)下降。
作者構(gòu)建了一個真實超分數(shù)據(jù)集(LR-HR通過調(diào)整數(shù)碼相機的焦距得到,然后采用圖像配準算法進行不同分辨率圖像的對齊)。考慮到該數(shù)據(jù)中的降質(zhì)核的非均勻性,作者提出一個機遇拉普拉斯金字塔的核預測網(wǎng)絡(luò)(LP-KPN),它可以有效的學習逐像素核以重建HR圖像。作者通過實驗證實:相比模擬數(shù)據(jù),基于RealSR的SISR具有更好的視覺效果。作者同時還提到:盡管該數(shù)據(jù)集僅采用了兩個相機采集(Canon 5D3, Nikon D810),但其訓練模型在其他相機(Sony a7II)和手機采集的數(shù)據(jù)上的泛化性能仍然很好。
Abstract
? 有鑒于已有模擬數(shù)據(jù)訓練的SISR模型在真實場景的性能受限問題,作者認為構(gòu)建一個真實超分數(shù)據(jù)集很有必要性。作者采用一種靈活而易于復現(xiàn)的方法構(gòu)建了一個真實的RealSR數(shù)據(jù)集,對于同一場景采用同一相機以不同的焦距采集數(shù)據(jù)。
? 然而,除了視場角變化外,調(diào)整焦距還會導致其他挑戰(zhàn):比如關(guān)心漂移,尺度因子變化、曝光時長以及光學畸變等。為解決這類問題,作者還提出一種有效的圖像配準算法以逐漸對齊圖像對,方便用于SISR模型的端到端訓練。
? 該RealSR數(shù)據(jù)集包含兩個數(shù)碼相機(Canon 5D3, Nikon D810)拍攝不同的室內(nèi)與室外場景,為SISR的實際應(yīng)用提供一個好的訓練與測試基準。相比已有的模擬數(shù)據(jù)集,RealSR數(shù)據(jù)的降質(zhì)模型更為復雜(降質(zhì)核實空間可變的,它隨景深變化而變化)。
? 在此基礎(chǔ)上,作者還訓練了一個基于核預測網(wǎng)絡(luò)的SISR模型。核預測網(wǎng)絡(luò)已被廣泛應(yīng)用與圖像降噪、圖像去模糊以及視頻插幀領(lǐng)域。KPN的內(nèi)存占用為隨著核尺寸增大而指數(shù)提升,在KPN基礎(chǔ)上,作者引入圖像處理中拉普拉斯金字塔方案得到本文的LP-KPN模型,它可以用小尺寸核學習更豐富的信息。下圖給出了所提數(shù)據(jù)集以及方法的效果示意圖。
? 該文的貢獻主要包含以下兩個方面:構(gòu)建了不同縮放尺度的RealSR數(shù)據(jù)集,首個具有更通用目的的真實SISR訓練與測試基準;
提出了LP-KPN模型,并在RealSR數(shù)據(jù)及上驗證了其他有效性與高效性。
Method
RealSR
? 上圖給出了透鏡成像原理,按照公式有以下: $$ \frac{1}{f} = \frac{1}{u} + \frac{1}{v} $$ 數(shù)據(jù)采集過程中,固定$h_1$與u,考慮到$u\gg f$,此時有: $$ h_2 = \frac{f}{u-f}h_1 \approx \frac{f}{u}h_1 $$ 因此,$h_2,f$之間近似存在線性關(guān)系,通過提升焦距$f$,相機可以采集更大更清晰的圖像,理論上可以通過控制合理的焦距選擇不同的尺度。
? 在實際數(shù)據(jù)采集過程中,作者采用了4個不同的焦距:$105mm, 50mm, 35mm, 28mm$。最大焦距用于采集HR圖像,其他焦距用于采集不同尺度因子的LR圖像。作者還提到,采用28而非24焦距是因為$24mm$焦距時的鏡頭畸變難以通過后處理校正。為確保數(shù)據(jù)的泛化性,該數(shù)據(jù)集同時包含室內(nèi)與室外場景,數(shù)據(jù)包含豐富的紋理(超分的主要目的是復原/增強圖像的細節(jié))。
圖像對齊
? 數(shù)據(jù)的采集是比較容易的,但因鏡頭焦距縮放會導致許多難以控制的畸變,這會導致像素不對齊問題。不同焦距采集的圖像往往存在不同程度的鏡頭畸變與不同的曝光,而且還會存在光心漂移線性。由于上述因素,現(xiàn)有的圖像配準方法難以直接得到不同角度圖像的像素級的對齊,為此,作者設(shè)計一種漸進對齊的圖像對齊方法,如下圖所示。
? 在圖像對齊過程中,裁剪中心區(qū)域(畸變比較輕,容易校正)校正其對應(yīng)的LR圖像。由于不同焦距圖像的亮度、尺度差異,基于SURF、SIFT的圖像對齊方法難以得到像素級對齊。為得到精確的圖像對配準,作者設(shè)計了一種同時考慮亮度調(diào)整的像素級對齊方法。假設(shè)$I_H, I_L$分別表示對應(yīng)的HR圖像與LR圖像,它通過優(yōu)化如下目標函數(shù)得到: $$ \mathcal{min}_{\tau} \|\alpha C(\tau \circ I_L) + \beta - I_H\|_p^p $$ 其中,$\tau$表示仿射變換矩陣,C表示裁剪操作(確保LR與HR具有相同尺寸),$\alpha, \beta$為亮度調(diào)整參數(shù)。
LP-KPN
上圖給出了作者所提出的網(wǎng)絡(luò)架構(gòu)。假設(shè)$I_L^A, I_H$分別表示LR與HR圖像,KPN以$I_L^A$未輸入,輸出核張量$T \in R^{(k \times k) \times h\times w}$,它在通道方向的向量$T(i,j) \in R^{(k\times k)}$可以變換為$k\times k$的卷積核$K(i,j)$,將其作用于LR圖像的每個像素的局部近鄰以生成HR輸出。該過程可以描述為: $$ I_H^P(i,j) = $$ 其中,$V(L_L^A(i,j))$表示LR圖像在$(i,j)$處的局部近鄰,$$表示內(nèi)積運算。上式表明:輸出圖像的每個像素是其在輸入圖像對應(yīng)位置的近鄰像素的加權(quán)線性組合。為獲得更好的性能,大尺寸核有助于利用豐富的近鄰信息,另一方面,核張量會隨著核尺寸增大而指數(shù)增加,進而導致高計算量與內(nèi)存需求。
? 為得到Effective and Efficient的KPN,作者提出一種基于拉普拉斯金字塔的KPN架構(gòu)。如同已有諸多SR方法,該方法僅處理YCbCr空間的Y通道。拉普拉斯金字塔將圖像分解為了不同層級的子圖像(不同的分辨率大小),這些分解的子圖像可以精確的重建原始圖像。基于該特性,LR圖像的Y通道被分解為三個尺度圖像金字塔${S_0 \in R^{h\times w}, S_1 \in R^{h/2 \times w/2}, S_2 \in R^{h/4 \times w/4}}$,該LP-KPN以三尺度LR圖像作為輸入,輸出對應(yīng)的三個核張量${\mathbf{T}_0, \mathbf{T}_1, \mathbf{T}_2}$,該可學習核張量按照前述公式作用于三個輸入圖像以復原HR圖像在不同層級的拉普拉斯分解子圖像。最后,采用拉普拉斯金字塔重建得到HR圖像。受益于拉普拉斯金字塔,這里的$k\times k$核尺寸等價于原始分辨率的$4k \times 4k$感受野,相比于直接學習$4k \times 4k$核,這種方法可以極大的降低計算復雜度。
? LP-KPN的骨干部分把汗17個殘差模塊,為提升有效性,作者采用shuffle操作進行圖像下采樣與上采樣操作,首先以因子$1/4$進行下采樣,將其送入到骨干網(wǎng)絡(luò)中。需要注意的是:除了最后的基層,該網(wǎng)絡(luò)的大部分卷積模塊被三個尺度共享,這可以極大的減少模型的參數(shù)量。為得到不同尺度的核張量,在網(wǎng)絡(luò)的末端添加不同因子的上采樣單元以生成合適的核張量。該LP-KPN共計包含46的卷積層(遠少于其他SISR方法),相關(guān)層參數(shù)配置如下所示。
Experiments
? 上表給出了作者所構(gòu)建的RealSR數(shù)據(jù)集的信息,隨機從每個相機每個尺度數(shù)據(jù)對中選擇15對作為測試集,其他作為訓練集。評估指標選用PSNR/SSIM,評估YCBCr中的Y通道。在訓練過程中,輸入圖像塊為192x192,采用了隨機旋轉(zhuǎn)、隨機鏡像進行數(shù)據(jù)增廣,BatchSize=16,優(yōu)化器選擇Adam,學習率為0.0001,共計訓練1000K迭代,訓練框架為Caffe+Matlab。
? 為驗證數(shù)據(jù)集的重要性,作者以DIV2K采用不同的降質(zhì)方式(雙三次、多種降質(zhì))外加RealSR構(gòu)成了三個數(shù)據(jù)集,同時采用了VDSR、SRResNet、RCAN三個有代表性模塊,在三個尺度層面進行超分,共計得到27個模型。其性能對比與視覺效果見下表與下圖。從中可以看出:相比其他兩種降質(zhì)模型,采用相同超分模型下在RealSR數(shù)據(jù)集上訓練所得模型具有更好的性能。
? 為驗證所提網(wǎng)絡(luò)架構(gòu)LP-KPN的有效性,作者將其與其他8個超分網(wǎng)絡(luò)進行了對比。其性能對比如下所示。從中可以看出:(1) 直接像素生成方法中RCAN下過最佳;(2) LP-KPN取得了最優(yōu)的效果,甚至優(yōu)于核尺寸為19的KPN網(wǎng)絡(luò),同時具有更少的計算復雜度更快的推理速度。更多的實驗結(jié)果與數(shù)據(jù)分析詳見原文,這里不再過多贅述。
Conclusion
? 模擬數(shù)據(jù)訓練的超分模型難以泛化到真實圖像上是一個存在已久的問題。作者在這個方向上進行了探索與嘗試,構(gòu)建了真實退化的超分數(shù)據(jù)集,采用Canon與Nikon相機采集了595對超分數(shù)據(jù)對,同時設(shè)計一個有效的圖像配準算法以確保圖相對之間的像素級對齊。
? 作者還基于拉普拉斯金字塔提出一個LP-KPN網(wǎng)絡(luò)架構(gòu),作者首先驗證了RealSR數(shù)據(jù)集的的重要性,同時在RealSR數(shù)據(jù)及上驗證了其所提架構(gòu)的SOTA性能。
? 截止目前,作者所構(gòu)建的RealSR數(shù)據(jù)集已經(jīng)拓展到了V3版本,感興趣者可以去作者的開源代碼網(wǎng)絡(luò)下載。
參考代碼
? 作者所提供的代碼為caffe框架的prototxt以及相應(yīng)caffemodel,都2109年了,現(xiàn)在還在用caffe的人真的很少了,故而本人參考其caffe代碼,將其用pytorch進行了架構(gòu)重建,后面有時間的話還會花點時間將其預訓練模型轉(zhuǎn)為pytorch格式,并花費半天時間將作者的CAFFE模型轉(zhuǎn)為了Pytorch,兩者結(jié)果完全一致。經(jīng)親測,利用作者提供的模型超分的效果并不好(并未達到作者論文中的效果,經(jīng)多次核對,兩者結(jié)果卻是一致,無論是用matlab+caffe輸出結(jié)果,還是用轉(zhuǎn)換后pytorch模型輸出的結(jié)果均如下),見最終的對比效果圖。
? 20190828補充:經(jīng)與作者溝通發(fā)現(xiàn),作者所提供的模型僅限于對比PSNR/SSIM指標,如需更好的視覺效果需要調(diào)整三個head分支的損失比例(作者原文損失比例為16:4:1,而提供的模型則為1:1:1),或者更換感知損失。
歡迎關(guān)注AIWalker公眾號,在這里您將得到獨家深度學習經(jīng)驗分享與個人思考。想支持Happy繼續(xù)寫下去就點個贊關(guān)注一下吧!
總結(jié)
以上是生活随笔為你收集整理的adcsr图像超分代码_图像超分:RealSR的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 单应性矩阵和仿射变换_单应矩阵 基本矩阵
- 下一篇: opencv 图像 抠图 算法_我讨厌这