深度学习(二十一)——SRCNN, DRCN, VDSR
https://antkillerfarm.github.io/
圖像超分辨率算法(續(xù))
前DL時(shí)代的SR
從信號(hào)處理的角度來(lái)說(shuō),LR之所以無(wú)法恢復(fù)成HR,主要在于丟失了圖像的高頻信息。(Nyquist采樣定理)
Harry Nyquist,1889~1976,University of North Dakota本碩(1914,1915)+耶魯博士(1917)。AT&T貝爾實(shí)驗(yàn)室電子工程師。IEEE Medal of Honor獲得者(1960)。
IEEE Medal of Honor是IEEE的最高獎(jiǎng),除了1963年之外,每年只有1人得獎(jiǎng),個(gè)別年份甚至?xí)喛铡?/p>
最簡(jiǎn)單的當(dāng)然是《圖像處理理論(二)》中提到的梯度銳化和拉普拉斯銳化,這種簡(jiǎn)單算法當(dāng)然不要指望有什么好效果,聊勝于無(wú)而已。這是1995年以前的主流做法。
稍微復(fù)雜的方法,如同CV的其它領(lǐng)域經(jīng)歷了“信號(hào)處理->ML->DL”的變遷一樣,SR也進(jìn)入了ML階段。
上圖是兩種典型的SR算法。
左圖算法的中心思想是從圖片中找出相似的大尺度區(qū)域,然后利用這個(gè)大區(qū)域的邊緣信息進(jìn)行SR。但這個(gè)方法對(duì)于那些只出現(xiàn)一次的邊緣信息是沒什么用的。
于是就有了右圖的算法。對(duì)各種邊緣信息建立一個(gè)數(shù)據(jù)庫(kù),使用時(shí)從數(shù)據(jù)庫(kù)中挑一個(gè)最類似的邊緣信息進(jìn)行SR。這個(gè)方法比上一個(gè)方法好一些,但不夠魯棒,圖片稍作改動(dòng),就有可能無(wú)法檢索到匹配的邊緣信息了。
ML時(shí)代的代表算法還有:
《Image Super-Resolution via Sparse Representation》
這篇論文是黃煦濤和馬毅小組的Jianchao Yang的作品。
黃煦濤(Thomas Huang),1936年生。生于上海,國(guó)立臺(tái)灣大學(xué)本科(1956)+MIT碩博(1960,1963)。UIUC教授。美國(guó)工程院院士,中國(guó)科學(xué)院+中國(guó)工程院外籍院士。
馬毅,清華本科(1995)+UCB碩博(1997,2000)。UCB教授。IEEE fellow。
個(gè)人主頁(yè):
http://yima.csl.illinois.edu/
這篇論文提出的算法,在形式上和后文這些DL算法已經(jīng)非常類似了,也是基于HR和LR配對(duì)的有監(jiān)督訓(xùn)練。區(qū)別只在于這篇論文使用矩陣的稀疏表示來(lái)擬合SR函數(shù),而DL算法使用神經(jīng)網(wǎng)絡(luò)擬合SR函數(shù)。前者是線性變換,而后者是非線性變換。
參考
https://zhuanlan.zhihu.com/p/25532538
深度學(xué)習(xí)在圖像超分辨率重建中的應(yīng)用
https://zhuanlan.zhihu.com/p/25201511
深度對(duì)抗學(xué)習(xí)在圖像分割和超分辨率中的應(yīng)用
https://mp.weixin.qq.com/s/uK0L5RV0bB2Jnr5WCZasfw
深度學(xué)習(xí)在單圖像超分辨率上的應(yīng)用:SRCNN、Perceptual loss、SRResNet
https://mp.weixin.qq.com/s/xpvGz1HVo9eLNDMv9v7vqg
NTIRE2017奪冠論文:用于單一圖像超分辨率的增強(qiáng)型深度殘差網(wǎng)絡(luò)
https://www.zhihu.com/question/25401250
如何通過多幀影像進(jìn)行超分辨率重構(gòu)?
https://www.zhihu.com/question/38637977
超分辨率重建還有什么可以研究的嗎?
https://zhuanlan.zhihu.com/p/25912465
胎兒MRI高分辨率重建技術(shù):現(xiàn)狀與趨勢(shì)
https://mp.weixin.qq.com/s/i-im1sy6MNWP1Fmi5oWMZg
華為推出新型HiSR:移動(dòng)端的超分辨率算法
SRCNN
SRCNN(Super-Resolution CNN)是湯曉鷗小組的Chao Dong的作品。
湯曉鷗,中國(guó)科學(xué)技術(shù)大學(xué)本科(1990)+羅切斯特大學(xué)碩士(1991)+麻省理工學(xué)院博士(1996)。香港中文大學(xué)教授,商湯科技聯(lián)合創(chuàng)始人。
論文:
《Learning a Deep Convolutional Network for Image Super-Resolution》
該方法對(duì)于一個(gè)低分辨率圖像,先使用雙三次(bicubic)插值將其放大到目標(biāo)大小,再通過三層卷積網(wǎng)絡(luò)做非線性映射,得到的結(jié)果作為高分辨率圖像輸出。作者將三層卷積的結(jié)構(gòu)解釋成與傳統(tǒng)SR方法對(duì)應(yīng)的三個(gè)步驟:圖像塊的提取和特征表示,特征非線性映射和最終的重建。
三個(gè)卷積層使用的卷積核的大小分為為9x9, 1x1和5x5,前兩個(gè)的輸出特征個(gè)數(shù)分別為64和32。
以下是論文的效果表格:
吐槽一下,這種表格屬于論文必須有,但是卻沒什么營(yíng)養(yǎng)的部分,且不乏造假的例子。原因很簡(jiǎn)單,一個(gè)idea,如果沒有好效果,paper連發(fā)都發(fā)不了。但是,沒有好效果的idea,未必沒有價(jià)值,不說(shuō)是否能啟發(fā)人們的思維,至少能讓后來(lái)者,不用再掉到同一個(gè)坑里。
比如化學(xué)領(lǐng)域,失敗的實(shí)驗(yàn)遠(yuǎn)遠(yuǎn)多于成功的實(shí)驗(yàn)。在計(jì)算能力不發(fā)達(dá)的時(shí)代,人們主要關(guān)注成功的案例,但現(xiàn)在大家逐漸意識(shí)到:失敗的案例才是更大的財(cái)富。
這里對(duì)其中的指標(biāo)做一個(gè)簡(jiǎn)介。
PSNR(Peak Signal to Noise Ratio,峰值信噪比)
MSE=1H×W∑i=1H∑j=1W(X(i,j)?Y(i,j))2MSE=1H×W∑i=1H∑j=1W(X(i,j)?Y(i,j))2
PSNR=10log10((2n?1)2MSE)PSNR=10log10?((2n?1)2MSE)
其中,MSE表示當(dāng)前圖像X和參考圖像Y的均方誤差(Mean Square Error),H、W分別為圖像的高度和寬度;n為每像素的比特?cái)?shù),一般取8,即像素灰階數(shù)為256. PSNR的單位是dB,數(shù)值越大表示失真越小。
雖然PSNR和人眼的視覺特性并不完全一致,但是一般認(rèn)為PSNR在38以上的時(shí)候,人眼就無(wú)法區(qū)分兩幅圖片了。
SSIM(structural similarity, 結(jié)構(gòu)相似性),也是一種全參考的圖像質(zhì)量評(píng)價(jià)指標(biāo),它分別從亮度、對(duì)比度、結(jié)構(gòu)三方面度量圖像相似性。
μX=1H×W∑i=1H∑j=1WX(i,j),σ2X=1H×W∑i=1H∑j=1W(X(i,j)?μX)2μX=1H×W∑i=1H∑j=1WX(i,j),σX2=1H×W∑i=1H∑j=1W(X(i,j)?μX)2
σXY=1H×W∑i=1H∑j=1W((X(i,j)?μX)(Y(i,j)?μY))σXY=1H×W∑i=1H∑j=1W((X(i,j)?μX)(Y(i,j)?μY))
l(X,Y)=2μXμY+C1μ2X+μ2Y+C1,c(X,Y)=2σXσY+C2σ2X+σ2Y+C2,s(X,Y)=σXY+C3σXσY+C3l(X,Y)=2μXμY+C1μX2+μY2+C1,c(X,Y)=2σXσY+C2σX2+σY2+C2,s(X,Y)=σXY+C3σXσY+C3
SSIM(X,Y)=l(X,Y)?c(X,Y)?s(X,Y)SSIM(X,Y)=l(X,Y)?c(X,Y)?s(X,Y)
C1,C2,C3C1,C2,C3為常數(shù),為了避免分母為0的情況,通常取C1=(K1?L)2,C2=(K2?L)2,C3=C2/2C1=(K1?L)2,C2=(K2?L)2,C3=C2/2,一般地K1=0.01,K2=0.03,L=255K1=0.01,K2=0.03,L=255。
SSIM取值范圍[0,1],值越大,表示圖像失真越小。
在實(shí)際應(yīng)用中,可以利用滑動(dòng)窗將圖像分塊,令分塊總數(shù)為N,考慮到窗口形狀對(duì)分塊的影響,采用高斯加權(quán)計(jì)算每一窗口的均值、方差以及協(xié)方差,然后計(jì)算對(duì)應(yīng)塊的結(jié)構(gòu)相似度SSIM,最后將平均值作為兩圖像的結(jié)構(gòu)相似性度量,即平均結(jié)構(gòu)相似性MSSIM:
MSSIM(X,Y)=1N∑k=1NSSIM(xk,yk)MSSIM(X,Y)=1N∑k=1NSSIM(xk,yk)
需要指出的是,PSNR和SSIM都是一些物理指標(biāo),它和人眼的視覺感受有一定的差異,不見得指標(biāo)差的圖就一定不如指標(biāo)好的圖(比如SRGAN)。
主觀得分一般采用MOS(mean opinion score)作為評(píng)價(jià)指標(biāo)。
參考:
http://blog.csdn.net/u011692048/article/details/77496861
超分辨率重建之SRCNN
http://www.cnblogs.com/vincent2012/archive/2012/10/13/2723152.html
PSNR和SSIM
DRCN
DRCN(deeply-recursive convolutional network)是韓國(guó)首爾國(guó)立大學(xué)的作品。
論文:
《Deeply-Recursive Convolutional Network for Image Super-Resolution》
SRCNN的層數(shù)較少,同時(shí)感受野也較小(13x13)。DRCN提出使用更多的卷積層增加網(wǎng)絡(luò)感受野(41x41),同時(shí)為了避免過多網(wǎng)絡(luò)參數(shù),該文章提出使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。網(wǎng)絡(luò)的基本結(jié)構(gòu)如下:
與SRCNN類似,該網(wǎng)絡(luò)分為三個(gè)模塊,第一個(gè)是Embedding network,相當(dāng)于特征提取,第二個(gè)是Inference network, 相當(dāng)于特征的非線性變換,第三個(gè)是Reconstruction network,即從特征圖像得到最后的重建結(jié)果。其中的Inference network是一個(gè)遞歸網(wǎng)絡(luò),即數(shù)據(jù)循環(huán)地通過該層多次。將這個(gè)循環(huán)進(jìn)行展開,就等效于使用同一組參數(shù)的多個(gè)串聯(lián)的卷積層,如下圖所示:
其中的H1H1到HDHD是D個(gè)共享參數(shù)的卷積層。DRCN將每一層的卷積結(jié)果都通過同一個(gè)Reconstruction Net得到一個(gè)重建結(jié)果,從而共得到D個(gè)重建結(jié)果,再把它們加權(quán)平均得到最終的輸出。另外,受到ResNet的啟發(fā),DRCN通過skip connection將輸入圖像與H_d的輸出相加后再作為Reconstruction Net的輸入,相當(dāng)于使Inference Net去學(xué)習(xí)高分辨率圖像與低分辨率圖像的差,即恢復(fù)圖像的高頻部分。
參考:
http://blog.csdn.net/u011692048/article/details/77500764
超分辨率重建之DRCN
VDSR
VDSR是DRCN的原班人馬的新作。
論文:
《Accurate Image Super-Resolution Using Very Deep Convolutional Networks》
代碼:
code:https://github.com/huangzehao/caffe-vdsr
SRCNN存在三個(gè)問題需要進(jìn)行改進(jìn):
1、依賴于小圖像區(qū)域的內(nèi)容;
2、訓(xùn)練收斂太慢;
3、網(wǎng)絡(luò)只對(duì)于某一個(gè)比例有效。
VDSR模型主要有以下幾點(diǎn)貢獻(xiàn):
1、增加了感受野,在處理大圖像上有優(yōu)勢(shì),由SRCNN的13x13變?yōu)?1x41。(20層的3x3卷積)
2、采用殘差圖像進(jìn)行訓(xùn)練,收斂速度變快,因?yàn)闅埐顖D像更加稀疏,更加容易收斂(換種理解就是LR攜帶者低頻信息,這些信息依然被訓(xùn)練到HR圖像,然而HR圖像和LR圖像的低頻信息相近,這部分花費(fèi)了大量時(shí)間進(jìn)行訓(xùn)練)。
3、考慮多個(gè)尺度,一個(gè)卷積網(wǎng)絡(luò)可以處理多尺度問題。
訓(xùn)練的策略:
1、采用殘差的方式進(jìn)行訓(xùn)練,避免訓(xùn)練過長(zhǎng)的時(shí)間。
2、使用大的學(xué)習(xí)進(jìn)行訓(xùn)練。
3、自適應(yīng)梯度裁剪,將梯度限制在某一個(gè)范圍。
4、多尺度,多種尺度樣本一起訓(xùn)練可以提高大尺度的準(zhǔn)確率。
對(duì)于邊界問題,由于卷積的操作導(dǎo)致圖像變小的問題,本文作者提出一個(gè)新的策略,就是每次卷積后,圖像的size變小,但是,在下一次卷積前,對(duì)圖像進(jìn)行補(bǔ)0操作,恢復(fù)到原來(lái)大小,這樣不僅解決了網(wǎng)絡(luò)深度的問題,同時(shí),實(shí)驗(yàn)證明對(duì)邊界像素的預(yù)測(cè)結(jié)果也得到了提升。
參考:
http://blog.csdn.net/u011692048/article/details/77512310
超分辨率重建之VDSR
總結(jié)
以上是生活随笔為你收集整理的深度学习(二十一)——SRCNN, DRCN, VDSR的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习(二十)——Ultra Deep
- 下一篇: 深度学习(二十二)——ESPCN, FS