图像视频降噪的现在与未来——从经典方法到深度学习
1. 簡介
1.1 騰訊多媒體實驗室
1.2 噪聲的來源
1.3 硬件降噪方法
2. 傳統(tǒng)降噪方法
2.1 單幀降噪
上面的PPT中包含了雙邊濾波和小波變換的示意圖。通常我們會拿雙邊濾波和高斯濾波進行對比。對于高斯濾波來說,在處理當前像素的過程中會用到當前像素附近的像素做加權(quán)平均,權(quán)重取決于當前像素和周圍像素的距離,距離越遠則權(quán)重越小。雙邊濾波除了考慮距離之外,還會考慮當前像素和周圍像素顏色的差異,對距離近但顏色差異大的像素會分配一個小的權(quán)重,這樣做就不會模糊了邊界,實現(xiàn)了保持邊界的濾波。右側(cè)是小波變換的示意圖,在小波變換之后信號被分解到不同頻帶,同時每個頻帶還保留了一定的空域信息。通過對這些小波系數(shù)做閾值處理、濾波或者基于統(tǒng)計建模的處理,再反變換回空域,可以實現(xiàn)有效的降噪效果。
上圖來自2008年的一篇文章,它結(jié)合了小波變換和雙邊濾波兩種方法,對低頻信號做雙邊濾波,對高頻信號做閾值處理,結(jié)合之后生成低頻信號再做雙邊濾波,如此反復(fù)。這個方法的優(yōu)勢是可以針對不同的頻帶調(diào)節(jié)降噪的強度,同時保持了邊界。適用范圍廣,可以針對不同的攝像頭模組調(diào)節(jié)降噪?yún)?shù),所以很多基于硬件的單幀降噪模塊使用的就是小波變換結(jié)合雙邊濾波的方法。
上圖給出了一個“效果好”的例子,自相似結(jié)合變換域。左邊的圖解釋的是自相似的概念,對每個塊在圖像內(nèi)進行搜索,找到與之相似的一系列塊。經(jīng)典的非局部平均(Non-Local Means)降噪算法會將這些相似塊在空間域做加權(quán)平均。如果更近一步,將這些相似塊變換到頻域,在頻域做一些濾波和閾值處理之后再轉(zhuǎn)換回空間域,就是自相似與變換域結(jié)合的方法,比如經(jīng)典的單幀降噪算法BM3D利用的就是這樣的原理。類似的,還有自相似結(jié)合稀疏編碼、自相似結(jié)合低秩等,都可以實現(xiàn)很好的單幀降噪效果。
2.2 多幀降噪
接下來介紹一下傳統(tǒng)的多幀降噪方法。在光線比較暗的情況下,我們用手機拍照按下快門的時刻,會記錄下多張圖像,算法會將這些圖像做對齊、融合,形成一張圖像。這樣做相當于延長了曝光時間,使得感光元器件接收到了更多的光子,增加了信噪比,同時又不會因為手持相機和曝光時間過長而導(dǎo)致圖像模糊。如果對四張圖像做對齊融合,則相當于每個像素多采集到了四倍數(shù)量的光子,換算成信噪比有6分貝的提升,這對于圖像質(zhì)量來說是一個非常可觀的數(shù)字。多幀降噪的主要步驟有兩個:對齊和融合。對齊就是找到多個圖像中像素(塊)的對應(yīng)關(guān)系;融合是將這些對應(yīng)的像素(塊)在空域或者頻域做加權(quán)平均。為了確定加權(quán)平均的權(quán)重值,我們需要知道像素(塊)之間的差異是由于對齊不準造成的還是因為噪聲造成的,因此需要估計噪聲強度。一個準確的噪聲強度估計算法,對多幀降噪的效果會起到至關(guān)重要的作用。
上圖是谷歌在2016年發(fā)表的一篇手機圖像質(zhì)量增強的文章,介紹的是HDR+算法,用在了谷歌手機上。HDR+有很多圖像處理模塊,其中就包括了剛才介紹的多幀降噪。HDR+的多幀降噪實現(xiàn)在Raw域,由于Raw域的圖像沒有經(jīng)過后續(xù)非線性圖像處理模塊的影響,所以可以在Raw域中對圖像中的噪聲進行比較精確地建模,有了噪聲建模的結(jié)果之后就可以對噪聲強度做估計并運用到多幀降噪算法中去。
2.3 視頻降噪
視頻降噪與上面介紹的多幀降噪類似,為了達到更好的降噪效果也會用到臨近幀的信息,把臨近幀中相似的像素塊做融合處理。在手機端對視頻的每一幀做這樣的操作,又要保持實時性是很困難的。因此需要硬件的支持,使用快速的對齊算法,或者用運動檢測代替運動估計,根據(jù)檢測到的運動強度,對時域濾波和空域濾波的結(jié)果做加權(quán)平均。
3. 深度學(xué)習(xí)降噪方法
基于深度學(xué)習(xí)的降噪通常會使用圖像到圖像的卷積網(wǎng)絡(luò)。右邊的示例圖給出的是圖像到標簽和圖像到圖像卷積網(wǎng)絡(luò)的對比,可以看出圖像到標簽的網(wǎng)絡(luò)在處理大分辨率的圖像時,可以先做縮放,把圖像分辨率縮小后再輸入網(wǎng)絡(luò)。而對于圖像到圖像的卷積網(wǎng)絡(luò),輸入通常是原始分辨率的圖像,輸出也是同樣分辨率的,對于像超分這樣的應(yīng)用,輸出的分辨率甚至更大,所以即使卷積層的層數(shù)非常少,計算復(fù)雜度仍然是很高的,對顯存的需求也高。另外,基于深度學(xué)習(xí)的降噪方法通常需要使用含有真實噪聲的訓(xùn)練數(shù)據(jù)才能達到比較好的處理效果。
3.1 單幀降噪網(wǎng)絡(luò)結(jié)構(gòu)
上圖列舉了幾個用于降噪的深度學(xué)習(xí)算法。參考文獻[5]是最早使用深度模型做降噪的文章之一,帶有噪聲的圖像經(jīng)過一系列的卷積處理,最后生成一張只包含噪聲的殘差圖。參考文獻[6]使用自編碼結(jié)構(gòu),編碼端由卷積層構(gòu)成,解碼端由反卷積層構(gòu)成,編碼端與解碼端有一系列的跳過連接。參考文獻[7]使用了生成對抗網(wǎng)絡(luò),通過對降噪網(wǎng)絡(luò)和判別網(wǎng)絡(luò)做聯(lián)合優(yōu)化,提升降噪網(wǎng)絡(luò)的處理效果。參考文獻[8]研究網(wǎng)絡(luò)的“深”與“寬”對降噪效果的影響,它得出的結(jié)論是網(wǎng)絡(luò)寬一些(更多的通道數(shù)、更大的卷積核)會使降噪效果更好。參考文獻[9]使用傳統(tǒng)方法結(jié)合深度學(xué)習(xí)進行圖像處理。這里的傳統(tǒng)圖像處理方法是一個循環(huán)迭代的優(yōu)化過程,其中的每一步迭代都可以用深度模型替代其中的部分處理過程。
3.2 視頻降噪
這里介紹幾個使用深度學(xué)習(xí)做視頻降噪的例子。參考文獻[10]是DVDNet,它會對當前幀和臨近幀做空域上的卷積降噪,然后通過光流網(wǎng)絡(luò)將臨近幀與當前幀對齊,最后在對齊后的圖像上做時域降噪。參考文獻[11]是DVDNet的加速版,為了提高處理速度,它舍棄了光流對齊,直接把臨近幀輸入到一個兩級的深度網(wǎng)絡(luò)中做降噪。參考文獻[12]提出了EDVR網(wǎng)絡(luò),它介于上述兩種方法之間,沒有用現(xiàn)成的光流對齊方法,也沒有完全去掉對齊的過程,而是在一個叫做PCD(Pyramid Cascading Deformable convolution)的模塊里將卷積處理后得到的特征圖進行對齊。需要指出的是,EDVR并不是用來做降噪的,而是用來做超分和去模糊的,但這樣的處理方式同樣可以用來做降噪。
3.3 真實噪聲數(shù)據(jù)庫
使用深度學(xué)習(xí)做降噪,訓(xùn)練的過程最好可以使用包含真實噪聲的數(shù)據(jù)庫。上圖右側(cè)的列表給出了一些包含真實噪聲的數(shù)據(jù)庫,每個數(shù)據(jù)庫提供的圖像個數(shù)并不多。為了訓(xùn)練深度模型,數(shù)據(jù)庫需要提供“無噪聲”的圖像作為Ground Truth (GT),獲得GT的方法主要有兩種,一種是使用低ISO長曝光的圖像作為GT,另外一種是融合多張高ISO短曝光的圖像作為GT。不管使用哪種方法,噪聲圖像與GT之間還是會存在對齊不準、顏色不匹配的情況,因此還需要做后處理(左下圖)才能得到更準確的訓(xùn)練圖像對。
3.4 模擬真實噪聲
很多早期基于深度學(xué)習(xí)的降噪方法會使用模擬的噪聲圖像進行訓(xùn)練。
他們會在sRGB空間的“無噪聲”圖片中加入高斯白噪聲或者柏松噪聲。
用這些方式加入的噪聲很不真實,所以訓(xùn)練出的降噪模型效果不好。
上圖是2019年CVPR發(fā)表的一篇文章,文中使用的噪聲數(shù)據(jù)也是模擬出來的,但更精確的模擬了噪聲的形態(tài)。
它模擬ISP的處理過程,對“無噪聲“的圖像做了一個ISP”反處理“,將圖像從sRGB空間變換到Raw域,在Raw域加入光子散粒噪聲、讀噪聲。
由于這種方法可以更好的模擬真實拍攝到的噪聲圖像,學(xué)習(xí)出的深度降噪模型在DND真實噪聲數(shù)據(jù)集上取得了非常好的效果。
4. 發(fā)展趨勢
最后我想與大家分享我個人對于降噪技術(shù)發(fā)展趨勢的判斷。首先手機上的降噪將逐漸硬件化。目前,手機上的圖像降噪效果有很大一部分是軟件實現(xiàn)的,比如,之前多數(shù)手機是不支持硬件多幀降噪的。而現(xiàn)在越來越多的高、中端手機平臺芯片都開始支持多幀降噪、基于運動補償?shù)囊曨l降噪等。另外一個發(fā)展趨勢是智能化,既越來越多的使用深度模型進行圖像處理。如上所述,深度模型做圖像、視頻處理速度慢,資源消耗高。但隨著終端設(shè)備計算能力的不斷增強,異構(gòu)計算平臺的發(fā)展,以及模型壓縮技術(shù)的進步,在終端使用深度學(xué)習(xí)做圖像處理會變的越來越多。最后一個趨勢是多功能,一個深度模型同時處理多個任務(wù),比如同時實現(xiàn)降噪、超分、增強等功能。硬件化、智能化和多功能將是未來降噪技術(shù)的三個發(fā)展趨勢。
總結(jié)
以上是生活随笔為你收集整理的图像视频降噪的现在与未来——从经典方法到深度学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 精彩机械动图:人类真是太聪明了
- 下一篇: 平衡记分卡(转载)