【图像超分辨率】SR for RS via Local–Global Combined Network
Super-Resolution for Remote Sensing Images via Local–Global Combined Network
- 摘要
- I. 引言
- II. 方法
- A. 用于超分辨率的卷積神經網絡
- B. 局部-全局組合網絡
- 1) 表征:
- 2) 局部-全局組合:
- 3) 重建:
- III. 實驗結果和分析
- A. 數據集和相似性指標
- B. 實施細節
- C. 局部-全局組合分析
- D. 結果比較和分析
- E. 深度評估
- IV. 結論
摘要
超分辨率是一種圖像處理技術,它從單一或連續的低分辨率圖像中恢復出高分辨率的圖像。最近,深度卷積神經網絡(CNN)在包括超級分辨率在內的許多任務中取得了巨大的突破。在這封信中,我們提出了一種新的單幅圖像超分辨率算法,即基于深度CNN的遙感圖像的局部-全球組合網絡(LGCNet)。我們的LGCNet精心設計了 "多叉 "結構,以學習遙感圖像的多層次表征,包括局部細節和全局環境先驗。在公共遙感數據集(UC Merced)上的實驗結果表明,與幾個最先進的算法相比,準確性和視覺性能都有全面的提高。
關鍵詞:卷積神經網絡(CNN),局部-全局組合網絡(LGCNet),遙感圖像,超分辨率。
I. 引言
具有豐富細節的高分辨率圖像對于許多遙感應用(如目標探測和識別)是必不可少的。許多研究人員不是致力于物理成像技術,而是旨在使用一種稱為超分辨率的圖像處理技術從低分辨率的圖像中恢復高分辨率的圖像[1]。
早期有很多關于圖像超分辨率的研究,其中大部分是針對多幅圖像設計的,即用一系列低分辨率的圖像(同一場景的不同采集時間)來恢復高分辨率的圖像[2]。最近的一些研究旨在通過學習從低分辨率到高分辨率圖像的映射函數,從大量的訓練數據中利用圖像先驗,從單一的低分辨率圖像中恢復高分辨率的圖像[3]。
在遙感圖像處理領域,近年來提出了單圖像和多圖像的超分辨率方法。Li等人[4]提出了一種多圖像的超分辨率方法,名為具有最大后驗的隱馬爾可夫樹。對于單幅遠程圖像的超分辨率,通常使用自然圖像統計學的稀疏性先驗。Pan等人[5]基于壓縮感應和結構自相似性,從單一低分辨率圖像中恢復了高分辨率遙感圖像。Chavez-Roman和Ponomaryov[6]結合離散小波變換和稀疏表示,從單一低分辨率圖像中生成高分辨率圖像。Li等人[7]探索了光譜和空間領域的稀疏特性,用于高光譜圖像的超分辨率。盡管上述方法在遙感圖像超分辨率領域起到了促進作用,但其缺陷也是顯而易見的。
首先,它們都是基于低級別的特征設計的,如圖像邊緣和輪廓的字典[8],[9],甚至是原始像素[5]。機器學習算法的成功通常取決于如何表示圖像特征的正確方式[10]。目前,深度卷積神經網絡(CNN)已經成為從數據中自動學習高水平特征表示的流行方式,并在圖像分類[11]和物體檢測[12]等任務中顯示出巨大潛力。遙感圖像高度復雜的空間分布表明,更高層次的抽象和更好的數據表示對于遙感目標檢測和圖像超分辨率等應用是必不可少的[13]。在自然圖像超分辨率等相關領域,一些研究者提出了基于CNN的單幅圖像超分辨率方法[14],[15],[22],以學習低/高分辨率圖像之間的端到端映射,并取得了最先進的性能。
其次,遙感圖像中的地面物體通常具有較寬的尺度范圍,即物體本身(如飛機)和周圍環境(如機場)在其圖像模式的聯合分布中是相互耦合的,這與自然圖像的分布有很大區別。上述方法大多只在單一物體尺度上構建字典或學習數據先驗,而忽略了環境信息。在這封信中,我們利用深度學習在遙感圖像中的多級數據表示能力,提出了一種新的圖像超分辨率方法,即局部-全局組合網絡(LGCNET)。在一個典型的CNN模型中,低層卷積層的神經元共享小尺寸的感受野,并更多地關注局部細節,而在高層,更大的感受野被積累起來,覆蓋更大的數據區域。我們的LGCNet精心設計了 "多叉 "結構,以學習遙感數據的多尺度表征,包括局部細節(如物體的邊緣和輪廓)和全球先驗(如環境類型)。
本信的其余部分組織如下。第二節給出了擬議方法的實施細節。實驗結果在第三節中描述。第四節中得出一些結論。
II. 方法
A. 用于超分辨率的卷積神經網絡
卷積、非線性映射和池化是CNN的三個主要組成部分。通過這些操作,CNN可以通過有監督的訓練,自適應地將輸入的圖像空間轉化為特定任務的有效特征空間。考慮到在圖像超分辨率任務中,低分辨率的圖像在匯集后會進一步失去細節信息,導致重建結果更差,在我們的模型中,只使用卷積和非線性映射操作。
讓我們把輸入X的大小表示為H×W×C,其中C表示遙感圖像的通道數。對于由L個卷積層組成的網絡,卷積和非線性映射后的輸出可以計算為
其中Wl, bl, l∈(1, …, L)分別是待學習的網絡權重和偏差。
Wl是一個大小為kl×kl×nl-1×nl的張量,其中kl表示第l層的核大小,nl表示同一層的特征圖數量(n0=C)。
bl是一個大小等于nl的向量。
非線性函數σ是一個元素明智的操作,現在多采用整流線性函數(max(0, x)),這使得CNN的收斂速度比傳統的飽和非線性快得多[11]。
B. 局部-全局組合網絡
所提方法的流程圖如圖1所示,其中由粗體虛線框圍起來的部分說明了我們提出的LGCNet。當網絡深入時,學習殘差可以使網絡更快地收斂,獲得更好的最小值和性能[15]-[17]。因此,我們設計LGCNet來重構高頻信息(殘差)
圖1:擬議的遙感圖像超分辨率方法的流程圖。
多層次信息在圖像超分辨率任務中顯示出巨大的潛力,特別是在遙感圖像中。具有眾多卷積層的深度CNN是分層模型,自然會給出輸入圖像的多級表征,在低層的表征側重于局部細節(如物體的邊緣和輪廓),在高層的表征涉及更多的全局性先驗(如環境類型)。LGCNet充分利用了局部和全局表征,由三個主要部分組成,詳細描述如下:
1) 表征:
第一部分利用L個卷積層,每層后面都有非線性映射,將輸入自適應地轉化為有效的特征空間,獲得不同層次的表示。由于大的卷積濾波器尺寸會使網絡變得冗余和緩慢,我們將濾波器尺寸kl和每層的特征圖數量nl設置得相對較小:kl=3,nl=32。
2) 局部-全局組合:
這一部分是多尺度學習的核心。局部-全局組合主要通過 "多叉 "結構實現,將不同層的卷積結果連接起來。一個卷積層被進一步應用于合并這些合并后的表征以進行最終的重建。為了獲得更豐富的合并層表示,我們將濾波器的大小和特征圖的數量設置得相對較大,其中k=5和n=64。這樣,合并后的表示fc被定義為
其中fi, f j, fk是不同層次的表示。那么,整體的局部-全局聯合表征flgc可以計算如下:
3) 重建:
在LGCNet的最后部分,我們直接利用一個卷積層來恢復上述局部-全球組合表示的殘差(高頻成分)
最后的高分辨率圖像Y?可以通過添加其低分辨率成分進一步得到。
對于LGCNet,我們設置L = 5,以便對所提出的想法進行快速調查和驗證。對于每個卷積層,為了保證輸出的特征圖與輸入的大小相同,在k=3的情況下使用了1的填充,在k=3的情況下使用了2的填充。表一列出了詳細的配置,其中局部-全局組合部分由第三節C的實驗決定。我們使用均方誤差作為損失函數來訓練提議的網絡
其中N是訓練樣本的總數。
III. 實驗結果和分析
A. 數據集和相似性指標
由于沒有公開的遙感圖像超分辨率數據集,我們選擇了UC Merced數據集[18],這是一個經典的場景分類數據集,具有相當高的空間分辨率(0.3米/像素),來評估我們的方法。UC Merced數據集共包含21類地面特征,每類有100張圖像。我們將一半的圖像(每類50幅)用于訓練,其他的用于測試。此外,我們隨機選擇20%的訓練樣本作為模型選擇的驗證集,其他80%用于訓練。所有的圖像首先被降頻為低分辨率的圖像,原始圖像作為高分辨率的參考圖像。在這封信中,選擇了兩個經典的評價標準,峰值信噪比(PSNR)[dB]和結構相似性指數測量(SSIM)[19]來衡量幾種不同的超分辨率方法的性能。由于這組數據中的圖像是RGB圖像,PSNR和SSIM是通過平均這三個通道的相似度來計算的。
此外,真實數據被用來測試我們提出的方法的穩健性。GaoFen-2(GF-2)多光譜圖像(3.2米/像素)的三個可見光波段被提取并堆疊成一個偽RGB圖像用于實驗。由于沒有相應的高分辨率圖像作為參考,結果顯示并與其他方法進行定性比較。
B. 實施細節
在訓練階段,我們從低分辨率圖像X和其相應的參考圖像Y中提取41×41的子圖像,形成訓練樣本對。這些樣本對的總數約為14萬個,訓練使用迷你批次圖2。不同訓練歷時的驗證集的實驗結果(平均PSNR)。所有的模型都是在相同的訓練配置下以3的比例系數進行訓練。學習率最初被設置為0.1,以獲得快速收斂。LGCNet的訓練總共迭代了80個歷時,在第40個歷時之后,學習率下降了10倍。同時,為了防止梯度爆炸,我們用它的L2準則來剪輯梯度,這在訓練遞歸網絡時經常使用[20]。具體來說,當||g||2高于閾值t時,在參數更新之前,梯度g被替換為(g×t/||g||2)。動量和權重衰減被設置為0.9和0.0001,正如大多數深度學習任務一樣。所有這些實驗都是在Inter i7 CPU 4.0 GHz、34 GB內存和Nvida Titan Z上進行的,并利用Caffe軟件包[21]來實現我們提出的方法。
圖2:不同訓練歷時的驗證集的實驗結果(平均PSNR)。所有的模型都是在相同的訓練配置下以3的比例系數進行訓練的。
C. 局部-全局組合分析
LGCNet最重要的特性是它結合了深度CNNs模型的不同層次表示,其中涉及相對的局部細節和全局環境的先驗,以獲得更好的超分辨率后果。為了驗證它是否真的對這個任務有幫助,我們設計了一組實驗。首先,我們用一個由7個卷積層組成的網絡(CNN-7)作為基準,它只利用全局和高層表示來學習殘差。然后,我們將第五個卷積層和不同的低層結合起來,導入到下面的串聯層中,其中選擇一個或兩個層。為了公平起見,所有這些模型都是為了在相同的訓練配置下恢復放大系數為3的遙感圖像。
圖2顯示了隨著訓練歷時的增加,以驗證集的平均PSNR衡量的實驗結果。用不同策略設計的模型用相應的名稱表示。以LGCNet-345為例,它表示該模型結合了第三、第四和第五層的表示。正如我們所期望的,層的結合給遙感圖像帶來了更好的超分辨率結果,更多的層結合在一起,更多的局部和全局表征被納入其中。LGCNet-345的性能略好于其他三層組合模型,因此我們將該模型作為最終的LGCNet架構,表一為其詳細配置
D. 結果比較和分析
在這里,我們進一步評估了LGCNet在測試集上的性能,與其他一些方法相比,包括經典的雙三次插值、稀疏編碼(SC)[8]、基于CNN的SRCNN[14]和FSRCNN[22](藝術狀態),以及我們的基線模型CNN-7。由于測試圖像有三個通道,在遙感的背景下,把原始通道變成YCbCr是沒有意義的,就像在SC、SRCNN和FSRCNN中那樣,我們略微調整這三種方法,把三個通道的圖像作為輸入,以進行公平和令人信服的比較。SRCNN和FSRCNN在我們的實驗數據集下被重新訓練,以獲得它們的最佳性能進行公平的比較。
表二列出了這六種方法在三個放大系數(2-4)下的所有測試圖像的最終平均PSNR和SSIM。在這些方法中,LGCNet的性能最好,具有最高的PSNR和SSIM。
圖3顯示了這些方法的一些超分辨率結果。由LGCNet恢復的高分辨率遙感圖像具有更清晰的邊緣和更明顯的輪廓。
圖3:超分辨率結果。(a) 飛機圖像(放大系數=3)。(b) 跑道圖像(放大系數=4)。
表三給出了每一類地面特征的詳細重建結果(放大系數=3),這表明我們的模型對所有21類圖像2的平均PSNR(dB)都比其他方法(包括目前的技術水平)有了全面的提高。在這些類別中,港口圖像(類別11)的PSNR最低,為23.63 dB(仍優于其他方法)。需要注意的是,一些類如Baseballdiamond(類3)、Beach(類4)和Golfcourse(類10)可能共享一個相對較高的PSNR,因為這些類的圖像比其他類的圖像要平滑得多,因此基本上可能不適合評估超分辨率任務,可以排除。盡管如此,我們仍然把這個完整的數據集作為一個公平的判斷。由于局部細節和環境先驗在所有的地面特征中都是必不可少的,我們的LGCNet與局部-全局組合在每個類別中都優于其他方法。
圖4說明了GF-2衛星數據的一些超分辨率結果。盡管這些圖像的分辨率(3.2米/像素)與訓練集不同,訓練集的放大系數3和4分別為0.9米/像素(0.3×3)和1.2米/像素(0.3×4),但LGCNet仍然獲得了更好的結果,鋸齒和環形偽影更少。這些結果表明我們的模型比其他方法更穩健。
圖4:真實數據的超分辨率結果。(a)放大系數=3。(b)放大系數=4。
E. 深度評估
為了探索架構深度的影響,我們將我們的模型再擴展了5層(表示部分共10層),將第四層、第七層和第十層結合起來,稱為LGCNet+。此外,我們實現了VDSR[15](技術水平)作為比較,它是一個具有20層的端到端深度模型。表四顯示了在UC Merced測試數據上的結果,推理時間是用Nvida Titan Z(GPU模式)測試的。可以發現,LGCNet+比LGCNet獲得了更好的超分辨率結果,因為有更深的表示。雖然VDSR更深,擁有更多的參數,但LGCNet+仍比VDSR獲得更好的質量,而且速度有很大的提高,這證明了局部-全局組合的有效性。LGCNet是一個更輕的模型,具有更快的超分辨率速度。
IV. 結論
我們設計了一個名為LGCNet的新型網絡,充分利用深度CNN的表征來實現遙感圖像的超分辨率。LGCNet側重于通過學習地面物體和環境先驗的多級表征來重建低分辨率和相應高分辨率圖像對之間的殘差。實驗結果表明,不同層次的融合可以得到更準確的重建結果。我們的方法在準確性和視覺性能的整體改進上(對所有21個類別)都比幾個最先進的算法獲得了全面的提高。此外,在真實數據上的實驗驗證了我們的LGCNet的魯棒性,在表示部分采用的更多的層有助于以較低的速度提高質量。
總結
以上是生活随笔為你收集整理的【图像超分辨率】SR for RS via Local–Global Combined Network的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【图像超分辨率】Meta-SR: A M
- 下一篇: 如何注册la域名