ECCV2020论文-稀疏性表示-Neural Sparse Representation for Image Restoration翻译
Neural Sparse Representation for Image Restoration
用于圖像復原的神經稀疏表示
?
Abstract
在基于稀疏編碼的圖像恢復模型中,基于稀疏表示的魯棒性和有效性,我們研究了深度網絡中神經元的稀疏性。我們的方法在結構上對隱藏神經元施加稀疏約束。稀疏性約束有利于基于梯度的學習算法,并可用于各種網絡的卷積層。通過僅在非零組件上運行,神經元的稀疏性使計算節省而不影響精度。同時,該方法可以在不增加計算成本的情況下提高模型的表示維數和模型容量。實驗表明,對于圖像超分辨率、去噪和圖像壓縮偽影去除等多個圖像恢復任務,稀疏表示是深度神經網絡的關鍵。
?
Introduction
???????? 稀疏表示在圖像恢復問題中發揮著關鍵作用,如圖像超分辨率[1,2,3]、去噪[4]、去除壓縮偽影[5]等[6,7]。這些任務本質上是病態的,輸入信號通常沒有足夠的信息,而輸出信號在相同的輸入下有無窮多個解。因此,人們普遍認為稀疏表示在處理解決方案的多樣性方面更加魯棒。
???????? 稀疏編碼中的稀疏表示通常是高維的,但有有限的非零分量。輸入信號表示為字典中令牌的稀疏線性組合。高維意味著更大的字典大小,通常會導致更好的恢復精度,因為一個更大的字典能夠更徹底地采樣底層信號空間,從而更準確地表示任何查詢信號。此外,非零元素的稀疏極限數作為一種基本的圖像先驗,被廣泛地研究和利用來增強復原的魯棒性。稀疏性也通過忽略零部分來提高計算效率。
???????? 用于圖像恢復的深度卷積神經網絡擴展了基于稀疏編碼的重復級聯結構方法。為了提高[8]的性能,本文首先引入了基于深度網絡的方法,并在概念上與基于稀疏編碼的方法相聯系。由非線性激活層連接的兩個卷積層的簡單網絡可以解釋為:激活表示稀疏表示;非線性加強了稀疏性,卷積核由字典組成。SRResNet[9]擴展了跳越連接的基本結構,形成一個殘差塊,并將大量的殘差塊級聯,構成很深的殘差網絡。
???????? 由于深度網絡在推理過程中具有前饋特性,因此不能將迭代優化作為稀疏編碼來解決隱藏表示的稀疏性問題。神經元的稀疏性通常是通過[10]中的ReLU激活來實現的,這種激活通過將每個神經元中的負值分別設定為0。不過,它對隨機向量的50%稀疏性與對非零分量總數的稀疏性定義相去甚遠。相反,稀疏性限制在模型參數中活躍應用以實現網絡剪枝。然而,在剪枝網絡中,隱藏表示的維數降低了,精度降低了。
???????? 在本文中,我們提出一種方法,可以在結構上加強對深度網絡中隱藏神經元的稀疏約束,同時保持高維的表示。對于高維神經元,我們沿著通道將它們分成若干組,并且每次只允許一組神經元是非零的。利用小邊網絡根據上下文特征對非稀疏群進行自適應選擇。當只在非零組上執行時,計算也被保存。但由于選擇操作不可微,很難嵌入邊網絡進行聯合訓練。我們將稀疏約束放寬為軟約束,并將其近似簡化為多個卷積核的稀疏線性組合,而不是硬選擇。我們進一步引入額外的基數維,將稀疏性預測分解成子問題,通過分解每個稀疏組并在參數的基數無關組合后進行連接。
???????? 為了證明神經稀疏表示的重要性,我們對圖像恢復任務進行了廣泛的實驗,包括圖像超分辨率、去噪和壓縮偽影去除。實驗結果表明:(1)專用約束對實現神經稀疏表示和深度網絡有益;(2)在相同大小的model footprint的情況下,我們的方法可以顯著降低計算成本,提高精度;(3)該方法可以在不增加計算成本的情況下,顯著提高模型容量和精度。
?
Related work
???????? 2.1 Sparse coding and convolutional networks稀疏編碼與卷積網絡
???????? 本文簡要回顧了稀疏性在圖像恢復中的應用及其與卷積網絡的關系。以圖像超分辨率為例進行圖像恢復,基于稀疏編碼的方法[1]假設輸入圖像信號X可以用一個稀疏線性組合α在字典D1上表示,它通常是從訓練圖像中學習到的,
在[3]中,恢復后的圖像信號Y的耦合字典D2與D1以及它的稀疏表示α聯合學習學習,通過:
卷積網絡由層疊的卷積層和非線性的激活函數組成,可以用[8]稀疏編碼的概念來解釋。以一小塊網絡為例,該網絡有兩個卷積層,核為W1、W2,函數為非線性F,圖像恢復過程可以形式化為,
對于W1的卷積操作?等價于將輸入圖像信號X投影到字典D1上。W2的卷積操作?對應于信號表示在字典D2上的投影。這兩種卷積層結構被廣泛用作基本殘塊,并與多個塊疊加形成非常深的殘塊網絡[9,12]。
???????? 隱含表示的維數或每個卷積層的核數決定了字典內存的大小和模型的學習能力。然而,與稀疏編碼不同,深層模型中的表示維數通常受到運行速度或內存使用的限制。
2.2 Sparsity in parameters and pruning參數和剪枝中的稀疏性
???????? 研究模型參數的稀疏性可以潛在地提高魯棒性[13],但是參數的稀疏性并不是產生稀疏表示的充分必要條件。此外,channel上的群稀疏性和參數趨近于零的抑制可以實現節點剪枝[14,11, 15, 16, 17],極大地降低了推理計算成本。盡管效率很高,但節點剪枝降低了表示的維數,而不是稀疏性,限制了表示的多樣性,并導致精度回歸。
圖1,簡化矩陣乘法示例中帶有稀疏隱節點的兩層神經網絡的計算約簡說明。左:稀疏約束網絡,僅允許c個隱藏節點的一組在總數為kc節點上不為零。右:僅使用w1i和w2j簡化計算,因為其他激活節點為零。(灰度反映矩陣值的大小。矩陣乘法是從右到左的順序。)
2.3 Thresholding and gating
???????? 以ReLU[18]為例,閾值函數通過將負值過濾為零,起到了類似于增強[10]稀疏性約束的作用,并且與之前的激活函數,即雙曲正切函數相比,其性能有顯著改善。雖然ReLU統計上只給出了隨機向量上50%的稀疏性,但在Eq. 1中的稀疏性定義之間仍然存在顯著的差距。例如,在Squeeze-and-Excitation中[19,20],門控機制使用自適應的sigmoid型門來scalse隱藏的神經元,并在顯著提高準確性的同時稍微提高了稀疏性。在Eq. 1中,閾值設定和門控都獨立地應用于隱藏神經元,并不能內在地保證全局稀疏性。
Methodology
???????? 提出了一種新的稀疏約束來實現深度神經網絡的稀疏表示。寬松的軟限制更有利于基于梯度的訓練。附加的基數維改進了約束條件,提高了稀疏表示的多樣性。
3.1 sparsity in hidden neurons隱神經元中的稀疏性
???????? 與2.3節中討論的僅考慮每個神經元的局部稀疏性的方法不同,我們的方法加強了組間的全局稀疏性。具體來說,將隱藏神經元分為k組,每組c個節點,只允許其中一組包含非零值。相應地,卷積核也可以根據連接的隱藏神經元進行劃分。那么只需要計算連接到非零神經元的內核。形式上的,對于公式3中的網絡結構,卷積核被分為W1=[W11T,W12T,…,W1kT]T , W2=[(W21T,W22T,…,W2kT]T。隨后,公式3可被重寫為:
當稀疏性限制只允許第i個神經元group有非零元素時,公式4可以被reduced,如圖1所示,并形式化為:
提出的稀疏度假設選取振幅最大的節點群,不計算所有節點的值就無法實現。在我們的方法中,唯一的非零組的選擇是由一個關于輸入信號X的多層感知器(MLP)建模的。
常規的卷積操作需要為每個像素共享內核。因此,選擇也應該通過spatial space來識別。我們受到Squeeze-and-Excitation[19,20]操作的啟發,提出在MLP前增pooling和boardcasting操作進行分組選擇。上述可被形式化為:
???????? 需要注意的是,對于圖像恢復來說,大多數基于patch的算法[1,20],池化操作應該針對特定的patch大小,而不是針對整個圖像。
???????? Comparison to thresholding and gating.與閾值和gating的比較。該方法將隱藏層表示中所有節點的非零實體數限制在1/k以下,與2.3節中討論的閾值和門控方法相比,該方法更接近Eq. 1中的稀疏性定義。
???????? Comparison to node pruning. 與節點剪枝對比。節點剪枝通過對所有相關的可訓練參數進行歸零來減少激活節點。無論輸入信號如何變化,修剪后的節點都保持為零,這大大降低了表示的維數。在該方法中,稀疏性自適應地依賴于輸入。雖然輸入本身保持了表示的高維數,但作為窄模型,我們的方法節省了計算和內存開銷。
3.2 Relaxed soft sparsity松弛軟稀疏
???????? 與稀疏編碼中的L0范數相似,Eq. 6中的自適應稀疏群選擇是不可微的,并且無法與神經網絡共同學習。雖然Gumbel技巧[21]被提議對條件概率分布的argmax重新參數化,但它在我們的實驗設置中沒有取得令人信服的結果。
???????? 通過用softmax代替selection作為max的光滑逼近來松弛稀疏性約束。MLP不是預測k中的index,而是通過softmax函數σ(??)寬泛地預測組β=β1, β2,…βk∈R0,1k的概率,
然后,將Eq. 4中的雙層結構更新為自適應加權組和為,
通過加權求和,Eq. 8不能直接簡化為Eq.5,因為組權值中沒有一個是正好為零的。幸運的是,給定softmax輸出的稀疏假設,?i,s.t. βi?βj→0,?j≠i,并以分段線性激活函數F, ReLU為例,證明隱藏神經元的加權和可以近似化為參數Wi的加權和,如圖2,并公式化為,
?
注意,W1和W2的兩個√β不需要相同才能得到近似值。我們的實驗表明,獨立地預測W1和W2的權重有利于提高準確性。
這樣,軟稀疏約束約束下的網絡與硬約束約束下的網絡具有同樣的效率。與對圖像進行卷積運算相比,卷積核的插值所增加的唯一計算開銷可以忽略不計。
圖2:說明加權神經元在軟稀疏約束和減少對應的加權和參數。左:具有軟稀疏性約束的網絡,對k組的神經元應用了權重βi。右:先將參數組加權求和到一個小切片中,然后將其應用于特征的近似約簡。
Comparison to conditional convolution.與條件卷積比較。CondConv[22]在自適應加權卷積核和的運算上與我們的松弛軟稀疏方法相似。然而,CondConv使用的是sigmoid函數來規格化核的權重,而不是softmax函數。因此,在CondConv中沒有明確地使用稀疏性約束,我們的實驗表明,稀疏性對模型的精度非常重要。
3.3 Cardinality over sparsity groups稀疏群上的基數
???????? 用簡單的MLP建模群體之間的稀疏性是一個挑戰,特別是當每個群體的維度c增長時。此外,在預先定義的組內的結合通道限制了稀疏模式的多樣性。受ResNeXt[23]中群卷積的啟發,我們將每個稀疏群的c節點分割成d個基數群,每個有c/d節點的基數群獨立地沿k個稀疏群約束,如圖3所示。形式上,將權值的平均推廣到矩陣中,γ=γ1,γ2,…γd∈R0,1d,k,并且γi=σ(MLPiPoolX),然后加權平均卷積核變成,
其中Wi=[W1,i,W2,i,…,Wd,i]并且Wj,i是第j個基數群和第i個稀疏群。concat是沿著輸出通道的軸線進行連接操作。值得注意的是,按照基數分組,當d = c, k = 1且MLP激活被s型函數代替時,Squeeze-and-Excitation[19]操作成為我們方法的一個特殊情況。
圖3:說明我們的方法。圖像塊的特征首先進行空間池化并送入MLP中,使用softmax作為激活函數以預測稀疏性約束γ∈Rd,k。softmax函數沿k軸執行。卷積核W分為k個稀疏組和每組c個通道Wi。每組又進一步分為d個基數組和c/d通道每組Wj,i。與基數無關的加權和如公式10所示。最后,聚合內核W?與原始特征卷積。
4 Experiments
4.1 Setting
Datasets and benchmarks. 我們使用多個數據集分別進行圖像超分辨率、去噪和壓縮偽影去除。對于圖像的超分辨率,使用DIV2K對模型進行訓練,包含800高質量(2K分辨率)圖像的[24]數據集。DIV2K也有100張驗證圖像,用于消融研究。用于基準評估的數據集包括Set5[25]、Set14[2]、BSD100[26]和Urban100[27],三個up-scaling factors:x2、x3和x4。對于圖像去噪,訓練集由Berkeley Segmentation Dataset (BSD)組成。200張訓練分割的圖像和200張測試分割的圖像,如[28]。用于基準評估的數據集包括Set12、BSD64[26]、Urban100[27]和加性白高斯噪音(AWGN)達到15,25,50級。對于壓縮偽影去除,訓練集由[1]中的91張的訓練圖像和200張[26]的訓練圖像組成。用于基準評估的數據集包括LIVE1[29]和Classic5的JPEG壓縮質量為10,20,30和40。評價指標包括PSNR和SSIM[30]用于預測圖像質量的亮度或灰度,只有DIV2K在RGB通道中評估。每像素的FLOPs被用來衡量效率,因為運行時的復雜性是比例的輸入圖像大小完全卷積模型。
Training setting。模型使用自然圖像和退化的對應圖像進行訓練。在線數據增強包括訓練過程中的隨機翻轉和旋轉。訓練是基于隨機采樣的圖像補丁,每幅圖像100次,并進行epoch。整個訓練epoch為30,模型優化與L1距離和Adam優化。初始學習率是0.001,在20和25個epoch乘以0.2。
4.2 Ablation study
???????? 我們通過消融研究來證明神經稀疏表示的意義。在DIV2K驗證集上,對PSNR下的圖像超分辨率進行了x2up-scaling實驗。我們以16個殘塊、32個神經元和4x width multiplier的WDSR[31]網絡為基線,對于稀疏性組,默認設k = 4。
???????? Sparsity constraints.稀疏性限制。稀疏性約束對于表示稀疏性至關重要。我們用Gumbel -softmax實現了硬稀疏約束來模擬硬最大的梯度,并將其與softmax函數實現的軟稀疏度進行了比較。在softmax的溫度也控制輸出分布的銳度。當溫度很小時,softmax輸出更清晰,更接近hardmax。這樣梯度就會消失。當溫度較大時,softmax輸出更平滑,那么它將與公式9中近似的稀疏性假設相矛盾。我們還將它們與一個類似的模型進行了比較,在CondConv[22]中使用s型函數作為MLP激活,而不是稀疏約束。表1的結果表明,基于gumbel的硬稀疏性方法是不可行的,甚至比沒有稀疏性組的基線更差。為了達到更好的效果,需要對溫度進行適當的初始化,這與上述分析一致。Sigmoid的結果也比softmax差,因為Sigmoid不能保證稀疏性,這也與我們在前一節的比較一致。
???????? Cardinality.基數?;鶖稻S數降低了稀疏群中信道之間的實際維數和依賴性,提高了卷積核上線性組合權值的多樣性。圖4中不同基數模型的結果表明,不斷增加基數有利于準確性。我們還將其與特殊情況下的Squeeze-and-Excitation模型(SE)進行了比較。我們的模型明顯優于SE模型。
????????
?
總結
以上是生活随笔為你收集整理的ECCV2020论文-稀疏性表示-Neural Sparse Representation for Image Restoration翻译的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2019ICCV论文 Non-Local
- 下一篇: Gumbel-Softmax Trick