图像压缩哪家强?请看这份超详细对比
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第?88?篇文章本期推薦的論文筆記來自 PaperWeekly 社區用戶 @TwistedW。本文來自早稻田大學,論文用精煉的語言對比了幾類圖像生成模型,將卷積自編碼器(CAE)、生成對抗網絡(GAN)和超分辨率(SR)在生成圖像性能上做了比較。通過提取圖像緊湊的特征,文章得出 CAE 比 JPEG 具有更好的編碼效率,GAN 顯示出在大壓縮比和高主觀質量重建方面的潛在優勢,超分辨率在其中實現了最佳的速率失真(RD)性能,與 BPG 相當。
如果你對本文工作感興趣,點擊底部閱讀原文即可查看原論文。
關于作者:武廣,合肥工業大學碩士生,研究方向為圖像生成。
■?論文 | Performance Comparison of Convolutional AutoEncoders, Generative Adversarial Networks and Super-Resolution for Image Compression
■ 鏈接 | https://www.paperweekly.site/papers/2085
■ 作者 | Zhengxue Cheng / Heming Sun / Masaru Takeuchi / Jiro Katto
圖像壓縮在計算機視覺領域占據著比較重要的位置,隨著 GAN,VAE 和超分辨率圖像讓生成模型得到了很大的進步。不同的模型有著不同的性能優勢,本文用精煉的語言加上較為嚴謹的實驗對比了 GAN,CAE 和 super-resolution 在圖像壓縮性能上的優勢。
論文引入
圖像壓縮一直是圖像處理領域的一個基礎和重要的研究課題。傳統的圖像壓縮算法,如 JPEG,JPEG2000 和 BPG,依賴于手工制作的編碼器。深度學習方法的發展提高了圖像壓縮的性能,其中比較有突破的圖像壓縮是在 Autoencoder,GAN 和超分辨率方面。
這篇論文提出了三種架構,分別使用卷積自動編碼器(CAE),GAN 和超分辨率(SR)進行有損圖像壓縮。此外,還對它們的編碼性能并進行了全面的比較。?
實驗結果表明,由于 Autoencoder 可以緊湊表示特性,CAE 可以實現比 JPEG 更高的編碼效率;GAN 顯示出在大壓縮比和高主觀質量重建方面的潛在優勢;超分辨率在三種方法中實現了最佳的速率失真(RD)性能。?
總結一下論文的貢獻:?
基于 CAE,GAN,SR 提出了三種整體壓縮體系結構?
對這三種框架做了全面的性能比較
CAE用于圖像壓縮
文中將圖像壓縮中的 DCT 和小波變換換成了 CAE(卷積自編碼器),整體架構如下圖所示:
上圖比較符合傳統的圖像壓縮的流程,不過主要的框架是在 CAE 的基礎上建立的。連續的下采樣操作會破壞重建圖像的質量,所以 Autoencoder 采用卷積濾波器執行上下采樣,CAE 的內部結構如下圖:
內部卷積層之后的激活函數采用的是參數整流線性單元(PReLU)函數,而不是相關工作中常用的 ReLU,因為我們發現 PReLU 可以與 ReLU 相比時,提高了重建圖像的質量,尤其是在高比特率。整體的損失函數定義為:
其中為 MSE 損失,x 是原始圖像 x? 是重構圖像,μ 是均值噪聲,fθ(x) 是 x 經過 encoder 得到的編碼函數,g?(y) 為解碼得到的解碼函數。
GAN用于圖像壓縮
我們都知道 GAN 多用于圖像的生成,圖像的壓縮也需要在 GAN 的基礎上做一些小小的改變,那就是在生成器前面加上一個編碼器,這樣就可以把圖像 encode 到適合 G 生成即可,這個編碼器的結構和判別器類似,GAN 做圖像壓縮的整體框架如下:
這個模型框架結構很清晰,不需要太多的解釋,判別器可以提高輸出圖像的真實性,損失函數為:
這里只寫非對抗損失函數部分,對抗損失函數和原始 GAN 是一致的。JG(x) 包含兩部分,前半部分是 MSE 損失,后半部分是減小特征層的損失可有利于圖像的高質量重建。
基于 GAN 的體系結構與基于 CAE 的體系結構在圖像壓縮中有三個不同之處。首先,直接輸入 RGB 分量,因此不應用從 RGB 到 YCbCr 的色彩空間轉換;其次,不在訓練過程中添加統一的噪音,因為 GAN 會從噪音中繼承重建圖像。第三,使用范圍編碼器,而不是 JPEG2000 熵編碼器。
SR用于圖像壓縮
超分辨率壓縮結構如下圖所示:
對于具有復雜紋理或小分辨率的圖像,SR 將成為高質量重建的瓶頸。因此,在編碼器中構建重建循環且為自適應策略,該循環計算僅由 SR 引起的失真,即上圖中的 Pre PSNR。
當 Pre PSNR 大于預定閾值時,圖像被下采樣到(0.5W,0.5H)并且在解碼之后進行 SRCNN 濾波。否則,將圖像下采樣到(0.7W,0.7H),自適應策略的效果如下表。實驗中閾值設置為 33.0 dB,并且選擇約 30% 的圖像以使用 SRCNN 濾波器。
性能比較
為了測量編碼效率,通過每像素比特(bpp)來測量速率。PSNR(dB)和 MS-SSIM 分別用于測量客觀和主觀質量。
CAE?
由于 CAE 生成的特征圖不是能量緊湊的,所以還要用 PCA 進一步去相關特征圖。PCA 生成的特征映射和旋轉特征映射的示例如下圖所示。
可以看到,在右下角生成了更多的零,在旋轉的特征映射中,大值居中于左上角,這有利于熵編碼器降低速率。與 JPEG2000 相比,基于 CAE 的方法優于 JPEG,并且在 Kodak 數據集圖像上實現了 13.7% 的 BD 率減少。
GAN
GAN 的圖像壓縮在 CLIC 驗證數據集上進行了性能比較實驗:
其中 bpp 越小越好,PSNR 越大越好,MS-SSIM 越大越好!可以看出 GAN 的一定優勢。?
對比結果?
實驗在 CLIC 驗證數據集進行公平評估。具有 MS-SSIM 和 PSNR 的 RD 曲線如下圖。超分辨率的 RD 曲線很短,因為它是通過用 BPG 編解碼器中的固定量化參數(QP) 值改變自適應策略中的閾值來進行的。通過改變 QP,超分辨率還可以實現廣泛的 RD 曲線。
從 RD 曲線總結了幾個觀察結果:
1. 由于自動編碼器的固有特性,在有損壓縮的情況下,CAE 優于 JPEG。自動編碼器可以減少尺寸以從圖像中提取壓縮的演示文稿,因此 CAE 優于 JPEG 和 JPEG2000。
2. GAN 在低比特率下比在高比特率下表現更好,因此 GAN 傾向于實現大的壓縮比。同時,GAN 在 MS-SSIM 上的性能優于 PSNR,因為 GAN 的重建是基于圖像數據的分布,肉眼更加認同。特別是對于 MS-SSIM,GAN 具有從 0.2bpp 到 0.8bpp 的穩定性能。
3. SR 在這三種方法中實現了最佳性能,因為它具有新興算法 BPG 和基于機器學習的超分辨率濾波器的優點。如果可以提供更多的計算資源,那么通過添加更好的超分辨率濾波器,可以預期有希望的結果將超過 BPG。
下表是在速率約為 0.15bpp 的三種方法的比較:
可以看出基于 SR 的方法與 BPG 非常接近,基于 GAN 和 CAE 的體系結構優于 JPEG,特別是 GAN 和 CAE 具有相似的 PSNR,但就相對主觀的 MS-SSIM 而言,GAN 比 CAE 更好。
總結
論文提出了三種使用 CAE,GAN 和 SR 進行壓縮的體系結構,并討論了它們的性能。結果表明:
CAE 比傳統的有限壓縮變換更好,并且有望用作特征提取器;
GAN 顯示出對大壓縮比和主觀質量重建的潛在優勢;
基于 SR 的壓縮實現了其中最佳的編碼性能。
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!
點擊標題查看更多論文解讀:?
??ACL2018高分論文:混合高斯隱向量文法
??基于詞向量的簡單模型 | ACL 2018論文解讀
??COLING 2018最佳論文:序列標注經典模型復現
??綜述:圖像風格化算法最全盤點
??CVPR 2018 最佳論文解讀:探秘任務遷移學習
??深度學習模型復現難?句子對模型復現論文
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看原論文
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的图像压缩哪家强?请看这份超详细对比的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 岗位推荐 | 腾讯音乐娱乐招聘推荐算法工
- 下一篇: 使用PaddleFluid和Tensor