别魔改网络了,Google研究员:模型精度不高,是因为你的Resize方法不够好
作者丨小馬
編輯丨極市平臺
本文原創首發于極市平臺公眾號,轉載請獲得授權并標明出處。
【寫在前面】
盡管近年來卷積神經網絡很大地促進了計算機視覺的發展,但一個重要方面很少被關注:圖像大小對被訓練的任務的準確性的影響 。通常,輸入圖像的大小被調整到一個相對較小的空間分辨率(例如,224×224),然后再進行訓練和推理。這種調整大小的機制通常是固定的圖像調整器(image resizer)(如:雙行線插值)但是這些調整器是否限制了訓練網絡的任務性能呢? 作者通過實驗證明了典型的線性調整器可以被可學習的調整器取代,從而大大提高性能 。雖然經典的調整器通常會具備更好的小圖像感知質量(即對人類識別圖片更加友好),本文提出的可學習調整器不一定會具備更好的視覺質量,但能夠提高CV任務的性能。
在不同的任務中,可學習的圖像調整器與baseline視覺模型進行聯合訓練。這種可學習的基于cnn的調整器創建了機器友好的視覺操作,因此在不同的視覺任務中表現出了更好的性能 。作者使用ImageNet數據集來進行分類任務,實驗中使用四種不同的baseline模型來學習不同的調整器,相比于baseline模型,使用本文提出的可學習調整器能夠獲得更高的性能提升。
背景
目前的resize方法一般都是已經設計好的,不可學習的,典型的有NEAREST,BILINEAR,BICUBIC。
我們先來看看這些resize算法的不同效果:
原圖:
NEAREST:
BILINEAR:
BICUBIC:
可以看出,對人來說,不同的resize方法差別還是蠻大的。那么對于模型來說應該采用什么樣的resize方法呢?為此,作為提出了采用可學習的resizer model來對圖片進行resize,以進一步提高CV任務的性能。
1. 論文和代碼地址
Learning to Resize Images for Computer Vision Tasks
論文地址:https://arxiv.org/abs/2103.09950
代碼地址:未開源
全文鏈接:別魔改網絡了,Google研究員:模型精度不高,是因為你的Resize方法不夠好
關注極市平臺公眾號,獲取最新CV干貨。
總結
以上是生活随笔為你收集整理的别魔改网络了,Google研究员:模型精度不高,是因为你的Resize方法不够好的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自注意力真的是Transformer的必
- 下一篇: 网络架构之争:三大主流架构对决,谁是王者