【AI-1000问】为什么深度学习图像分类的输入多是224*224
文章首發(fā)于微信公眾號《有三AI》
【AI-1000問】為什么深度學(xué)習(xí)圖像分類的輸入多是224*224
寫在前邊的通知
大家好,今天這又是一個新專欄了,名叫《有三AI 1000問》,顧名思義,就是以問題為主了!
那我們這個新專欄會有什么特色呢?主要從內(nèi)容選擇,目標(biāo)受眾,創(chuàng)作風(fēng)格三個方面來講述。
?
1、內(nèi)容選擇
因為我們有綜述專欄,有各種垂直領(lǐng)域的非常詳細(xì)的文章,所以從內(nèi)容選擇上,我們這一個專欄不會選擇那些“大”問題,不會選擇需要長篇分析的問題,也不會選擇需要很強的實踐操作的問題。
內(nèi)容選擇的標(biāo)準(zhǔn)是:
-  技術(shù)相關(guān) 
-  足夠聚焦 
-  容易被忽視 
-  普通但是不簡單 
-  可以引申很多思考 
不會入選的內(nèi)容比如:“目標(biāo)檢測的最新進展”,“tensorflow的最新API”,“Mask RCNN文章閱讀”等等之類的文章。
會入選的內(nèi)容比如:“為什么圖像分類輸入大小多是224*224”,“為什么卷積神經(jīng)網(wǎng)絡(luò)要使用池化”。
?
2、目標(biāo)受眾
我認(rèn)為未來機器學(xué)習(xí)技術(shù)/AI技術(shù)是每一個人都可以掌握,使用的技術(shù),因此,我們這一個專欄不再只是面向從事相關(guān)工作的朋友,不會像其他專欄的文章那樣對基礎(chǔ)要求高。
目標(biāo)受眾包括:
-  AI領(lǐng)域從業(yè)技術(shù)人員 
-  其他計算機領(lǐng)域從業(yè)人員 
-  AI技術(shù)業(yè)余愛好者 
?
3、創(chuàng)作風(fēng)格
這一個專欄以引導(dǎo)思考,普及知識為主,希望減輕閱讀負(fù)擔(dān),因此不會像其他系列文章那樣清晰地劃分段落,也會適當(dāng)?shù)亟档蛢?nèi)容的深度。
創(chuàng)作風(fēng)格是:
-  不嚴(yán)格劃分小節(jié) 
-  平衡內(nèi)容深度和可閱讀性 
好了,具體內(nèi)容就參考我們的第一期吧,希望你喜歡。
為什么深度學(xué)習(xí)圖像分類里的圖片的輸入大小都是224*224呢?
做過圖像分類項目或者看過文章的小伙伴們應(yīng)該都知道,在論文中進行各類方法的比較時,要求使用同樣的數(shù)據(jù)集。而為了公平的比較,網(wǎng)絡(luò)的輸入大小通常都是224*224的大小,那為什么呢?有同學(xué)思考過這個問題嗎?
作者/編輯 言有三
?
我們都知道,一個圖像分類模型,在圖像中經(jīng)歷了下面的流程。
從輸入image->卷積和池化->最后一層的feature map->全連接層->損失函數(shù)層softmax loss。
從輸入到最后一個卷積特征feature map,就是進行信息抽象的過程,然后就經(jīng)過全連接層/全局池化層的變換進行分類了,這個feature map的大小,可以是3*3,5*5,7*7等等。
解答1:在這些尺寸中,如果尺寸太小,那么信息就丟失太嚴(yán)重,如果尺寸太大,信息的抽象層次不夠高,計算量也更大,所以7*7的大小是一個最好的平衡。
另一方面,圖像從大分辨率降低到小分辨率,降低倍數(shù)通常是2的指數(shù)次方,所以圖像的輸入一定是7*2的指數(shù)次方。以ImageNet為代表的大多數(shù)分類數(shù)據(jù)集,圖像的長寬在300分辨率左右。
解答2:所以要找一個7*2的指數(shù)次方,并且在300左右的,其中7*2的4次方=7*16=112,7*2的5次方等于7*32=224,7*2的6次方=448,與300最接近的就是224了。
這就是最重要的原因了,當(dāng)然了對于實際的項目來說,有的不需要這么大的分辨率,比如手寫數(shù)字識別MNIST就用32*32,有的要更大,比如細(xì)粒度分類。
?
思考
今天的問題就到這里了,不知道,你有沒有留意過不同的輸入大小對分類器性能的影響呢?
轉(zhuǎn)載文章請后臺聯(lián)系
侵權(quán)必究
感謝各位看官的耐心閱讀,不足之處希望多多指教。后續(xù)內(nèi)容將會不定期奉上,歡迎大家關(guān)注有三公眾號 有三AI!
總結(jié)
以上是生活随笔為你收集整理的【AI-1000问】为什么深度学习图像分类的输入多是224*224的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 【AI初识境】如何增加深度学习模型的泛化
- 下一篇: 【AI-1000问】为什么LeNet5倒
