OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks
可以參考博文:http://blog.sciencenet.cn/blog-1583812-844178.html
(大概了解一下,沒仔細看)
文章發表在ICLR2014,yan Lecun實驗室。提出了一個用卷積網絡進行分類、定位和檢測的聯合框架。介紹了如何在一個ConvNet中有效實現多尺度和滑動窗口。為提高檢測的置信度,bounding box被累積而不是抑制。文章表明不同任務能夠在一個共享網絡中同時學習。該集成框架在ILSVRC2013中成為winner,得到了檢測和分類任務近似最好的性能。最后,文章從最好的模型中析取出一個特征提取器稱為overfeat。
盡管ImageNet dataset的圖像大多近似以對象為中心,并占圖像的大部分空間。但是感興趣的對象在一張圖像中有時在size和position上有很大變化。有三種思想進行處理:一種是,在圖像中以滑動窗口和多尺度的方式在圖像的多個位置應用ConvNet。這種方法的一個問題是,一些視覺窗口可能包含的是對象的完美可識別部分(比如狗的頭),而不包含整個圖像或者不以對象為中心。第二種想法是,訓練的系統不僅對每個窗口產生類別分類,而且產生包含對象的boundong box的位置和大小。第三個想法是對每個位置和大小的每個類別置信度進行累積。
3 分類
3.1 模型設計和訓練
每個圖像被降采樣成短邊為256個像素,抽取5個大小為221*221的crops,并且進行水平翻轉,mini-batches size:128。權重隨機初始化:均值0,方差0.01.隨著SGDgen更新,momentum:0.6,l2權重衰減:0.00001.學習率初始為0.05,在(30,50,60,70,80)后通過因子0.5衰減。dropout ratio 0.5應用到最后的全連接層(6th,7th)。網絡結構如下:
值得注意的是,相比較于產生空間輸出的inference step,作者把這個結構看成是非空間的(output map是1*1的)。1-5層和Krizhevsky et al.[11]相似,都采用ReLu和max pooling,但是有以下不同:(1)沒有使用對照規則化;(2)池化區域是非重疊的;(3)由于較小的Stride(2而不是4),1和2層有較大的feature map,大Stride對速度有益,但是會損害精度。
3.2 Multi-scale classification
在[11]中,多角度投票能夠提高性能,10個角度(四個角及中心,和水平翻轉)。這種方法不僅會忽略圖像的某些區域,而且如果視角重疊,會造成計算冗余。另外,只應用在單個scale上,這個尺度可能不能使ConvNet產生最優的置信度。然而,作者在整個圖像的每個位置和多個尺度上稠密運行網絡。盡管滑動窗口的方法對某些類型的模型在計算上是不允許的,但是,這種方法明顯產生了更多的投票角度,在保持計算效率的同時增加了魯棒性。在每一個尺度下,一個任意大小的圖像運行ConvNet的結果是一個C維的空間Map.
網絡整體采樣率是2*2*3*3=36(其中第一個2,是由conv1的stride 2引起的,其他的是pooling層的作用)。因此,當稠密應用網絡的時候,該結構能夠沿著每一個軸為輸入維度上36個像素產生一個分類向量。這種粗糙的輸出分布相比較于10視角的機制性能有很大的下降,因為這種網絡窗口不能很好的和圖像中的對象對齊。網絡窗口和對象對齊越好,網絡響應的置信度就越高。為了解決這個問題,作者采用[6]提供的方法避免了最后一個降采樣操作,產生的降采樣率是x12,而不是x36。
分辨率增廣細節(下圖非常詳細):
a)給定image,給定scale,從unpooled layer 5 feature map 開始;
b)每個unpooled map進行3x3 max pooling(non-overlapping),repated 3x3 次對offset {0,1,2}
c)對不同的x,y offset 組合,重復3x3次產生了pooled map集合;
d)分類器(layer 6,7,8)的固定輸入大小是5x5,產生C-dimensional output vector 對一個pooled maps。
e)不同的x,y offset組合被reshape成3D output map.
總結
以上是生活随笔為你收集整理的OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: VERY DEEP CONVOLUTIO
- 下一篇: DeepReID (2014 CVPR)