Large Kernel Matters
Large Kernel Matters
論文信息
論文地址:Large Kernel Matters ——Improve Semantic Segmentation by Global Convolutional Network
發表日期:8 Mar 2017
創新點
提出全局卷積網絡(Global Convolutional Network,GCN),用以同時提高語義分割中分類和定位的準確度。
提出Boundary Refinement block(BR), 用以提高物體邊界的定位。
思想
在語義分割中,有兩個任務,一個是對像素進行分類,一個是對像素進行定位。這兩個任務通常是矛盾的:對于分類任務而言,模型需要對各種變換(比如旋轉和平移)具有不變形,但是對于定位任務而言,模型又必須對各種變換保持敏感,因為每個像素都需要在正確的位置上進行分類。
現在很多語義分割方法的主要目標是為了定位,比如下圖B所示,這可能會降低分類性能。因此本文提出了GCN來解決以上的矛盾,同時改善分類和定位的性能,如下圖C。
基于以上的討論,本文提出了模型的設計思路:
從定位角度出發,模型使用FCN來保持位置信息,不使用全連接層或者global pooling,因為這些操作會喪失定位信息。
從分類角度出發,網絡應該使用大卷積核,這樣能夠使分類器具備更強的分類能力來應對各種變換。
使用Boundary Refinement block來進行邊界對齊,該模塊使用殘差結構。
模型
1.GCN
作者發現,目前state-of-the-art的語義分割方法的設計都是為了更好地進行定位,這在某種程度上可能會降低分類的效果。而分類效果變差可能由于感受野造成的。作者舉了個例子,如下圖所示,當分類器有效感受野(注意這里的有效感受野不同于感受野。有效感受野的概念來自于論文:Object detectors emerge in deep scene cnns ,這篇論文中稱,盡管GoogleNet和ResNet等深度網絡的感受野通常都大于原圖,但網絡只能在感受野的一個很小區域獲得有效信息,稱為有效感受野)足以覆蓋整個物體的時候,這時候分類器可能可以正確地分類,但是當圖像的尺度變大的時候,這個時候有效感受野就會覆蓋不了整個物體,這對分類是非常不利的。
基于此,作者提出,網絡設計要使用FCN,不能使用fully-connected layer或者global pooling,否則喪失位置。另外,卷積的kernel size越大越好。但是越大的卷積核,計算量也越大,所以作者提出使用1xk+kx1和kx1+1xk的卷積組合,這相當于連接了feature map的kxk大小的區域。另外值得注意的是,這里的卷積之后并沒有使用非線性激活函數。
2.整體框架
整體框架如下圖所示:
從圖中可以看到幾點:
基礎網絡使用了ResNet作為特征提取,使用FCN作為語義分割的框架。
使用了ResNet中不同stage的feature map,因此是多尺度架構。
GCN模塊則用于產生低分辨率的的score map,并上采樣與更高分辨率的score map加和產生新的score map。
經過最后的上采樣,就輸出了預測結果。
另外,需要注意的是,在整個網絡中還加入了很多Boundary Refinement ,這種結構如下圖:
可見這是一種殘差連接結構。頂部的wxhx21是一種粗粒度的score map,側邊的殘差連接可以對boundary進行refine。兩者加和就可以達到Boundary Refinement。
實驗
作者進行了很多實驗,這里只列出PASCAL VOC 2012的一些可視化結果,更多實驗結果請參看原文。
總結
以上是生活随笔為你收集整理的Large Kernel Matters的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Pyramid Scene Parsin
- 下一篇: 深度学习目标检测相关论文资源合辑