當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Large Kernel Matters

發布時間：2025/3/20 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 Large Kernel Matters 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Large Kernel Matters

論文信息

論文地址：Large Kernel Matters ——Improve Semantic Segmentation by Global Convolutional Network

發表日期：8 Mar 2017

創新點

提出全局卷積網絡（Global Convolutional Network，GCN），用以同時提高語義分割中分類和定位的準確度。
提出Boundary Refinement block（BR）, 用以提高物體邊界的定位。
思想

在語義分割中，有兩個任務，一個是對像素進行分類，一個是對像素進行定位。這兩個任務通常是矛盾的：對于分類任務而言，模型需要對各種變換（比如旋轉和平移）具有不變形，但是對于定位任務而言，模型又必須對各種變換保持敏感，因為每個像素都需要在正確的位置上進行分類。

現在很多語義分割方法的主要目標是為了定位，比如下圖B所示，這可能會降低分類性能。因此本文提出了GCN來解決以上的矛盾，同時改善分類和定位的性能，如下圖C。

基于以上的討論，本文提出了模型的設計思路：

從定位角度出發，模型使用FCN來保持位置信息，不使用全連接層或者global pooling，因為這些操作會喪失定位信息。
從分類角度出發，網絡應該使用大卷積核，這樣能夠使分類器具備更強的分類能力來應對各種變換。
使用Boundary Refinement block來進行邊界對齊，該模塊使用殘差結構。
模型

1.GCN

作者發現，目前state-of-the-art的語義分割方法的設計都是為了更好地進行定位，這在某種程度上可能會降低分類的效果。而分類效果變差可能由于感受野造成的。作者舉了個例子，如下圖所示，當分類器有效感受野（注意這里的有效感受野不同于感受野。有效感受野的概念來自于論文：Object detectors emerge in deep scene cnns ，這篇論文中稱，盡管GoogleNet和ResNet等深度網絡的感受野通常都大于原圖，但網絡只能在感受野的一個很小區域獲得有效信息，稱為有效感受野）足以覆蓋整個物體的時候，這時候分類器可能可以正確地分類，但是當圖像的尺度變大的時候，這個時候有效感受野就會覆蓋不了整個物體，這對分類是非常不利的。

基于此，作者提出，網絡設計要使用FCN，不能使用fully-connected layer或者global pooling，否則喪失位置。另外，卷積的kernel size越大越好。但是越大的卷積核，計算量也越大，所以作者提出使用1xk+kx1和kx1+1xk的卷積組合，這相當于連接了feature map的kxk大小的區域。另外值得注意的是，這里的卷積之后并沒有使用非線性激活函數。

2.整體框架

整體框架如下圖所示：

從圖中可以看到幾點：

基礎網絡使用了ResNet作為特征提取，使用FCN作為語義分割的框架。
使用了ResNet中不同stage的feature map，因此是多尺度架構。
GCN模塊則用于產生低分辨率的的score map，并上采樣與更高分辨率的score map加和產生新的score map。
經過最后的上采樣，就輸出了預測結果。
另外，需要注意的是，在整個網絡中還加入了很多Boundary Refinement ，這種結構如下圖：

可見這是一種殘差連接結構。頂部的wxhx21是一種粗粒度的score map，側邊的殘差連接可以對boundary進行refine。兩者加和就可以達到Boundary Refinement。

實驗

作者進行了很多實驗，這里只列出PASCAL VOC 2012的一些可視化結果，更多實驗結果請參看原文。

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的Large Kernel Matters的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Pyramid Scene Parsin
下一篇：深度学习目标检测相关论文资源合辑

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

Large Kernel Matters

總結