【图像分割模型】多感受野的金字塔结构—PSPNet
這是專欄《圖像分割模型》的第6篇文章。在這里,我們將共同探索解決分割問題的主流網絡結構和設計思想。
在分割問題中,上下文信息與多尺度融合對于提高分割精度是十分有效的,今天我們就來談談用于實現這個目標的金字塔池化結構。
作者 | 孫叔橋
編輯 | 言有三
本期論文《Pyramid Scene Parsing Network》
?
1 為什么要用金字塔結構提取特征
從本系列前面的文章我們已經了解到,對于分割任務而言,上下文信息的利用情況對于分割的效果是有明顯影響的。這里我們就具體談談這個影響的原因。
通常來講,我們判斷一個東西的類別時,除了直接觀察其外觀,有時候還會輔助其出現的環境。比如汽車通常出現在道路上、船通常在水面、飛機通常在天上等。忽略了這些直接做判斷,有時候就會造成歧義。比如下圖中,在水面上的船由于其外觀,就被FCN算法判斷成汽車了。
從左到右分別為:圖像、真值、FCN結果和PSPNet結果。
除此之外,由于金字塔結構并行考慮了多個感受野下的目標特征,從而對于尺寸較大或尺寸過小的目標有更好的識別效果。
從左到右分別為:圖像、真值、FCN結果和PSPNet結果。
?
可見,同時考慮不同感受野下的上下文信息是十分必要的。下面我們就一起來具體看一下金字塔池化模型。
?
2 金字塔池化模型
盡管ResNet的感受野在理論上已經可以達到大于輸入圖像尺寸,但是Zhou等人也證明了CNN的經驗感受野實際上比理論值小很多。因此,需要一個更有效的全局先驗的描述方式。
下圖是論文中提出的基于金字塔池化模型的網絡結構。其中,虛線框出來的部分屬于金字塔池化模型。
?
實驗中分別用了1x1、2x2、3x3和6x6四個尺寸,最后用1x1的卷積層計算每個金字塔層的權重,再通過雙線性恢復成原始尺寸。
最終得到的特征尺寸是原始圖像的1/8。最后在通過卷積將池化得到的所有上下文信息整合,生成最終的分割結果。
此外,文中還應用了兩個損失函數,分別用于約束主干分割網絡和校正網絡。以ResNet101為例,損失所處位置如下圖所示。
?
?
3 實驗結果
為了驗證金字塔結構的有效性,PSPNet的作者對其進行了一系列的剝離實驗。具體結果如下表所示:
?
ADE20K數據庫下的分割結果:
?
下圖是PASCAL VOC 2012數據庫下的實驗結果:
?
?
總結
本文我們了解了上下文信息整合的多尺度估計網絡PSPNet和其中的金字塔池化模型。除了同種特征的堆疊,我們還可以利用多特征融合提升分割的效果。下期我們就一起來看一下ParseNet。
本專欄文章:
第一期:【圖像分割模型】從FCN說起
第二期:【圖像分割模型】編解碼結構SegNet
第三期:【圖像分割模型】感受野與分辨率的控制術—空洞卷積
第四期:【圖像分割模型】快速道路場景分割—ENet
第五期:【圖像分割模型】以RNN形式做CRF后處理—CRFasRNN
第六期:【圖像分割模型】多感受野的金字塔結構—PSPNet
第七期:【圖像分割模型】全局特征與局部特征的交響曲—ParseNet
第八期:【圖像分割模型】多分辨率特征融合—RefineNet
第九期:【圖像分割模型】用BRNN做分割—ReSeg
第十期:【圖像分割模型】BRNN下的RGB-D分割—LSTM-CF
第十一期:【圖像分割模型】實例分割模型—DeepMask
第十二期:【圖像分割模型】全景分割是什么?
感謝各位看官的耐心閱讀,不足之處希望多多指教。后續內容將會不定期奉上,歡迎大家關注有三公眾號 有三AI!
?
總結
以上是生活随笔為你收集整理的【图像分割模型】多感受野的金字塔结构—PSPNet的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【GAN优化】GAN优化专栏上线,首谈生
- 下一篇: 【图像分割模型】全局特征与局部特征的交响