【图像分割模型】全局特征与局部特征的交响曲—ParseNet
這是專欄《圖像分割模型》的第7篇文章。在這里,我們將共同探索解決分割問題的主流網絡結構和設計思想。
盡管多尺度融合、空洞卷積都可以增加網絡的感受野,但理論感受野與實際感受野仍然存在差異。那么如何真正利用圖像的全局信息呢?ParseNet告訴你。
作者 | 孫叔橋
編輯 | 言有三
本期論文《ParseNet: Looking Wider to See Better》
?
1 理論感受野是真的嗎?
相信通過前面幾篇介紹上下文信息整合的文章,大家已經能夠體會到感受野對于分割網絡效果的影響有多么巨大了。簡單來說,感受野越大,網絡所能“看見”的區域就越大,從而能夠用于分析的信息就更多。由此,分割的效果也很有可能更好。
基于這種考慮,許多算法嘗試通過改變自身網絡結構設計來增大網絡的理論感受野,認為這樣就能夠為網絡帶來更多的信息。盡管理論感受野的增大的確能夠增加網絡所獲取的上下文信息,但是,理論感受野難道真的就代表了算法實際看見的區域嗎?
在實際應用中,許多方法的理論感受野是很大的。比如前面文章中介紹過的帶VGG的FCN網絡中的fc7層,其理論感受野為404x404像素。但是,實驗卻證明,其并沒有辦法看到這么大的區域。
比如,ParseNet的作者做了這樣一個實驗,即破壞圖像中一個隨機區域中的信息,以此來觀察網絡的輸出結果是否依賴于這個區域。結果如下圖所示:
?
從左到右分別為:圖像、熱度圖、理論感受野和實際感受野。
由此可以看出,網絡實際上能夠覆蓋的區域也就能達到整圖的1/4左右,遠遠沒有達到理論感受野的尺寸。那么究竟該如何利用全部的圖像上下文信息呢?ParseNet提出了一種融合全局信息與局部信息的方法,下面來具體介紹一下。
?
2 全局特征的提取與融合
如下圖所示,ParseNet通過全局池化提取圖像的全局特征,并將其與局部特征融合起來。
?
這種融合在過程中需要考慮兩個主要問題:融合的時機與尺度的歸一化。
(1) 融合時機
直觀上理解,全局特征與局部特征的融合可以發生在兩個節點:分別是訓練分類器之前(early fusion)和訓練分類器之后(late fusion)。其中,前者是將兩個特征融合后,作為一個整體共同送入分類網絡,訓練分類器;后者則是以兩個特征為輸入,分別訓練其對應的分類器,最后再將分類的結果整合。
如果忽略結合特征后的訓練過程,那么這兩種融合的時機的鮮果是差不多的。但是,在某些情況下,只有全局特征輔助下的局部特征才能夠判斷出正確的分類結果;此時,如果兩個特征分別訓練再整合,那么這種情況下的分割損失是不可逆的,也就是說,這些情況下的分類將不正確。
當然,這兩種方法在實際應用過程中是可以實現相似的結果的,但是late fusion需要進行歸一化。
(2) 歸一化
如下圖所示,不同層之間的特征的尺度是不同的,而且這種不同可能很顯著。(不同顏色代表不同層上的特征)
很顯然,這些特征的尺度(scale)和范數(norm)是不同的。如果直接將這些特征級聯起來會造成大特征控制小特征,使分割效果變差。盡管在訓練過程中,網絡的權重可能會對這種情況進行調整,但是這要求非常小心的調參和數據庫選取。
?
因此,ParseNet利用了L2范數來歸一化特征的融合過程。具體而言,給定d維輸入x,算法通過計算其L2范數并在整個維度內實現歸一化。
此外,如果只是單純地對所有輸入層進行歸一化,不僅會減慢網絡的訓練速度,同時也會改變該層的尺度。因此,還需要對其增加一個尺度參數gamma,將歸一化的結果進行尺度縮放(縮放結果為y)。
這一過程增加的參數量等于所有的通道數之和,因此在反向傳播過程中是可以忽略的。具體的反向傳播公式如下:
?
?
3 實驗結果
下表是ParseNet在PASCAL VOC2012下的數據結果和與其他算法的比較:
?
其效果與DeepLab-LargeFOV相近。
下圖是全局特征有助于分割結果的示例:
?
從左到右分別為:圖像、真值、對比基準和ParseNet。
盡管總體而言,引入更多的上下文信息有助于分割。但是有時候,引入全局信息也可能給分類造成不好的影響,比如下圖所示,從左到右分別是原圖,真值,FCN以及ParseNet。
?
?
總結
本文我們了解了全局信息該如何使用、該注意什么問題。下篇文章我們來看看RefineNet中是如何用殘差校正進一步提高分割效果的。今天的分享就是這樣啦,下回見。
本專欄文章:
第一期:【圖像分割模型】從FCN說起
第二期:【圖像分割模型】編解碼結構SegNet
第三期:【圖像分割模型】感受野與分辨率的控制術—空洞卷積
第四期:【圖像分割模型】快速道路場景分割—ENet
第五期:【圖像分割模型】以RNN形式做CRF后處理—CRFasRNN
第六期:【圖像分割模型】多感受野的金字塔結構—PSPNet
第七期:【圖像分割模型】全局特征與局部特征的交響曲—ParseNet
第八期:【圖像分割模型】多分辨率特征融合—RefineNet
第九期:【圖像分割模型】用BRNN做分割—ReSeg
第十期:【圖像分割模型】BRNN下的RGB-D分割—LSTM-CF
第十一期:【圖像分割模型】實例分割模型—DeepMask
第十二期:【圖像分割模型】全景分割是什么?
感謝各位看官的耐心閱讀,不足之處希望多多指教。后續內容將會不定期奉上,歡迎大家關注有三公眾號 有三AI!
?
總結
以上是生活随笔為你收集整理的【图像分割模型】全局特征与局部特征的交响曲—ParseNet的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【图像分割模型】多感受野的金字塔结构—P
- 下一篇: 【图像分割应用】医学图像分割(一)——脑