U-net:实用图像分割、特征提取深度框架
理解參考:https://blog.csdn.net/hduxiejun/article/details/71107285
原文參考:
1.U-Net: Convolutional Networks for Biomedical Image Segmentation (MICCAI2016)
2.Image Deformation Using Moving Least Squares
主要學習兩點:
1.網絡框架:用于圖像分割以及特征提取
2.數據增強:學習平移不變性、學習形變deformation不變性
1.U-net框架
在深度學習應用到計算機視覺領域之前,人們使用 TextonForest 和 隨機森林分類器進行語義分割。卷積神經網絡(CNN)不僅對圖像識別有所幫助,也對語義分割領域的發展起到巨大的促進作用。
語義分割任務最初流行的深度學習方法是圖像塊分類(patch classification),即利用像素周圍的圖像塊對每一個像素進行獨立的分類。使用圖像塊分類的主要原因是分類網絡通常是全連接層(full connected layer),且要求固定尺寸的圖像。
2014 年,加州大學伯克利分校的 Long 等人提出全卷積網絡(FCN),這使得卷積神經網絡無需全連接層即可進行密集的像素預測,CNN 從而得到普及。使用這種方法可生成任意大小的圖像分割圖,且該方法比圖像塊分類法要快上許多。之后,語義分割領域幾乎所有先進方法都采用了該模型。
除了全連接層,使用卷積神經網絡進行語義分割存在的另一個大問題是池化層。池化層不僅擴大感受野、聚合語境從而造成了位置信息的丟失。但是,語義分割要求類別圖完全貼合,因此需要保留位置信息。本文介紹一種編碼器-解碼器結構。編碼器逐漸減少空間維度,解碼器逐步修復物體的細節和空間維度。編碼器和解碼器之間通常存在快捷連接,因此能幫助解碼器更好地修復目標的細節。U-Net 是這種方法中最常用的結構。
卷積層的數量大約在20個左右,4次下采樣,4次上采樣。輸入圖像大于輸出圖像,因為在本論文中對輸入圖像做了鏡像操作。
結果:
如上圖所示,對輸入圖像的四周做了鏡像操作,其輸入圖像的大小為572*572,整個網絡越有20個卷積層,輸出圖像的大小小于輸入圖像的大小。
2.U-net使用的數據增強技術
- 作者采用“滑動最小二乘法”進行deformation變化,從而使得網絡學習到deformation不變性
- 作者采用高斯權重的距離偏移設置,從而使得網絡學習到translation不變性
3.U-net在標簽數據處理的特異之處
為了最大限度的使用GPU顯存,比起輸入一個大的batch size,作者更傾向于輸入整張圖像。此外作者使用了很高的momentum(0.99)。最后一層使用交叉熵函數與softmax(交叉熵函數如下所示):
為了使某些像素點更加重要,我們在公式中引入了w(x)。我們對每一張標注圖像預計算了一個權重圖,來補償訓練集中每類像素的不同頻率,使網絡更注重學習相互接觸的細胞之間的小的分割邊界。我們使用形態學操作計算分割邊界。權重圖計算公式如下:
wc是用于平衡類別頻率的權重圖,d1代表到最近細胞的邊界的距離,d2代表到第二近的細胞的邊界的距離。基于經驗我們設定w0=10,σ≈5像素。網絡中權重的初始化:我們的網絡的權重由高斯分布初始化,分布的標準差為(N/2)^0.5,N為每個神經元的輸入節點數量。例如,對于一個上一層是64通道的3*3卷積核來說,N=9*64
總結
以上是生活随笔為你收集整理的U-net:实用图像分割、特征提取深度框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 水滴石穿C语言之正确使用const
- 下一篇: 用汇编写系统服务程序