Depth-aware CNN
Depth-aware CNN
- 摘要:
- Depth-aware Convolution
- Depth-aware Average Pooling
- RGB-D Semantic Segmentation Result
- 性能分析
- 模型復雜性和運行時分析
- 總結
摘要:
- 通過利用CNN內核處理空間信息的本質,深度圖像中的幾何體能夠無縫地集成到CNN中。
- depth-aware CNN不向傳統CNN中引入任何參數和計算復雜性。
- depth-aware convolution和depth-ware average pooling可以以最小的成本取代傳統CNN中的標準卷積和池化。
depth-aware convolution 中信息傳播的插圖
如圖,Input Feature的濾波器窗口大小為3×3。在圖中所示的深度相似性中,較暗的顏色表示較高的相似性,而較淺的顏色表示兩個像素的深度較不相似。在(a)中,Depth-aware Convolution的輸出激活是深度相似性窗口和輸入特征映射上的卷積窗口的乘法。與卷積中心具有相似深度的像素將在卷積期間對輸出產生更大的影響。類似地,在(b)中,Depth-aware Average Pooling合并的輸出是由深度相似性加權的輸入窗口的平均值。
Depth-aware Convolution
標準2D卷積運算是局部網格的加權和。
其中R是x中p0周圍的局部網格,w是卷積內核。R可以是普通卷積核和膨脹卷積定義的規則網格,也可以是非規則網格。
如圖,A和C同屬于Table,B屬于Chair,它們在RGB圖像中都具有相似的視覺特征,而它們在深度上是可分離的。Depth-aware CNN在卷積和池化時包含像素間的幾何關系。 當A是濾波器窗口的中心時,C對輸出單元的貢獻大于B。
為了利用像素之間的深度相關性,Depth-aware Convolution簡單地添加深度相似性項,從而在卷積中產生兩組權重:
1) 學得的卷積核www
2) 兩個像素之間的深度相似度FDF_DFD?
因此,公式(1)可以寫成如下方式:
FDF_DFD?的形式:
aaa是一個常量,FDF_DFD?的選擇基于直覺,即具有相似深度的像素應該彼此具有更大的影響.
注意:FDF_DFD?部分在反向傳播期間不需要梯度,因此公式(2)并沒有通過相似性項引入任何參數。
正如圖一(a)所示,與卷積中心具有相似深度的像素將在卷積期間對輸出產生更大的影響。
Depth-aware Average Pooling
傳統的average pooling計算網格R相對于x的平均值。 它被定義為
對于每個像素位置p0,Depth-aware Average Pooling操作然后變為
反向傳播過程中,梯度應該乘上 ,正如圖一(b)所示,這種操作避免了標準池化的固定幾何結構。
RGB-D Semantic Segmentation Result
NYUv2
SUN-RGBD
性能分析
為了更好地理解Depth-aware CNN如何優于baseline,我們可視化圖6(a)中每個語義類的IoU改進。 統計表明,D-CNN在大多數物體類別上都優于baseline,特別是天花板和窗簾等大型物體。 此外,我們觀察到深度感知的CNN具有比baseline更快的收斂,尤其是從頭開始訓練。 圖6(b)顯示了訓練步驟的訓練損失演變。 我們的網絡損失值低于baseline。 深度相似性有助于保留邊緣細節,然而,當深度值在單個對象中變化時,深度感知的CNN可能丟失上下文信息。 一些失敗案例可以在補充材料中找到。
模型復雜性和運行時分析
表11報告了D-CNN的模型復雜性和運行時間以及最先進的方法[27]。 在他們的方法中,kNN至少需要O(kN)運行時間,其中N是像素的數量。 我們利用原始深度輸入的網格結構。 如表11所示,深度感知操作不包含任何新參數。 網絡前進時間僅略大于其基線。 在不增加任何模型參數的情況下,D-CNN能夠有效地將幾何信息合并到CNN中。
總結
通過兩個操作引出了Depth-aware CNN:Depth-aware Convolution和Depth-aware Average Pooling(在深度圖上算一個深度相似性,把深度相似性作為一個權重)FDF_DFD?。在不引入任何參數和計算復雜性的情況下,該方法能夠大幅提高基線上RGB-D分割的性能。
總結
以上是生活随笔為你收集整理的Depth-aware CNN的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Graph Neural Network
- 下一篇: 哪吒:猪八戒十年DevOps演进之路