单目深度估计梳理(2) -- 多任务篇
前言
參考論文:Mertan A, Duff D J, Unal G. Single image depth estimation: An overview[J]. Digital Signal Processing, 2022: 103441.
這是單目深度估計系列的第二篇文章?;谏厦娴膮⒖颊撐?#xff0c;主要梳理有監督學習的多任務篇。點擊這里查看單目深度估計梳理(1) – 單任務篇~
 文章中的超鏈接點開即為對應論文鏈接~
一、多任務是什么?
上一篇文章我們講了基于單任務的深度估計。那么多任務(Multitasking)又是什么呢?其實,人類本身就是一種多任務的動物。我們會在開車的時候聽音樂,在工作的時候摸魚看知乎… 同樣,我們在深度估計的過程中,也可以讓一個模型“一心二用”。如:將語義分割、表面法線估計和輪廓估計作為輔助任務(auxiliary task)來解決深度估計的任務。
下面我們就來梳理一下基于多任務的單目深度估計工作。
二、基于多任務的單目深度估計
1.Single Image Depth Estimation From Predicted Semantic Labels
Liu et al.在2010年提出將單目深度估計(SIDE)問題與語義分割問題相結合。與試圖直接從外觀特征映射到深度的傳統方法不同,作者首先對場景進行語義分割,并使用語義標簽來指導深度估計。
作者使用兩階段(two-staged)方法。第一階段使用馬爾可夫場(MRF)方法去推斷圖像中每個像素的語義。作者規定了八種語義:天空、樹木、道路、草地、水、建筑物、山脈和前景物體。前七種類別涵蓋了大部分的戶外背景,而最后一個類別是不特定的前景物體:如汽車、路牌、人等。在第二階段,作者使用第一階段預測的語義標簽來進行深度估計。為了充分利用語義信息,這里是為每個語義訓練一個單獨的深度估計器來估計深度。
上圖從左到右依次為原始圖片、語義分割圖、真實深度圖與預測深度圖。
2.Pulling Things out of Perspective
Ladicky et al.觀察到之前的方法不包含透視原理,圖像中對象的外觀由于深度的不同會有很大差異,所以需要對對象的不同深度進行學習。為了克服這個問題,作者利用圖像中像素深度與圖像縮放成反比的原理,得到表達式為:
  H d ( I , i ) = H d / α ( α ? I , α i ) H_ze8trgl8bvbq(I,i) = H_{d/\alpha }(\alpha * I,\alpha i) Hd?(I,i)=Hd/α?(α?I,αi)
其中 i i i為每個像素, α \alpha α為縮放比例, d d d為任意深度, H d ( I , i ) H_ze8trgl8bvbq(I,i) Hd?(I,i)是像素 i i i在圖像 I I I中位于深度 d d d的概率, α ? I \alpha*I α?I是縮放后的圖像。以此為基礎,訓練 L L L個分類器 H d ( I , i ) H_ze8trgl8bvbq(I,i) Hd?(I,i),分類器輸出像素 i i i在圖像 I I I中處于深度 d d d的可能性,并輸出語義分割標簽 l l l。圖像 I I I可被縮放因子 α \alpha α縮放至將像素投影至指定深度 d d d。這樣就可以使用縮放因子計算像素的實際深度。
這樣操作的好處在于,將估計深度和語義類別的聯合問題簡化為待測像素是否具有特定深度和特定類別的簡單問題,讓學習過程只需要針對特定深度,而不是所有深度的所有特征。
3.Towards Unified Depth and Semantic Prediction from a Single Image
Wang et al.嘗試聯合解決SIDE問題與語義分割問題,將這兩個任務集成在一個框架中解決而不是順序的解決它們。
可以看出,網絡由三部分組成。第一部分是全局(Global)CNN,用于像素級深度預測(Pixel potential)和語義標簽預測;第二部分是區域(Region)CNN,用于超像素深度預測(Region potential)和語義標簽預測;第三部分為分層條件隨機場CRF,對像素深度與超像素深度進行refine,聯合訓練,相比單獨訓練分別提高了兩個任務的精確度。
4.Geonet: Geometric neural network for joint depth and surface normal estimation
Qi et al.嘗試聯合解決SIDE問題與表面法線問題,提出了名為GeoNet的網絡。網絡架構如下圖:
此網絡分為兩個部分,第一部分是根據RGB圖片預測初始深度(Initial Depth)和初始表面法線(Initial Normal);第二部分為深度轉法線和法線轉深度網絡,第一部分的輸出就是第二部分的輸入,最終得到refine的深度和表面法線圖。
5.PAD-Net: Multi-Tasks Guided Prediction-and-Distillation Network for Simultaneous Depth Estimation and Scene Parsing
Xu et al.通過預測和組合由互補任務組成的中間輸出,將SIDE問題與表面法線問題結合。主要方法是利用偽多任務輸入來估計每個單一任務,因為多模態輸入網絡優于單一RGB輸入的網絡。網絡架構如下圖:
網絡由兩部分組成。第一部分RGB圖像輸入一個通用的編碼器E,得到特征圖,再經過四個單獨的解碼器輸出像素深度、表面法線、輪廓標簽和分割標簽;第二部分設計了一種蒸餾模型,通過第一階段的輸出分別預測深度與分割。“DECONV”表示用于上采樣和生成任務特定特征圖的反卷積操作。立方體“多模態蒸餾”代表提出的多模態蒸餾模塊,用于融合多個預測以改進最終的主要任務。
6.Joint Task-Recursive Learning for Semantic Segmentation and Depth Estimation
Zhang et al.基本思想也是SIDE與語義分割結合,但與4的設計思想不同。4中的網絡結構為兩個任務共享一部分網絡,下層網絡不同,分別進行各自任務;而本文網絡受人類學習系統啟發,在兩個互補任務間來回交替。
7.Pattern-Affinitive Propagation Across Depth, Surface Normal and Semantic Segmentation
Zhang et al.將SIDE、表面法線估計與語義分割合并在一個網絡中。文章指出了多任務特征學習過程中容易產生歧義,所以在設計的網絡沒有學習所有特征,而是設計一種方法在不同任務之間尋找相似特征。
8.Pattern-Affinitive Propagation Across Depth, Surface Normal and Semantic Segmentation
Chen et al.將非監督SIDE問題與監督語義分割問題,使用改進的網絡利用跨任務特征來提高每個任務的性能。網絡結構:包含一個編碼器E,對圖像生成一個sence
 representation z;然后通過與編碼器skip connection D的解碼器,對sence representation z與任務編碼t,來產生跨模態預測,深度任務編碼是一個只有1的層,語義分割任務編碼是一個只有0的層。不同任務使用相同的解碼器,以便更好地共享特征。最后將逐像素平均池化與softmax用于跨模態預測,來獲得語義分割概率與深度圖。
三、總結
下圖為多任務的相關論文總結表格:
可以看出,在多任務單目深度估計中,主要聯合的是語義分割、表面法線估計這兩個任務,baseline基本為ResNet,且通常為兩階段網絡。
總結
以上是生活随笔為你收集整理的单目深度估计梳理(2) -- 多任务篇的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 20新闻与传播考研视频资料持续更新中
- 下一篇: “初链”主网上线解析之“初始化”
