视角不平衡立体匹配研究
?PaperWeekly 原創 · 作者|張承灝
學校|中科院自動化所碩士生
研究方向|場景感知和深度估計
一個典型的立體視覺系統通常包括一臺具有左右兩個攝像頭的攝像機,兩個攝像頭在同一水平線上、同一時刻成像,得到左右兩個視角的 RGB 圖像。利用立體匹配(stereo matching)算法可從來自左右視角的兩幅 RGB 圖像中得到用于三維場景重建的深度信息。
無論是傳統算法還是基于深度學習的算法,大多數研究是基于平衡視角的立體匹配,即左右視角圖像是由具有相同相機內參的攝像頭,同時成像的 RGB 圖像。
近來,不少研究開始關注不平衡視角的立體匹配。根據左右視角圖像的不同,已有的研究工作可以分為以下幾類:
經典的立體匹配:左右圖是相同相機,同時成像的 RGB 彩色圖像;
跨譜立體匹配:左圖是可見光 RGB 彩圖,右圖是紅外圖像;
視覺不平衡立體匹配:左圖是高質量的 RGB 圖像,右圖是低質量的 RGB 圖像;
長短焦立體匹配:左圖是短焦距、寬視角 RGB 圖像,右圖是長焦距、窄視角 RGB 圖像;
本文主要介紹后面三類的代表性研究工作。
跨譜立體匹配
論文標題:Unsupervised Cross-spectral Stereo Matching by Learning to Synthesize
論文來源:AAAI 2019
論文鏈接:https://arxiv.org/abs/1903.01078
1.1 概述
多攝像頭多光譜系統在很多現代設備中變得十分普遍,并且紅外圖像對于人臉識別,目標檢測和場景解析等領域具有很大的幫助。因此,跨譜立體匹配具有很大的研究價值。
如上圖所示,跨譜立體匹配指的是左圖是可見光圖像(a),右圖是近似紅外圖像(b)。跨譜立體匹配的挑戰在于兩方面:一是可見光圖像和紅外圖像在視覺外觀上具有很大的差異,例如(c)中顯示的衣服,燈光和草坪。二是跨譜圖像的真實視差往往難以獲取。本文采用 cycleGAN 以無監督學習的方式來實現不平衡視角的跨譜立體匹配。
1.2 方法
上圖是跨譜立體匹配的總體框架圖。網絡分為兩個部分,一是譜變換網絡 STN,從 cycleGAN 改進得到,用來將可見光左圖和紅外右圖變換到可見光右圖和紅外左圖。二是立體匹配網絡 SMN,從 DispNet [1] 改進得到,利用變換得到的可見光右圖和紅外左圖估計左右圖視差。下面重點介紹這兩個網絡,核心是損失函數的設計。
譜變換網絡STN
給定來自譜 A(可見光)的圖像 , 和譜 B(紅外)的圖像 , 首先定義三種映射:
其中 F 將 編碼到一個統一的特征空間 , 和 分別是將特征解碼到相應譜得到圖像的生成器。, 和 由對抗損失和循環重構損失監督。其中對抗損失由兩個判別器 和 給定,判別器用來鑒別生成圖像的真偽。
對于判別器的訓練:對 采用分類損失,以判斷生成的譜 A 的圖像是真是假,對于 同理,因此訓練判別器的損失為:
對于生成器的訓練:采用對抗損失和循環重建損失。對抗損失用來迷惑判別器,通過最大化判別器的分類誤差,生成器的對抗損失為:
生成器的循環重建損失為:
其中 是 ,而 是 。即衡量的是譜 A 圖經過 STN 變換到譜 B 后,再經過 STN 變換回譜 A 后的重建誤差。
為了保證 將圖像映射到相同的隱含語義特征空間,并防止 STN 學習視差,作者引入一個輔助的重構損失:
其中 是 , 是 。那么,最終對于生成器和判別器的損失可以總結為:
跨譜立體匹配網絡SMN
跨譜立體匹配網絡 SMN 采用經典的 DispNet,同時估計以左右圖為參考圖像的視差 和 ,其采用 [2] 中介紹的三種無監督損失函數,即外觀匹配損失(appearance matching,ap),視差平滑損失(disparity smoothness,ds)和左右一致性損失(left-right consistency,lr)。
關于這三種函數的詳細介紹以及更多無監督損失函數,可以參考之前的文章雙目深度估計中的自監督學習概覽。
為了進一步提升性能, 作者還引入了一個輔助損失來訓練 STN:
其中 ,, 是 warping 操作 。該損失函數衡量的是原圖經過 STN 變換后得到的圖像,與 SMN 得到的視差經過變形重構后的圖像的誤差。
迭代優化
為了訓練整個網絡,作者采用的是分步迭代優化的策略,具體的步驟如上圖所示。第 (1) 步,通過判別器損失 來訓練判別器 D,從而使得判別器能夠鑒別真假圖像。第 (2) 步,通過生成器損失訓練 F 和 G 網絡。
第 (3) 步,通過 訓練立體匹配網絡。第 (4) 步,通過 對 F 和 G 網絡進行全局優化。先只使用第 (1) 和第 (2) 步對整個網絡進行幾個 epoch 的預熱訓練,之后將四個步驟一起用于進一步的訓練。
1.3 實驗
作者采用的數據集是 2018 年提出的 PittsStereo-RGBNIR 數據集,它的圖像對是由一個可見光相機和一個近似紅外相機對采集的。評測指標采用的是均方誤差 RMSE。上圖是和其他方法的對比以及作者的消融實驗。
可以看到完整的方法在 lights, glass, glossy,surface 和 bag 類別上取得了最好的性能,但是在其他類別上稍遜一籌。作者也坦言通過 STN 依然很難在 clothing 這個類別上進行可見光和紅外圖像之間變換,也許之后的研究可以專門針對這個問題來設計更好的方法。
1.4 延伸
類似采用 GAN 來實現兩個領域數據變換的方法還有今年 CVPR 提出的 StereoGAN,它采用 cycleGAN 來解決域自適應立體匹配,大家有興趣可以對照著閱讀。
論文標題:StereoGAN: Bridging Synthetic-to-Real Domain Gap by Joint Optimization of Domain Translation and Stereo Matching
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2005.01927
視覺不平衡立體匹配
論文標題:Visually Imbalanced Stereo Matching
論文來源:CVPR 2020
論文鏈接:http://openaccess.thecvf.com/content_CVPR_2020/papers/Liu_Visually_Imbalanced_Stereo_Matching_CVPR_2020_paper.pdf
開源代碼:https://github.com/DandilionLau/Visually-Imbalanced-Stereo
2.1 背景
現代智能手機中普遍采用雙攝相機(dual-lens),雙攝的組合可以是彩色+彩色,彩色+黑白等。本文考慮的組合是視覺質量不平衡的雙攝,即高分辨率的主相機(master camera)和低分辨率的從相機(slave camera)的立體匹配。
其實無論是人眼視覺系統或者計算機視覺系統,在進行立體匹配時對低分辨率的圖像都具有一定的魯棒性。即使右圖比較模糊,立體匹配算法也能較好的估計視差。畢竟很多算法采用多尺度匹配策略,圖像通常先降到較低的分辨率提取特征,再逐漸由粗到精恢復原分辨率的視差圖。
那么現在的一個問題是當右圖模糊到什么程度時,立體匹配算法會失效?作者首先進行了一個實驗,將右圖先下采樣多倍再上采樣恢復,以模糊圖像。下圖是對經典的傳統方法和深度學習方法進行評測的結果。
由上圖可以看出隨著模糊程度的加深,傳統算法和深度學習算法的錯誤率都逐漸增大。以單目左圖作為輸入構建各個模型的 baseline,這里紅色標注的是性能低于 baseline 的拐點。這說明對于多數方法:
當模糊 5 倍以下時,右圖仍然能夠為雙目視差估計提供有用的信息,從而高于單目 baseline 的性能。
當模糊大于 8 倍時,立體匹配算法失效,過于模糊的圖像對于雙目視差估計弊大于利,不如直接輸入高分辨率的左圖。
下面的曲線圖便于更直接的觀察,以得出上述結論。
2.2 方法
為了解決左右視角在視覺質量上的不平衡問題,作者提出兩步走的方法。
引導視角合成:利用高分辨率的左圖作為引導,先恢復低分辨率的右圖。該做法的依據是,盡管低分辨率的右圖十分模糊,但是目標粗略的邊緣輪廓信息仍然可以識別,通過左右圖在邊緣輪廓信息上的匹配,將左圖的紋理移位到匹配的右圖區域,就能恢復清晰的右圖。
視差重構:利用原始左圖和恢復后的右圖進行立體匹配。
動態移位濾波層
上圖展示了引導視角合成的原理。我們可以通過引導視角合成網絡來學習左右圖在邊緣輪廓上的匹配情況,從而生成一個水平方向的濾波器 和一個豎直方向的濾波器 ,大小分別是 和 ,用來表示右圖相對于左圖的偏移。
為了減少內存占用量,這里采用兩個一維濾波器的組合而不是學習一個二維濾波器。之后利用高質量的左圖作為參考,利用 和 的移位信息,即可將左圖的紋理在二維空間上移位,得到高質量的右圖。
上述過程可用公式表示為:
其中 和 分別是網絡預測得到的一維線性偏移濾波器,它們倆的內積可以近似表示二維線性偏移濾波器, 是左圖的圖像塊。以此操作可以得到恢復的高質量右圖 。
深度引導濾波層
為了進一步的優化邊緣信息,可以采用左圖中的目標形狀知識來對 和 進行引導濾波。原始的引導濾波算法(Guided Image Filtering)是何愷明在 2013 年的 PAMI 上提出的。這是一個在引導圖像 和濾波輸出 之間的局部線性模型:
其中 是以像素 為中心的局部窗口,線性系數 是窗口 內的常數。這個局部線性模型確保輸出 有邊緣當且僅當 有邊緣。并且,濾波輸出 應當與輸入 相似,通過最小化下述公式:
這里 是一個正則化參數。在本文中,作者以左圖作為引導 , 以濾波體 的第 d 個切片作為輸出 ,那么線性變換可以寫作:
作者采用引導濾波的加速的,完全可導的版本——深度引導濾波,作為 和 的位移學習的最后一層網絡。
視覺不平衡立體匹配網絡
上圖是整個視覺不平衡立體匹配網絡的框架圖,主要包含上半部的引導視角合成網絡和下半部的視差重構網絡。
具體地,高質量的左圖和低質量的右圖作為引導視角合成網絡的輸入,其結構類似于 U-Net 的編碼-解碼結構。在輸出部分采用深度引導濾波層分別學習兩個一維偏移濾波器,它們通過動態移位濾波層相組合,從而近似估計二維偏移濾波器。
根據左圖與移位濾波器的點乘組合重構高質量的右圖。由于偏移濾波器的真值很難獲得,因此這里并沒有對中間產生的偏移濾波器進行顯示地監督。引導視角合成網絡的損失函數包括圖像層面的光度損失和特征層面的感知損失。二者的表達式分別為:
圖像光度損失:
特征感知損失:
這里 表示 VGG-19 的第 j 個卷積層特征圖,而 分別是特征圖的數量,高度和寬度。
視差重構網絡采用帶有相關層的 DispNet [1]?結構,以高質量的左圖和恢復的右圖作為輸入進行視差估計,最后采用多尺度的 L1 范式進行有監督回歸學習。
2.3 實驗
作者以 KITTI Raw Data 作為訓練,在 KITTI 2015 上評測,以光度評測指標 PSNR 和 SSIM 來評估引導視角合成網絡,以 D1 指標評估視差估計網絡,主要實驗了三種不平衡因素下的性能:
單目模糊(Monocular Blur):10 倍,15 倍和 20 倍;
整流誤差(Rectification Error):最大程度為 0.5 和 1.0;
設備噪聲(Sensor Noise):高斯模糊方差為 0.5 和 1.0;
上圖展示了這三種不平衡因素的視差估計結果,(a) 中從上至下是 10X 模糊,15X 模糊, 噪聲, 噪聲,10X 模糊 +0.5 整流誤差,10X 模糊 +1.0 整流誤差。(b)、(c)、(d) 分別是 PSMNet,CRL 以及 DORN 等 SOTA 方法,(e) 本文的方法。
可見,所提出的引導視角生成方法對于各種不平衡因素都具有魯棒性,能夠獲得較為準確的視差圖。更多定量和定性的實驗結果可參考原論文。
長短焦立體匹配
論文標題:TW-SMNet: Deep Multitask Learning of Tele-Wide Stereo Matching
論文鏈接:https://arxiv.org/abs/1906.04463
3.1 概述
雙目視覺系統為了更好地對環境感知,會采用焦距不同的兩個相機相互輔助。這里根據視野(field of views,FOV)大小不同可以得到對前后景的不同感知。
例如,左圖是寬視野(wide FOV,WFOV),成像焦距更小,但是能夠看到更廣闊的遠景;右圖是窄視野(Tele FOV,TFOV),成像焦距更大,但是能夠聚焦于感興趣的近景。
如上圖所示,本文通過多任務學習的方式來解決長短焦距視角下的立體匹配任務,定義左圖為?1 倍焦距的 WFOV 圖像,右圖為?2 倍焦距的 TFOV 圖像,右圖的內容為左圖的中心內容,該任務命名為?Tele-Wide Stereo Matching,TW-SM。
采用長短焦立體匹配是為了獲得更好的背景虛化效果(Bokeh)。以往的方法將左圖 WFOV 裁剪成和右圖 TFOV 一樣小的視角,那么只能估計 TFOV 區域大小的視差圖,得到的背景虛化圖區域有限。而如果能得到 WFOV 區域大小的視差圖,則可以獲得全景背景虛化效果,如上圖(b)。
3.2 方法
作者對 TW-SM 任務定義了多種子任務和網絡結構,下面分別介紹:
TW-SMNet
該任務的輸入是左圖 WFOV 和右圖 TFOV,根據得到視差結果的不同又可以分為兩種,TW-SMNet (T)?和?TW-SMNet (W)。
TW-SMNet (T) 表示僅在左圖 WFOV 和右圖 TFOV 的重疊區域進行雙目視差估計,得到的視差圖應當與 TFOV 區域大小相同。TW-SMNet (T) 的網絡結構仿照 PSMNet。
輸入時先將左圖 WFOV 按照右圖進行裁剪,再上采樣到和右圖一致的分辨率。TW-SMNet (T) 可以得到 TFOV 區域內較為準確的視差圖,但是對于 TFOV 區域周圍的區域卻無法進行視差估計。
TW-SMNet (W) 表示在左圖 WFOV 和右圖 TFOV 的并集區域進行雙目視差估計,得到的視差圖應當與 WFOV 區域大小相同。TW-SMNet (W) 和 TW-SMNet (T) 結構相同。
輸入時先將右圖 TFOV 下采樣再在其周圍進行零填充,和左圖一致的分辨率。TW-SMNet (W) 在 TFOV 區域內可以得到較為準確的視差圖,但是在其周圍估計的不準確,因為缺少右圖相應位置的圖像信息。
SHG-SIDE
為了提升 TFOV 周圍區域的視差估計性能,作者又設計了一個以 stacked hourglass 為主體結構的單張圖像逆深度估計網絡 SHG-SIDE,其輸入是左圖 WFOV,輸出是逆深度。在立體視覺中,如果已知雙目相機的基線距離 和相機焦距 ,那么深度的逆(倒數)就和視差成正比,即:
因此對深度的逆的估計其實就是對視差的估計。
由于輸入改為單張圖像,SHG-SIDE 在 TW-SMNet 結構的基礎上去掉了雙輸入和 cost volume,之后的 3D 聚合網絡也由此降維成 2D 卷積網絡,其余結構不變。
SHG-SIDE 相比于 TW-SMNet 在 TFOV 周圍區域能估計更準確的視差,但是由于缺少另一個視角的 TFOV,在 TFOV 區域估計的視差不如原來的 TW-SMNet。
MT-TW-SMNet
上面介紹的 TW-SMNet 和 SHG-SIDE 各具優勢,TW-SMNet 對于 TFOV 區域估計的更準確,而 SHG-SIDE 對于 TFOV 周圍區域估計的更準確。為了充分利用二者的優勢,作者采用將 TW-SMNet 和 SHG-SIDE 相結合的多任務學習模式來解決 TW-SM 任務,其整體網絡結構 MT-TW-SMNet 如下:
左圖 WFOV 和右圖 TFOV 作為輸入,原有的 TW-SMNet 和 SHG-SIDE 共享特征提取模塊 ResNet-50+SPP,之后同時進行單目逆深度估計任務和雙目視差估計任務,對于得到的結果進行融合,從而能夠得到在整個 WFOV 區域都估計較為準確的視差圖。其總體損失函數為,其中 :
在測試時,為了提升效率,可以直接采用雙目視差估計 SMDE 網絡的結果,因為多任務學習過程中 SIDE 已經貢獻了 TFOV 周圍像素的特征,這使得 SMDE 能夠對全局語義信息有更好的理解。因此測試時即使不加上 SIDE,也能夠較好的估計 TFOV 周圍的區域。
3.3 實驗
作者在 SceneFlow 和 KITTI 2015 數據集上進行了實驗,這里重點分析上面介紹的幾種模型的性能。
上表是在 KITTI 2015 上的實驗結果,SHG-SIDENet 的整體錯誤率最低,但是在中心區域(TFOV)性能較差。TW-SMNet 在中心區域的性能很好,TW-SMNet (T) 不能估計周圍像素的視差,TW-SMNet (W) 在周圍像素估計上不如 SHG-SIDENet。MT-TW-SMNet 相比于 TW-SMNet (W) 提升了周圍像素和總體像素的準確率,但是中心區域要差一些。
相似的結論能夠在上表的 SceneFlow 測試集上得到,其中 MT-TW-SMNet 相比于 TW-SMNet(W) 和 SHG-SIDENet 在中心區域和周圍區域都有所提升,取得了最佳的效果。
最后在 KITTI 2015 Benchmark 測試集上,MT-TW Fusion 的完整方法在前后背景上都取得了最佳的性能,這說明融合單目逆深度估計和雙目視差估計對于 TW-SM 任務是行之有效的。
3.4 長短焦融合
論文最后還介紹了一系列將各個模型得到的結果進行融合的方法,以及相應的實驗,這些操作通過組合能夠進一步提升模型的性能,但是其核心結構是 MT-TW-SMNet。下圖展示了幾種融合方法的示意圖:
對于輸入特征的融合:以左圖 WFOV 和 TW-SMNet 的輸出視差圖作為輸入,利用 RGB 左圖作為引導得到更準確的全局 FOV 逆深度圖。
對于輸出特征融合:以估計的全局 FOV 逆深度圖和 TW-SMNet 估計的視差圖作為輸入,輸出最終融合的全局 FOV 視差圖。
這種輸入和輸出融合的方式可以看做是一種模型 embedding 的效果,通過融合多個模型的結果來達到更好的性能。
小結
上面介紹了三種視角不平衡的研究工作,雖然各不相同,但是其出發點都是希望將左右視角的圖像變成平衡的。跨譜立體匹配希望將不同譜的圖像變換到同一個譜域進行立體匹配,視覺不平衡立體匹配希望將低質量的右圖恢復到高質量再進行立體匹配,而長短焦立體匹配是希望借助寬視角和窄視角各自的優點互相彌補來進行立體匹配。新出現的場景和任務還原回經典的場景去解決是它們共同的思路。
由此可能引申出更多不平衡視角的新場景,例如彩色-黑白視角的不平衡立體匹配,這些問題有待進一步挖掘和解決。
參考文獻
[1] N. Mayer, E. Ilg, P. Hausser, P. Fischer, D. Cremers, A. Dosovitskiy, and T. Brox. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation. In CVPR, 2016.
[2] Godard, C.; Mac Aodha, O.; and Brostow, G. J. Unsupervised monocular depth estimation with left-right consistency. In CVPR, 2017.
[3] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR, 2018.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的视角不平衡立体匹配研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vivo 22.5W / 45W 自带线
- 下一篇: 乌鲁木齐中豪润园楼盘地址在哪里?