论文翻译《Computer Vision for Autonomous Vehicles Problems, Datasets and State-of-the-Art》(第六章)
文章目錄
- 6.語義分割
- 6.1語義實例分割
- 6.2標簽傳播
- 6.3多幀語義分割
- 6.4三維數據的語義分割
- 6.5街邊視圖的語義分割
- 6.6航空影像的語義分割
- 6.6.1 ISPRS分割挑戰
- 6.7 道路分割
- 6.7.1 可通行區域估計
6.語義分割
??語義分割是計算機視覺研究的一個重要課題。語義分割的目標是為圖像中的每個像素分配一個來自預定義的一組類別的標簽。該任務在圖12中示出,其中在Cordts等人的Cityscapes數據集25的場景中,特定類別的所有像素被作為特定顏色著色。將圖像分割成語義區域,通常出現在街道場景中,例如汽車,行人或道路,這樣可以全面了解周圍環境,這對自主導航至關重要。語義分割的挑戰主要來自于場景的復雜性和標簽空間的大小。
??公式化:傳統上來講,語義分割問題被看做條件隨機場(CRF)中的最大后驗推理(MAP),它被定義在像素或超像素之上(He等人, 2004, 2006)。然而,這些早期的公式效率不高,只能處理有限大小和少量類別的數據集。此外,只有一些非常簡單的特征,諸如顏色,邊緣和紋理信息等被開發利用。Shotton等人(2009)觀察到更加有效的特征可以顯著提高性能,并提出了一種基于一種新型特征的方法,稱為“紋理布局濾波器”。該方法可以利用對象的紋理外觀、紋理布局和紋理上下文。它們將紋理布局濾波器與CRF中的低級圖像特征相結合,以獲得像素級分割。利用隨機增強和分段訓練技術來有效地訓練模型。
??定義在圖像區域上的層次連接和遠程連接以及高階潛在信息可以解決CRF在圖像內建立遠距離相互作用模型的局限性。然而,基于圖像區域的方法(He等人(2004); Kumar&Hebert(2005); He等人(2006); Kohli等人(2009); Ladicky 等人l(2009,2014))受到用作輸入的圖像分割的準確性的限制。相比之下,Krahenbuhl & Koltun(2011)提出一個高效推理算法,用于完全連接的CRF模型,該模型模擬圖像中所有像素對之間的成對潛在信息。
??到目前為止,這些方法獨立地考慮每個對象類,而對象類的共同出現是語義分割的重要線索,例如汽車更有可能發生在街道場景中而不是在辦公室中。因此,Ladicky等人(2010)提出將對象類共生現象作為一種全局潛在信息應用在CRF中。 他們展示了如何使用圖割算法有效地優化這些潛在信息,并展示了對簡單成對模型的改進。
??深度卷積神經網絡在圖像分類和目標檢測方面的成功,激發了人們利用其功能解決像素級語義分割任務的興趣。完全卷積神經網絡(Long等人,2015)是最早將CNNs應用于圖像分割問題的工作之一。然而,雖然用于圖像分類的現代卷積神經網絡通過連續池化和降低分辨率的子采樣層來組合多尺度上下文信息,但是語義分割需要多尺度上下文推理以及全分辨率密集預測。在接下來的內容中,我們將回顧最近解決這個問題的方法。
??基于自動駕駛的背景,我們重點關注不同語義分割方法在Cordts等人的Cityscapes數據集26上的比較。表4a顯示了用于像素級語義標記任務的Cityscapes的排行榜。針對兩個語義粒度(即,類和類別)要提供交叉 - 聚合度量,并且除此之外針對兩個粒度要報告實例加權的IoU以懲罰忽略小實例的方法。
??結構化CNN:最近,針對多尺度推理和全分辨率預測輸出的需求提出了幾種方法。已經被提出的空洞卷積方法(Chen等人(2015b); Yu&Koltun(2016))可以擴大神經網絡的感受域而不損失分辨率。 它們的操作對應于具有空洞濾波器的常規卷積,這種方法允許有效的多尺度推理,但同時會限制模型參數數量的增加。
??在SegNet模型中,Badrinarayanan等人(2015)用一個網絡取代了深層體系結構中的傳統解碼器,該網絡由一系列解碼器組成,每個解碼器對應一個編碼器。每個解碼器將編碼器(最大池化層)的低分辨率特征映射映射到更高分辨率的特征映射。特別是,其模型中的解碼器利用相應編碼器的最大池化步驟中計算的池化指數來實現上采樣過程。這樣就不需要學習向上采樣,從而導致更少的參數。此外,使用這種方法已經證明了更清晰的分割邊界。
??雖然CNN層次結構較低級別的激活映射缺少對象類別特異性,但它們確實包含更高的空間分辨率信息。Ghiasi&Fowlkes(2016)利用這一假設提出了基于完全卷積網絡構建的拉普拉斯金字塔。在多個尺度上聚合信息,使他們能夠從低分辨率的層次上依次細化重構的邊界。他們通過使用來自更高分辨率特征圖的跳過連接和乘法置信門控來實現這一點,在低分辨率預測具有高置信度的區域中懲罰噪聲高分辨率輸出。通過這種方法,Ghiasi&Fowlkes(2016)在Cityscapes表4a中取得了有競爭力的結果。
表4:CITYSCAPES語義和實例分割排行榜。 分割性能通過類交叉結合和實例級交叉結合來測量。 實例檢測性能是根據幾種平均精度變量來測量的。 另見Cordts等(2016)。
圖13:Zhao等人(2016)提出的方法概述。 金字塔解析模塊(c)應用于CNN特征圖(b)并饋送到卷積層以進行像素級估計(d)。 改編自Zhao等(2016)。
??Zhao等人(2016)利用金字塔場景解析網絡(如圖13所示)提出了一種Cityscapes上表現最佳的方法,將全局上下文信息整合到像素級的預測任務中。具體來說,他們將金字塔解析模塊應用于CNN的最后一個卷積層,該層融合了多個金字塔級別的特性,以結合本地和全局上下文信息。得到的表示被輸入到卷積層以獲得最終的像素預測。
??Simonyan&Zisserman(2015)和Szegedy等人(2015)已??經證明,CNN的深度對于表示豐富的特征至關重要。然而,增加網絡的深度會導致精度的飽和與降低。He等人(2016)提出深度剩余學習框架(ResNet)來解決這個問題。他們讓每個堆疊層學習殘差映射,而不是原始的、未引用的映射。這使得他們能夠訓練更深層的網絡,提高準確率,而普通網絡(簡單堆疊網絡)表現出更高的訓練誤差。Pohlen等人(2016)提出一種類似ResNet的架構,在提供強大的識別性能的同時,通過結合兩個不同的處理流,在整個網絡中保留高分辨率信息。一個流通過一系列池化層,而另一個流以全圖像分辨率處理特征圖。使用殘差以全圖像分辨率組合兩個處理流。吳等人(2016b)通過對目標深度的分析,提出了一種更有效的ResNet架構。他們指出,ResNets表現為淺層網絡的線性組合。在此基礎上,他們設計了一組相對較淺的卷積網絡來完成語義圖像分割的任務。Pohlen等人(2016)在Cityscapes上(表4a)取得了有競爭力的成果,Wu等人(2016b)在實例加權類水平IoU以外的所有指標上都優于其他。
??條件隨機場:滿足多尺度推理和全分辨率預測需求的另一種方法是CNN與CRF模型的組合。 陳等人(2015b)提出使用完全連接的CRF模型(Krahenbuhl&Koltun(2011))的卷積神經網絡來獲得完善的標簽地圖。CRF允許基于原始的RGB輸入捕獲細節,而由于CNN模型的空間精度有限,CNN輸出中缺少原始的RGB輸入。類似地,Jampani等人(2016)推廣了雙邊濾波器,并分解CRF程序,該程序允許從數據中對(廣義的)過濾器參數進行端到端訓練。通過利用輸入特性作為指導信號,這有效地實現了在一個卷積層中對更大的空間區域進行推理。
??受到用于語義分割的更高階CRF的啟發,Gadde等人(2016a)提出了用于CNN架構的新的雙邊初始模塊,用于替代結構化CNN和CRF技術。 他們使用的假設是空間和光度相似的像素更可能具有相同的標簽。這使他們可以直接學習遠距離的相互作用,從而無需使用CRF模型進行后處理。具體來說,所提出的模塊基于其空間和顏色相似性在遠距離像素之間傳播邊緣感知信息,并結合超像素的空間布局。
通過應用具有不同尺度的高斯核的雙邊濾波器來實現信息的傳播。
??討論:對最近的方法的多尺度推理的關注導致了Cityscapes上的像素級語義分割的令人印象深刻的結果。今天,在Cityscapes表4b中排名靠前的方法在類別和類別上的借據接近81%和91%,令人印象深刻。這表明語義分割適用于覆蓋大圖像區域的實例,但對于覆蓋小區域的實例仍然存在問題。與第5.6節中討論的低分辨率檢測類似,小區域僅提供很少的信息來分配正確的標簽。分割出小的,可能被遮擋的物體是一項挑戰性的任務,可能需要新穎的方法來聯合進行深度估計和深度自適應識別。
6.1語義實例分割
??語義實例分割的目標是同時檢測、分割和分類圖像中的每個對象。與語義分割不同,它提供了關于單個對象的位置、語義、形狀和計數的信息,因此在非緊湊型驅動中有許多應用。對于語義實例分割的任務,存在兩大研究方向:基于候選區域的和無候選區域的實例分割。
??在表4b中,我們展示了Cityscapes數據集中語義實例分割方法的排行榜。對性能的評估是通過跨重疊閾值(AP)的區域水平的平均精度進行的,對重疊值為50%(AP 50%),以及100米和50米(AP 100m, AP 50m)以內的對象的平均精度進行的。
??基于候選區域的實例分割:基于候選區域的實例分割方法提取類無關的建議,將其分類為某個語義類的實例,以獲得像素級的實例掩碼。地區建議如多尺度組合分組(阿貝拉′ez et al .(2014))可以直接用作實例部分。較粗的表示符(例如綁定框)需要進一步細化以獲得實例掩碼。遺憾的是,基于候選區域的算法在推理時速度較慢,這是由于候選區域生成步驟的計算代價高昂。為了避免這個瓶頸,Dai等人(2016)提出了一個完全卷積網絡,分為三個階段。他們提取方框提案,使用共享特性將其細化到各個部分,最后將其分類為語義類別。各階段輸出之間的因果關系使得多任務級聯訓練更加復雜。然而,作者展示了如何使用不同的可調整層來克服這些困難,該層允許以端到端方式訓練整個模型。
??基于候選區域的實例分割方法使用邊界框的形式來預測二進制分割掩碼,對候選區域生成過程中的錯誤非常敏感,包括錯誤縮放或移位的邊界框。為了解決這個問題,Hayder等人(2016)提出了一種新的對象表示。更具體地說,他們提出了一個形狀感知對象掩碼網絡,該網絡為每個候選區域預測一個二進制掩碼,潛在地擴展到盒子本身之外。他們通過替換原有的掩碼預測階段,將對象掩碼網絡集成到Dai等人(2016)的多任務網絡級聯框架中。這個形狀感知方法是Cityscapes的第二佳表現方法(表4b)。
??無候選區域實例分割:最近,在文獻中已經提出了許多基于候選區域的實例分割的替代方法。 這些方法通過直接將實例分割作為像素標注任務來聯合推斷單個實例的分割和語義類別。
圖14:Uhrig等人(2016)從輸入圖像預測語義,深度和實例中心方向,以計算語義類別的模板匹配分數圖。在生成實例候選區域以獲得實例分段后,他們將它們融合。
改編自Uhrig等人(2016年)。
??Zhang等(2015,2016c)訓練完全卷積神經網絡(FCN),在實例ID編碼深度排序的同時,直接預測像素級實例分割。它們改進了預測,并加強了與隨后的馬爾可夫隨機場的一致性。Uhrig等人(2016)提出了一種基于FCN的方法,可以聯合預測語義分割、深度以及相對于每個實例的質心的實例的方向。實例分割傳遞途徑如圖14所示。然而,他們需要真實值深度數據來訓練他們的模型。Kirillov等(2016)提出了一種將語義分割和通過全局推理檢測對象邊界相結合的多切割公式來推斷語義實例分割的無候選區域方法。Bai & Urtasun(2016)將來自經典流域變換和深度學習的直覺相結合,創建了一個能量圖,其中盆地對應于對象實例。這允許它們在單個能量級別上分割以獲得像素級別的實例分割。Kirillov等人(2016)和Bai &
??Urtasun(2016)在Cityscape上都取得了有競爭力的成績(表4b)。然而,Arnab & Torr(2017)通過在一個實例子網絡中提供初始語義分割,超過了其他所有人。具體來說,最初的分類級分割是根據端到端CRF中對象檢測器輸出的線索來預測像素級實例的。
??討論:實例分割任務要比語義分割任務困難得多。每個實例都需要單獨注釋,而在一個語義類的無記名分割組中,當它們相鄰出現時,可以一起注釋。此外,在不同的圖像之間,實例的數量有很大的不同。在自動駕駛的背景下,通常有一個廣闊的視野。因此,在圖像中出現的大量實例都非常小,這使得它們很難被檢測到。與5.6節中討論的邊框不同,在這個任務中需要推斷每個對象實例的確切形狀。由于這些原因,目前在Cityscape數據集(表4b)上的平均精度仍然不足20%。
6.2標簽傳播
??使用高度精確的像素級注釋創建大型圖像數據集需要大量的勞動量,因此獲取所需的質量的數據集成本很高。視頻序列注釋的半監督方法有助于降低這種成本。與注釋單個圖像相比,視頻序列提供了連續幀間時間一致性的優勢。標簽傳播技術利用了這一事實,根據顏色信息和運動估計,將注釋從一小組帶注釋的關鍵幀傳播到所有未標記的幀。
??為了實現這個目標,Badrinarayanan等人(2010)提出了一種耦合貝葉斯網絡,用于圖像序列和像素級標簽的聯合建模。具體來說,它們采用基于從基于圖像塊的相似性和語義上一致的區域獲得的對應關系的傳播方案,以將標簽信息傳送到注釋關鍵幀之間的未標記幀。
??Budvytis等人(2010)擴展了這一方法,在Badrinarayanan等人引入的標簽傳播模型的基礎上,提出了一種混合模型,以及一個區分分類階段,在該階段解決遮擋和非遮擋問題,并允許在更長的時間范圍內傳播。為了糾正標簽錯誤傳播,??Badrinarayanan等人(2014)提出了一種基于超像素的樹混合模型用于尋找短時間內的相關性。Vijayanarasimhan & Grauman(2012)解決了手工標記中選擇最有潛力的關鍵幀的問題,使預期的傳播誤差最小化。
??而上述方法在2D中傳遞注釋,Chen等人(2014);Xie等人(2016)提出直接以3D方式標注,然后將這些注釋轉移到圖像域。在給定3D信息的來源(例如立體圖像、激光)時,這些方法能夠提高語義準確性和產生時間一致性標簽,同時限制注釋成本。為了實現這一目標,Chen等人(2014)利用KITTI (Geiger等人(2013))的注釋,利用3D汽車CAD模型,對圖像中所有汽車分別推斷出圖形-地面分段。相比之下,Xie等人(2016)聯合推理場景中所有對象,并處理無法獲得CAD模型或3D點測量的類別。為此,他們提出了一個非局部CRF模型,該模型聯合考慮了圖像中所有3D點和像素的語義標簽和實例標簽。
6.3多幀語義分割
??自主車輛等可移動平臺的語義分割由于自主系統對周圍環境的識別的需要,已成為研究的熱點。由于這類系統通常配有攝像機,因此可以利用相鄰幀之間的時間相關性來提高分割精度、效率和魯棒性。
??為了實現這個目標,Floros& Leibe(2012)提出了基于視頻序列的圖形模型,以加強幀間的時間一致性。具體來說,他們提出了一種CRF,通過將相應的圖像像素鏈接到從運動結構(SfM)中得到的推斷出的3D場景點,從而保證連續視頻幀之間的時間一致性。與僅使用圖像的基礎方法相比,它們實現了更好的分割性能,并在不同的圖像條件下觀察到良好的泛化能力。
圖15:Sengupta等人(2013)從立體圖像對(a)計算視差圖(b)并跟蹤相機運動(c)。 他們使用兩個輸出來獲得體積表示(d)并將街道圖像(e)的語義分割融合到場景(f)的3D語義模型中。 改編自Sengupta等人(2013年)。
??三維重建在靜態場景中效果較好,但在動態場景中仍然是一個開放的問題。特征敏感的CRF模型在語義圖像分割中取得了很大的成功,但所選擇的距離測量方法并不能很好地模擬時空對應關系。場景和攝像機運動的存在使得視頻中的時間關聯成為一項具有挑戰性的任務。由于這種運動有可能導致明顯的光流,所以在時空體積中歐幾里德距離并不能很好地代替對應關系。為了解決這一問題,Kundu等人(2016)提出了一種優化稠密CRF特征空間的時空正則化方法。特別地,特征空間被優化,使得與相應點相關聯的特征之間的距離用光流的對應關系最小化。CRF利用得到的映射來實現整個視頻卷的長期正則化。
6.4三維數據的語義分割
??自動駕駛系統需要識別其周圍環境以識別感興趣的對象并與之交互。 雖然已經廣泛研究了語義對象標記的問題,但是這些算法中的大多數在2D圖像域中工作,其中圖像中的每個像素被標記有諸如汽車,道路或路面的語義類別。 然而,2D圖像缺少重要信息,諸如對象的3D形狀和比例,這是對象類分割的重要線索并且便于單個對象實例的檢測和分離。
??Sengupta等人(2012)提出了一種從街道水平圖像生成城市場景的語義頭頂地圖的方法。他們使用兩個CRF來描述問題。第一種方法是對街景圖像進行語義分割,分別對每一幅圖像進行處理。然后,每個街景圖像通過一個幾何函數進行關聯,該函數將一個區域從圖像投影到頭頂的地圖上。然后,這個階段的輸出聚合到許多圖像上,形成第二個CRF的輸入,產生一個地面圖的標記。然而,他們的方法并沒有超出平面世界的假設,即使用多個街景圖像進行密集的語義重建。
??為了實現這一目標,Sengupta等人(2013)提出了一種方法,如圖15所示,使用多個街景圖像生成密集的語義3D重構。他們使用視覺測程法進行自我運動估計,根據輸入立體圖像對生成的深度圖進行融合。這使得他們能夠生成場景的立體再現。同時,使用CRF模型對輸入圖像進行半分類。然后將分割結果跨序列聚合,生成最終的3D語義模型。但是,對象標記是在圖像域中進行的,然后投影到模型上。因此,這些方法不能充分利用道路場景中存在的所有結構約束。
V??alentin等人(2013)通過結合結構和外觀線索解決了三維空間中語義場景重構問題。他們使用輸入深度估計來生成場景的三角網格表示,并應用級聯分類器從網格和圖像中獲取幾何線索。隨后,他們通過在場景網格上定義CRF來解決3D標簽問題。然而,它們的方法需要對整個網格進行推斷,并且不允許在自動駕駛環境中的在線設置中逐步添加信息。
??Hackel等人(2016)提出了一種快速的三維點云語義分割方法。他們通過對整個點云進行下采樣,生成密度遞減的多尺度金字塔,并在每尺度上尋找最近的鄰域,從而構建了近似的多尺度鄰域。該方案允許提取豐富的特征表示,在很短的時間內捕獲點的局部鄰域中的幾何形狀,例如粗糙度,表面方向,地面高度等。隨機森林分類器可以預測類條件概率。該方法可以在幾分鐘內處理上百萬個點的點云。
??在線方法:Vineet et al(2015)提出了一種端到端系統,該系統對數據進行增量處理,對室外環境進行實時密集立體重建和語義分割。他們使用體素散列(Nie?ner等人(2013))實現了這一點,這是一種散列表驅動的3D體積表示,忽略了目標環境中未占用的空間。此外,他們還采用了一種在線的體素平均場推斷技術,該技術可以逐步細化體素標記。它們能夠利用現代gpu的處理能力,以實時速度實現語義重構。
??McCormac等人(2016)提出了一種用于密集3D語義映射的傳遞途徑,旨在通過融合CNN的語義預測和來自SLAM系統的幾何信息來在線工作(ElasticFusion by Whelan et al。(2015))。具體而言,ElasticFusion提供2D幀與全局一致的表面圖之間的對應關系。此外,他們使用貝葉斯更新方案,根據CNN的預測結果來計算每個表面的類概率。利用表面表征的優勢在于它們能夠融合遠距離信息,例如在檢測到環路閉合和姿態得到相應修正之后。
??3D CNN:雖然卷積網絡已經證明在語義上非常成功地分割2D圖像,但是使用卷積網絡標記3D數據的工作相對較少。Huang&You(2016)提出了一個使用3D卷積神經網絡(3D-CNN)標記3D點云數據的框架。 具體地,他們計算以一組隨機生成的關鍵點為中心的大小為203的3D占用網格。占用率和標簽形成3D CNN的輸入,3D CNN由卷積層,最大池化層,全連接層和邏輯回歸層組成。由于密集的體素表示,考慮到現代GPU的存儲器限制,3D CNN僅能夠處理非常粗糙分辨率的體素網格。
??為了緩解這個問題,Riegler等人(2017)提出了一種3D卷積網絡Oct-Nets,它允許以更高的分辨率訓練深層架構。他們基于3D數據(例如點云,網格)在本質上通常是稀疏的。他們候選區域的OctNet通過將3D空間分層劃分為一組八叉樹并以數據自適應方式應用池來利用此稀疏性屬性。這將減少計算和內存需求,因為卷積網絡操作是在這些樹的結構上定義的,因此可以根據輸入的結構動態分配資源。
6.5街邊視圖的語義分割
??自動駕駛車輛的語義分割的一個重要應用是將街邊圖像(即建筑物外墻)分割成其組件(墻壁,門,窗戶,植物,陽臺,商店,郵箱等)。這樣的語義分割對于精確的三維重建、高效的內存三維映射、穩健的定位以及路徑規劃都是非常有用的。
??Xiao &Quan(2009)提出了一種多視點語義分割框架,適用于汽車沿街行駛時攝像頭捕捉到的圖像。具體來說,他們在多個視圖中定義了一個跨超像素的成對MRF,其中一元項基于2D和3D特性。此外,它們最大限度地減少了空間平滑度的色差,并使用密集的對應關系來強化不同視圖的平滑度。用于多視圖語義分割的現有方法通常需要標記用于3D模型的所有圖像中的所有像素,這取決于語義分割算法,可能過于緩慢。 為了提高效率,Riemenschneider等人(2014)利用標記用于3D模型的所有重疊圖像的固有冗余。他們提出了一種方法,利用從多視圖重構得到的3D網格模型的幾何形狀,在執行實際的語義圖像標記之前,預測網格每個面的最佳視圖。這使得他們可以將傳遞途徑加速兩個數量級。
??Gadde等(2016b)描述了一種用于建筑立面二維圖像和三維點云分割的系統,該系統在推理時速度快,易于適應新的數據集。與通過強加先驗來利用立面圖像結構的現有方法相比,它們實現了一系列增強決策樹分類器,這些分類器使用自動上下文特征進行堆疊并從數據中學習所有相關性。
??肖等人(2009)提出了另一種方法,從地面拍攝的圖像中生成街道側的三維照片逼真模型。特別地,他們將每個圖像分割成語義上有意義的區域,例如建筑、天空、地面、植被或汽車。然后,他們將建筑分割成獨立的塊,利用正字法中的建筑先驗來進行推理,并使用正則化數據項。這使得他們能夠處理嘈雜和缺失的重建3D數據,并產生令人信服的視覺效果。
圖16:Mathias等人(2016)提出的用于外觀解析的三層方法。 他們首先對外觀進行分段,并將概率分布分配給考慮提取的視覺特征的語義類。 在下一層中,他們使用特定對象(如門和窗)的檢測器來改善底層的分類器輸出。 最后,他們采用了弱的建筑先驗,并使用基于抽樣的方法尋找最佳的立面標簽。 改編自Mathias等(2016)。
??Mathias等(2016)提出了一種靈活的3層分割建筑物外墻的方法,避免了明確指定語法的需要。首先,立面被分割成語義類,這些語義類與諸如窗戶和門等建筑元素的檢測器輸出相結合。最后,提出了弱的建筑先驗,例如對齊,對稱,共生,這促使重建在建筑上是一致的。完整的傳遞途徑如圖16所示。與大多數將外墻視為平面的語義外觀建模方法相比,Martinovic等(2015)提出了一種直接在3D中進行外觀建模的方法。由于他們的方法避免了2D和3D表示之間耗時的轉換,因此它們獲得了大大縮短的運行時間。具體而言,他們使用SfM重建半徑3D點云,并使用在3D特征上訓練的隨機森林分類器對每個點進行分類。之后,他們根據他們的語義結構分離各個立面,并強加弱的建筑先驗。
6.6航空影像的語義分割
??航拍圖像解析的目的是從機載傳感器獲取的數據中自動提取城市物體。由于其在自動駕駛系統導航中的應用,對道路等城市對象的準確和詳細信息的需求正在迅速增加。例如,航拍圖像解析可用于自動構建道路地圖(即使在偏遠地區)并使其保持最新狀態。 此外,來自航拍圖像的信息可用于定位。然而,由于諸如建筑物,街道,樹木和汽車之類的物體的異質外觀導致較高的類內方差但是類間方差低,因此該問題具有挑戰性。此外,先前的復雜結構使推理復雜化。例如,道路必須形成一個連接的薄片段網絡,其中曲線緩慢變化,在交叉點處相遇。與標準平滑度假設相比,這種類型的先驗知識更難以形式化并整合到結構化預測公式中。
??Wegner等人(2013)提出了一種道路標記的CRF公式,其中先驗由沿著直線段連接超像素集的簇來表示。具體而言,他們將約束表示為具有不對稱潛力的高階簇,其表示傾向于優先將所有而不是部分組成的超像素分配給道路類別。 這允許為細鏈放大道路可能性,同時仍然使用圖形切割進行有效推斷。Wegner等人(2015)也使用具有遠程、高階簇的CRF來模擬路網。然而,與Wegner等人(2013)不同的是,他們允許任意形狀的路段,這些路段通過基于局部特征的搜索來適應更復雜的道路形狀。Montoya等人(2015)將該公式推廣到具有特定類別先驗的建筑物和道路航拍圖像的多標簽分類。除了Wegner等人(2015)之前的公路網,他們還為特定于建筑物的簇引入了第二高階潛力。
??與其他方法相比,Verdie&Lafarge(2014)提出應用馬爾可夫點過程從圖像中恢復特定結構,包括道路網絡。 馬爾可夫點過程是傳統MRF的概括,其可以通過直接操縱諸如線段的參數實體來解決對象識別問題,而MRF僅限于標記問題。 重要的是,它們隱含地解決了模型選擇問題,即,它們允許MRF中的任意數量的變量,其可以與感興趣對象的參數相關聯。針對道路分割,選擇路段的參數表示作為路段質心點,另外兩個參數對路段的長度和方向進行建模。
??利用地圖進行航空圖像解析:Mattyus等人(2015)利用了OpenStreetMap (OSM)27中的地圖信息,而不是將拓撲正確的路網檢測問題框定為一個語義分割問題。OSM是道路,小徑,咖啡館,火車站的集合,以及世界各地由地圖繪制者社區貢獻和維護的更多東西。 它以分段線性路段的形式提供可自由獲得的道路拓撲圖。
??根據OSM的路線圖,Mattyus等人(2015)提出了一個MRF,它推斷出OSM中每個路段的道路中心線位置及其寬度。此外,它們通過鼓勵它們的寬度相似來在連續線段之間結合平滑度。該公式的優點在于,它能夠在將道路拓撲限制到OSM圖的同時實現有效推理。
圖17:使用Marmanis等人提出的FCN集合(2016b)從ISPRS Vaihingen拍攝的場景的語義分割。 改編自Marmanis等(2016b)。
??使用空對地推理的細粒度圖像分析:雖然航拍圖像提供了對世界重要部分的全面覆蓋,但它們的分辨率遠低于地面圖像。在航空影像中,分辨率與一個像素覆蓋的地面區域有關。雖然1米分辨率已經是衛星圖像的高分辨率,但大多數圖像數據庫(例如GoogleEarth28)的標準分辨率為12英寸。 6至1英寸的分辨率被認為是航空影像的高分辨率,通常不公開。這使得從航拍圖像進行細粒度分割成為具有挑戰性的問題。另一方面,地面圖像提供了額外的信息,這些信息可以實現細粒度的語義分割。由于這些線索的互補性,最近提出了幾種用于細粒度分割的方法,它們共同導致了合并的航空和地面圖像對。
??Mattyus et al.(2016)擴展了Mattyus et al.(2015)的方法,引入了一個關于細粒度道路語義的公式,如車道和人行道。為了推斷這些信息,他們共同考慮從地面車輛上捕獲的單目航空圖像和高分辨率立體圖像。具體來說,他們將問題表述為MRF中的能量最小化,推斷每個路段的車道數和位置,所有停車點和人行道,以及地面和空中圖像的對齊方式。為了實現這一目標,他們利用深度學習從空中和地面圖像中估計語義,并利用這兩種線索定義潛力。此外,他們還定義了模擬道路約束的潛力,如平行道路之間的關系和道路的平滑度。
??在相關的工作中,Wegner等人。 (2016)從航拍圖像,街景圖像和語義地圖數據構建城市規劃應用的樹木地圖。 他們在人類注釋數據上訓練基于CNN的對象檢測算法。 此外,他們將來自多個街景圖像和航空圖像的CNN預測與CRF公式中的地圖數據相結合,以實現地理定位的細粒度目錄。
6.6.1 ISPRS分割挑戰
??ISPRS分割挑戰Rottensteiner et al.(2013, 2014))的重點是機載傳感器獲取數據的詳細二維語義分割,如圖17所示。更具體地說,任務是為多個城市對象類別分配標簽。這一挑戰包括兩個機載圖像數據集Vaihingen和波茨坦,這兩個數據集由六種最常見的陸地覆蓋類別手動標注,即不透水表面、建筑、植被、樹木、汽車、雜亂/背景。這兩個領域都涵蓋了城市景觀。數據集波茨坦和Vaihingen的排行榜見表5。通過對6個級別和整體的F1分數來評估這些方法的表現。
??Paisitkriangkrai等(2015)是ISPRS分割挑戰中表現最佳的方法之一。他們提出了一種語義像素標記方法,該方法將CNN特征與手工制作的特征結合在一個像素方式的CRF公式中,以推斷除邊緣外局部平滑的全局一致標記。Sherrah(2016)建議使用完全卷積網絡,不使用任何向下采樣層來保持輸出的分辨率。為了利用高程數據,他們提出了一種混合網絡,將預先訓練的圖像特征與基于可獲得的數字地表模型(DSM)的特征相結合,以捕獲地球表面。Sherrah(2016)在波茨坦ISPRS比賽中取得最好的成績(表5a),在Vaihingen比賽中取得最好的成績(表5b)。
??Maggiori等人(2016)引入了一個模型,該模型以多種分辨率提取空間特征,并學習如何將它們組合以整合本地和全局信息。 Audebert等人(2016)通過利用SegNet的編碼器 - 解碼器架構進一步改進了航空圖像密集場景標記的最新技術(Badrinarayanan等人(2015))。此外,他們還引入了一個多核卷積層,用于快速聚合多個尺度的預測,并使用殘差校正網絡從異構傳感器執行數據融合。 Marmanis等(2016a)證明了表5b中ISPRS Vaihingen挑戰的最佳表現。他們使用他們以前的工作Marmanis等人(2016b),它使用完全卷積網絡的集合來獲得航空圖像全分辨率的像素分類。 Marmanis等人(2016a)提出通過將語義分割與邊緣檢測相結合來補償由于合并層而導致的空間分辨率的損失。
6.7 道路分割
??道路場景的分割是計算機視覺中的關鍵問題,例如自動駕駛和行人檢測。 例如,為了導航,自動車輛需要確定前方可行駛的可通行區域并確定其自身在道路上相對于車道標記的位置。然而,由于存在各種不同形狀的物體,例如汽車和人,不同的道路類型以及不同的照明和天氣條件,該問題具有挑戰性。
??穆諾茲等人(2010)提出了一種替代標準推理的圖形模型,用于場景的語義標記。特別是,他們在一個層次結構過程中訓練了一系列推理模型,該過程捕獲了大區域上的上下文。這允許他們在精確推斷難以處理時繞過訓練結構化預測模型的困難并且得到非常有效和準確的場景標記算法。
??Kuehnl等人(2012)提出了一種結合場景的空間布局來改進基于外觀的分類的方法。具體來說,他們提出了道路分割的兩階段方法。首先,它們表示出道路表面和邊界元素,如路邊石和基于局部視覺特征的信心地圖的道路標記。從這些置信度圖中,他們提取了包含場景全局屬性的空間光線(SPRAY)特征,并在這些特征上訓練分類器。他們的評估表明,空間布局特別適用于在不同空間位置的屬性之間存在明顯的結構對應關系的情況。
??Alvarez 等人(2010)提出了一個貝葉斯框架,通過將低級外觀線索與背景三維道路線索(如地平線線、消失點、3D場景布局和3D道路階段)相結合,從而對道路序列進行分類。此外,他們提取時間線索,以暫時平滑的結果。在后續工作中,A’lvarez&Lo’pez(2011)將圖像轉換為光源不變特征空間,使其方法對陰影具有魯棒性,然后應用分類器為每個像素分配語義標簽。 Mansinghka等人(2013)提出了一種反向圖形啟發方法,該方法采用生成概率圖形程序(GPGP)來推斷從車載攝像機拍攝的圖像中的道路。GPGP包括用于從道路場景先生成隨機樣本的隨機場景生成器,用于渲染每個樣本的圖像分割的圖形渲染器以及鏈接渲染器輸出和數據的隨機似然模型。
??基于CNN的方法:幾乎所有現有的道路場景標識算法都是基于機器學習的,模型的參數是通過大型帶注釋的數據集估計出來的。為了減輕手動注釋大數據集的負擔,A’lvarez等人(2012)提出了一種用于道路分割的方法,其中使用在一般圖像數據庫上訓練的卷積神經網絡生成道路圖像的噪聲訓練標簽。他們進一步提出了一種紋理描述符,該描述符基于學習顏色平面的線性組合以減少道路紋理的可變性。
??Mohan(2014)提出了一種場景解析系統,該系統使用反卷積層與傳統CNN相結合。 反卷積層學習捕獲中等線索的特征,例如邊緣交叉,平行和圖像數據中的對稱,從而獲得比常規CNN更強大的表示。 Oliveira等(2016)使用Ronneberger等人(2015)的U-Nets研究了分割質量和運行時間之間的權衡。 具體來說,它們在網絡的向上卷積部分引入了類和過濾器之間的新映射,以減少運行時間。它們通過單個前向傳遞進一步分割整個圖像,這使得該方法比基于圖塊的方法更有效。
表5:ISPRS語義標簽競賽。 數字代表F1分數和總體準確性。
??為了減輕獲取人工注釋的困難,Laddha等人(2016)提出了一個地圖監督深度學習傳遞途徑,不需要人工標注來訓練道路分割算法。相反,他們使用GPS傳感器給出的車輛姿態,根據投影到圖像域中的OpenStreetMap信息獲得真實值標簽。
6.7.1 可通行區域估計
??可通行區域準確可靠的估計和障礙物檢測是實現自主駕駛需要解決的核心問題。可通行區域是指地面上保證車輛航行不受碰撞的可用空間。障礙是指從地面來中突出出來阻擋車輛路徑的結構。與道路分割方法不同的是,估計車輛前方可通行區域的方法通常依賴于從立體傳感器計算出的深度地圖得到的幾何特征。然而,這兩種方法可以有利地結合。
??Badino等人(2007)提出了一種基于立體信息計算隨機占用網格的可通行區域估計方法,其中隨機占用網格中的單元攜帶關于占用可能性的信息。立體信息隨著時間的推移而整合,以減少深度的不確定性。使用占用網格上的動態編程可以穩健地獲得可通行區域和占用空間之間的邊界。這項工作為Stixel表示奠定了基礎,詳見第4節。而Badino等人(2007)的原始方法對平面路面進行假設,這種假設在實踐中經常被違背。為了解決更復雜的路面問題,Wedel等人(2009)提出了一種利用b樣條對非平面路面建模的算法。表面參數是通過立體測量來估計的,并通過卡爾曼濾波器進行跟蹤。
??Suleymanov等人(2016)提出了一種基于用變分方法進行立體估計的無碰撞可遍歷路徑在線檢測和驅動系統。除了可通行區域檢測,他們的方法還建立了場景的語義分割,其中標簽包括地面、天空、障礙物和植被。魚眼相機比普通相機提供更廣闊的視野,并允許檢測靠近汽車的障礙物。Ha¨ne et al(2015)提出一個障礙檢測方法使用單眼魚眼相機。為了減少運行時間,他們避免使用視覺測距系統來提供精確的車輛姿態,而是依靠來自車輪測距的不太準確的姿態估計。
??遠程障礙物檢測:當觀察者(即,自我車輛)高速移動時,遠距離障礙物檢測方法的準確性是及時進行障礙物定位的關鍵因素。不幸的是,與不受此問題影響的激光測距傳感器或雷達相比,立體視覺系統的誤差隨深度呈二次方增加。為了解決這個問題,Pinggera et al(2015, 2016)提出了通過利用攝像機運動的幾何約束和平面性的遠程障礙物檢測算法來利用立體視覺將障礙物檢測作為統計假設檢驗問題。具體地,對分布在輸入圖像上的小局部斑塊執行獨立假設檢驗,其中可通行區域和障礙物分別由零和備選假設表示。圖18顯示了從他們的新數據集中提取的示例場景的檢測結果。
圖18:該圖改編自Pinggera等人(2016),并顯示了在Lost and Found數據集中檢測到的擬議方法的障礙。
總結
以上是生活随笔為你收集整理的论文翻译《Computer Vision for Autonomous Vehicles Problems, Datasets and State-of-the-Art》(第六章)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ubuntu14.04安装360随身wi
- 下一篇: 360随身wifi2驱动 v5.3.0.