综述:用于自动驾驶的全景鱼眼相机的理论模型和感知介绍
文章:Surround-view Fisheye Camera Perception for Automated Driving: Overview, Survey & Challenges
作者:Varun Ravi Kumar, Ciaran Eising, Christian Witt, and Senthil Yogamani
編譯:點云PCL
來源:arXiv 2022
歡迎各位加入免費知識星球,獲取PDF論文,歡迎轉(zhuǎn)發(fā)朋友圈。文章僅做學(xué)術(shù)分享,如有侵權(quán)聯(lián)系刪文。未經(jīng)博主同意請勿擅自轉(zhuǎn)載。
公眾號致力于分享點云處理,SLAM,三維視覺,高精地圖相關(guān)的文章與技術(shù),歡迎各位加入我們,一起交流一起進步,有興趣的可聯(lián)系微信:920177957。本文來自點云PCL博主的分享,未經(jīng)作者允許請勿轉(zhuǎn)載,歡迎各位同學(xué)積極分享和交流。
簡介
環(huán)視魚眼相機通常用于自動駕駛中的近距離感知,車輛四個側(cè)面的魚眼相機足以覆蓋車輛周圍360°的區(qū)域,捕捉整個近鄰區(qū)域,其主要用途是自動泊車、交通堵塞輔助和城市駕駛。由于汽車感知的主要焦點是遠場景感知,因此近場景感知任務(wù)的數(shù)據(jù)集有限,與遠場相比,由于10cm的高精度目標檢測要求和目標的部分可見性,環(huán)視感知帶來了額外的挑戰(zhàn)。由于魚眼相機的具有較大的徑向畸變,標準算法不能容易地擴展到環(huán)視魚眼圖上。因此,本文致力于為研究人員和實踐者提供汽車魚眼相機感知的一些總結(jié),首先對常用的魚眼相機模型進行了統(tǒng)一的分類處理,其次,我們討論了各種感知任務(wù)和現(xiàn)有文獻,最后,我們討論了挑戰(zhàn)和未來方向。
基本介紹
環(huán)視系統(tǒng)使用四個傳感器形成具有重疊區(qū)域的網(wǎng)格,足以覆蓋汽車周圍的近場區(qū)域,圖1顯示了典型環(huán)視圖系統(tǒng)的四個視圖,以及典型泊車用例的表示。
圖1:由四個魚眼攝像機組成的典型汽車環(huán)視系統(tǒng)示意圖,分別位于前、后和每個機翼后視鏡(頂部)。下圖顯示了覆蓋整個360°的車輛周圍環(huán)境。通過融合四個攝像頭為駕駛員提供的環(huán)視效果也在較小的方框中顯示。
超過180度的廣角視圖通常用于這種近場景感知,任何感知算法都必須考慮這種攝像機系統(tǒng)固有的圖像畸變。這是一個重大挑戰(zhàn),因為計算機視覺中的大多數(shù)工作都集中在具有輕微徑向畸變的窄視場相機上。然而,隨著此類攝像機系統(tǒng)的廣泛部署,這方面的工作已經(jīng)完成,本文的目的是向讀者概述全景攝像機,調(diào)查現(xiàn)有技術(shù)現(xiàn)狀,并深入了解該領(lǐng)域當(dāng)前面臨的挑戰(zhàn)。
圖2:魚眼透視圖,(上圖)在超過60度時,以廣角入射到針孔相機上的光線無法有效成像. 添加魚眼透鏡后,由于折射,視野大大增加到190? 。(底部)光線在水面上的折射會將地平線壓縮到較小的視野中。
理論上,針孔相機的視場角可以達到180?. 然而,事實上由于孔徑和成像尺寸的限制要超過80?都很難, 如圖2(頂部)所示。然而魚眼透鏡通常可以有效地將視野增加到180度? 或更多。
魚眼相機的應(yīng)用
魚眼相機提供比標準攝像機更寬的視野,通常具有180? 視野甚至更大,這可以提供幾個優(yōu)點,尤其是可以使用更少的攝像機來實現(xiàn)更大場景的覆蓋,魚眼相機的首次成功商業(yè)應(yīng)用是在攝影領(lǐng)域,特別是在娛樂行業(yè),魚眼鏡頭效果成為一種風(fēng)格元素。第二個成功的應(yīng)用領(lǐng)域是視頻監(jiān)控,其中半球形透鏡表面在現(xiàn)代監(jiān)控系統(tǒng)中常見。最近,廣角鏡頭通常用于虛擬現(xiàn)實耳機,它們也常用于水下機器人和空中機器人。
魚眼相機使用的挑戰(zhàn)
然而,魚眼相機有幾個挑戰(zhàn),最明顯的是,具有較大的徑向畸變,由于空間變化的畸變,實際對象的外觀變化更大,特別是對于近距離對象,這增加了卷積神經(jīng)網(wǎng)絡(luò)(CNN)的學(xué)習(xí)復(fù)雜度,此外,如圖3所示,使用邊界框進行對象檢測的常用應(yīng)用變得更加復(fù)雜,因為邊界框無法為魚眼畸變對象提供最佳擬合。
圖3:標準邊界框不是魚眼圖像的良好對象表示,(a) 邊界框內(nèi)的紅色像素顯示不包含對象的大區(qū)域,定向框(b)和曲線邊界框(c)是更好的表示
在一些論文中探索了更復(fù)雜的表示,不再使用簡單的矩形框,而是利用已知魚眼攝像機徑向畸變的曲線邊界框。魚眼感知是一項具有挑戰(zhàn)性的任務(wù),盡管它很流行,但與針孔相機相比,它的探索相對較少,對于沒有明顯畸變的相機即針孔模型。可以首先考慮光線與距投影中心一定固定距離處的單個平面的交點。由于這種相機的透鏡而產(chǎn)生的所有失真模型都被簡單地設(shè)計成從平面上的投影中心徑向移動交點位置,在某種程度上,魚眼算法的開發(fā)由于缺乏統(tǒng)一的幾何結(jié)構(gòu)而變得復(fù)雜,許多模型使用不同的屬性來描述魚眼投影。
魚眼相機模型
展示了圖像點和單位球體之間的關(guān)系
針孔攝像機模型
當(dāng)研究僅限于考慮標準視場相機時,針孔相機模型是計算機視覺和機器人學(xué)許多領(lǐng)域中使用的標準投影函數(shù),針孔模型由下式給出:
或者,如果我們將其視為關(guān)于入射角的函數(shù)
其中θ是投影光線的入射角,注意,參數(shù)f被稱為焦距,然而,它與物理透鏡系統(tǒng)(通常可以由許多透鏡元件組成)的光學(xué)焦距幾乎沒有關(guān)系。反投影函數(shù)為:
經(jīng)典幾何模型
本節(jié)討論的模型稱為經(jīng)典模型,因為它們已經(jīng)研究了至少60年。
? 圖5?經(jīng)典的相機模型
等距投影( Equidistant Projection):在等距魚眼模型中,投影半徑Qe(θ)通過等距參數(shù)f的簡單縮放與場角θ相關(guān)(見圖5a)。其投影公式:
其中得d和theta表示為
逆投影變換公式為
立體投影( Stereographic Projection):與等距模型一樣,在立體投影中,X到投影球的投影中心為C(圖5b),假設(shè)圖像平面具有沿Z軸(光軸)的切點,在立體攝影中,存在到像平面的第二個中心投影,切點的反極點形成投影中心。這本質(zhì)上是一個焦距為2F的針孔投影,因此,立體投影由以下公式描述:
其逆投影變換為
正交投影(Orthographic Projection):與之前的投影模型類似,正交投影從到球體的投影開始(圖5c)。然后是到平面的正交投影,因此,正交投影的描述如下:
反投影變換表示為
擴展正交模型(Extended Orthographic Model):擴展正交模型,如圖5d所示,通過使投影平面不與投影球相切,允許偏移λ,擴展了經(jīng)典正交模型,在將圖像從魚眼圖像轉(zhuǎn)換為平面圖像的情況下,該擴展用于控制畸變圖像和去畸變圖像之間的尺寸比,畸變投影與等式(10)保持相同。然而,畸變和未畸變徑向距離及其逆之間的關(guān)系由下式給出:
擴展等距模型(Extended Equidistant Model):事實上,擴展正交模型只是從投影到圖像映射的轉(zhuǎn)換,許多模型可以以與擴展正交模型相同的方式轉(zhuǎn)換為圖像上的映射。根據(jù)公式(4),使θ=||k||/f,代入(2),并使(2)的焦距為f+λ,得到等距模型的圖像映射, 按照類似的步驟,也可以得到逆變換。
B、 代數(shù)模型
這里簡要討論了魚眼相機的代數(shù)模型,特別是多項式模型和分割模型,我們提供的多項式模型討論具有完整性,盡管我們在本文的其余部分集中于幾何模型。
多項式模型:非魚眼相機的經(jīng)典Brown–Conrady畸變模型使用一個奇數(shù)多項式來描述圖像上的徑向畸變,盡管已經(jīng)過時,Brown-Conrady模型仍然是非魚眼相機軟件實現(xiàn)中的標準畸變模型。例如,Kannala Brandt(以及在流行的OpenCV軟件中實現(xiàn)的)提出了一個n=5或更高階的多項式模型,僅具有奇數(shù)指數(shù)。
分割模型:徑向畸變的分割模型獲得了一定的普及,因為至少對于單參數(shù)變量,直線投影到圖像中的圓,并且對于許多透鏡,單參數(shù)變量表現(xiàn)非常好,模型及其逆解由下式給出
通過添加額外的縮放參數(shù),這一點得到了擴展,從而改善了某些類型魚眼透鏡的建模性能,雖然分割模型最初被表示為圖像上的映射,但它可以表示為投影函數(shù)
通過將針孔模型(2)代入(16),可以簡單地獲得徑向投影函數(shù),在這種情況下,一旦通過分割模型解決了畸變問題,可以將其視為針孔模型的參數(shù)。分割模型的逆投影為:
C、 球形模型( Spherical models)
基于點到單位球體的投影,至少是最近幾十年的魚眼模型。
視場模型( Field-of-View Model):視場模型及其逆定義如下
參數(shù)w近似相機視場,但不精確,這是一個像分割模型一樣的圖像模型,其中定義圖像平面上的未畸變和扭曲半徑。或者,它可以表示為投影函數(shù)。
其逆投影變換為
統(tǒng)一相機模型( Unified Camera Model):UCM最初用于模擬折反射相機,后來被證明在建模魚眼相機時很有用。
圖6:球形模型,UCM(a)首先包括到單位球體的投影,然后是透視投影,E-UCM將球體替換為具有系數(shù)β的橢球體,DS模型在UCM中添加了第二個單位球體投影,球體之間的距離為ξ。
已經(jīng)證明,它在一系列透鏡中表現(xiàn)良好,首先將點X投影到單位球體,然后投影到模型針孔攝像機(圖6a)
UCM的逆投影變換
增強型統(tǒng)一相機模型(Enhanced Unified Camera Model):UCM由增強型UCM擴展(圖6b),該模型將球面投影推廣為橢球體(或?qū)嶋H上是一般的二次曲面),并能夠證明一定的精度增益。E-UCM由下式給出:
雙球體模型(Double-Sphere Model):雙球體(DS)模型在UCM模型上擴展,該模型增加了第二個單位球體投影,以實現(xiàn)更復(fù)雜的建模(圖6c)。
圖8:各種魚眼模型與一般透視投影之間的關(guān)系,雙線表示兩個模型等效,單線表示通用化/專業(yè)化
討論
魚眼相機有大量潛在的應(yīng)用模型,在本文中,我們提到了20個模型,但可以肯定,這并不是詳盡無遺的,然而已經(jīng)表明,許多幾何模型之間存在著強烈的關(guān)系,至少七個模型與一般透視投影相關(guān)或直接等效,此外,我們還表明,最近開發(fā)的一些魚眼模型在數(shù)學(xué)上等同于經(jīng)典的魚眼投影函數(shù),即幾十年前提出的立體投影模型和等距模型。在圖8中,我們提供了與一般透視投影相關(guān)的幾何魚眼模型圖。
全景攝像系統(tǒng)
本章節(jié)將討論環(huán)視圖攝像機(SVC)的配置及其感知所需的基本術(shù)語,從SVC用于可視化的歷史使用開始,它提供了對汽車配置的理解。然后,我們討論了支持模塊,如校準、校正和幾何圖元。
環(huán)視可視化:SVC歷來用于顯示在駕駛員儀表板上,用于停車可視化。第一個可視化應(yīng)用程序顯示了用于倒車輔助的后視魚眼攝像頭。
圖9?環(huán)視可視化實例
初始系統(tǒng)基于2D俯視圖,如圖9(a)所示。這主要用于停車應(yīng)用,但也可用于其他低速機動用例,如交通堵塞輔助。2D俯視圖假設(shè)地面是平坦的,因此當(dāng)?shù)孛婢哂蟹瞧教馆喞獣r,它具有重影,其他附近物體,如車輛,在該視圖中嚴重扭曲。通過3D環(huán)繞視圖解決了這些問題,該視圖使用了一個碗狀表面,該表面附近是平坦的,并朝著外圍具有向上的曲率,如圖9(b)所示。此外,車輛周圍的深度估計可用于調(diào)整碗狀形狀,以便在附近物體的重影較少的情況下進行最佳觀察。例如,如果車輛在一側(cè)附近,則該區(qū)域中的碗狀表面將位于車輛前方,以避免重影。通常,應(yīng)用程序提供用戶界面以動態(tài)選擇駕駛員所需的視點。環(huán)視圖可視化應(yīng)用程序通常使用GPU實現(xiàn)為OpenGL渲染應(yīng)用程序。
環(huán)視圖的配置:在SVC系統(tǒng)中使用魚眼相機的主要目的是覆蓋整個360? 車輛周圍的近鄰場景區(qū)域,這是通過四個魚眼攝像機實現(xiàn)的,其大水平視場(hFOV)約為190? 垂直視場(vFOV)約為150?。魚眼相機具有非常大的角體積覆蓋率,但其角分辨率相對較小,無法在長距離內(nèi)感知較小的物體。因此,它主要用作近場傳感器。作為比較典型的遠場前置相機的hFOV為120? vFOV為60?. 角體積明顯較小,但具有高得多的角分辨率,使其能夠感知遠處的物體。魚眼攝像機的大hFOV支持360? 只有四個魚眼相機的覆蓋范圍。大的垂直視場使得能夠捕獲靠近車輛的區(qū)域,例如,當(dāng)在路口停車時,檢測到更高海拔的物體,如交通燈。
相機的放置方式使非常靠近車輛的區(qū)域可見,這對于停車場景至關(guān)重要,因此,攝像機的很大一部分包括自車車身,還可以注意到在相交區(qū)域中看到的視場的顯著重疊,這可以用來解決運動問題中的結(jié)構(gòu)比例問題。然而,該重疊位于具有最高失真的邊緣,并且很難獲得在該區(qū)域中精確工作的算法。圖10說明了在巴黎繁忙的城市街道上測試的商業(yè)部署的近場感知系統(tǒng)上的目標檢測和分割。
圖10:商業(yè)部署系統(tǒng)的圓柱形校正環(huán)繞視圖圖像上的對象檢測和分割示意圖
魚眼相機的標定:之前討論了魚眼相機的各種模型,每個模型都有一組參數(shù)(稱為內(nèi)參,必須通過標定程序進行估計)。此外還應(yīng)估計攝像機的外參,即攝像機系統(tǒng)在車輛坐標系中的位置和方向。典型的校準過程是,首先檢測圖像特征(比如棋盤格),其次,算法將通過最小化點的重投影誤差,嘗試估計內(nèi)參和外參,以使用校準設(shè)置的模型投影檢測到的特征。重投影誤差在此指示具有一組參數(shù)的模型能夠多好地表示透鏡的投影函數(shù)。其他攝影測量方法使用消失點提取并設(shè)置線來估計校準參數(shù)。OpenCV庫中實現(xiàn)了一個廣為人知的校準工具箱。OpenCV還提供了魚眼相機型號的版本。基于棋盤特征和攝像機間對應(yīng)關(guān)系的提取,提出了車輛上多個魚眼攝像機的校準過程。這適用于環(huán)視攝像頭系統(tǒng),因為它提供了與車輛相關(guān)的精確外部校準,是提供融合環(huán)視圖像的先決條件。當(dāng)校準模式具有相對于車輛坐標系的已知位置時,可以在離線環(huán)境中如上所述估計攝像機的姿態(tài)。
幾何投影:在針孔相機中,平面上的任何一組平行線都會聚在一個消失點,這些可用于估計內(nèi)參和外參,對于針孔相機模型,幾何問題通常可以用線性代數(shù)表示,在這種情況下,可以使用霍夫變換檢測平行線,所有消失點的集合是該平面的水平線,在真實世界的攝像機系統(tǒng)中,針孔攝像機是攝像機的數(shù)學(xué)模型,其具有例如光學(xué)畸變形式的誤差,這通常適用于畸變輕微的窄視場攝像機。對于寬視場攝像機,如果攝像機的視場大于180?, 則原始圖像中的點與校正圖像平面之間不存在一一關(guān)系。對于魚眼相機,更好的模型是球面投影面,在魚眼圖像中,Hughes等人描述了如何將這些平行線近似并擬合為圓或二次曲線,以便魚眼攝像機確定消失點或水平線。這些平行線對應(yīng)于球面的大圓。相應(yīng)地,魚眼相機成像的直線近似為圓錐,而魚眼相機所成像的平行線在兩個消失點處相交(如圖11)。
圖11:地平線、消失點和對極線的圖示。魚眼圖像中的線可以近似為二次曲線,等效于透視圖像中的平行線如何收斂于單個消失點,魚眼圖像中的并行直線在兩個消失點處收斂,這兩個消失點,當(dāng)上升到單位球體時,是球體上的對極點,紅色和綠色分別表示水平平行線(藍色為相關(guān)地平線)和垂直平行線的透視圖,紅點和綠點表示消失點,其中一個消失點位于圖像外部。
球面極線幾何 :立體視覺的幾何關(guān)系由極線幾何描述,可用于深度估計和結(jié)構(gòu)從運動方法結(jié)合特征提取器,在針孔相機模型中,穿過兩個相機光學(xué)中心的線與圖像平面的交點定義了稱為對極點,這條線稱為基線,穿過基線的每個平面在兩個圖像平面中定義匹配的極線,一個攝像機中的一個點位于另一個攝像機上的極線上,反之亦然。這將雙視圖攝像機設(shè)置中對應(yīng)點(立體匹配)的搜索減少為1D問題,對于全向相機,如魚眼相機,使用球面投影面代替平面投影面,更直觀的是討論對極平面而不是對極線,
圖12:球形對極幾何結(jié)構(gòu)。對極平面是圍繞對極e的平面束之一,由攝像機中心C和C0定義。理想觀測u和u0將位于對極平面上,然而,在存在噪聲的情況下,實際觀測點u和u0與極平面的距離將為非零。
如圖12所示,兩臺相機的單個3D點的理想觀測將位于同一對極平面上,與針孔情況下它們位于對極線上的方式相同,然而,重要的是要注意,必須校準攝像機,以便將圖像特征提升到投影球,相反,對于窄視場攝像機,通過基本矩陣為未校準相機定義了極線幾何。
魚眼相機校正 :可以消除魚眼攝像機中的徑向畸變,并重新使用標準感知算法,雖然這是一種快速啟動魚眼相機感知發(fā)展的方法,但仍存在與校正相關(guān)的幾個問題。首先,理論上不可能將魚眼圖像校正為直線視角,因為水平視場大于180?, 因此,有光線入射到相機后面的鏡頭上,這對于針孔設(shè)置不起作用,使用具有大視場的魚眼透鏡,然后由于矯正而失去一些,這是適得其反的,第二個重要問題是重采樣失真,這在本質(zhì)上更實際,這是插值重影的一種特殊表現(xiàn)形式,其中對于魚眼圖像,小補丁(特別是在失真高的外圍)被擴展到校正圖像中的非常大的區(qū)域,導(dǎo)致高噪聲。此外,在推理時會消耗大量的計算能力和內(nèi)存帶寬,它創(chuàng)建具有無效像素的非矩形圖像,這進一步降低了計算效率。
圖13:不失真語言圖像:(a)直線校正;(b) 分段線性校正;(c) 圓柱形校正。左:原始圖像;右:原始圖像。
魚眼的常用校正方法如圖13所示。圖13(a)顯示了標準直線校正,從缺失的水平白線可以觀察到近處的顯著損失,左邊緣和右邊緣的區(qū)域也有丟失,雖然存在顯著的損失,但這允許使用標準攝像機算法。圖13(b)顯示了一個三次近似,其中魚眼透鏡表面由一個開放立方體近似,它可以解釋為魚眼投影表面的分段線性近似,每個平面是直線校正,因此可以在每個塊內(nèi)使用標準算法。然而,立方體的兩個表面上的畸變具有較大的失真,并且很難檢測在兩個區(qū)域上分裂的對象,可以注意到由于邊緣處的重新采樣重影而導(dǎo)致的強烈透視畸變和模糊。實際上,常見的矯正過程是使用圖13(c)所示的圓柱形表面,它可以被解釋為準線性近似,因為它在垂直方向上是線性的,并且表面在水平方向上具有二次曲率,相對于直線視口,它覆蓋的視野要大得多。主要優(yōu)點是,垂直物體保持垂直,如建筑物上的垂直線所觀察到的,因此,保留了掃描線,用于在兩個連續(xù)魚眼圖像(運動立體)之間或魚眼和窄視場相機(非對稱立體)之間水平搜索立體算法,主要缺點是其固有的無法捕獲靠近車輛的近場區(qū)域,這可以通過使用覆蓋近場區(qū)域的附加平滑表面來固定,附近物體的畸變也會增加。
魚眼相機的感知任務(wù)
由于數(shù)據(jù)集有限,關(guān)于魚眼圖像感知任務(wù)的文獻相對較少。我們將感知任務(wù)分為語義、幾何和時間任務(wù)。最后,我們討論了聯(lián)合多任務(wù)模型
A、 語義任務(wù)
語義分割:這是為圖像中的每個像素(如行人、道路或路緣)分配類別標簽的過程,如圖14(第2列)所示。與針孔前攝像頭上使用的基于語義分割的經(jīng)典計算機視覺方法相比,基于CNN的方法最近非常成功,盡管在城市交通場景中,自動駕駛汽車需要更寬的視野來感知周圍的事物,尤其是在十字路口。
圖14:WoodScape數(shù)據(jù)集上OmniDet框架的原始魚眼圖像的定性結(jié)果[2]。第一列表示輸入圖像從前、左、右和后攝像機,第2列表示距離估計,第3列表示語義分割圖,第4列表示廣義對象檢測表示和第5表示運動分割。以更高的分辨率獲得更多定性結(jié)果
目標檢測:目標檢測在魚眼圖像中受徑向畸變影響最大,由于魚眼圖像形成中的固有畸變,與光軸成不同角度的物體看起來非常不同,使得物體檢測困難,矩形邊界框往往不是對象大小的最佳表示,有時是標準BB框的一半,而框本身是感興趣對象的兩倍,實例分割提供了對象的精確輪廓,但它們的注釋成本要高得多,還需要BB估計步驟。
臟污問題 :全景攝像頭直接暴露在外部環(huán)境中,易受臟污影響,相比之下,前攝像頭放在擋風(fēng)玻璃后面,不太容易受到影響。有兩種類型的污染區(qū)域:不透明(泥、灰塵、雪)和透明(水、油和油脂)(水),尤其是,由于背景能見度有限,可能難以識別透明污垢,臟污會導(dǎo)致感知精度的顯著降低,因此使用噴水或更先進的基于超聲波的清潔系統(tǒng)用于更高水平的自動駕駛。即使未清潔攝像機,也需要進行臟污檢測,以增強退化區(qū)域視覺算法的不確定性。
B、 幾何任務(wù)
深度估計:它涉及到在像素級估計到物體(或任何平面)的距離,計算相對于相機平面的距離仍然非常困難,目前,大多數(shù)工作都是在消除桶形失真的糾正kitti序列上進行的,在針孔相機的情況下,深度定義為與相機平面的垂直距離,即z。先前的運動結(jié)構(gòu)(SfM)接近[106],[107],通過將網(wǎng)絡(luò)的視差預(yù)測參數(shù)化為深度,以在視圖合成步驟期間進行非投影操作,估計逆深度。這種參數(shù)化對于魚眼相機不起作用,因為它們經(jīng)歷了大的畸變,這導(dǎo)致與針孔相機中的極線相比,在極線曲線上獲得角度差異。為了應(yīng)用與針孔相同的方法,我們需要校正魚眼圖像,這將導(dǎo)致第三節(jié)所述的視野損失。然而,適用于針孔投影模型攝像機的相同多視圖幾何[108]原理也適用于魚眼圖像。通過從不同的視點觀察場景并建立它們之間的對應(yīng)關(guān)系,可以估計潛在的幾何結(jié)構(gòu)。
視覺里程計:該技術(shù)同時進行攝像機運動估計和半密度重建,,方案中有兩個線程:一個用于跟蹤,一個用于建圖。他們使用跟蹤線程中的半密集直接圖像對準來估計攝像機姿態(tài)。為了避免極線問題,使用平面掃描立體算法進行立體匹配并初始化深度。Cui等人展示了使用魚眼攝像機的大規(guī)模實時密集幾何建圖技術(shù),攝像機姿態(tài)是從GNSS/INS系統(tǒng)獲得的,但他們也提出也可以從視覺慣性里程儀(VIO)框架中檢索。深度圖融合使用通過這些方法檢索的攝像機姿態(tài)。Heng等人描述了魚眼立體相機的半直接視覺里程計算法。在跟蹤線程中,它們在估計攝像機姿態(tài)的同時跟蹤魯棒的特征點;在建圖線程中,它們估計要跟蹤的每個新特征點的坐標和曲面法線,曲面法線估計允許我們從不同的視點跟蹤特征點,它們在檢測特征對應(yīng)性的技術(shù)中不使用描述符子強描述子匹配。相反,他們采用基于光一致性的方法來尋找斑塊對應(yīng)關(guān)系。
運動分割:它被定義為識別一對序列中的獨立運動對象(像素),如車輛和人,并將其與靜態(tài)背景分離,它被用作一種外觀不可知的方法,使用不像稀有動物(如袋鼠或駝鹿)那樣常見的運動線索來檢測任意運動對象。MODNet首次探索了自動駕駛。最近,InstanceMotSeg定義并探討了實例級運動分割。FisheeyeModnet將其擴展到魚眼攝像機,而無需校正。沒有明確的運動補償,但提到了未來的工作。Mariotti等人使用基于車輛里程計的經(jīng)典方法來完成這項任務(wù)。進行光流的球面坐標變換,并調(diào)整正高度、深度和極線約束以在該設(shè)置中工作。他們還提出了反平行約束,以消除汽車平行于自我車輛移動時通常出現(xiàn)的運動視差模糊。
C、?實時任務(wù)
雖然深度和運動等幾何任務(wù)可以使用多幀進行訓(xùn)練和推理,但輸出僅在一幀上定義,我們將時間任務(wù)定義為其輸出在多個幀上定義的任務(wù)。它通常需要多幀順序注釋。
跟蹤:對象跟蹤是一項常見的時間任務(wù),其中對象必須跨多個幀關(guān)聯(lián)。文章[124]中探討了環(huán)繞視圖攝像機的運動對象檢測和跟蹤,使用經(jīng)典的基于光流的方法進行跟蹤。WEPDTOF是最近發(fā)布的一個數(shù)據(jù)集,用于在頭頂監(jiān)控設(shè)置中使用魚眼攝像機進行行人檢測和跟蹤,雖然它不是一個汽車數(shù)據(jù)集,但它捕獲了在魚眼攝像機上開發(fā)跟蹤系統(tǒng)所需的挑,軌跡預(yù)測與跟蹤密切相關(guān),其中必須為下一組幀預(yù)測感興趣對象的位置。在自動駕駛的情況下,特別是在3D鳥瞰空間中進行。PLOP算法探索了在應(yīng)用圓柱校正后,在魚眼前攝像頭上進行車輛軌跡預(yù)測。
重識別:重新識別(Re ID)是跨攝像機檢測到的對象的關(guān)聯(lián),它還可以包括跨攝像機隨時間的關(guān)聯(lián),Wu等人建議在全方位攝像機上執(zhí)行車輛重新識別,并強調(diào)兩個重大挑戰(zhàn):首先,由于魚眼失真、遮擋、截斷和其他因素,很難在單個攝像機視圖中從以前的圖像幀中檢測到同一輛車,其次,在多攝像機視角下,同一輛車的外觀會因使用的攝像機而發(fā)生顯著變化。它們提供了一種新的質(zhì)量評估機制,以抵消跟蹤盒漂移和目標一致性的影響。他們采用基于注意力機制的Re ID網(wǎng)絡(luò),然后將其與空間約束方法配對,以提高不同攝像機的性能
SLAM:特征對應(yīng)包括關(guān)鍵點檢測、描述和匹配,是SLAM系統(tǒng)的首要步驟。FisheeySuperPoint為魚眼圖像引入了一種獨特的訓(xùn)練和評估方法,該論文采用了SuperPoint,一種自監(jiān)督關(guān)鍵點檢測器和描述符,該檢測器和描述符已生成最先進的單應(yīng)性預(yù)測結(jié)果,提出了一個魚眼自適應(yīng)框架,用于對未失真魚眼圖像進行訓(xùn)練;魚眼扭曲用于魚眼圖像的自監(jiān)督訓(xùn)練,通過對單位球體的中間投影相位,魚眼圖像被轉(zhuǎn)換為新的扭曲圖像。攝像機的虛擬姿態(tài)可以在6-Dof中改變。Tripathi等人探索了使用ORB SLAM方案的環(huán)視圖魚眼相機的重新定位問題,目標是對私人區(qū)域進行地圖繪制,并根據(jù)該地圖重新定位,以幫助自動泊車。對原始魚眼圖像進行特征檢測,并分析了原始魚眼相機上不同特征對應(yīng)算法的比較。
D、 多任務(wù)模型
自引入深度學(xué)習(xí)以來,許多密集預(yù)測任務(wù)(即生成像素級預(yù)測的任務(wù))的性能顯著提高,這些任務(wù)通常一次學(xué)習(xí)一個,每個任務(wù)都需要訓(xùn)練自己的神經(jīng)網(wǎng)絡(luò),另一方面,最近的MTL方法[145]通過通過學(xué)習(xí)共享表示聯(lián)合處理多個任務(wù),在性能、計算復(fù)雜度和內(nèi)存占用方面顯示了良好的結(jié)果。對于魚眼攝像機,Sistu等人提出了一種用于學(xué)習(xí)對象檢測和語義分割的聯(lián)合MTL模型,主要目標是在一個芯片上的低功耗嵌入式系統(tǒng)上實現(xiàn)實時性能,這兩個任務(wù)使用相同的編碼器。他們使用兩個解碼器共享的一個簡單的類似ResNet10的編碼器來構(gòu)建一個高效的體系結(jié)構(gòu),對象檢測采用YOLO v2解碼器,而語義分割采用FCN8解碼器。FisheyeMultiNet從基于攝像機的深度學(xué)習(xí)算法的角度討論了自動停車系統(tǒng)的設(shè)計和實現(xiàn),在低功耗嵌入式系統(tǒng)上,FisheyeMultiNet是一種實時多任務(wù)深度學(xué)習(xí)網(wǎng)絡(luò),可識別停車所需的所有對象,該設(shè)置是一個四攝像機系統(tǒng),以15fps的速度運行,執(zhí)行三項任務(wù):物體檢測、語義分割和污垢檢測。最后,OmniDet中介紹了僅使用攝像機對環(huán)境進行近場感知的整體實時場景理解。他們構(gòu)建了一個近場感知系統(tǒng),該系統(tǒng)構(gòu)成了圖14所示的三級自主堆棧,在該框架的幫助下,可以從一個深度學(xué)習(xí)模型中共同理解和推理幾何、語義、運動、定位和臟污,該模型包括嵌入式系統(tǒng)上以60fps的六個任務(wù)。Rashed等人[150]證明了深度和運動等幾何任務(wù)有助于語義分割,因此實現(xiàn)了跨任務(wù)的協(xié)同交叉鏈接,攝像機校準被轉(zhuǎn)換為逐像素張量,并被饋送到模型中,以適應(yīng)各種攝像機內(nèi)在特性。Sobh等人[151]研究了使用OmniDet的多任務(wù)設(shè)置中對抗性攻擊的影響,這對于安全關(guān)鍵應(yīng)用非常重要。
公開數(shù)據(jù)集和研究方向
A 數(shù)據(jù)集
構(gòu)建汽車數(shù)據(jù)集既昂貴又耗時,目前是魚眼感知研究進展的主要瓶頸,在表2中,總結(jié)了已發(fā)布的魚眼攝像機數(shù)據(jù)集
B、 研究方向
畸變感知CNN:CNN自然地利用了圖像網(wǎng)格中的平移不變性,并且在魚眼圖像中由于空間變化的畸變而被破壞,已經(jīng)提出了球形CNN[89],可直接用于球形徑向畸變模型,然而,汽車透鏡更復(fù)雜,球形模型不適用。將球形CNN推廣到更復(fù)雜的魚眼流形表面將是一個有趣的方向,特別是, Kernel transformer networks[91]有效地將卷積算子從透視轉(zhuǎn)換為全向圖像的等矩形投影,更適合推廣到魚眼圖像。
處理實時變化任務(wù):如前所述,由于徑向畸變導(dǎo)致外觀變化較大,魚眼相機的目標檢測器樣本復(fù)雜度增加,對于需要跨兩個幀匹配特征的時間任務(wù),這種情況會進一步惡化,這兩個幀可能具有兩種不同的畸變,例如,在魚眼相機的情況下,目標跟蹤和再識別要具有更大的挑戰(zhàn)性,跟蹤靜態(tài)攝像機從左向右移動的行人需要處理較大的徑向扭曲外觀變化,同樣,對于靜態(tài)行人,相機的水平和垂直運動會導(dǎo)致較大的變化,這也是點特征對應(yīng)問題的一個挑戰(zhàn),類似于跟蹤。一種解決方案是在特征向量中顯式嵌入徑向畸變用于匹配。
鳥瞰圖感知:在自動駕駛中,必須將圖像上的檢測提升到3D,通常通過反向透視映射(IPM)實現(xiàn),假設(shè)地面平坦,它也可以通過使用深度估計或與3D傳感器融合來增強,最近有一種趨勢,即在網(wǎng)絡(luò)中隱式使用IPM直接以3D點云輸出,它通常通過使用可學(xué)習(xí)的校正層來轉(zhuǎn)換抽象編碼器特征,作為在輸入級執(zhí)行IPM的替代。由于CNN具有更多的上下文信息,并且可學(xué)習(xí)的轉(zhuǎn)換可以更靈活,因此它比逐像素IPM工作得更好。在針孔相機的情況下,IPM是一種線性變換,并且相對容易設(shè)計編碼器特征的空間變換器,然而,對于魚眼相機,IPM是一個復(fù)雜的非線性算子,直接在鳥瞰空間中輸出仍然是一個開放的問題。
多相機建模:目前在環(huán)視圖攝像機中的大多數(shù)工作都獨立處理四個攝像機中的每一個,并執(zhí)行感知算法,聯(lián)合建模所有四個環(huán)視圖攝像機可能更為理想,首先,它將有助于通過兩個或三個攝像頭檢測大型車輛(如運輸卡車),其次,它消除了在多個攝像機中看到的物體的重新識別和單個檢測的后處理,以形成統(tǒng)一的輸出,如車道模型,多攝像機模型將更有效地聚集信息并產(chǎn)生更優(yōu)化的輸出。[160]開發(fā)了將多個相機視為單個攝像機的經(jīng)典幾何方法,然而,最近有一些工作利用多個攝像機作為單個感知模型的輸入,他們使用針孔攝像機,重疊視場最小,對于環(huán)視圖攝像機來說,對其進行建模更具挑戰(zhàn)性。
遠近場景相機的統(tǒng)一建模:下一代自動駕駛系統(tǒng)的典型配置包括使用四個環(huán)視攝像機和六個遠距離攝像機對近距離進行360°全覆蓋,執(zhí)行所有攝像機的統(tǒng)一建模是挑戰(zhàn)性的,擴展了上述多攝像機建模。圖15顯示了前部區(qū)域的近場和遠場圖像,它們形成了一個不對稱的立體對,可以很容易地計算深度,而不是更具挑戰(zhàn)性的單目深度,因為單目深度具有基本的模糊性,目前,還沒有包含近場和遠場攝像機的公共數(shù)據(jù)集來支持這項研究。
? ? ? ? ?圖15:形成不對稱立體對的近場和遠場前攝像機圖像的圖示
寫在前面
魚眼相機是自動駕駛系統(tǒng)中最常見的傳感器之一,盡管它很流行,但汽車界對它的理解有限,因為它是一種專門的相機傳感器,標準算法并不適用于它,這項工作詳細介紹了如何開始開發(fā)環(huán)視圖魚眼相機,本文是詳細描述魚眼幾何結(jié)構(gòu)和模型的部分教程,以及討論在魚眼上開發(fā)的感知算法的部分綜述。最后,文章提供了有待探索的未來方向。
更多詳細內(nèi)容請查看論文原文。
資源
三維點云論文及相關(guān)應(yīng)用分享
【點云論文速讀】基于激光雷達的里程計及3D點云地圖中的定位方法
3D目標檢測:MV3D-Net
三維點云分割綜述(上)
3D-MiniNet: 從點云中學(xué)習(xí)2D表示以實現(xiàn)快速有效的3D LIDAR語義分割(2020)
win下使用QT添加VTK插件實現(xiàn)點云可視化GUI
JSNet:3D點云的聯(lián)合實例和語義分割
大場景三維點云的語義分割綜述
PCL中outofcore模塊---基于核外八叉樹的大規(guī)模點云的顯示
基于局部凹凸性進行目標分割
基于三維卷積神經(jīng)網(wǎng)絡(luò)的點云標記
點云的超體素(SuperVoxel)
基于超點圖的大規(guī)模點云分割
更多文章可查看:點云學(xué)習(xí)歷史文章大匯總
SLAM及AR相關(guān)分享
【開源方案共享】ORB-SLAM3開源啦!
【論文速讀】AVP-SLAM:自動泊車系統(tǒng)中的語義SLAM
【點云論文速讀】StructSLAM:結(jié)構(gòu)化線特征SLAM
SLAM和AR綜述
常用的3D深度相機
AR設(shè)備單目視覺慣導(dǎo)SLAM算法綜述與評價
SLAM綜述(4)激光與視覺融合SLAM
Kimera實時重建的語義SLAM系統(tǒng)
SLAM綜述(3)-視覺與慣導(dǎo),視覺與深度學(xué)習(xí)SLAM
易擴展的SLAM框架-OpenVSLAM
高翔:非結(jié)構(gòu)化道路激光SLAM中的挑戰(zhàn)
SLAM綜述之Lidar SLAM
基于魚眼相機的SLAM方法介紹
如果你對本文感興趣,請后臺發(fā)送“知識星球”獲取二維碼,務(wù)必按照“姓名+學(xué)校/公司+研究方向”備注加入免費知識星球,免費下載pdf文檔,和更多熱愛分享的小伙伴一起交流吧!
以上內(nèi)容如有錯誤請留言評論,歡迎指正交流。如有侵權(quán),請聯(lián)系刪除
掃描二維碼
? ? ? ? ? ? ? ? ? ?關(guān)注我們
讓我們一起分享一起學(xué)習(xí)吧!期待有想法,樂于分享的小伙伴加入免費星球注入愛分享的新鮮活力。分享的主題包含但不限于三維視覺,點云,高精地圖,自動駕駛,以及機器人等相關(guān)的領(lǐng)域。
分享及合作方式:微信“920177957”(需要按要求備注) 聯(lián)系郵箱:dianyunpcl@163.com,歡迎企業(yè)來聯(lián)系公眾號展開合作。
點一下“在看”你會更好看耶
總結(jié)
以上是生活随笔為你收集整理的综述:用于自动驾驶的全景鱼眼相机的理论模型和感知介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何使用kali的Searchsploi
- 下一篇: 费尔个人防火墙采用两种封包过滤技术