BEV最新综述 | 学术界和工业界方案汇总!优化方法与tricks
論文鏈接:https://arxiv.org/pdf/2209.05324.pdf
學習感知任務的鳥瞰圖(BEV)中的強大表示法是一種趨勢,并引起了工業界和學術界的廣泛關注。大多數自動駕駛常規方法是在前視圖或透視圖中執行檢測、分割、跟蹤等。隨著傳感器配置變得越來越復雜,集成來自不同傳感器的多源信息并在統一視圖中表示特征變得至關重要。BEV perception繼承了幾個優勢,如在BEV中表示周圍場景直觀且融合友好;并且在BEV中表示對象對于后續模塊最為理想,如在規劃和/或控制中。BEV感知的核心問題在于: (a) 如何通過從透視圖到BEV的視圖轉換來重建丟失的3D信息; (b) 如何在BEV網格中獲取GT; (c) 如何制定pipelines,以納入來自不同來源和view的特征; (d) 如何適應和推廣算法,因為傳感器配置在不同場景中有所不同;
本調查回顧了關于BEV感知的最新工作,并對不同解決方案進行了深入分析。此外,還描述了行業中BEV方法的幾個系統設計,介紹了一整套實用指南,以提高BEV感知任務的性能,包括相機、激光雷達和融合輸入。最后,論文指出了該領域未來的研究方向,希望本報告能為社區提供一些信息,并鼓勵更多關于BEV感知的研究工作。
領域介紹
自動駕駛中的感知識別任務本質上是對物理世界的三維幾何重建。隨著傳感器的多樣性和數量越來越復雜,自動駕駛系統的裝備也越來越復雜,以統一的視角表示不同視圖中的特征至關重要。眾所周知的鳥瞰圖(BEV)是一種自然而直接的候選視圖,可作為統一表示。與二維視覺領域中廣泛研究的前視圖或透視圖相比,BEV表示具有若干固有優點。首先,它沒有2D任務中普遍存在的遮擋或縮放問題。可以更好地解決具有遮擋或交叉交通的車輛識別問題。此外,以這種形式表示對象或道路元素將有利于方便后續模塊(如規劃、控制)的開發和部署。
基于輸入數據,論文將BEV感知研究主要分為三個部分:BEV camera、BEV激光雷達和BEV fusion,下圖描述了BEV感知家族的總體圖,具體地,BEV camera指示用于從多個環繞相機檢測或分割3D目標的視覺或以視覺為中心的算法;BEV激光雷達描述了從點云輸入的檢測或分割任務;BEV fusion描述了來自多個傳感器輸入的融合機制,如相機、激光雷達、GNSS、里程計、高清地圖、CAN總線等;
當談到BEV感知研究的動機時,需要檢查三個重要方面。
1.意義
BEV感知是否會對學術界和/或社會產生真正和有意義的影響?眾所周知,與基于激光雷達或融合的解決方案相比,基于視覺的解決方案存在巨大的性能差距,例如,截至2022年8月提交時,僅視覺與激光雷達之間的第一排名方法差距超過了nuScenes數據集上NDS的20%,Waymo基準的差距甚至超過30%。這自然促使我們研究視覺解決方案是否能夠超越或等同于激光雷達方法。從學術角度來看,設計基于camera的pipelines以使其優于激光雷達的本質在于更好地理解從2D外觀輸入到3D幾何輸出的視圖轉換過程。如何像在點云中那樣將相機特征轉換為幾何表示,對學術界產生了有意義的影響。從工業角度考慮,將一套激光雷達設備納入SDV的成本很高。此外基于camera的pipelines可以識別長距離物體和基于顏色的道路元素(如交通燈),這兩種激光雷達方法都無法實現。
2.空間
BEV感知中是否存在需要大量創新的開放性問題?BEV感知背后的要點是從camera和激光雷達輸入中學習魯棒和可概括的特征表示,這在激光雷達分支中很容易,因為輸入(點云)具有這樣的3D特性。在相機分支中,這是非常重要的,因為從單目或多視圖設置中學習3D空間信息是困難的。雖然看到有人試圖通過姿勢估計[9]或時間運動[10]來學習更好的2D-3D對應關系,但BEV感知背后的核心問題需要從原始傳感器輸入進行深度估計的實質性創新,特別是對于相機分支。另一個關鍵問題是如何在pipelines的早期或中期融合特征,大多數傳感器融合算法將該問題視為簡單的對象級融合或沿blob channel的樸素特征連接。這可能解釋了為什么由于相機和激光雷達之間的未對準或不準確的深度預測,某些融合算法表現不如僅使用激光雷達的解決方案。如何對齊和集成多模態輸入的特征起著至關重要的作用,從而為創新留下了廣闊的空間。
論文主要回顧了近年來BEV感知研究的全貌,詳細闡述了BEV感知文獻的綜合分析,涵蓋了深度估計、視圖轉換、傳感器融合、域自適應等核心問題。介紹并討論了幾種重要的BEV感知工業系統級設計。除了理論貢獻外,我們還提供了一本實用的操作指南,用于提高各種BEV感知任務的性能。
數據集和Metrics
1.數據集
論文介紹了一些流行的自動駕駛數據集和常用的評估指標。下表總結了BEV感知的主要基準統計數據。通常,數據集由各種場景組成,每個場景在不同的數據集中具有不同的長度。總持續時間從幾十分鐘到幾百小時不等。對于BEV感知任務,3D邊界框標注和3D分割標注至關重要,高清地圖配置已成為主流趨勢,其中大部分可以用于不同的任務。
2.Metrics
LET-3D-APL:在僅camera的3D檢測中,使用LET-3D-APL代替3D-AP作為度量。與三維聯合交集(IoU)相比,LET-3D-APL允許預測邊界框的縱向定位誤差達到給定公差。LET-3D-APL通過使用定位親和力縮放精度來懲罰縱向定位誤差。LET-3D-APL的定義在數學上定義為:
mAP:類似于2D目標檢測中的AP度量,但匹配策略被從IoU替換為BEV平面上的2D中心距離。AP是在不同的距離閾值下計算的:0.5米、1米、2米和4米。通過平均上述閾值中的AP來計算mAP:
NDS:nuScenes檢測分數(NDS)是幾個指標的組合,mAP、mATE(平均平移誤差)、mASE(平均標度誤差)、mAOE(平均方位誤差)、mAVE(平均速度誤差)和mAAE(平均屬性誤差)。通過使用上述度量的加權和來計算NDS。mAP的權重為5,其余為1:
BEV感知方法
如下表所示,近年來BEV感知文獻匯總。在輸入模式下,“L”表示激光雷達,“SC”表示單相機,“MC”表示多相機,“T”表示時間信息。在任務下,“ODet”用于3D對象檢測,“LDet”用于三維車道檢測,“MapSeg”用于地圖分割,“Plan”用于運動規劃,“MOT”用于多對象跟蹤。深度監督意味著僅camera模型使用稀疏/密集深度圖來監督模型。在數據集下,“nuS”代表nuScenes數據集,“WOD”代表Waymo開放數據集,“KITTI”代表KITTI數據集,“Lyft”代表Lyft 5級數據集,“OpenLane”代表OpenLane數據集,“AV”代表Argosse數據集,“Carla”代表Carla模擬器,“SUN”代表SUN RGB-D數據集,“ScanNet”代表ScanNet室內場景數據集。
1.基于Camera的BEV
只有camera的3D感知吸引了學術界的大量關注,因為與基于激光雷達的3D感知相比,這是一個未解決的問題,因此值得探索。核心問題是2D圖像自然不保留3D信息,因此當從2D圖像中不準確地提取深度信息時,難以獲得對象的精確3D定位。僅camera的3D感知可分為三個領域:單相機設置、stereo設置和多camera設置,它們有不同的技能來解決深度問題。
視圖轉換
最近的研究集中于視圖轉換模塊[3、4、10、26、46、47、48、50、55、58],其中3D信息是根據2D特征或3D先驗假設構建的。從二維特征構造三維信息通常表示為深度估計或cost volume。從3D先驗假設構造3D信息通常被表示為采樣2D特征以通過3D-2D投影映射構造3D特征,視圖變換在僅camera 3D感知中起著至關重要的作用,因為它是構建3D信息和編碼3D先驗假設的主要模塊。大體上,它可以分為兩個方面,一是利用2D特征構造深度信息并將2D特征“提升”到3D空間,另一個是通過3D到2D投影映射將2D特征編碼到3D空間。我們將第一種方法命名為2D-3D,第二種方法稱為3D-2D。下圖給出了通過這兩種方法執行視圖轉換的概要路線圖:
從2D到3D,基于LSS的方法[5、45、46、48、56、63、95]根據2D特征預測每個像素的深度分布,而立體視覺方法[64、96]沿著由成本體積構建的平截頭體散布2D特征。
從3D到2D,基于單應矩陣的方法[4,26,47,55,85,112]假定稀疏的3D采樣點,并通過攝像機參數將其投影到2D平面。基于純網絡的方法[106、107、108、109、110]使用MLP或transformer隱式建模從3D空間到2D平面的投影矩陣。
LSS[56]引入了2D-3D方法,其中預測2D特征上每個網格的深度分布,然后通過相應的體素空間深度“提升”每個網格的2D特征,并執行基于激光雷達的下游任務方法。這一過程可以表述為:
請注意,這與偽激光雷達方法[92、93、94]非常不同,偽激光雷達的深度信息是從預訓練的深度估計模型中提取的,過程發生在2D特征提取之前。在LSS[56]之后,還有另一項工作遵循了將深度公式化為按bin-wise分布的相同思想,即CaDDN。CaDDN使用類似的網絡來預測深度分布(分類深度分布),將體素空間特征壓縮到BEV空間,并在最后執行3D檢測。LSS[56]和CaDDN之間的主要區別在于,CaDDN使用深度地面真相來監督其分類深度分布預測,因此,由于具有從2D空間提取3D信息的優越深度網絡。
當我們聲稱“更好的深度網絡”時,它實際上是在學習路面和透視圖之間在特征級別的隱式投影。這一軌跡來自后續工作,如BEVDet及其時間版本BEVDet4D、BEVDepth、BEVFusion和其它。請注意,在stereo設置中,通過強先驗更容易獲得深度值/分布,其中一對攝像機(即系統的基線)應該是恒定的。這可以公式化為:
LIGA Stereo和DSGN等立體方法利用了這種強大的先驗,并與KITTI排行榜上基于激光雷達的替代方案不相上下。
第二個分支(3D到2D)可以追溯到三十年前,當時逆透視映射(IPM)通過有條件地假設3D空間中的對應點位于水平面上,制定了從3D空間到2D空間的投影。這種變換矩陣可以從相機的內外參數中數學推導。一系列工作[99、100、101、102、103、104、105]應用IPM以預處理或后處理的方式將元素從透視圖變換為鳥瞰圖。
在視圖變換的背景下,OFTNet[42]首先引入了3D-2D方法,即從3D到2D的特征投影,其中將2D特征投影到體素空間(3D空間)。它基于這樣的假設:從相機原點到3D空間中的特定點,深度分布沿光線是均勻的。這種假設適用于自動駕駛中的大多數場景,但當涉及起伏道路時,有時會中斷。同時,許多BEV地圖分割工作[106、107、108、109、110]利用多層感知器或transformer架構[111]來隱式地建模3D-2D投影,而無需攝像機參數。最近,3D-2D幾何投影和神經網絡的組合變得流行[4,26,47,55,85,112],受特斯拉發布其感知系統技術路線圖[6]的啟發。請注意,transformer架構中的交叉注意)
為了獲得穩健的檢測結果,BEVFormer[4]利用transformer中的交叉關注機制來增強3D-2D視圖轉換的建模。
BEV和透視法的討論
在僅camera3D感知的開始,主要焦點是如何從透視圖(即2D空間)預測3D對象定位。這是因為2D感知在該階段得到了很好的發展,如何為2D檢測器配備感知3D場景的能力成為主流方法[61、81、82、117、118、119、120、121、122、123、124、125、126、127、128、129]。后來,一些研究達到了BEV表示,因為在這種觀點下,很容易解決3D空間中具有相同尺寸的對象由于與相機的距離而在圖像平面上具有非常不同的尺寸的問題。這一系列工作[42、45、64、92、96]要么預測深度信息,要么利用3D先驗假設來補償相機輸入中3D信息的損失。雖然最近的基于BEV的方法[3、4、5、46、48、95、130]已經風靡了3D感知世界,但值得注意的是,這一成功主要得益于三個方面。第一個原因是nuScenes數據集[7],它具有多攝像機設置,非常適合在BEV下應用多視圖特征聚合。第二個原因是,大多數僅使用相機的BEV感知方法從基于激光雷達的方法[43、44、66、83、84、131、132、133、134、135]中獲得了大量幫助,其形式為檢測頭和相應的損失設計。第三個原因是,單目方法的長期發展[81、82、117、120、121、136、137]使基于BEV的方法蓬勃發展,成為處理透視圖中特征表示形式的良好起點。核心問題是如何從2D圖像中重建丟失的3D信息。為此,基于BEV的方法和透視方法是解決同一問題的兩種不同方法,它們并不相互排斥。
2.基于LiDAR的BEV
在特征提取部分,主要有兩個分支將點云數據轉換為BEV表示。根據pipilines順序,將這兩個選項分別稱為前BEV和后BEV,指示主干網絡的輸入是來自3D表示還是來自BEV表示。如下圖所示,BEV激光雷達感知的一般流程。主要有兩個分支將點云數據轉換為BEV表示。上分支提取3D空間中的點云特征,提供更準確的檢測結果。下分支提取2D空間中的BEV特征(原始點云轉換),提供更高效的網絡。
BEV前特征提取
除了對原始點云進行基于點的方法處理之外,基于體素的方法將點體素化為離散網格,這通過離散化連續三維坐標提供了更有效的表示。基于離散體素表示、3D卷積或3D稀疏卷積可用于提取點云特征。VoxelNet[43]堆疊多個體素特征編碼(VFE)層以編碼體素中的點云分布作為體素特征,
PV-RCNN將點和體素分支結合起來,以學習更具辨別力的點云特征。具體而言,高質量的3D提案由體素分支生成,而點分支為提案細化提供額外信息。SA-SSD設計了一個輔助網絡,將主干網絡中的體素特征轉換回點級表示,以明確利用3D點云的結構信息,并減少下采樣中的損失。Voxel R-CNN采用3D卷積主干提取點云特征。然后在BEV上應用2D網絡以提供目標proposal,這些proposal通過提取的特征進行細化。它實現了與基于點的方法相當的性能。object DGCNN[141]將3D目標檢測任務建模為BEV中動態圖上的消息傳遞。在將點云轉換為BEV特征圖之后,預測查詢點迭代地從關鍵點收集BEV特征。VoTr[139]引入了局部注意力、擴展注意力和快速體素查詢,以使大量體素上的注意力機制能夠用于大上下文信息。SST[67]將提取的體素特征視為標記,然后在非重疊區域中應用稀疏區域注意和區域移位,以避免對基于體素的網絡進行下采樣。AFDetV2[68]通過引入關鍵點輔助監控和多任務頭,形成了單級無錨網絡。
BEV后特征提取
由于三維空間中的體素稀疏且不規則,應用三維卷積是低效的。對于工業應用,可能不支持3D卷積等算子,期望合適和有效的3D檢測網絡。MV3D[142]是將點云數據轉換為BEV表示的第一種方法。在將點離散到BEV網格中之后,根據網格中的點獲得高度、強度和密度的特征,以表示網格特征。由于BEV網格中有許多點,因此在此過程中,信息損失相當大。其它工作[143、144、145、146、147、148]遵循類似模式,使用BEV網格中的統計數據表示點云,例如最大高度和強度平均值。PointPillars[44]首先介紹了柱的概念,這是一種具有無限高度的特殊類型的體素。它利用PointNet[131]的簡化版本來學習柱中點的表示。然后,編碼特征可以由標準2D卷積網絡和檢測頭處理。盡管點柱的性能不如其他3D主干網令人滿意,但其及其變體具有高效率,因此適合于工業應用。
一些討論
點云數據由神經網絡直接處理,在連續3D空間中計算點之間的鄰域關系,這帶來了額外的時間消耗并限制了神經網絡的感受域。最近的工作[43,84]利用離散網格來表示點云數據;采用卷積運算提取特征。然而,將點云數據轉換為任何形式的表示不可避免地會導致信息丟失。BEV前特征提取中的現有技術方法利用具有細粒度大小的體素,保留了點云數據中的大部分3D信息,因此有利于3D檢測,作為一種權衡,它需要高內存消耗和計算成本。將點云數據直接轉換為BEV表示避免了3D空間中的復雜操作。當高度維度被壓縮時,信息的巨大損失變得不可避免。最有效的方法是使用統計數據表示BEV特征圖,但其結果較差。基于pillar的方法[44]平衡了性能和成本,成為工業應用的流行選擇。如何處理性能和效率之間的權衡成為基于激光雷達應用的關鍵挑戰。
3.BEV Fusion
逆透視映射(IPM)[157]利用攝像機內外矩陣的幾何約束將像素映射到BEV平面。盡管由于平地假設而不準確,但它提供了在BEV中統一圖像和點云的可能性。 Lift splat Shot(LSS)[56]是第一種預測圖像特征深度分布的方法,引入神經網絡來學習不適定相機到激光雷達轉換問題。其它工作[41,58]開發了不同的方法來進行視圖轉換。考慮到從透視圖到BEV的視圖轉換方法,下圖顯示了融合圖像和點云數據的一般管道。模態特定特征提取器用于分別提取透視圖和BEV中的特征。在轉換為BEV中的表示之后,融合來自不同傳感器的特征圖。也可以在BEV表示中引入時間和自我運動信息。
激光雷達相機融合
兩部同名的作品BEVFusion[5,95]從不同方向探索了BEV中的融合。由于攝像機到激光雷達投影[72,159]拋棄了相機特征的語義密度,BEVFusion[5]設計 一種有效的相機到BEV變換方法,將相機特征有效地投影到BEV中,然后使用卷積層將其與激光雷達BEV特征融合。BEVFusion[95]將BEV融合視為保持感知系統穩定性的魯棒性主題,它將攝像機和激光雷達特征編碼到同一BEV中,以確保相機和激光激光雷達流的獨立性。這種設計使感知系統能夠在傳感器故障時保持穩定性。除了BEVFusion[5,95],UVTR[158]表示模態特定體素空間中的不同輸入模式,無需高度壓縮,以避免語義歧義,并實現進一步交互。圖像體素空間是通過將每個視圖的圖像特征變換為預定義空間來構建的,其中為每個圖像生成深度分布。使用常見的3D卷積網絡構建點體素空間。然后在兩個體素空間之間進行跨模態交互,以增強模態特定信息。
時間融合
時間信息在推斷對象的運動狀態和識別遮擋方面起著重要作用。BEV為連接不同時間戳中的場景表示提供了一個理想的橋梁,因為BEV特征地圖的中心位置對ego-car來說是永久的。MVFuseNet[160]利用BEV和range視圖進行時間特征提取,其它工作[52、62、63]使用ego運動將先前的BEV特征與當前坐標對齊,然后融合當前BEV特征以獲得時間特征。BEVDet4D[63]使用空間對齊操作,然后連接多個要素圖,將先前的要素圖與當前幀融合。BEVFormer[4]和UniFormer[161]采用軟方式融合時間信息,注意模塊用于分別融合來自先前BEV特征圖和先前幀的時間信息。關于ego car的運動,注意模塊在不同時間戳表征中的位置也會被自我運動信息所修正。
一些討論
由于圖像在透視坐標中,點云在3D坐標中,兩種模式之間的空間對齊成為一個重要問題。盡管使用幾何投影關系很容易將點云數據投影到圖像坐標上,但點云數據的稀疏特性使得提取信息特征變得困難。相反,由于透視圖中缺乏深度信息,將透視圖中的圖像轉換為3D空間將是一個不適定問題。基于現有知識,以前的工作,如IPM[157]和LSS[56]可以將透視圖中的信息轉換為BEV,為多傳感器和時間融合提供統一表示。激光雷達和攝像機數據在BEV空間的融合為3D檢測任務提供了令人滿意的性能。這種方法還保持了不同模式的獨立性,這為構建更強大的感知系統提供了機會。對于時間融合,通過考慮自我運動信息,可以在BEV空間中直接融合不同時間戳中的表示。由于BEV坐標與3D坐標一致,通過監控控制和運動信息很容易獲得自我運動補償。考慮到魯棒性和一致性,BEV是多傳感器和時間融合的理想表示。
工業界中的BEV感知設計
近年來,BEV感知在行業中的流行趨勢。上圖描述了工業應用中傳感器融合的兩個典型范例,在BEV感知研究之前,大多數自動駕駛公司基于perspective view輸入構建感知系統。圖a基于幾何先驗,將來自圖像的3D結果從2D結果轉換。然后,我們融合圖像和激光雷達的預測,利用一些手工制作的方法,這些方法在現實場景中并不總是表現良好。相反,圖b基于BEV的方法使用神經網絡執行2D到3D轉換,并集成特征,而不是來自不同模態的直接檢測輸出,從而減少手工設計,提高魯棒性。
下圖總結了全球公司提出的各種BEV感知架構:
下表描述了詳細的模型/輸入選項,請注意,本調查中提供的所有信息均來自公共資源;不同計劃之間的比較和分析基于事實:
1.輸入數據
基于BEV的感知算法支持不同的數據模式,包括相機、激光雷達、雷達、IMU和GPS。攝像機和激光雷達是自動駕駛的主要感知傳感器,一些產品僅使用攝像機作為輸入傳感器,例如特斯拉[6]、PhiGent[166]、Mobileye[164]。其他采用一套相機和激光雷達組合,例如Horizon[162],HAOMO[163]。請注意,IMU和GPS信號通常用于傳感器融合計劃[6、162、163],特斯拉和Horizon等的情況也是如此。
2. Feature Extractor
特征提取器用于將原始數據轉換為適當的特征表示,該模塊通常由主干和neck組成。特征提取器有不同的組合,例如,HAOMO[163]中的ResNet[149]和Tesla[6]中的RegNet[167]可以用作圖像主干,neck可以是HAOMO[163]的FPN[79],Tesla[6]的BiFPN[168]等。對于點云輸入,HAOMO[163]的基于pilliar的選項或Mobileye的基于體素的選項是主干的理想候選。
3.PV到BEV轉換
在行業中執行視圖轉換主要有四種方法:
(a)固定IPM。基于平坦地面假設,固定變換可以將PV特征投影到BEV空間,固定IPM投影也處理地平面,然而,它對車輛顛簸和路面平整度敏感。
(b) 自適應IPM利用通過一些姿態估計方法獲得的SDV的外部參數,并相應地將特征投影到BEV。盡管自適應IPM對車輛姿態具有魯棒性,但它仍然假設地面平坦。
(c) 基于transformer的BEV變換采用密集transformer將PV特征投影到BEV空間。這種數據驅動的轉換在沒有事先假設的情況下運行良好,因此被特斯拉、Horizon和HAOMO廣泛采用[61,62,163]。
(d) ViDAR于2018年初由Waymo和Mobileye在不同地點并行提出[13,164],以表明基于相機或視覺輸入使用像素級深度將PV特征投影到BEV空間的實踐,類似于激光雷達中的表示形式。
術語ViDAR相當于大多數學術文獻中提出的偽激光雷達概念。配備ViDAR,可以將圖像和后續特征直接轉換為點云,然后,可以應用基于點云的方法來獲得BEV特征。最近已經看到許多ViDAR應用,特斯拉、Mobileye、Waymo、豐田[6、13、164、169、170]等。總體而言,transformer和ViDAR的選擇在行業中最為普遍。
4.Fusion模塊
在先前的BEV變換模塊中完成了不同攝像機源之間的對準。在融合單元中,進一步整合了攝像機和激光雷達的BEV特征。通過這樣做,不同形式的特征最終被整合成一種統一的形式。
5.時空模塊
通過在時間和空間上堆疊BEV特征,可以構建特征隊列。時間堆棧每固定時間推送和彈出一個特征點,而空間堆棧每固定距離推送一個。在將這些堆棧中的特征融合為一種形式后,可以獲得對遮擋具有魯棒性的時空BEV特征[61,63]。聚合模塊可以是3D卷積、RNN或transformer的形式。基于時間模塊和車輛運動學,可以維護圍繞ego車輛的大型BEV特征圖,并局部更新特征圖,就像特斯拉的空間RNN模塊[6]中那樣。
6.預測頭
在BEV感知中,多頭設計被廣泛采用。由于BEV特征聚集了來自所有傳感器的信息,所有3D檢測結果都從BEV特征空間解碼。同時,PV結果(對于自動駕駛仍然有價值)也從一些設計中的相應PV特征中解碼。預測結果可分為三類:(a)低水平結果與物理約束有關,如光流、深度等。(b) 實體級結果包括對象的概念,即車輛檢測、車道線檢測等。(c)結構級結果表示對象之間的關系,包括對象跟蹤、運動預測等。
經驗和trick
數據增強
用于2D識別任務的圖像上的通用數據增強適用于基于相機的BEV感知任務。一般來說,可以將增強分為靜態增強和空間變換,靜態增強僅涉及顏色變化,基于顏色變化的增強是直接適用的。對于涉及空間變換的增強,除了相應變換的地面真相外,還需要攝像機參數的校準。最近的工作中采用的常見增強是顏色抖動、翻轉、多尺度調整大小、旋轉、裁剪和網格遮罩。在BEVFormer++中,采用了顏色抖動、翻轉、多尺度調整大小和網格掩碼。輸入圖像按0.5和1.2之間的因子縮放,以0.5的比率翻轉;總面積的最大30%被正方形掩模隨機掩模。值得注意的是,在BEV感知中有兩種翻轉圖像的方法。第一種方法是簡單地相應地翻轉圖像、GT和相機參數。第二種方法還翻轉圖像順序,以保持圖像之間重疊區域的一致性,這類似于對稱翻轉整個3D空間。下圖為BEV下的一些trick和消融實驗:
在lidar分割任務中,與檢測任務不同,重數據增強可以應用于分割任務,包括隨機旋轉、縮放、翻轉和點平移。對于隨機旋轉,從[0,2π)范圍內選取一個角度,旋轉應用于x-y平面上的每個點。從[0.9,1.1]范圍中選擇比例因子,然后乘以點云坐標,沿X軸、Y軸或X軸和Y軸進行隨機翻轉。對于隨機平移,每個軸的偏移分別從均值為0和標準偏差為0.1的正態分布中采樣。除了坐標和反射率,還可以利用額外的信息來提高模型性能。對于未標記的圖像數據,通過將點云標簽投影到相應的圖像上并加密稀疏注釋,從注釋的點云數據中獲得圖像上的語義標簽。訓練圖像模型以提供2D語義分割結果,然后,將預測的語義標簽繪制為點云數據的一個熱矢量,作為表示圖像語義信息的附加通道。此外,還可以使用時間信息,因為自動駕駛中的數據集通常是按順序收集的,過去的連續幀與當前幀連接。
Test-time Augmentation
2D任務的常見測試時間增加,包括多尺度和翻轉測試,以提高3D情況下的精度。在BEVFormer++中,這一部分以使用標準數據增強(如多尺度和翻轉)的形式進行了簡單探索。多尺度增強的程度與訓練相同,從0.75到1.25不等。
點云數據在推理過程中,使用了多個TTA,包括旋轉、縮放和翻轉。對于縮放,所有模型的縮放因子都設置為{0.90、0.95、1.00、1.05、1.10},因為縮放因子越大或越小對模型性能有害。翻轉與訓練階段相同,即沿X軸、Y軸以及X軸和Y軸。
后處理
雖然BEV檢測消除了多攝像機對象級融合的負擔,但也觀察到了可從進一步后處理中獲益的顯著事實,利用2D檢測結果對3D檢測結果進行重復移除是有益的,其中2D box和3D box是二分匹配的。
參考
[1] Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe.2022
總結
以上是生活随笔為你收集整理的BEV最新综述 | 学术界和工业界方案汇总!优化方法与tricks的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于babe-loader^8.0.6的
- 下一篇: 小红帽中用eclipse编译window