DenseTNT翻译
摘要
在自動駕駛中,基于目標(biāo)的多軌跡預(yù)測方法最近被證明是有效的,它們首先為候選目標(biāo)打分,然后選擇最終的一組目標(biāo),最后根據(jù)選定的目標(biāo)完成軌跡。 然而,這些方法通常涉及基于稀疏預(yù)定義錨點(diǎn)的目標(biāo)預(yù)測。 在這項工作中,我們提出了一種名為 DenseTNT 的無錨模型,它為軌跡預(yù)測執(zhí)行密集目標(biāo)概率估計。 我們的模型實現(xiàn)了最先進(jìn)的性能,并在 Waymo 開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽中排名第一。 項目頁面位于 https://github.com/Tsinghua-MARS-Lab/DenseTNT。
引言
由于人類行為固有的隨機(jī)性和多模態(tài),軌跡預(yù)測是自動駕駛中一項極具挑戰(zhàn)性的任務(wù)。 為了對這種高度的不確定性進(jìn)行建模,一些方法通過從潛在變量表示的分布中采樣來預(yù)測多個未來軌跡,例如 VAE [7] 和 GAN [6]。
其他方法生成固定數(shù)量的軌跡,但僅在訓(xùn)練期間對最近的軌跡進(jìn)行回歸 [6, 8, 2],即使用多樣性損失。 Multipath [1] 和 CoverNet [9] 通過對模板軌跡進(jìn)行分類,將問題視為分類問題。
最近,基于目標(biāo)的方法 [14, 10, 11, 13] 越來越受歡迎并取得了最先進(jìn)的性能。 他們的關(guān)鍵觀察是端點(diǎn)攜帶了軌跡的大部分不確定性,因此他們首先預(yù)測了代理的目標(biāo),然后進(jìn)一步為每個目標(biāo)完成了相應(yīng)的完整軌跡。 他們通過對預(yù)定義的稀疏錨點(diǎn)進(jìn)行分類和回歸來獲得最終目標(biāo)位置,如圖 1 左下部分所示。例如,TNT [14] 將錨點(diǎn)定義為在車道中心線上采樣的點(diǎn); 其他一些 [13] 將車道段作為錨點(diǎn)并預(yù)測每個車道段的目標(biāo)。
這些基于目標(biāo)的方法的預(yù)測性能很大程度上取決于目標(biāo)錨的質(zhì)量。 由于一個anchor只能生成一個目標(biāo),模型不可能圍繞一個anchor進(jìn)行多條軌跡預(yù)測。 此外,同一車道段上的不同位置具有不同的局部信息,例如與最近車道邊界的相對距離。 基于稀疏錨的方法不能利用這種細(xì)粒度的信息。
在這項工作中,我們提出了 DenseTNT,一種無錨點(diǎn)的基于目標(biāo)的軌跡預(yù)測方法。 它在不依賴啟發(fā)式預(yù)定義目標(biāo)錨的質(zhì)量的情況下,在很大程度上提高了目標(biāo)估計的性能。 我們首先提取稀疏場景上下文特征,然后采用密集概率估計來生成目標(biāo)候選者的概率分布。 最后,軌跡完成模塊根據(jù)一組選定的目標(biāo)輸出軌跡。
方法
2.1場景上下文編碼
場景上下文建模是行為預(yù)測的第一步。 它提取車道和代理的特征并捕獲它們之間的交互。 稀疏編碼最近提出了一些方法 [5, 8](也稱為矢量化方法)。 與將車道和代理光柵化為圖像并使用 CNN 提取特征的密集編碼方法相比,稀疏編碼方法將所有地理實體(例如車道、交通燈)和車輛抽象為折線,更好地捕捉高 定義圖。
2.2密集目標(biāo)概率估計
在場景上下文編碼之后,我們對地圖上的目標(biāo)進(jìn)行概率估計。 TNT [14] 定義了道路上的離散稀疏錨點(diǎn),然后為其分配概率值。 我們的關(guān)鍵觀察是稀疏錨不是道路上真實概率分布的完美近似,因為(1)一個錨只能產(chǎn)生一個目標(biāo),我們不能圍繞一個錨進(jìn)行多軌跡預(yù)測; (2) 道路上有很多普通點(diǎn)(遠(yuǎn)離車道中心或邊界的那些)沒有很好地建模:同一條道路上的不同普通點(diǎn)具有不同的局部信息,即到最近車道邊界的相對距離。
因此,我們改為在地圖上執(zhí)行密集目標(biāo)概率估計。 具體來說,就是使用一個密集的目標(biāo)編碼模塊,在一定的采樣率下提取道路上所有位置的特征。 然后,預(yù)測密集目標(biāo)的概率分布。
密集目標(biāo)編碼模塊使用注意力機(jī)制來提取目標(biāo)和車道之間的局部信息。 我們將第 i 個目標(biāo)的特征表示為 Fi ,它是通過 2 層 MLP 獲得的,MLP 的輸入為第 i 個目標(biāo)的二維坐標(biāo)。 目標(biāo)和車道之間的局部信息可以通過注意力機(jī)制獲得:
公式(1)(2)
公式(3)
其中可訓(xùn)練函數(shù) g(·) 也是用 2 層 MLP 實現(xiàn)的。 用于訓(xùn)練場景上下文編碼和密集概率估計的損失項是預(yù)測目標(biāo)分?jǐn)?shù)和真實目標(biāo)分?jǐn)?shù)之間的二元交叉熵:
公式(4)
其中 ψi 是第 i 個目標(biāo)的真實得分。 離最終位置最近的球門的真實得分為1,其他為0。
2.3. 目標(biāo)選擇
在密集概率估計之后,我們使用非極大值抑制(NMS)算法來選擇目標(biāo)。
NMS 迭代地選擇概率最高的目標(biāo),并移除接近所選目標(biāo)的目標(biāo)。
前 K 個選定目標(biāo)是預(yù)測目標(biāo)。
2.4. 軌跡補(bǔ)全
與 TNT 類似,最后一步是完成以選定目標(biāo)為條件的每個軌跡。 我們只有一個真實的軌跡,因此我們通過在訓(xùn)練期間提供真實的目標(biāo)來應(yīng)用教師強(qiáng)制技術(shù) [12]。
損失項是預(yù)測軌跡 s? 與真實軌跡之間的偏移
公式(5)
2.5. 長期預(yù)測
前面的步驟已經(jīng)可以在短期(例如 3s)運(yùn)動預(yù)測任務(wù)中取得良好的性能。 然而,長期預(yù)測仍然具有挑戰(zhàn)性,因為概率分布可能會在很長一段時間內(nèi)發(fā)散。 受自然語言處理中句子生成的啟發(fā),我們以自回歸的方式生成目標(biāo)的概率分布,分別在 3s、5s 和 8s。
由于我們的目標(biāo)是分 3 個步驟推出密集概率估計,因此我們在模型架構(gòu)中開發(fā)了三個分支。
這三個分支在場景上下文編碼中為子圖模塊共享相同的權(quán)重,并且對其他部分具有獨(dú)立的權(quán)重,例如 場景上下文編碼和密集概率估計中的全局圖模塊。
通過在 3 秒、5 秒和 8 秒自回歸的 N 個目標(biāo)選擇,我們獲得 N3 個目標(biāo)集。 我們根據(jù)它們的概率分?jǐn)?shù)對前 K 個目標(biāo)集進(jìn)行排序,然后完成它們以獲得 K 個軌跡。
更具體地說,對于每個目標(biāo)集,我們使用上面的密集目標(biāo)編碼模塊來獲取 3 個目標(biāo)的特征。 然后將特征傳遞給軌跡完成模塊,該模塊是一個 2 層 MLP。 輸出是一個完整的軌跡[s1,s2…st]
實驗
實驗
3.1實施細(xì)節(jié)
代理和地圖編碼 為了對地圖進(jìn)行歸一化,我們以目標(biāo)車輛的最后位置為原點(diǎn),以目標(biāo)車輛的方向為 y 軸。 由于每個場景的地圖都比較大,我們只編碼了一個中心為(0, 30m),半徑為80m的子地圖
遵循 VectorNet [5],代理被轉(zhuǎn)換為向量序列。 每個向量包含起點(diǎn)、終點(diǎn)、起點(diǎn)和終點(diǎn)的時間戳以及相應(yīng)代理的屬性。 車道被轉(zhuǎn)換成車道段序列。 每個車道段包含 ??10 個相鄰的車道點(diǎn)及其對應(yīng)車道的屬性。 例如,將 50 個車道點(diǎn)的車道轉(zhuǎn)換為 5 個車道段。 由于相鄰兩個點(diǎn)之間的采樣距離約為1m,因此10個車道點(diǎn)的車道段約為10m。
密集目標(biāo)抽樣 密集目標(biāo)采樣旨在對目標(biāo)車輛的所有可能目標(biāo)進(jìn)行采樣。
僅需要對密集位于道路和停車場的目標(biāo)候選對象進(jìn)行采樣。 兩個相鄰目標(biāo)之間的距離,即采樣密度,設(shè)置為 1m。
我們不會對位于上面定義的子圖之外的目標(biāo)進(jìn)行采樣。
培訓(xùn)詳情。 我們的模型在批量大小為 64 的訓(xùn)練集上進(jìn)行訓(xùn)練。我們使用 Adam [3] 優(yōu)化器訓(xùn)練 16 個 epoch,初始值為 0.001 的學(xué)習(xí)率每 5 個 epoch 衰減 0.3 倍。 特征向量的隱藏大小設(shè)置為 128。不使用數(shù)據(jù)增強(qiáng),例如隨機(jī)擾動或地圖縮放。
共有三種代理類型,即行人、車輛和騎自行車的人。 我們?yōu)槊總€人訓(xùn)練一個模型,因為不同的代理類型具有不同的行為特征。
3.2. 結(jié)果稀疏和密集的目標(biāo) 我們在 Argoverse 預(yù)測數(shù)據(jù)集上比較和評估稀疏和密集目標(biāo)概率估計。 如表 1 所示,密集模型的性能優(yōu)于稀疏模型,即普通 TNT。
Waymo 開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽我們評估了 DenseTNT 在 Waymo 開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽中的有效性。 如表 2 所示,我們的方法在排行榜上排名第一。 官方指標(biāo)是 mAP,它提供了模型性能的全貌 [4]。 每個類別的細(xì)分性能如表 3 所示。
3.3. 定性結(jié)果 在 DenseTNT 中,目標(biāo)候選者密集地分布在地圖上。 我們可視化基于所選目標(biāo)的密集目標(biāo)和預(yù)測軌跡的概率。 如圖 3 所示,DenseTNT 給出了多種預(yù)測,例如直行、左/右轉(zhuǎn)彎和 U 形轉(zhuǎn)彎。
結(jié)論
在本報告中,我們提出了一種無錨軌跡預(yù)測模型,名為 DenseTNT。 通過刪除啟發(fā)式預(yù)定義的目標(biāo)錨,它優(yōu)于以前的基于目標(biāo)的方法。 DenseTNT 實現(xiàn)了最先進(jìn)的性能,并在 Waymo 開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽中排名第一。
長篇---------------------------------------------------------------------------------------------------------
DenseTNT:來自密集目標(biāo)集的端到端軌跡預(yù)測
摘要
由于人類行為的隨機(jī)性,預(yù)測道路代理的未來軌跡對自動駕駛具有挑戰(zhàn)性。 最近,基于目標(biāo)的多軌跡預(yù)測方法被證明是有效的,它們首先對過采樣的目標(biāo)候選者進(jìn)行評分,然后從中選擇最終集。 然而,這些方法通常涉及基于稀疏預(yù)定義錨和啟發(fā)式目標(biāo)選擇算法的目標(biāo)預(yù)測。 在這項工作中,我們提出了一種名為 DenseTNT 的無錨和端到端軌跡預(yù)測模型,該模型直接輸出來自密集目標(biāo)候選者的一組軌跡。 此外,我們引入了一種基于離線優(yōu)化的技術(shù),為我們最終的在線模型提供多個未來的偽標(biāo)簽。
實驗表明,DenseTNT 實現(xiàn)了最先進(jìn)的性能,在 Argoverse 運(yùn)動預(yù)測基準(zhǔn)上排名第一,并在 2021 年 Waymo 開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽中獲得第一名。
對于安全順暢的自動駕駛系統(tǒng),一項必不可少的技術(shù)是預(yù)測道路參與者的未來行為。 例如,了解其他車輛是否打算更好地切入有助于我們做出剎車決定。 然而,由于人類行為固有的隨機(jī)性和多模態(tài),運(yùn)動預(yù)測是一項極具挑戰(zhàn)性的任務(wù)。
為了對這種高度的不確定性進(jìn)行建模,一些方法通過從潛在變量表示的分布中采樣來預(yù)測多個未來軌跡,例如 VAE [18, 36] 和 GAN [12]。 其他方法生成一組軌跡,但僅在訓(xùn)練期間對最近的軌跡進(jìn)行回歸 [12, 20, 8],即使用多樣性損失。
然而,基于抽樣的方法不能輸出預(yù)測未來的可能性,并且品種損失對輸出缺乏可解釋性。
最近,基于目標(biāo)的方法 [39, 30, 37] 越來越受歡迎并取得了最先進(jìn)的性能曼斯。 他們的關(guān)鍵觀察是目標(biāo)(端點(diǎn))攜帶了軌跡的大部分不確定性,因此他們首先預(yù)測代理的目標(biāo),然后進(jìn)一步完成每個目標(biāo)對應(yīng)的完整軌跡。 最終目標(biāo)位置是通過對預(yù)定義的稀疏錨點(diǎn)進(jìn)行分類和回歸獲得的,如圖 1 左下部分所示。例如,TNT [39] 將錨點(diǎn)定義為在車道中心線上采樣的點(diǎn); 其他一些 [37] 將車道段作為錨點(diǎn)并預(yù)測每個車道段的目標(biāo)。 這些方法通常采用的另一種技術(shù)是應(yīng)用基于規(guī)則的算法來選擇最終的少量目標(biāo)。 最值得注意的算法是非最大抑制(NMS)[39],其中只選擇局部高分目標(biāo)。
這些方法的局限性有兩方面。 首先,這些方法的預(yù)測性能在很大程度上取決于目標(biāo)錨的質(zhì)量。 由于一個anchor只能生成一個目標(biāo),一個模型不能圍繞一個anchor進(jìn)行多個軌跡預(yù)測。 此外,稀疏基于錨點(diǎn)的方法無法捕獲細(xì)粒度信息,即同一車道段上的不同位置包含不同的局部信息,例如與最近車道邊界的相對距離。 此外,在估計稀疏目標(biāo)的概率后,使用 NMS 啟發(fā)式選擇目標(biāo)集,這是一種貪心算法,鑒于問題的多峰性,不能保證找到最優(yōu)解。
為了解決這些問題,我們提出了 DenseTNT,一種無錨和端到端的多軌跡預(yù)測方法。 DenseTNT 首先從場景上下文中生成具有概率的密集目標(biāo)候選者; 根據(jù)目標(biāo)概率,它進(jìn)一步采用目標(biāo)集預(yù)測器來生成最終的軌跡目標(biāo)集。 與之前的方法相比,DenseTNT 更好地為目標(biāo)候選者建模并擺脫了后處理。
DenseTNT 中的目標(biāo)集預(yù)測是一個多標(biāo)簽預(yù)測問題,需要多個標(biāo)簽作為訓(xùn)練目標(biāo)。
然而,與天生具有多個標(biāo)簽框作為監(jiān)督 [2] 的對象檢測不同,在軌跡預(yù)測中,我們只在每個訓(xùn)練樣本的許多可能的未來中觀察到一個真實的未來,這使得監(jiān)督模型極具挑戰(zhàn)性。 為了解決這個問題,我們設(shè)計了一個離線模型來為我們的在線模型提供多個未來的偽標(biāo)簽。 與上述在線模型相比,離線模型使用優(yōu)化算法代替目標(biāo)集預(yù)測器進(jìn)行目標(biāo)集預(yù)測。 優(yōu)化算法從目標(biāo)的概率分布中尋找最優(yōu)目標(biāo)集; 然后將目標(biāo)集用作在線模型訓(xùn)練的偽標(biāo)簽。
DenseTNT 在自動駕駛軌跡預(yù)測任務(wù)中取得了最先進(jìn)的性能,在 Argoverse 運(yùn)動預(yù)測基準(zhǔn)中排名第一,在 2021 Waymo 開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽中排名第一。
相關(guān)工作
由于代理的意圖和行為未知,未來的預(yù)測是高度不確定的 [14、33、17、21、28、38]。 在自動駕駛領(lǐng)域,為了對高度的多模態(tài)進(jìn)行建模,隱式使用潛在變量是一種流行的方法 [15, 35, 27, 29]。 DESIRE [18] 使用條件變分自動編碼器 (CVAE),SocialGAN [13] 使用對抗性學(xué)習(xí)使預(yù)測更加真實。 一些方法旨在解決模式崩潰 [25, 36, 23, 10, 3]。 最近,基于目標(biāo)的多軌跡預(yù)測方法因其卓越的性能而廣受歡迎。 我們將在本節(jié)后面討論它們的詳細(xì)信息。
地圖編碼 地圖編碼方法可以分為兩類:光柵化編碼和矢量化編碼。 光柵化編碼方法將高清地圖元素與代理一起光柵化為圖像,并使用 CNN 對圖像進(jìn)行編碼。 基于光柵化編碼,崔等人。 [9] 超越了單一軌跡并預(yù)測了多個軌跡及其概率。
IntentNet [4] 開發(fā)了一個由 CNN 組成的檢測器,不僅可以從光柵圖像中提取特征,還可以從 LiDAR 點(diǎn)中提取特征。 Multipath [5] 使用 CNN 從光柵圖像中提取特征,然后預(yù)測 K 個預(yù)定義錨軌跡的概率和錨狀態(tài)的回歸偏移。 梁等人。 [19] 在圖上設(shè)計了多尺度位置編碼和卷積 RNN,用于地圖編碼。 為了捕捉遠(yuǎn)程人類軌跡預(yù)測的不確定性,Jain 等人。 [16] 預(yù)測和更新空間位置上的離散分布。 由于卷積的形狀,這些光柵化方法無法捕獲高清地圖的結(jié)構(gòu)信息,并且不允許對目標(biāo)點(diǎn)進(jìn)行非網(wǎng)格采樣。
近年來,能夠更好地捕捉高清地圖結(jié)構(gòu)信息的稀疏(矢量化)編碼方法發(fā)展迅速。 他們將每個實體(車道或代理)視為一組稀疏元素,并使用圖神經(jīng)網(wǎng)絡(luò)來提取實體的特征以及不同實體之間的交互。 VectorNet [11] 是第一個直接合并車道和代理的矢量化信息的網(wǎng)絡(luò)。 LaneGCN [20] 構(gòu)建了一個車道圖,并使用帶有鄰接矩陣的圖卷積來捕獲車道圖的復(fù)雜拓?fù)洹?LaneRCNN [37] 不是通過特征向量來表示每個代理,而是為每個代理提出了基于圖的表示,并通過對圖到圖的交互進(jìn)行建模來捕獲代理之間的交互。 TPCN [34] 采用點(diǎn)云學(xué)習(xí)策略將預(yù)測學(xué)習(xí)任務(wù)建模為空間模塊和時間模塊之間的聯(lián)合學(xué)習(xí)。 與這些僅考慮高清地圖的車道中心線或車道邊界的矢量化方法不同,我們對道路上的密集空間位置進(jìn)行建模。
基于目標(biāo)的軌跡預(yù)測 雷德等人。 [24] 將行人的目標(biāo)作為潛在變量引入,從而將預(yù)測問題轉(zhuǎn)化為規(guī)劃問題。
TNT [39] 首先從道路地圖中采樣錨點(diǎn)并生成以這些錨點(diǎn)為條件的軌跡。 然后對軌跡進(jìn)行評分,并使用非最大抑制 (NMS) 來選擇最終的一組軌跡。 與 TNT 類似,LaneRCNN [37] 的解碼管道將車道段視為錨點(diǎn)并輸出每個錨點(diǎn)的概率,如果兩個預(yù)測太接近,則使用 NMS 去除重復(fù)目標(biāo)。 DROGON [7] 專注于不同的任務(wù),即給定單個代理的有意目的地。 他們創(chuàng)建了一個軌跡預(yù)測數(shù)據(jù)集來研究面向目標(biāo)的行為,并使用條件 VAE 框架來預(yù)測多個可能的軌跡。
基于目標(biāo)的思想也被用于尋找自動駕駛的最佳規(guī)劃策略 [1]。 此外,在人類軌跡預(yù)測中,Tran 等人。 [31]考慮行人對旅程目的地的意圖,設(shè)計了一個雙通道神經(jīng)網(wǎng)絡(luò),包括目標(biāo)通道和軌跡通道,用于長期人類軌跡預(yù)測。 與之前的作品相比,DenseTNT 是一種無錨的基于目標(biāo)的模型,可以以端到端的方式學(xué)習(xí)。
方法
DenseTNT 是一種無錨的端到端軌跡預(yù)測方法,它直接從密集目標(biāo)候選者中輸出一組軌跡。 我們首先利用稀疏(矢量化)編碼方法來提取特征,它捕獲高清地圖的結(jié)構(gòu)特征(第 3.1 節(jié))。
然后我們使用一個密集的目標(biāo)編碼器來生成目標(biāo)的概率分布(第 3.2 節(jié))。 最后,目標(biāo)集預(yù)測器將目標(biāo)的概率分布作為輸入并直接生成一組目標(biāo)(第 3.3 節(jié))。
為了訓(xùn)練我們的模型,更具體地說是目標(biāo)集預(yù)測器,我們設(shè)計了一個基于優(yōu)化的離線模型,該模型生成用于監(jiān)督的偽標(biāo)簽。
3.1. 稀疏上下文編碼
場景上下文建模是行為預(yù)測的第一步。 它提取車道和代理的特征并捕獲它們之間的交互。 最近提出了稀疏編碼方法 [11, 20](也稱為矢量化方法)。 與將車道和代理光柵化為圖像并使用 CNN 提取特征的光柵化編碼方法相比,稀疏編碼方法將所有地理實體(例如車道、交通燈)和車輛抽象為折線,更好地捕捉高層次的結(jié)構(gòu)特征。 定義圖。
由于其出色的性能,我們在這項工作中采用了 VectorNet [11]。 VectorNet 是由子圖模塊和全局圖模塊組成的分層圖神經(jīng)網(wǎng)絡(luò)。 子圖模塊用于對車道和代理的特征進(jìn)行編碼,全局圖模塊使用注意力機(jī)制來捕獲車道和代理之間的交互。 在上下文編碼之后,我們得到一個二維特征矩陣 L,其中每行 Li 表示第 i 個地圖元素(即車道或代理)的特征。
3.2. 密集目標(biāo)概率估計
在稀疏上下文編碼之后,我們對地圖上的目標(biāo)進(jìn)行概率估計。 TNT [39] 定義了道路上的離散稀疏錨點(diǎn),然后為其分配概率值。 我們的關(guān)鍵觀察是稀疏錨不是道路上真實概率分布的完美近似,因為(1)一個錨只能產(chǎn)生一個目標(biāo),我們不能圍繞一個錨進(jìn)行多個軌跡預(yù)測; (2) 基于稀疏錨點(diǎn)的方法不能捕捉細(xì)粒度信息,即同一車道段上的不同位置包含不同的局部信息,例如到最近車道邊界的相對距離。
因此,我們改為在地圖上執(zhí)行密集目標(biāo)概率估計,以便目標(biāo)預(yù)測是無錨的。 具體來說,就是在一定的采樣率下,使用一個密集的目標(biāo)編碼器來提取道路上位置的特征。 然后,預(yù)測密集目標(biāo)候選的概率分布。
車道得分。 在目標(biāo)概率估計之前,我們采用車道評分模塊來預(yù)測目標(biāo)將落在的車道以減少目標(biāo)候選者的數(shù)量。 作為更高的抽象層次,每條車道上都有數(shù)十個目標(biāo)。 通過對車道進(jìn)行評分,我們可以過濾掉不在候選車道上的目標(biāo)候選,減少后期的計算。
車道的評分被建模為一個分類問題,并使用二元交叉熵?fù)p失 Llane 進(jìn)行訓(xùn)練。 離地面真實目標(biāo)最近的車道的地面真實得分為1,其他為0。距離在在車道 l 和真實目標(biāo) ygt 之間定義為 d(l, ygt) = min(||l1 -ygt||2 , ||l2 -ygt||2 , . . , ||lt -ygt| |2)。
概率估計。 密集目標(biāo)編碼器使用注意力機(jī)制來提取目標(biāo)和車道之間的局部信息。 我們首先通過使用 MLP 編碼目標(biāo)的 2D 坐標(biāo)來獲得目標(biāo)的初始特征矩陣 F。 目標(biāo)和車道之間的局部信息可以通過注意力機(jī)制獲得:
公式(1)
公式(2)
其中 WQ,WK,WV ∈ R dh×dk 是線性投影矩陣,dk 是查詢/鍵/值向量的維度,F,L 是密集目標(biāo)候選和所有地圖元素(即車道)的特征矩陣 或代理),分別。
第 i 個進(jìn)球的預(yù)測得分可以寫成:
公式(3)
其中可訓(xùn)練函數(shù) g(·) 也是用 2 層 MLP 實現(xiàn)的。 用于訓(xùn)練稀疏上下文編碼器和密集概率估計的損失項是預(yù)測目標(biāo)分?jǐn)?shù) φ 和真實目標(biāo)分?jǐn)?shù) ψ 之間的二元交叉熵?fù)p失:
公式(4)
離最終位置最近的球門的真實得分為1,其他為0。
3.3. 目標(biāo)集預(yù)測
通過上面的密集概率估計,我們獲得了一個熱圖,表明軌跡的最終位置的概率分布。 我們的目標(biāo)是在不同的模式中選擇最可能的目標(biāo),即熱圖中的一些獨(dú)特的峰值。 典型的基于目標(biāo)的軌跡預(yù)測管道采用非極大值抑制(NMS)進(jìn)行目標(biāo)選擇。 但是,NMS 無法靈活處理各種情況,因為不同的熱圖具有不同的最佳 NMS 閾值,如圖 4 所示。
我們的發(fā)現(xiàn)是,目標(biāo)選擇可以建模為一個集合預(yù)測任務(wù),因此我們設(shè)計了一個目標(biāo)集預(yù)測器,將這個熱圖作為輸入并以端到端的方式生成目標(biāo)集。 然而,與具有多個標(biāo)簽框 [2] 的目標(biāo)檢測不同,在軌跡預(yù)測問題中,我們只能從許多可能的未來中觀察到一個真實的未來。 為了解決這個問題,我們設(shè)計了一個離線模型來為我們的在線模型(更具體地說,目標(biāo)集預(yù)測器)提供多個未來的偽標(biāo)簽。 離線模型由與在線模型相同的編碼模塊組成,但使用優(yōu)化算法代替目標(biāo)集預(yù)測器。 下面,我們首先介紹優(yōu)化算法,然后詳細(xì)介紹我們的目標(biāo)集預(yù)測器。 目標(biāo)集預(yù)測器的訓(xùn)練過程如圖 3 所示。
優(yōu)化(離線) 從上述步驟獲得的熱圖由來自 C = {c1, c2, … 的映射 h 表示。 . . , cm} 到 [0, 1] ? R,其中 ci ∈ R 2 是地圖上的第 i 個目標(biāo)。 設(shè)Y為最終位置坐標(biāo)的隨機(jī)變量,其概率分布滿足P(Y = ci) = h(ci)。 給定一個預(yù)測目標(biāo)集y = {y^1, y^2, . . . , y?K} 和真實目標(biāo) ygt,?y 的誤差為 d(?y, ygt),例如,最小最終位移誤差 (FDE) 為:
公式(5)
由于我們不知道 ygt 的確切值,因此很難獲得誤差 d(?y, ygt)。 但是,我們可以使用 Y 的概率分布來獲得 ?y 的期望誤差:
公式(6)
我們將目標(biāo)函數(shù)定義為 f(y) = E[d(y, Y )]。
我們的目標(biāo)是找到最小化 f(y) 的全局最優(yōu)解 ?y。 優(yōu)化算法是通過比較各種解決方案來迭代執(zhí)行直到找到最佳或令人滿意的解決方案的過程。 我們在本文中采用了爬山算法,這是一種迭代算法,每一步都試圖對當(dāng)前解決方案進(jìn)行增量更改。 該算法的細(xì)節(jié)在算法 1 中描述。 然后我們可以得到非常接近全局最優(yōu)解 ?y 的 ?y:
公式(7)
其中 Y 是優(yōu)化過程的搜索空間。
現(xiàn)在對于訓(xùn)練集中的每個 x,我們可以使用上述步驟生成熱圖 h,然后使用優(yōu)化算法得到 ?y。
目標(biāo)集預(yù)測器(在線)。 集合預(yù)測器是由 DETR [2] 引入的,它將目標(biāo)檢測視為集合預(yù)測問題,并基于匈牙利匹配設(shè)計損失。 在這個多未來預(yù)測問題中,我們也將其視為集合預(yù)測問題,并使用離線模型的輸出作為偽標(biāo)簽來訓(xùn)練在線模型的目標(biāo)集預(yù)測器。 我們沒有在預(yù)測目標(biāo)集和偽標(biāo)簽之間執(zhí)行匈牙利匹配,而是在訓(xùn)練期間執(zhí)行離線優(yōu)化,使用每個優(yōu)化的偽標(biāo)簽來監(jiān)督其對應(yīng)的預(yù)測目標(biāo)。
讓我們將 y˙ = {y˙i} K i=1 表示為在當(dāng)前訓(xùn)練步驟由目標(biāo)集預(yù)測器生成的 K 個預(yù)測目標(biāo)集。 我們使用上述優(yōu)化算法為這個訓(xùn)練步驟生成偽標(biāo)簽 ?y。 優(yōu)化算法的初始目標(biāo)集設(shè)置為預(yù)測目標(biāo)集 y˙。 優(yōu)化算法只搜索 y˙ 的鄰居,而不是搜索最優(yōu)解。 具體來說,我們運(yùn)行 L(L = 100) 次隨機(jī)擾動以獲得 L 個目標(biāo)集。 當(dāng)前訓(xùn)練步驟中目標(biāo)集預(yù)測器的偽標(biāo)簽 ?y 是具有最低預(yù)期誤差的目標(biāo)集。
損失項是預(yù)測目標(biāo)集 y˙ 和偽標(biāo)簽 ?y 之間的偏移:
公式(8)
其中 Lreg 是兩個目標(biāo)之間的標(biāo)準(zhǔn) 1 損失。
由于熱圖指示的概率分布是多樣的,單個回歸量很難處理。 目標(biāo)集預(yù)測器有多個頭,可以同時預(yù)測 N 個目標(biāo)集。 具體來說,每個頭會預(yù)測2K+1個值,包括K個進(jìn)球的二維坐標(biāo)和這個頭的置信度。 每個頭部由一個熱圖編碼器和一個解碼器組成。 熱圖編碼器是一個單層自注意力機(jī)制,然后是一個最大池化,而解碼器是一個輸出 2K + 1 個值的兩層 MLP。 共享所有頭部的熱圖編碼器的參數(shù)以減少計算。
在訓(xùn)練過程中,優(yōu)化算法只為預(yù)期誤差最低的頭部生成偽標(biāo)簽,目標(biāo)集預(yù)測器只對這個頭部進(jìn)行回歸。 為了預(yù)測多個頭的置信度,我們使用二元交叉熵?fù)p失:
公式(9)
其中 μ 是頭部的預(yù)測置信度,ν 是置信度標(biāo)簽。 對于具有最低預(yù)期誤差的頭部,νi = 1,對于其他頭部,νi = 0。 在推理過程中,我們將置信度最高的頭部作為目標(biāo)集預(yù)測器的輸出。
3.4. 軌跡完成 與 TNT 類似,最后一步是完成以預(yù)測目標(biāo)為條件的每個軌跡。 我們首先計算類似于上述密集目標(biāo)編碼的每個目標(biāo)的特征,然后將其傳遞給解碼器即 2 層 MLP。 解碼器的輸出是整個軌跡 [?s1, s?2, … . . , 英石 ]。
我們只有一個真實軌跡,因此我們通過在訓(xùn)練期間提供真實目標(biāo)來應(yīng)用教師強(qiáng)制技術(shù) [32]。 損失項是預(yù)測軌跡 ?s 和真實軌跡 s 之間的偏移:
公式(10)
其中 Lreg 是兩點(diǎn)之間的平滑 1 損失。 在推理過程中,該軌跡完成模塊用于同時生成 K 個目標(biāo)的 K 個軌跡。
3.5. 學(xué)習(xí)
我們方法的訓(xùn)練過程有兩個階段。 在第一階段,我們使用真實軌跡訓(xùn)練除目標(biāo)集預(yù)測器之外的所有模塊:
公式(11)
第二階段,我們在訓(xùn)練集上訓(xùn)練目標(biāo)集預(yù)測器,由離線模型(編碼+優(yōu)化算法)生成的偽標(biāo)簽監(jiān)督:
公式(12)
實驗
4.1數(shù)據(jù)集
Argoverse 預(yù)測數(shù)據(jù)集 Argoverse 預(yù)測數(shù)據(jù)集 [6] 是具有代理軌跡和高清地圖的數(shù)據(jù)集。 給定目標(biāo)車輛在過去 2 秒的軌跡,以 10Hz 采樣,我們需要預(yù)測未來 3 秒的未來軌跡。
有 333,000 個真實世界的駕駛序列位于十字路口或擁擠的交通中,每個序列包含一個用于預(yù)測的目標(biāo)車輛。 訓(xùn)練、驗證和測試集分別包含 205942、39472 和 78143 個序列。
Waymo 開放運(yùn)動數(shù)據(jù)集 Waymo 開放運(yùn)動數(shù)據(jù)集是迄今為止最多樣化的交互式運(yùn)動數(shù)據(jù)集。
它包含超過 1750 公里道路的 570 多個小時的獨(dú)特數(shù)據(jù),超過 100,000 個場景,每個場景長達(dá) 20 秒。 數(shù)據(jù)集中有三種類型的代理,即車輛、行人和騎自行車的人。 給定目標(biāo)代理的 1 秒歷史軌跡,需要預(yù)測 8 秒的未來軌跡。
指標(biāo) 我們遵循 Argoverse 基準(zhǔn)并使用最小平均位移誤差 (minADE)、最小最終位移誤差 (minFDE) 和未命中率 (MR)。每個軌跡由隨時間變化的一系列點(diǎn)表示。 ADE 是預(yù)測軌跡的每個點(diǎn)與其對應(yīng)的真實點(diǎn)之間的平均位移。 minADE 是預(yù)測的 K 個軌跡的最小 ADE,minFDE 是 K 個最終位置與地面真實最終位置之間的最小位移。 遺漏率是根據(jù)最終位移誤差預(yù)測的軌跡均不在地面實況 2.0 米范圍內(nèi)的場景的比率。
4.2. 實施細(xì)節(jié)
目標(biāo)候選抽樣 我們首先對距離目標(biāo)車輛 50m(曼哈頓距離)內(nèi)的車道進(jìn)行采樣。
然后我們對密集分布在這些車道上的候選目標(biāo)進(jìn)行采樣。 因此,采樣目標(biāo)候選的數(shù)量取決于目標(biāo)車輛周圍的車道。 對于以車道中心線表示的車道,采樣距離中心線3m以內(nèi)的候選目標(biāo),而對于以車道邊界表示的車道,則采樣邊界內(nèi)的候選目標(biāo)。 兩個相鄰目標(biāo)之間的距離,即采樣密度,設(shè)置為 1m。
訓(xùn)練詳情 我們的模型在訓(xùn)練集上訓(xùn)練,批大小為 64。在第一階段,我們訓(xùn)練除目標(biāo)集預(yù)測器外的所有模塊 16 個 epoch,初始值為 0.001 的學(xué)習(xí)率每衰減到 30% 5個時代。 在第二階段,我們訓(xùn)練目標(biāo)集預(yù)測器 6 個 epoch,初始值為 0.001 的學(xué)習(xí)率每個 epoch 衰減到 30%。 特征向量的隱藏大小設(shè)置為 128。我們的目標(biāo)集預(yù)測器的頭數(shù)是 12。沒有使用數(shù)據(jù)增強(qiáng)。
4.3. 基準(zhǔn)的結(jié)果
Argoverse運(yùn)動預(yù)測基準(zhǔn)我們在Argoverse驗證集上評估DenseTNT,并在表1中報告結(jié)果。可以看出,Densett的表現(xiàn)大大優(yōu)于文獻(xiàn)中流行的模型。還值得注意的是,我們的在線模型(Densett w/目標(biāo)集預(yù)測器),雖然是根據(jù)離線模型(Densett w/optimization)可獲得與離線模型相當(dāng)?shù)慕Y(jié)果。我們進(jìn)一步將Densett與表1中Argoverse排行榜上表現(xiàn)最好的公司進(jìn)行了比較。由于第1、第3和第4種方法的細(xì)節(jié)尚未披露,我們無法對它們進(jìn)行定性比較。與使用NMS進(jìn)行后處理的PRIME(第二)和LaneRCNN(第五)相比,我們的方法可以在實時使用期間以端到端的方式生成軌跡。我們在官方排名指標(biāo)MR上取得了優(yōu)異的性能,這驗證了我們方法的有效性。對于另一種流行的度量minFDE,我們還可以通過將其用作優(yōu)化目標(biāo)來實現(xiàn)最先進(jìn)的性能。
圖5顯示了我們的在線模型產(chǎn)生的定性結(jié)果。在某些情況下,目標(biāo)的概率分布是多模態(tài)的,這使得NMS很難在后處理階段處理。我們的模型在熱圖覆蓋率較高的情況下進(jìn)行了不同的軌跡預(yù)測。
**Waymo開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)。**我們?yōu)?021年Waymo開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽開發(fā)了Densett的變體,并獲得了第一名。挑戰(zhàn)排行榜如表3所示。我們的技術(shù)報告1中討論了該變體的詳細(xì)信息。
模型架構(gòu)我們對模型的主要部件進(jìn)行燒蝕研究。這些組件是密集概率估計、生成偽標(biāo)簽的優(yōu)化算法和目標(biāo)集預(yù)測器。有不同的指標(biāo)來衡量生成最可能軌跡的性能。我們在不同的優(yōu)化目標(biāo)下測試了我們的方法的有效性,如表2所示。
每個組件在我們的方法中都扮演著重要的角色。
密集概率估計的性能比稀疏概率估計要好得多,因為密集概率估計提供了更細(xì)粒度的局部信息。
此外,稀疏概率估計只能與基于規(guī)則的啟發(fā)式算法NMS相結(jié)合。NMS的超參數(shù)是去除相鄰點(diǎn)的閾值,即兩個距離小于閾值的點(diǎn)被視為同一點(diǎn)。為了公平比較,我們展示了在不同度量下NMS的最佳結(jié)果。在線模型的結(jié)果與離線模型基本一致,證明了目標(biāo)集預(yù)測的有效性。變化損失是一種傳統(tǒng)的端到端軌跡預(yù)測方法,它生成固定數(shù)量的軌跡,但在訓(xùn)練期間僅對最近的一條進(jìn)行回歸。我們的端到端方法大大優(yōu)于它。
目標(biāo)密度為了表示最終位置的概率分布,我們在車道上對候選目標(biāo)進(jìn)行密集抽樣。目標(biāo)的采樣密度對我們方法的性能有影響,我們在表4中顯示了這一點(diǎn)。這表明在達(dá)到飽和點(diǎn)之前,密度越高,性能越好。
優(yōu)化給定一個指示車輛最終位置概率分布的熱圖,使用優(yōu)化算法尋找全局最優(yōu)解。
每個實例的優(yōu)化算法的最大運(yùn)行時間對性能有影響。表5顯示了隨時間變化的優(yōu)化性能。在t=100ms之前,性能急劇提高,而在t=200ms之后,性能幾乎保持不變。
結(jié)論
在本文中,我們提出了一個無錨和端到端的軌跡預(yù)測模型,稱為Densett,它直接從稠密的候選目標(biāo)輸出一組軌跡。此外,我們引入了一個基于優(yōu)化的離線模型,以提供多個未來的偽標(biāo)簽來訓(xùn)練在線模型。Densett不僅在線運(yùn)行,而且具有與離線模型類似的性能,證明了目標(biāo)集預(yù)測設(shè)計和我們的訓(xùn)練范式的有效性。綜合實驗表明,Densett實現(xiàn)了最先進(jìn)的性能,在Argoverse運(yùn)動預(yù)測基準(zhǔn)中排名第一,并在2021 Waymo開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽中獲得第一名。
附錄
A離線優(yōu)化
為了提高DenseTNT的訓(xùn)練效率,我們設(shè)計了一個由上下文編碼模塊和優(yōu)化算法組成的離線模型。有不同的指標(biāo)來衡量多軌跡預(yù)測方法的性能。為了進(jìn)行綜合評估,我們測試了優(yōu)化算法在不同優(yōu)化目標(biāo)組合下的有效性,如表6所示。
B實現(xiàn)細(xì)節(jié)
代理和映射編碼為了規(guī)范化地圖,我們將目標(biāo)車輛的最后位置作為原點(diǎn),目標(biāo)車輛的方向作為y軸。按照VectorNet[11],車道和代理被轉(zhuǎn)換為向量序列。每個向量包含起點(diǎn)、終點(diǎn)及其相應(yīng)車道或代理的屬性。屬于某個通道的向量也包含其在此通道中的索引,屬于某個代理的向量包含其起點(diǎn)和終點(diǎn)的時間戳。經(jīng)過稀疏上下文編碼,我們得到了車道和代理的特征。
優(yōu)化算法優(yōu)化算法的目的是找到一個目標(biāo)集,使預(yù)期誤差最小化。它由靜態(tài)類型語言實現(xiàn),以實現(xiàn)最快的速度,并在100毫秒內(nèi)搜索數(shù)百個目標(biāo)集。
我們在8個CPU上以不同的初始化并行運(yùn)行優(yōu)化算法,并選擇最佳結(jié)果。主要成本是計算每個搜索目標(biāo)集的預(yù)期誤差。
最終位置的概率分布由熱圖目標(biāo)C={c1,c2,…,cm}及其相應(yīng)的概率h(ci)表示。在計算給定目標(biāo)集的期望誤差時,只考慮滿足H(CI)的CI。≥ 10?3.
由于樣本密度為1m,每個熱圖目標(biāo)ci代表1m×1m的空間。為了獲得更精確的預(yù)期誤差,我們將每個熱圖目標(biāo)劃分為9個熱圖目標(biāo),概率為1 9 h(ci),每個熱圖目標(biāo)代表1 3m×1 3m的空間。
目標(biāo)集預(yù)測器。目標(biāo)集預(yù)測器旨在學(xué)習(xí)從熱圖到目標(biāo)集的映射。我們只編碼滿足h(ci)的熱圖目標(biāo)≥ 10?5.首先,我們以概率最高的熱圖目標(biāo)為原點(diǎn),對熱圖目標(biāo)和偽標(biāo)簽的二維坐標(biāo)進(jìn)行歸一化。然后,使用兩層MLP對熱圖目標(biāo)進(jìn)行編碼,輸入為每個目標(biāo)的二維坐標(biāo)及其對應(yīng)的對數(shù)概率。
熱圖目標(biāo)的特征被傳遞給預(yù)測頭。使用softmax函數(shù)對所有頭部的預(yù)測置信度進(jìn)行歸一化。目標(biāo)集預(yù)測器的頭數(shù)設(shè)置為12。
C.定性結(jié)果
圖6顯示了與典型的基于目標(biāo)的軌跡預(yù)測方法的一些代表性比較,其性能在很大程度上取決于啟發(fā)式預(yù)定義錨的質(zhì)量。在圖7中的辯論驗證集上,我們還提供了不同流量場景中的更多定性結(jié)果。在某些情況下,最終位置的概率分布非常不同,NMS很難處理好。
總結(jié)
以上是生活随笔為你收集整理的DenseTNT翻译的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据湖Hudi-8-Hudi集成Fli
- 下一篇: 电商如何利用API接口获取商品信息数据