當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

DenseTNT翻译

發(fā)布時間：2024/1/8 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 DenseTNT翻译小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

摘要

在自動駕駛中，基于目標(biāo)的多軌跡預(yù)測方法最近被證明是有效的，它們首先為候選目標(biāo)打分，然后選擇最終的一組目標(biāo)，最后根據(jù)選定的目標(biāo)完成軌跡。然而，這些方法通常涉及基于稀疏預(yù)定義錨點(diǎn)的目標(biāo)預(yù)測。在這項工作中，我們提出了一種名為 DenseTNT 的無錨模型，它為軌跡預(yù)測執(zhí)行密集目標(biāo)概率估計。我們的模型實現(xiàn)了最先進(jìn)的性能，并在 Waymo 開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽中排名第一。項目頁面位于 https://github.com/Tsinghua-MARS-Lab/DenseTNT。

引言

由于人類行為固有的隨機(jī)性和多模態(tài)，軌跡預(yù)測是自動駕駛中一項極具挑戰(zhàn)性的任務(wù)。為了對這種高度的不確定性進(jìn)行建模，一些方法通過從潛在變量表示的分布中采樣來預(yù)測多個未來軌跡，例如 VAE [7] 和 GAN [6]。
其他方法生成固定數(shù)量的軌跡，但僅在訓(xùn)練期間對最近的軌跡進(jìn)行回歸 [6, 8, 2]，即使用多樣性損失。 Multipath [1] 和 CoverNet [9] 通過對模板軌跡進(jìn)行分類，將問題視為分類問題。
最近，基于目標(biāo)的方法 [14, 10, 11, 13] 越來越受歡迎并取得了最先進(jìn)的性能。他們的關(guān)鍵觀察是端點(diǎn)攜帶了軌跡的大部分不確定性，因此他們首先預(yù)測了代理的目標(biāo)，然后進(jìn)一步為每個目標(biāo)完成了相應(yīng)的完整軌跡。他們通過對預(yù)定義的稀疏錨點(diǎn)進(jìn)行分類和回歸來獲得最終目標(biāo)位置，如圖 1 左下部分所示。例如，TNT [14] 將錨點(diǎn)定義為在車道中心線上采樣的點(diǎn)；其他一些 [13] 將車道段作為錨點(diǎn)并預(yù)測每個車道段的目標(biāo)。
這些基于目標(biāo)的方法的預(yù)測性能很大程度上取決于目標(biāo)錨的質(zhì)量。由于一個anchor只能生成一個目標(biāo)，模型不可能圍繞一個anchor進(jìn)行多條軌跡預(yù)測。此外，同一車道段上的不同位置具有不同的局部信息，例如與最近車道邊界的相對距離。基于稀疏錨的方法不能利用這種細(xì)粒度的信息。
在這項工作中，我們提出了 DenseTNT，一種無錨點(diǎn)的基于目標(biāo)的軌跡預(yù)測方法。它在不依賴啟發(fā)式預(yù)定義目標(biāo)錨的質(zhì)量的情況下，在很大程度上提高了目標(biāo)估計的性能。我們首先提取稀疏場景上下文特征，然后采用密集概率估計來生成目標(biāo)候選者的概率分布。最后，軌跡完成模塊根據(jù)一組選定的目標(biāo)輸出軌跡。

方法

2.1場景上下文編碼
場景上下文建模是行為預(yù)測的第一步。它提取車道和代理的特征并捕獲它們之間的交互。稀疏編碼最近提出了一些方法 [5, 8]（也稱為矢量化方法）。與將車道和代理光柵化為圖像并使用 CNN 提取特征的密集編碼方法相比，稀疏編碼方法將所有地理實體（例如車道、交通燈）和車輛抽象為折線，更好地捕捉高定義圖。
2.2密集目標(biāo)概率估計
在場景上下文編碼之后，我們對地圖上的目標(biāo)進(jìn)行概率估計。 TNT [14] 定義了道路上的離散稀疏錨點(diǎn)，然后為其分配概率值。我們的關(guān)鍵觀察是稀疏錨不是道路上真實概率分布的完美近似，因為（1）一個錨只能產(chǎn)生一個目標(biāo)，我們不能圍繞一個錨進(jìn)行多軌跡預(yù)測； (2) 道路上有很多普通點(diǎn)（遠(yuǎn)離車道中心或邊界的那些）沒有很好地建模：同一條道路上的不同普通點(diǎn)具有不同的局部信息，即到最近車道邊界的相對距離。
因此，我們改為在地圖上執(zhí)行密集目標(biāo)概率估計。具體來說，就是使用一個密集的目標(biāo)編碼模塊，在一定的采樣率下提取道路上所有位置的特征。然后，預(yù)測密集目標(biāo)的概率分布。
密集目標(biāo)編碼模塊使用注意力機(jī)制來提取目標(biāo)和車道之間的局部信息。我們將第 i 個目標(biāo)的特征表示為 Fi ，它是通過 2 層 MLP 獲得的，MLP 的輸入為第 i 個目標(biāo)的二維坐標(biāo)。目標(biāo)和車道之間的局部信息可以通過注意力機(jī)制獲得：
公式（1）(2)

公式（3）
其中可訓(xùn)練函數(shù) g(·) 也是用 2 層 MLP 實現(xiàn)的。用于訓(xùn)練場景上下文編碼和密集概率估計的損失項是預(yù)測目標(biāo)分?jǐn)?shù)和真實目標(biāo)分?jǐn)?shù)之間的二元交叉熵：
公式（4）
其中 ψi 是第 i 個目標(biāo)的真實得分。離最終位置最近的球門的真實得分為1，其他為0。
2.3. 目標(biāo)選擇
在密集概率估計之后，我們使用非極大值抑制（NMS）算法來選擇目標(biāo)。
NMS 迭代地選擇概率最高的目標(biāo)，并移除接近所選目標(biāo)的目標(biāo)。
前 K 個選定目標(biāo)是預(yù)測目標(biāo)。
2.4. 軌跡補(bǔ)全
與 TNT 類似，最后一步是完成以選定目標(biāo)為條件的每個軌跡。我們只有一個真實的軌跡，因此我們通過在訓(xùn)練期間提供真實的目標(biāo)來應(yīng)用教師強(qiáng)制技術(shù) [12]。
損失項是預(yù)測軌跡 s? 與真實軌跡之間的偏移
公式（5）
2.5. 長期預(yù)測
前面的步驟已經(jīng)可以在短期（例如 3s）運(yùn)動預(yù)測任務(wù)中取得良好的性能。然而，長期預(yù)測仍然具有挑戰(zhàn)性，因為概率分布可能會在很長一段時間內(nèi)發(fā)散。受自然語言處理中句子生成的啟發(fā)，我們以自回歸的方式生成目標(biāo)的概率分布，分別在 3s、5s 和 8s。
由于我們的目標(biāo)是分 3 個步驟推出密集概率估計，因此我們在模型架構(gòu)中開發(fā)了三個分支。
這三個分支在場景上下文編碼中為子圖模塊共享相同的權(quán)重，并且對其他部分具有獨(dú)立的權(quán)重，例如場景上下文編碼和密集概率估計中的全局圖模塊。
通過在 3 秒、5 秒和 8 秒自回歸的 N 個目標(biāo)選擇，我們獲得 N3 個目標(biāo)集。我們根據(jù)它們的概率分?jǐn)?shù)對前 K 個目標(biāo)集進(jìn)行排序，然后完成它們以獲得 K 個軌跡。
更具體地說，對于每個目標(biāo)集，我們使用上面的密集目標(biāo)編碼模塊來獲取 3 個目標(biāo)的特征。然后將特征傳遞給軌跡完成模塊，該模塊是一個 2 層 MLP。輸出是一個完整的軌跡[s1,s2…st]
實驗

實驗

3.1實施細(xì)節(jié)
代理和地圖編碼 為了對地圖進(jìn)行歸一化，我們以目標(biāo)車輛的最后位置為原點(diǎn)，以目標(biāo)車輛的方向為 y 軸。由于每個場景的地圖都比較大，我們只編碼了一個中心為(0, 30m)，半徑為80m的子地圖
遵循 VectorNet [5]，代理被轉(zhuǎn)換為向量序列。每個向量包含起點(diǎn)、終點(diǎn)、起點(diǎn)和終點(diǎn)的時間戳以及相應(yīng)代理的屬性。車道被轉(zhuǎn)換成車道段序列。每個車道段包含 ??10 個相鄰的車道點(diǎn)及其對應(yīng)車道的屬性。例如，將 50 個車道點(diǎn)的車道轉(zhuǎn)換為 5 個車道段。由于相鄰兩個點(diǎn)之間的采樣距離約為1m，因此10個車道點(diǎn)的車道段約為10m。
密集目標(biāo)抽樣 密集目標(biāo)采樣旨在對目標(biāo)車輛的所有可能目標(biāo)進(jìn)行采樣。
僅需要對密集位于道路和停車場的目標(biāo)候選對象進(jìn)行采樣。兩個相鄰目標(biāo)之間的距離，即采樣密度，設(shè)置為 1m。
我們不會對位于上面定義的子圖之外的目標(biāo)進(jìn)行采樣。
培訓(xùn)詳情。我們的模型在批量大小為 64 的訓(xùn)練集上進(jìn)行訓(xùn)練。我們使用 Adam [3] 優(yōu)化器訓(xùn)練 16 個 epoch，初始值為 0.001 的學(xué)習(xí)率每 5 個 epoch 衰減 0.3 倍。特征向量的隱藏大小設(shè)置為 128。不使用數(shù)據(jù)增強(qiáng)，例如隨機(jī)擾動或地圖縮放。
共有三種代理類型，即行人、車輛和騎自行車的人。我們?yōu)槊總€人訓(xùn)練一個模型，因為不同的代理類型具有不同的行為特征。
3.2. 結(jié)果稀疏和密集的目標(biāo) 我們在 Argoverse 預(yù)測數(shù)據(jù)集上比較和評估稀疏和密集目標(biāo)概率估計。如表 1 所示，密集模型的性能優(yōu)于稀疏模型，即普通 TNT。
Waymo 開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽我們評估了 DenseTNT 在 Waymo 開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽中的有效性。如表 2 所示，我們的方法在排行榜上排名第一。官方指標(biāo)是 mAP，它提供了模型性能的全貌 [4]。每個類別的細(xì)分性能如表 3 所示。
3.3. 定性結(jié)果 在 DenseTNT 中，目標(biāo)候選者密集地分布在地圖上。我們可視化基于所選目標(biāo)的密集目標(biāo)和預(yù)測軌跡的概率。如圖 3 所示，DenseTNT 給出了多種預(yù)測，例如直行、左/右轉(zhuǎn)彎和 U 形轉(zhuǎn)彎。

結(jié)論

在本報告中，我們提出了一種無錨軌跡預(yù)測模型，名為 DenseTNT。通過刪除啟發(fā)式預(yù)定義的目標(biāo)錨，它優(yōu)于以前的基于目標(biāo)的方法。 DenseTNT 實現(xiàn)了最先進(jìn)的性能，并在 Waymo 開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽中排名第一。

長篇---------------------------------------------------------------------------------------------------------

DenseTNT：來自密集目標(biāo)集的端到端軌跡預(yù)測

摘要

由于人類行為的隨機(jī)性，預(yù)測道路代理的未來軌跡對自動駕駛具有挑戰(zhàn)性。最近，基于目標(biāo)的多軌跡預(yù)測方法被證明是有效的，它們首先對過采樣的目標(biāo)候選者進(jìn)行評分，然后從中選擇最終集。然而，這些方法通常涉及基于稀疏預(yù)定義錨和啟發(fā)式目標(biāo)選擇算法的目標(biāo)預(yù)測。在這項工作中，我們提出了一種名為 DenseTNT 的無錨和端到端軌跡預(yù)測模型，該模型直接輸出來自密集目標(biāo)候選者的一組軌跡。此外，我們引入了一種基于離線優(yōu)化的技術(shù)，為我們最終的在線模型提供多個未來的偽標(biāo)簽。
實驗表明，DenseTNT 實現(xiàn)了最先進(jìn)的性能，在 Argoverse 運(yùn)動預(yù)測基準(zhǔn)上排名第一，并在 2021 年 Waymo 開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽中獲得第一名。
對于安全順暢的自動駕駛系統(tǒng)，一項必不可少的技術(shù)是預(yù)測道路參與者的未來行為。例如，了解其他車輛是否打算更好地切入有助于我們做出剎車決定。然而，由于人類行為固有的隨機(jī)性和多模態(tài)，運(yùn)動預(yù)測是一項極具挑戰(zhàn)性的任務(wù)。
為了對這種高度的不確定性進(jìn)行建模，一些方法通過從潛在變量表示的分布中采樣來預(yù)測多個未來軌跡，例如 VAE [18, 36] 和 GAN [12]。其他方法生成一組軌跡，但僅在訓(xùn)練期間對最近的軌跡進(jìn)行回歸 [12, 20, 8]，即使用多樣性損失。
然而，基于抽樣的方法不能輸出預(yù)測未來的可能性，并且品種損失對輸出缺乏可解釋性。
最近，基于目標(biāo)的方法 [39, 30, 37] 越來越受歡迎并取得了最先進(jìn)的性能曼斯。他們的關(guān)鍵觀察是目標(biāo)（端點(diǎn)）攜帶了軌跡的大部分不確定性，因此他們首先預(yù)測代理的目標(biāo)，然后進(jìn)一步完成每個目標(biāo)對應(yīng)的完整軌跡。最終目標(biāo)位置是通過對預(yù)定義的稀疏錨點(diǎn)進(jìn)行分類和回歸獲得的，如圖 1 左下部分所示。例如，TNT [39] 將錨點(diǎn)定義為在車道中心線上采樣的點(diǎn)；其他一些 [37] 將車道段作為錨點(diǎn)并預(yù)測每個車道段的目標(biāo)。這些方法通常采用的另一種技術(shù)是應(yīng)用基于規(guī)則的算法來選擇最終的少量目標(biāo)。最值得注意的算法是非最大抑制（NMS）[39]，其中只選擇局部高分目標(biāo)。
這些方法的局限性有兩方面。首先，這些方法的預(yù)測性能在很大程度上取決于目標(biāo)錨的質(zhì)量。由于一個anchor只能生成一個目標(biāo)，一個模型不能圍繞一個anchor進(jìn)行多個軌跡預(yù)測。此外，稀疏基于錨點(diǎn)的方法無法捕獲細(xì)粒度信息，即同一車道段上的不同位置包含不同的局部信息，例如與最近車道邊界的相對距離。此外，在估計稀疏目標(biāo)的概率后，使用 NMS 啟發(fā)式選擇目標(biāo)集，這是一種貪心算法，鑒于問題的多峰性，不能保證找到最優(yōu)解。
為了解決這些問題，我們提出了 DenseTNT，一種無錨和端到端的多軌跡預(yù)測方法。 DenseTNT 首先從場景上下文中生成具有概率的密集目標(biāo)候選者；根據(jù)目標(biāo)概率，它進(jìn)一步采用目標(biāo)集預(yù)測器來生成最終的軌跡目標(biāo)集。與之前的方法相比，DenseTNT 更好地為目標(biāo)候選者建模并擺脫了后處理。
DenseTNT 中的目標(biāo)集預(yù)測是一個多標(biāo)簽預(yù)測問題，需要多個標(biāo)簽作為訓(xùn)練目標(biāo)。
然而，與天生具有多個標(biāo)簽框作為監(jiān)督 [2] 的對象檢測不同，在軌跡預(yù)測中，我們只在每個訓(xùn)練樣本的許多可能的未來中觀察到一個真實的未來，這使得監(jiān)督模型極具挑戰(zhàn)性。為了解決這個問題，我們設(shè)計了一個離線模型來為我們的在線模型提供多個未來的偽標(biāo)簽。與上述在線模型相比，離線模型使用優(yōu)化算法代替目標(biāo)集預(yù)測器進(jìn)行目標(biāo)集預(yù)測。優(yōu)化算法從目標(biāo)的概率分布中尋找最優(yōu)目標(biāo)集；然后將目標(biāo)集用作在線模型訓(xùn)練的偽標(biāo)簽。
DenseTNT 在自動駕駛軌跡預(yù)測任務(wù)中取得了最先進(jìn)的性能，在 Argoverse 運(yùn)動預(yù)測基準(zhǔn)中排名第一，在 2021 Waymo 開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽中排名第一。

方法

DenseTNT 是一種無錨的端到端軌跡預(yù)測方法，它直接從密集目標(biāo)候選者中輸出一組軌跡。我們首先利用稀疏（矢量化）編碼方法來提取特征，它捕獲高清地圖的結(jié)構(gòu)特征（第 3.1 節(jié)）。
然后我們使用一個密集的目標(biāo)編碼器來生成目標(biāo)的概率分布（第 3.2 節(jié)）。最后，目標(biāo)集預(yù)測器將目標(biāo)的概率分布作為輸入并直接生成一組目標(biāo)（第 3.3 節(jié)）。
為了訓(xùn)練我們的模型，更具體地說是目標(biāo)集預(yù)測器，我們設(shè)計了一個基于優(yōu)化的離線模型，該模型生成用于監(jiān)督的偽標(biāo)簽。
3.1. 稀疏上下文編碼
場景上下文建模是行為預(yù)測的第一步。它提取車道和代理的特征并捕獲它們之間的交互。最近提出了稀疏編碼方法 [11, 20]（也稱為矢量化方法）。與將車道和代理光柵化為圖像并使用 CNN 提取特征的光柵化編碼方法相比，稀疏編碼方法將所有地理實體（例如車道、交通燈）和車輛抽象為折線，更好地捕捉高層次的結(jié)構(gòu)特征。定義圖。
由于其出色的性能，我們在這項工作中采用了 VectorNet [11]。 VectorNet 是由子圖模塊和全局圖模塊組成的分層圖神經(jīng)網(wǎng)絡(luò)。子圖模塊用于對車道和代理的特征進(jìn)行編碼，全局圖模塊使用注意力機(jī)制來捕獲車道和代理之間的交互。在上下文編碼之后，我們得到一個二維特征矩陣 L，其中每行 Li 表示第 i 個地圖元素（即車道或代理）的特征。
3.2. 密集目標(biāo)概率估計
在稀疏上下文編碼之后，我們對地圖上的目標(biāo)進(jìn)行概率估計。 TNT [39] 定義了道路上的離散稀疏錨點(diǎn)，然后為其分配概率值。我們的關(guān)鍵觀察是稀疏錨不是道路上真實概率分布的完美近似，因為（1）一個錨只能產(chǎn)生一個目標(biāo)，我們不能圍繞一個錨進(jìn)行多個軌跡預(yù)測； (2) 基于稀疏錨點(diǎn)的方法不能捕捉細(xì)粒度信息，即同一車道段上的不同位置包含不同的局部信息，例如到最近車道邊界的相對距離。
因此，我們改為在地圖上執(zhí)行密集目標(biāo)概率估計，以便目標(biāo)預(yù)測是無錨的。具體來說，就是在一定的采樣率下，使用一個密集的目標(biāo)編碼器來提取道路上位置的特征。然后，預(yù)測密集目標(biāo)候選的概率分布。
車道得分。在目標(biāo)概率估計之前，我們采用車道評分模塊來預(yù)測目標(biāo)將落在的車道以減少目標(biāo)候選者的數(shù)量。作為更高的抽象層次，每條車道上都有數(shù)十個目標(biāo)。通過對車道進(jìn)行評分，我們可以過濾掉不在候選車道上的目標(biāo)候選，減少后期的計算。
車道的評分被建模為一個分類問題，并使用二元交叉熵?fù)p失 Llane 進(jìn)行訓(xùn)練。離地面真實目標(biāo)最近的車道的地面真實得分為1，其他為0。距離在在車道 l 和真實目標(biāo) ygt 之間定義為 d(l, ygt) = min(||l1 -ygt||2 , ||l2 -ygt||2 , . . , ||lt -ygt| |2)。
概率估計。密集目標(biāo)編碼器使用注意力機(jī)制來提取目標(biāo)和車道之間的局部信息。我們首先通過使用 MLP 編碼目標(biāo)的 2D 坐標(biāo)來獲得目標(biāo)的初始特征矩陣 F。目標(biāo)和車道之間的局部信息可以通過注意力機(jī)制獲得：
公式（1）
公式(2)
其中 WQ,WK,WV ∈ R dh×dk 是線性投影矩陣，dk 是查詢/鍵/值向量的維度，F,L 是密集目標(biāo)候選和所有地圖元素（即車道）的特征矩陣或代理），分別。
第 i 個進(jìn)球的預(yù)測得分可以寫成：
公式（3）
其中可訓(xùn)練函數(shù) g(·) 也是用 2 層 MLP 實現(xiàn)的。用于訓(xùn)練稀疏上下文編碼器和密集概率估計的損失項是預(yù)測目標(biāo)分?jǐn)?shù) φ 和真實目標(biāo)分?jǐn)?shù) ψ 之間的二元交叉熵?fù)p失：
公式（4）
離最終位置最近的球門的真實得分為1，其他為0。
3.3. 目標(biāo)集預(yù)測
通過上面的密集概率估計，我們獲得了一個熱圖，表明軌跡的最終位置的概率分布。我們的目標(biāo)是在不同的模式中選擇最可能的目標(biāo)，即熱圖中的一些獨(dú)特的峰值。典型的基于目標(biāo)的軌跡預(yù)測管道采用非極大值抑制（NMS）進(jìn)行目標(biāo)選擇。但是，NMS 無法靈活處理各種情況，因為不同的熱圖具有不同的最佳 NMS 閾值，如圖 4 所示。
我們的發(fā)現(xiàn)是，目標(biāo)選擇可以建模為一個集合預(yù)測任務(wù)，因此我們設(shè)計了一個目標(biāo)集預(yù)測器，將這個熱圖作為輸入并以端到端的方式生成目標(biāo)集。然而，與具有多個標(biāo)簽框 [2] 的目標(biāo)檢測不同，在軌跡預(yù)測問題中，我們只能從許多可能的未來中觀察到一個真實的未來。為了解決這個問題，我們設(shè)計了一個離線模型來為我們的在線模型（更具體地說，目標(biāo)集預(yù)測器）提供多個未來的偽標(biāo)簽。離線模型由與在線模型相同的編碼模塊組成，但使用優(yōu)化算法代替目標(biāo)集預(yù)測器。下面，我們首先介紹優(yōu)化算法，然后詳細(xì)介紹我們的目標(biāo)集預(yù)測器。目標(biāo)集預(yù)測器的訓(xùn)練過程如圖 3 所示。
優(yōu)化（離線） 從上述步驟獲得的熱圖由來自 C = {c1, c2, … 的映射 h 表示。 . . , cm} 到 [0, 1] ? R，其中 ci ∈ R 2 是地圖上的第 i 個目標(biāo)。設(shè)Y為最終位置坐標(biāo)的隨機(jī)變量，其概率分布滿足P(Y = ci) = h(ci)。給定一個預(yù)測目標(biāo)集y = {y^1, y^2, . . . , y?K} 和真實目標(biāo) ygt，?y 的誤差為 d(?y, ygt)，例如，最小最終位移誤差 (FDE) 為：
公式（5）
由于我們不知道 ygt 的確切值，因此很難獲得誤差 d(?y, ygt)。但是，我們可以使用 Y 的概率分布來獲得 ?y 的期望誤差：
公式（6）
我們將目標(biāo)函數(shù)定義為 f(y) = E[d(y, Y )]。
我們的目標(biāo)是找到最小化 f(y) 的全局最優(yōu)解 ?y。優(yōu)化算法是通過比較各種解決方案來迭代執(zhí)行直到找到最佳或令人滿意的解決方案的過程。我們在本文中采用了爬山算法，這是一種迭代算法，每一步都試圖對當(dāng)前解決方案進(jìn)行增量更改。該算法的細(xì)節(jié)在算法 1 中描述。然后我們可以得到非常接近全局最優(yōu)解 ?y 的 ?y：
公式（7）
其中 Y 是優(yōu)化過程的搜索空間。
現(xiàn)在對于訓(xùn)練集中的每個 x，我們可以使用上述步驟生成熱圖 h，然后使用優(yōu)化算法得到 ?y。
目標(biāo)集預(yù)測器（在線）。集合預(yù)測器是由 DETR [2] 引入的，它將目標(biāo)檢測視為集合預(yù)測問題，并基于匈牙利匹配設(shè)計損失。在這個多未來預(yù)測問題中，我們也將其視為集合預(yù)測問題，并使用離線模型的輸出作為偽標(biāo)簽來訓(xùn)練在線模型的目標(biāo)集預(yù)測器。我們沒有在預(yù)測目標(biāo)集和偽標(biāo)簽之間執(zhí)行匈牙利匹配，而是在訓(xùn)練期間執(zhí)行離線優(yōu)化，使用每個優(yōu)化的偽標(biāo)簽來監(jiān)督其對應(yīng)的預(yù)測目標(biāo)。
讓我們將 y˙ = {y˙i} K i=1 表示為在當(dāng)前訓(xùn)練步驟由目標(biāo)集預(yù)測器生成的 K 個預(yù)測目標(biāo)集。我們使用上述優(yōu)化算法為這個訓(xùn)練步驟生成偽標(biāo)簽 ?y。優(yōu)化算法的初始目標(biāo)集設(shè)置為預(yù)測目標(biāo)集 y˙。優(yōu)化算法只搜索 y˙ 的鄰居，而不是搜索最優(yōu)解。具體來說，我們運(yùn)行 L(L = 100) 次隨機(jī)擾動以獲得 L 個目標(biāo)集。當(dāng)前訓(xùn)練步驟中目標(biāo)集預(yù)測器的偽標(biāo)簽 ?y 是具有最低預(yù)期誤差的目標(biāo)集。
損失項是預(yù)測目標(biāo)集 y˙ 和偽標(biāo)簽 ?y 之間的偏移：
公式（8）
其中 Lreg 是兩個目標(biāo)之間的標(biāo)準(zhǔn) 1 損失。
由于熱圖指示的概率分布是多樣的，單個回歸量很難處理。目標(biāo)集預(yù)測器有多個頭，可以同時預(yù)測 N 個目標(biāo)集。具體來說，每個頭會預(yù)測2K+1個值，包括K個進(jìn)球的二維坐標(biāo)和這個頭的置信度。每個頭部由一個熱圖編碼器和一個解碼器組成。熱圖編碼器是一個單層自注意力機(jī)制，然后是一個最大池化，而解碼器是一個輸出 2K + 1 個值的兩層 MLP。共享所有頭部的熱圖編碼器的參數(shù)以減少計算。
在訓(xùn)練過程中，優(yōu)化算法只為預(yù)期誤差最低的頭部生成偽標(biāo)簽，目標(biāo)集預(yù)測器只對這個頭部進(jìn)行回歸。為了預(yù)測多個頭的置信度，我們使用二元交叉熵?fù)p失：
公式（9）
其中 μ 是頭部的預(yù)測置信度，ν 是置信度標(biāo)簽。對于具有最低預(yù)期誤差的頭部，νi = 1，對于其他頭部，νi = 0。在推理過程中，我們將置信度最高的頭部作為目標(biāo)集預(yù)測器的輸出。
3.4. 軌跡完成 與 TNT 類似，最后一步是完成以預(yù)測目標(biāo)為條件的每個軌跡。我們首先計算類似于上述密集目標(biāo)編碼的每個目標(biāo)的特征，然后將其傳遞給解碼器即 2 層 MLP。解碼器的輸出是整個軌跡 [?s1, s?2, … . . ，英石 ]。
我們只有一個真實軌跡，因此我們通過在訓(xùn)練期間提供真實目標(biāo)來應(yīng)用教師強(qiáng)制技術(shù) [32]。損失項是預(yù)測軌跡 ?s 和真實軌跡 s 之間的偏移：
公式（10）
其中 Lreg 是兩點(diǎn)之間的平滑 1 損失。在推理過程中，該軌跡完成模塊用于同時生成 K 個目標(biāo)的 K 個軌跡。
3.5. 學(xué)習(xí)
我們方法的訓(xùn)練過程有兩個階段。在第一階段，我們使用真實軌跡訓(xùn)練除目標(biāo)集預(yù)測器之外的所有模塊：
公式（11）
第二階段，我們在訓(xùn)練集上訓(xùn)練目標(biāo)集預(yù)測器，由離線模型（編碼+優(yōu)化算法）生成的偽標(biāo)簽監(jiān)督：
公式（12）

實驗

4.1數(shù)據(jù)集
Argoverse 預(yù)測數(shù)據(jù)集 Argoverse 預(yù)測數(shù)據(jù)集 [6] 是具有代理軌跡和高清地圖的數(shù)據(jù)集。給定目標(biāo)車輛在過去 2 秒的軌跡，以 10Hz 采樣，我們需要預(yù)測未來 3 秒的未來軌跡。
有 333,000 個真實世界的駕駛序列位于十字路口或擁擠的交通中，每個序列包含一個用于預(yù)測的目標(biāo)車輛。訓(xùn)練、驗證和測試集分別包含 205942、39472 和 78143 個序列。
Waymo 開放運(yùn)動數(shù)據(jù)集 Waymo 開放運(yùn)動數(shù)據(jù)集是迄今為止最多樣化的交互式運(yùn)動數(shù)據(jù)集。
它包含超過 1750 公里道路的 570 多個小時的獨(dú)特數(shù)據(jù)，超過 100,000 個場景，每個場景長達(dá) 20 秒。數(shù)據(jù)集中有三種類型的代理，即車輛、行人和騎自行車的人。給定目標(biāo)代理的 1 秒歷史軌跡，需要預(yù)測 8 秒的未來軌跡。
指標(biāo) 我們遵循 Argoverse 基準(zhǔn)并使用最小平均位移誤差 (minADE)、最小最終位移誤差 (minFDE) 和未命中率 (MR)。每個軌跡由隨時間變化的一系列點(diǎn)表示。 ADE 是預(yù)測軌跡的每個點(diǎn)與其對應(yīng)的真實點(diǎn)之間的平均位移。 minADE 是預(yù)測的 K 個軌跡的最小 ADE，minFDE 是 K 個最終位置與地面真實最終位置之間的最小位移。遺漏率是根據(jù)最終位移誤差預(yù)測的軌跡均不在地面實況 2.0 米范圍內(nèi)的場景的比率。
4.2. 實施細(xì)節(jié)
目標(biāo)候選抽樣 我們首先對距離目標(biāo)車輛 50m（曼哈頓距離）內(nèi)的車道進(jìn)行采樣。
然后我們對密集分布在這些車道上的候選目標(biāo)進(jìn)行采樣。因此，采樣目標(biāo)候選的數(shù)量取決于目標(biāo)車輛周圍的車道。對于以車道中心線表示的車道，采樣距離中心線3m以內(nèi)的候選目標(biāo)，而對于以車道邊界表示的車道，則采樣邊界內(nèi)的候選目標(biāo)。兩個相鄰目標(biāo)之間的距離，即采樣密度，設(shè)置為 1m。
訓(xùn)練詳情 我們的模型在訓(xùn)練集上訓(xùn)練，批大小為 64。在第一階段，我們訓(xùn)練除目標(biāo)集預(yù)測器外的所有模塊 16 個 epoch，初始值為 0.001 的學(xué)習(xí)率每衰減到 30% 5個時代。在第二階段，我們訓(xùn)練目標(biāo)集預(yù)測器 6 個 epoch，初始值為 0.001 的學(xué)習(xí)率每個 epoch 衰減到 30%。特征向量的隱藏大小設(shè)置為 128。我們的目標(biāo)集預(yù)測器的頭數(shù)是 12。沒有使用數(shù)據(jù)增強(qiáng)。
4.3. 基準(zhǔn)的結(jié)果
Argoverse運(yùn)動預(yù)測基準(zhǔn)我們在Argoverse驗證集上評估DenseTNT，并在表1中報告結(jié)果。可以看出，Densett的表現(xiàn)大大優(yōu)于文獻(xiàn)中流行的模型。還值得注意的是，我們的在線模型（Densett w/目標(biāo)集預(yù)測器），雖然是根據(jù)離線模型（Densett w/optimization）可獲得與離線模型相當(dāng)?shù)慕Y(jié)果。我們進(jìn)一步將Densett與表1中Argoverse排行榜上表現(xiàn)最好的公司進(jìn)行了比較。由于第1、第3和第4種方法的細(xì)節(jié)尚未披露，我們無法對它們進(jìn)行定性比較。與使用NMS進(jìn)行后處理的PRIME（第二）和LaneRCNN（第五）相比，我們的方法可以在實時使用期間以端到端的方式生成軌跡。我們在官方排名指標(biāo)MR上取得了優(yōu)異的性能，這驗證了我們方法的有效性。對于另一種流行的度量minFDE，我們還可以通過將其用作優(yōu)化目標(biāo)來實現(xiàn)最先進(jìn)的性能。
圖5顯示了我們的在線模型產(chǎn)生的定性結(jié)果。在某些情況下，目標(biāo)的概率分布是多模態(tài)的，這使得NMS很難在后處理階段處理。我們的模型在熱圖覆蓋率較高的情況下進(jìn)行了不同的軌跡預(yù)測。
**Waymo開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)。**我們?yōu)?021年Waymo開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽開發(fā)了Densett的變體，并獲得了第一名。挑戰(zhàn)排行榜如表3所示。我們的技術(shù)報告1中討論了該變體的詳細(xì)信息。
模型架構(gòu)我們對模型的主要部件進(jìn)行燒蝕研究。這些組件是密集概率估計、生成偽標(biāo)簽的優(yōu)化算法和目標(biāo)集預(yù)測器。有不同的指標(biāo)來衡量生成最可能軌跡的性能。我們在不同的優(yōu)化目標(biāo)下測試了我們的方法的有效性，如表2所示。
每個組件在我們的方法中都扮演著重要的角色。
密集概率估計的性能比稀疏概率估計要好得多，因為密集概率估計提供了更細(xì)粒度的局部信息。
此外，稀疏概率估計只能與基于規(guī)則的啟發(fā)式算法NMS相結(jié)合。NMS的超參數(shù)是去除相鄰點(diǎn)的閾值，即兩個距離小于閾值的點(diǎn)被視為同一點(diǎn)。為了公平比較，我們展示了在不同度量下NMS的最佳結(jié)果。在線模型的結(jié)果與離線模型基本一致，證明了目標(biāo)集預(yù)測的有效性。變化損失是一種傳統(tǒng)的端到端軌跡預(yù)測方法，它生成固定數(shù)量的軌跡，但在訓(xùn)練期間僅對最近的一條進(jìn)行回歸。我們的端到端方法大大優(yōu)于它。
目標(biāo)密度為了表示最終位置的概率分布，我們在車道上對候選目標(biāo)進(jìn)行密集抽樣。目標(biāo)的采樣密度對我們方法的性能有影響，我們在表4中顯示了這一點(diǎn)。這表明在達(dá)到飽和點(diǎn)之前，密度越高，性能越好。
優(yōu)化給定一個指示車輛最終位置概率分布的熱圖，使用優(yōu)化算法尋找全局最優(yōu)解。
每個實例的優(yōu)化算法的最大運(yùn)行時間對性能有影響。表5顯示了隨時間變化的優(yōu)化性能。在t=100ms之前，性能急劇提高，而在t=200ms之后，性能幾乎保持不變。

結(jié)論

在本文中，我們提出了一個無錨和端到端的軌跡預(yù)測模型，稱為Densett，它直接從稠密的候選目標(biāo)輸出一組軌跡。此外，我們引入了一個基于優(yōu)化的離線模型，以提供多個未來的偽標(biāo)簽來訓(xùn)練在線模型。Densett不僅在線運(yùn)行，而且具有與離線模型類似的性能，證明了目標(biāo)集預(yù)測設(shè)計和我們的訓(xùn)練范式的有效性。綜合實驗表明，Densett實現(xiàn)了最先進(jìn)的性能，在Argoverse運(yùn)動預(yù)測基準(zhǔn)中排名第一，并在2021 Waymo開放數(shù)據(jù)集運(yùn)動預(yù)測挑戰(zhàn)賽中獲得第一名。

附錄

A離線優(yōu)化
為了提高DenseTNT的訓(xùn)練效率，我們設(shè)計了一個由上下文編碼模塊和優(yōu)化算法組成的離線模型。有不同的指標(biāo)來衡量多軌跡預(yù)測方法的性能。為了進(jìn)行綜合評估，我們測試了優(yōu)化算法在不同優(yōu)化目標(biāo)組合下的有效性，如表6所示。
B實現(xiàn)細(xì)節(jié)
代理和映射編碼為了規(guī)范化地圖，我們將目標(biāo)車輛的最后位置作為原點(diǎn)，目標(biāo)車輛的方向作為y軸。按照VectorNet[11]，車道和代理被轉(zhuǎn)換為向量序列。每個向量包含起點(diǎn)、終點(diǎn)及其相應(yīng)車道或代理的屬性。屬于某個通道的向量也包含其在此通道中的索引，屬于某個代理的向量包含其起點(diǎn)和終點(diǎn)的時間戳。經(jīng)過稀疏上下文編碼，我們得到了車道和代理的特征。
優(yōu)化算法優(yōu)化算法的目的是找到一個目標(biāo)集，使預(yù)期誤差最小化。它由靜態(tài)類型語言實現(xiàn)，以實現(xiàn)最快的速度，并在100毫秒內(nèi)搜索數(shù)百個目標(biāo)集。
我們在8個CPU上以不同的初始化并行運(yùn)行優(yōu)化算法，并選擇最佳結(jié)果。主要成本是計算每個搜索目標(biāo)集的預(yù)期誤差。
最終位置的概率分布由熱圖目標(biāo)C={c1，c2，…，cm}及其相應(yīng)的概率h（ci）表示。在計算給定目標(biāo)集的期望誤差時，只考慮滿足H（CI）的CI。≥ 10?3.
由于樣本密度為1m，每個熱圖目標(biāo)ci代表1m×1m的空間。為了獲得更精確的預(yù)期誤差，我們將每個熱圖目標(biāo)劃分為9個熱圖目標(biāo)，概率為1 9 h（ci），每個熱圖目標(biāo)代表1 3m×1 3m的空間。
目標(biāo)集預(yù)測器。目標(biāo)集預(yù)測器旨在學(xué)習(xí)從熱圖到目標(biāo)集的映射。我們只編碼滿足h（ci）的熱圖目標(biāo)≥ 10?5.首先，我們以概率最高的熱圖目標(biāo)為原點(diǎn)，對熱圖目標(biāo)和偽標(biāo)簽的二維坐標(biāo)進(jìn)行歸一化。然后，使用兩層MLP對熱圖目標(biāo)進(jìn)行編碼，輸入為每個目標(biāo)的二維坐標(biāo)及其對應(yīng)的對數(shù)概率。
熱圖目標(biāo)的特征被傳遞給預(yù)測頭。使用softmax函數(shù)對所有頭部的預(yù)測置信度進(jìn)行歸一化。目標(biāo)集預(yù)測器的頭數(shù)設(shè)置為12。
C.定性結(jié)果
圖6顯示了與典型的基于目標(biāo)的軌跡預(yù)測方法的一些代表性比較，其性能在很大程度上取決于啟發(fā)式預(yù)定義錨的質(zhì)量。在圖7中的辯論驗證集上，我們還提供了不同流量場景中的更多定性結(jié)果。在某些情況下，最終位置的概率分布非常不同，NMS很難處理好。

總結(jié)

以上是生活随笔為你收集整理的DenseTNT翻译的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

DenseTNT

上一篇：【数据湖Hudi-8-Hudi集成Fli
下一篇：电商如何利用API接口获取商品信息数据

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

生活随笔

生活随笔

编程问答

DenseTNT翻译

摘要

引言

方法

實驗

結(jié)論

長篇---------------------------------------------------------------------------------------------------------

DenseTNT：來自密集目標(biāo)集的端到端軌跡預(yù)測

摘要

相關(guān)工作

方法

實驗

結(jié)論

附錄

總結(jié)