论文笔记:Spatial-Temporal Map Vehicle Trajectory Detection Using Dynamic Mode Decomposition and Res-UNe
0 摘要
本文提出的方法,用于從高角度交通攝像機中提取車輛軌跡。
????????動態模式分解 (DMD) 方法通過將空間時間圖 (STMap) 分解為稀疏前景和低秩背景來提取車輛線。通過采用兩種流行的深度學習架構,為語義分割任務設計了一個名為 Res-UNet+ 的深度神經網絡。 Res-UNet+ 神經網絡顯著提高了基于 STMap 的車輛檢測性能,DMD 模型為理解 STMap 保存的底層時空結構的演變提供了許多有趣的見解。
????????模型輸出與之前的圖像處理模型和主流語義分割深度神經網絡進行了比較。經過全面評估,該模型被證明是準確和穩健的,可應對許多具有挑戰性的因素。最后但同樣重要的是,本文從根本上解決了 NGSIM 軌跡數據中發現的許多質量問題。發布清理后的高質量軌跡數據,以支持未來關于交通流和微觀車輛控制的理論和建模研究。該方法是基于視頻的軌跡提取的可靠解決方案,具有廣泛的適用性。
1 introduction
????????視頻傳感器已廣泛用于提取車輛軌跡數據,以支持學術研究、交通運營、管理和設計。最具影響力的基于視頻的軌跡數據集之一是下一代模擬 (NGSIM) 軌跡數據集 [1],它通過揭示微觀交通特征顯著推動了交通流和建模研究。正如[2]所強調的,盡管基于視頻的軌跡數據極大地改進了模型的類型和模型的校準/訓練,但對高質量、高分辨率的軌跡數據仍然存在大量需求。從交通攝像機中以令人滿意的精度收集有用的軌跡數據是一項非常具有挑戰性的任務。傳統的軌跡提取范式包含多階段算法,容易受到天氣、光照、視頻質量和其他因素的影響。車輛軌跡數據集通常需要大量的后處理工作,例如清理和驗證。
????????為了解決NGSIM數據集中的數據質量問題,滿足交通流和建模研究的需要,本文提出了一種機器學習增強掃描線方法從時空地圖(STMap)中檢測軌跡。 動態模式分解 (DMD) 用于通過將 STMap 分解為不同的底層結構來分析它。 DMD 結果用于為新的深度神經網絡預處理和準備訓練數據。 利用兩種現有的卷積神經網絡架構來構建用于 STMap 分割任務的 Res-UNet+ 模型。 該方法在很大程度上改進了車輛檢測的掃描線算法,簡化了高保真軌跡數據采集。
????????此外,本文還提供了一種通過在靜態 STMap 上顯示車輛運動來驗證提取的車輛軌跡的有效方法。 先前的軌跡驗證過程依賴于通過將原始視頻上的檢測和跟蹤結果可視化的直接方法,或通過針對原始軌跡和重建軌跡校準微觀模型并比較兩個校準模型中哪個更好的間接方法。 然而,時空圖允許以最小的努力直接識別單個車輛的錯誤。
2? 相關工作
2.1 高分辨率的車輛軌跡數據集
本節回顧了三個重要的高分辨率車輛軌跡數據集及其處理方法。
2.1.1 NGSIM
????????NGSIM 軌跡數據集是交通研究界的一項重要資產,由從高層建筑拍攝的交通視頻生成。 NGSIM 應用基于外觀的車輛檢測算法從圖像中提取線段并將其與 3D 車輛模型進行匹配。檢測到的車輛根據它們在攝像頭圖像中的外觀進行跟蹤。
???????? NGSIM 數據集已被用于校準和評估交通流模型中的真實數據,展示駕駛行為或交通現象,以及進行交通狀態估計和預測 [3][4]。
????????然而,越來越多的文獻揭示了 NGSIM 數據集中潛在的系統錯誤。一些研究 [5][6][7][8][9] 研究了性能問題并提出了基于統計分布、過濾和平滑、交通通知約束和信息論的去噪方法 [10]。
2.1.2 HighD & inD 數據
????????Krajewski 等人 [11] 發布了一個 HighD 數據集,該數據集由無人機在德國高速公路上收集的 110,500 輛車輛組成。
???????? 同一組發布了包含行人、騎自行車的人、貨車等的交叉路口道路使用者的 inD 軌跡數據集。
????????用于生成 HighD 數據集的對象檢測算法是 U-Net 語義分割算法。
2.1.3 pNEUMA
????????與高速公路車輛軌跡數據集相比,Barmpounakis 和 Geroliminis [12] 提出了一個完整的城市數據集,該數據集是從名為 pNEUMA(使用航拍鏡頭的城市交通監測新時代)的大量無人機中收集的。 他們的項目是使用商業流量平臺進行的[13]。
???????? 該數據集在使用 10 架無人機的多模式交通環境下覆蓋了 100 多公里車道和約 100 個十字路口的擁堵區域。 原始 pNEUMA 數據集不包含車道信息,這需要用戶應用額外的車道識別方法。
2.2 交通錄像分析中的CV算法
????????交通檢測是計算機視覺中目標檢測問題的一部分。 近年來,隨著深度學習的興起,取得了長足的進步。 對象檢測不僅涉及識別目標類中的對象,還涉及精確定位每個對象。
????????表 1 是與交通檢測相關的計算機視覺技術的總結,可分為五個主要類別,包括基于形狀的方法[14][15][16]、背景/前景建模[17][18][19] 、深度學習模型[20][21][22][23]、基于特征的模型[24][25]和掃描線方法[26][27]。
????????
????????語義分割是與交通視頻分析相關的另一項計算機視覺任務,它預測每個圖像的像素級別的類別標簽。 挑戰在于類標簽的像素級精度和多尺度上下文信息的要求[28]。
???????? 語義分割已用于許多應用:自動駕駛汽車、虛擬和增強現實、生物醫學圖像分割等。
????????許多分割模型建立在流行的神經網絡之上,例如 AlexNet [29]、VGG-16 [30]、GoogLeNet [31] 和 ResNet [32]。
????????U-Net 于 2015 年首次被提出作為一種語義分割方法來處理生物醫學圖像 [33]。 原始的 vanilla U-Net 具有許多相似 U 形架構的變體,從而產生了一系列模型,如 U-Net 模型家族。
?????????多目標跟蹤 (MOT) 對于計算機視覺中的許多應用至關重要,并且已被廣泛研究。
???????? 目標跟蹤方法可以分為兩種類型:在線跟蹤和離線跟蹤。 在線跟蹤僅使用當前和以前的幀。 長期運動被嵌入到狀態空間中以供記憶[34-36]。 離線跟蹤基于使用所需對象的時間序列信息集合的全局優化算法[37-39]。
???????? 最近的深度學習方法獲得了巨大的動力并成功地提高了 MOT 的性能,包括 Siamese Networks、Attention and Transformer 和 Recurrent Neural Networks [40-43]。 其他一些實踐考慮了基于數據關聯或機器學習模型的數學公式中的跟蹤問題,以提取用于聚類的軌跡特征[44-46]。
?2.3 掃描線方法 scanline
????????掃描線方法源于計算機視覺文獻中使用的時空切片(STS)。STS 方法被用于物體和行人檢測[49][50]。 在交通研究中,該技術被稱為掃描線法(scanline),它是一組像素,可以從視頻圖像中捕捉用戶選擇的道路上的物體運動。 在連續幀上將掃描線像素堆疊在一起后,就獲得了時空圖(STMap)。 在 STMap 上,橫軸表示時間進程,縱軸包含距離信息。
????????
????????在交通檢測中使用兩種類型的掃描線,橫向和縱向掃描線。 橫向掃描線是橫穿車道的橫截面掃描線,而縱向掃描線是沿著交通方向的。 橫向掃描線法主要用于交通計數 [51] 和速度測量 [52]。 縱向掃描線法用于車輛跟蹤[53][54]和檢測[55]。 然而,大多數以前的掃描線方法僅用于估計宏觀參數,例如交通量、車頭時距和點速度。
2.4??動態模式分解 DMD dynamic mode decomposition
????????動態模式分解是一種數據驅動的分析方法,它集成了傅里葉變換和奇異值分解 (SVD)。
????????DMD 方法對時空相干結構進行特征分解 [59],因此可以有效地降低復雜系統的維數而不會失去準確性 [60]。 DMD 方法在流體動力學、視頻處理、控制、流行病學和金融模型等許多應用領域獲得了廣泛關注。 DMD 算法試圖找到以下兩個矩陣之間的最佳擬合。
????????
?????????其中𝑥𝑘 (𝑘 = 1, . . , 𝑚 ) 是一個向量,表示時間間隔 𝑘 的動態系統狀態,𝑋 矩陣表示從間隔 1 到 (𝑚 ? 1) 的先驗狀態,𝑋' 矩陣表示從間隔 2到𝑚的后驗狀態。
? ? ? ? X和X'通過以下線性操作關聯起來:
?????????我們的目標是找到代表狀態演化的矩陣𝐴。?
????????
????????????????𝐴? 由最小二乘優化控制
?????????其中 𝑋? 是通過使用 Moore-Penrose 偽逆獲得的
????????
????????對于 DMD 算法,不是直接求解矩陣算子 𝐴,而是通過對A進行正交分解之后在進行特征分解來實現的
- 使用SVD 分解矩陣X
?????????
????????其中𝑈和𝑉是矩陣X的列和行正交基,*表示復共軛轉置。
- 通過投影到Ur,對A進行降維,得到
????????
?????????
????????
- 計算的特征值
?????????
? ? ? ? W是特征向量,是特征值的對角矩陣?
- ?重構A的特征向量
????????
????????上述方法將估計全矩陣A的回歸問題的復雜性大大降低為計算對角線和稀疏矩陣的元素。DMD方法可以被認為是一種具有高計算效率的穩健主成分分析(PCA)。
????????矩陣𝐴的特征值可以表明主導模式的時間演變[61]。
????????Sirovich[62]將狀態向量疊加到一個大矩陣中并識別其相干結構的方法命名為快照法。
3 方法
3.1 STmap的生成
????????如圖 1 所示,通過逐幀堆疊縱向掃描線(𝑙1、𝑙2、𝑙3、...、𝑙𝑚)以形成三維矩陣,其中 𝑛 表示每條掃描線的像素數, 𝑚是視頻幀數,3表示RGB通道。
????????
?????????在 STMap 中同時移動的彩色像素表示沿預定義掃描線通過的唯一車輛。 我們的目的是從 STMap 中分割每個車輛鏈以檢測軌跡。
3.2??用于 STMap 分割的動態模式分解 (DMD)
????????每幀的掃描線像素值可以被認為是特定時間戳的交通動態狀態。
????????在時間x的交通狀態被我們記為 𝑙𝑥 ,于是我們有:
?????????
????????其中矩陣𝐴描述了時差運算。 包含空間信息的 DMD 模式是 𝐴 的特征向量。 每個 DMD 模式對應一個特征值 𝐴。 通過求矩陣 𝐴 的特征向量和特征值,我們得到 DMD 模式 Φ。 ?????????
?????????Φ 的列是特征向量,𝛬 是特征值 的對角矩陣。 STMap 可以使用前 𝑘個?模式重建,其中 𝑘 ≤ min (𝑛, 𝑚)。
????????
(個人感覺,每一列是特征向量的話,13式第一個矩陣應該是轉置形式)
?????????其中 Φ 包含來自 STMap 的主要模式,矩陣 B 是幅度矩陣。 𝒱 是代表 DMD 模式時間演化的 Vandermonde 矩陣。 該功能如圖 2 所示。
????????
????????在幀 𝑡 ∈ 1, ... , 𝑚 處的掃描線向量 𝑙𝑡 可以估計如下: ?
????????設t=1,表示掃描線的初始狀態如下 ?
????????
????????然后可以使用第一條掃描線𝑙1 作為初始狀態,將矩陣 B 估計為最小二乘問題。 ?
????????
????????任何不隨時間變化的 DMD 模式都會有一個特征值𝜆𝑗 = 1,它構成了 STMap 的背景(background)。
????????在 STMap 中,背景像素(模式不隨時間變化)在相鄰列之間高度相關,表現為 STMap 內的低秩結構。 因此,DMD 算法通過將 STMap 分解為低秩(背景)和稀疏(前景)分量來分離背景和前景。 ?????????
????????4
(也就是前面說的)
? ? ? ? ?其中
????????如圖 3 所示,與前景模式的特征值相比,背景與時間無關,并且具有最小的 DMD 特征值 (≈ )。 圖 3 (D) 繪制了不同模式隨時間的波動。 具有最低頻率的背景模式的幅度表明隨時間的變化最小。
????????如圖 3(A)和 3(B)所示,DMD 的前景檢測結果對于 STMap 上的軌跡提取并不完美。 但是,它們足夠清晰,可以為深度學習模型預處理和生成訓練數據。
????????
3.3 STMap 切割模型?
????????Res-UNet+ 模型使用 ResNet 塊作為主干,并通過修改解碼層進一步提高其性能。
????????在編碼過程中,ResNet 塊替換了 UNet 模型中的原始編碼器。編碼和解碼層之間的互連旨在減少語義差距。
????????我們在不同級別的解碼階段之間添加了內部連接。許多分割研究[63-65]表明,從不同尺度學習的特征通常包含不同的信息。較低級別的層捕獲對象的邊界,而較高級別的層探索目標對象的定位。在 vanilla UNet 架構中,相應級別的編碼器和解碼器之間只有互連。為了使較低級別的解碼器信息能夠傳遞給較高級別的解碼器,我們連接所有解碼器層以更好地定位并學習分割網絡中的表示。各層的多尺度內連接和深度如圖4所示,網絡命名為Res-UNet+。
????????
?????????編碼器層使用兩個分支 ResNet為基礎架構,包含了上分支和下分支:(下標為l的是下分支,下標為u的是上分支,第i層的輸出為)
????????
?Conv3是3×3的卷積算子
?
?????????不同級別之間具有內部連接的解碼器層描述如下:
??
?是第i層解碼器的輸出,是第i層編碼器的輸出 ,[.]表示concatenate此操作
?分別表示卷積、轉置的卷積、兩次卷積(后面都跟著ReLU激活函數)
?4 實驗部分
4.1 baseline
作為基線模型的主流圖像語義分割模型考慮如下
- ?ResNet-18/ ResNet-50:
????????ResNet 的構建塊包括連續包含卷積、批量歸一化和 ReLu 層的主分支,以及繞過主干以使梯度更容易流動的殘差連接。
????????在本文中,我們測試了 18 層和 50 層的 ResNet 架構作為參考模型。圖 4 的左分支說明了在所提出的模型中使用的類似 ResNet 結構。
- UNet:
????????具有編碼和解碼階段的 vanilla UNet 模型也用作參考模型。skip-connection由兩組卷積和 ReLU 層組成。 vanilla UNet 具有類似于圖 4 的 U 形結構,但具有更直接的左分支,并且沒有在提議的模型中定義的內部連接解碼層。
- Res-UNet:
對于 Res-UNet 模型,我們沒有添加內部連接來整合來自所有編碼器層的信息。我們的 Res-UNet 架構通過用雙分支 ResNet 塊替換原始編碼器層來改革 UNet 模型架構。
- 全卷積網絡(FCN):
FCN模型是一個端到端的編碼器-解碼器語義分割神經網絡。
- DeepLabv3+:
DeepLab 模型也是建立在編解碼框架之上,采用 Xception 模型,實現更快更強的編解碼器網絡[67]。
- SegNet:
另一個像素級分割神經網絡是 SegNet,它使用 13 個拓撲(類似于 VGG16) 的卷積層作為編碼器。他們的解碼器層使用在相應編碼器層中計算的池化索引來執行非線性上采樣[68]。
4.2 數據集
????????與其他高度專業化且需要大量專業知識和經驗的數據標記過程不同,使用上述 DMD 方法,一個人就足以完成標記數百個 STMap 的任務。 這是使用 STMap 方法的優點之一,因為不需要從所有可能的比例、部分、角度、顏色或形狀中收集車輛圖像。
???????? 此外,與背景像素相比,車輛線的模式很容易被分割。 在這項研究中,STMap?訓練數據集是使用四個 15 分鐘的 NGSIM I-80 視頻創建的。 我們從 20 個車道中獲得了 20 個 STMap,然后將其裁剪成 1000 個 512*512 圖像。 由于 STMap 中的車輛鏈從左上角延伸到右下角,因此我們不需要在數據增強過程中使用旋轉變換。
4.3 軌跡提取
????????
?4.4? 評估標準
????????三個主要性能指標用于定量評估分割模型的性能、準確性、Jaccard 系數和 BF 分數(邊界 F1 分數)。
???????? 準確度 (Acc) :正確識別出軌跡的數量/軌跡的總數量
????????
????????但是,Acc 是一個主要指標,需要與其他指標結合使用才能進行完整的評估。 ?
????????Jaccard 系數用于衡量兩個集合 A 和 B 之間的相似性
????????
?????????Jaccard 系數是一個重疊指數,用于量化兩個分割圖像區域之間的一致性。 Jaccard 系數也可以用真陽性 (TP)、假陽性 (FP) 和假陰性 (FN) 表示為:
????????
????????第三個性能指標是 BF 分數,,BF Score 定義為精確率和召回率值之間的調和平均值,以決定邊界上的點是否已匹配。
????????
????????軌跡檢測結果的誤差度量是所有軌跡點的平均絕對誤差(MAE)。
????????
??????其中,𝑜是軌跡指數,yo(𝑡)和?𝑜(𝑡)分別是時間t的實際位置和模型估計的位置,𝑀𝐴𝐸𝑜是ground-truth軌跡和估計軌跡之間的平均絕對誤差,通過對共同時間窗口內所有距離差異的平均計算。
????????如果平均絕對誤差低于預先確定的閾值(在本研究中為15英尺),我們將把檢測到的軌跡視為真陽性TP。否則,它將被視為假陽性結果FP。
5? 實驗設計
本研究中使用的視頻數據來自NGSIM I80-1數據集,該數據集于2005年4月13日下午4點至4點15分記錄在加利福尼亞州埃默里維爾的交通情況。記錄的交通流方向是北行。每臺攝像機都從高速公路附近的一棟30層樓的屋頂上觀察通過研究區域的車輛。研究中使用了四個攝像頭的五條車道,包括一條高乘載車輛(HOV)車道,如圖6所示。
?7 實驗結果
7.1 STmap 分割評估
?全局精度是正確分類的像素數占總像素數的比值。 平均準確度是每個類別的平均準確度。
平均 IoU 是所有類別的平均 IoU 分數。 加權 IoU 是圖像中每個類的像素數加權的 IoU 分數。 使用加權度量是為了減少不平衡類的影響。
總結
以上是生活随笔為你收集整理的论文笔记:Spatial-Temporal Map Vehicle Trajectory Detection Using Dynamic Mode Decomposition and Res-UNe的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文笔记 A Spatial-Tempo
- 下一篇: NTU 课程笔记:CV6422 good