评估行人行动预测的基准——Benchmark for Evaluating Pedestrian Action Prediction
評估行人行動預測的基準——Benchmark for Evaluating Pedestrian Action Prediction
Date of Conference: 3-8 Jan. 2021
Date Added to IEEE *Xplore*: 14 June 2021
DOI: 10.1109/WACV48630.2021.00130
Authors:Iuliia Kotseruba,York University;Amir Rasouli,York University;John K. Tsotsos,York University
論文鏈接
文章目錄
- 摘要
- 1.介紹
- 2.相關工作
- 2.1.行為預測
- 2.2.穿行預測評估
- 3.標準
- 4.基線模型和先進模型
- 5.評估
- 5.1.訓練
- 5.2.討論結果
- 6.提出的模型 (PCPA)
- 6.1結果
- 7.總結
- 參考
摘要
? ? 行人動作預測已經(jīng)成為了熱門的研究課題,同時也產(chǎn)生了許多新的算法解決方案。然而,由于缺乏公開可用的標準和通用的訓練評估程序,評測當今先進的解決方案十分困難。為此,我們引入一個基于兩個公開數(shù)據(jù)集的行人行為理解基準。使用上述評價程序,我們對一些基線模型(一些簡單的基礎模型)和最先進的模型進行排名,并分析他們在各個方面的性能。基于上面的評測,我們提出一個新的模型用與行人穿行預測,此模型使用注意力機制有效地結合隱形和顯現(xiàn)特征。在后面我們還會
展示新模型的預測效果。模型代碼鏈接:https://github.com/ykotseruba/PedestrianActionBenchmark.
1.介紹
? ? 在輔助和自動駕駛系統(tǒng)領域,預測行人動作或者穿行的能力對系統(tǒng)進行未來可靠的路徑規(guī)劃來說是十分重要的。在過去十年中,行人動作預測課題在機器視覺和機器人動力學領域收到很大的關注。在此領域的努力研究下,許多方法都在報告中展現(xiàn)了他們在行人穿行預測的成果。
? ? 為了行人動作預測更長遠的發(fā)展,十分有必要對現(xiàn)存的優(yōu)秀算法進行評估,這就需要一個通用的評價指南。到目前為止,由于缺乏一致的評價標準,即使使用相同的數(shù)據(jù)集評估模型的性能,這種比較也很困難,甚至是不可能的[47]。例如,有的研究進行連續(xù)預測是在穿行開始之后,而有的是在穿行開始前,這些研究還有可能使用不一樣的數(shù)據(jù)拆分和抽樣程序。為此,我們提出一個新的標準用于行人動作預測,這個標準基于兩個公開可用的行人行為理解數(shù)據(jù)庫:自主駕駛的聯(lián)合注意Joint Attention for Autonomous Driving(JAAD)[44] 行人意圖評估 Pedestrian Intention Estimation(PIE)[42].我們根據(jù)行人行為研究制定評估協(xié)議,對線性(基線)模型和最先進的模型進行評估。另外在相同的條件下測試這些算法并對其預測結果進行排序,我們還檢查不同數(shù)據(jù)屬性對兩個數(shù)據(jù)集的影響。
? ? 最后,基于測試結果和數(shù)據(jù)分析我們提出一個新模型用于行人穿行預測,此模型性能在此評測標準下優(yōu)于現(xiàn)在的算法。作為我們支持未來行人動作預測研究工作的一部分,我們將公開所有算法的基準代碼。
2.相關工作
2.1.行為預測
? ? 行為預測在許多領域中都是一個感興趣的話題,如輔助機器人[35,4,6,64]、監(jiān)控[27,25,17,33]、運動預測[29,39,10]和自動駕駛系統(tǒng)[46,42,32,62]。行為預測的結果可以是隱含的未來軌跡或姿勢 [4, 61, 25, 42, 39],也可以是明確的預測未來動作或事件 [35, 46, 27, 17, 10]。
? ? 動作預測。動作預測有著廣泛的應用,包括人-物體[23,16,1,63]和人-人[17,11,48]交互,事故預測[60,54,55]和道路交通理解[8,18,46,28]。這些方法在本質(zhì)上與動作識別算法中使用的算法是相似的。一些常用的學習架構包括 2D/3D 卷積網(wǎng)絡 [8、18、23]、循環(huán)網(wǎng)絡 [55、16、63] 或兩者的組合 [1](有關詳細信息,請參見 [41])。
? ? 行人穿行預測是動作預測的子問題,此預測目的是預測給定行人是否會在未來某個時間過馬路。穿行預測算法依賴各種數(shù)據(jù)模式和架構。例如,(1)在一項早期工作中,使用CNN對交通場景及觀察到的行人行走動作進行卷積,用卷積后的靜態(tài)表示作為輸入來預測特定幀的過馬路動作。(2)最近的方法利用了序列分析技術。在[49,36]中,作者使用DenseNet的架構來進行行人圖像序列的預測(與[36]中的姿勢特征一起)。(3)在[46]中使用多模態(tài)方法且輸入不同的數(shù)據(jù),如場景、軌跡,根據(jù)復雜程度的不同,分成不同層次的堆疊GRU網(wǎng)絡。作為預測系統(tǒng)的一部分,圖模型還經(jīng)常用于表示身體關節(jié)間的連接 [5] (物理上的身體連接)或者關節(jié)間的交互[28](物理上可能不連接但有對應關系,如跑步時的手腳協(xié)調(diào),而手腳不是直接連接的)的建模。(4)另一組算法依靠生成模型來預測未來的場景表征,而這些表征又被送入一個分類器,以預測是否有行人正在發(fā)生穿行事件[18, 9]。
小總結:(1)baseline model(基線模型),基線模型就是一個作為標準線的模型,比如說你要對某個模型進行改進,添加幾個模塊或者修改結構之類的,那這個模型就叫做baseline model。(2)DenseNet又稱稠密網(wǎng)絡,是從CNN發(fā)展出來的,此處內(nèi)容較多建議單獨抽出來學習,DenseNet應該是當時性能優(yōu)異的卷積網(wǎng)絡模型(現(xiàn)在不知道)。(3)關鍵點在于多樣化的輸入,通過從視頻中區(qū)分出背景,軌跡,動作等信息,并融合使用于預測。(4)表述其實很簡單,就是不過結果如何,先使用算法預測,這個表征可能是直觀的圖像,也可能是抽象的代碼,但分類器會識別。這里面其實還涉及到框架是怎樣預測,分類器也需要訓練。
2.2.穿行預測評估
? ? 因為評價標準不一,比較不同的行人穿行算法十分困難。即使使用相同的數(shù)據(jù)庫這些差異仍然存在。在Table 1 列出了最近在JAAD和PIE訓練的的模型,有關“觀察終點和范圍”和“預測范圍”的總結。
Table 1: Pedestrian action prediction models trained and evaluated on JAAD and PIE datasets. Observation endpoint即觀察終點,表明是否對整個行人軌跡進行了采樣,或者只對穿行動作之前的幀進行了采樣(此類算法會利用完全觀察視頻提取一些全局特征,有的是直接用于預測這沒有實際意義后面會提到,有的則是由于訓練,這樣的預測是就可以只用穿行發(fā)生前的觀察內(nèi)容進行預測)。Observation length (s)即觀察長度單位為秒。Prediction horizon即預測范圍單位為秒。
? ? 觀察幀(觀察終點)的選擇方式存在顯著差異。有一半的方法只適用穿行發(fā)生之前的幀進行訓練和評估。例如在[57]中就是使用行人開始穿行之前的最后一幀用于預測行為。[34] 觀察從穿行前 2 秒到穿行開始后 0.5 秒。其余模型對整個視頻行采樣。這有利于訓練,因為有更多可用數(shù)據(jù)。然而在實際中,在穿行開始發(fā)生的這個時間點是最關鍵的,因為車輛需要決定避讓還是繼續(xù)行駛。使用整個軌跡也會影響評估,因為如果動作已經(jīng)在進行中,預測就不再適用。在之前的實驗中和本位5.2節(jié)會證明,當觀察越久,行動預測會逐漸變得容易(就TTE而言)。因為觀察越久,可以觀察到更多的視覺線索。當行人已經(jīng)在過馬路時,大多數(shù)模型都能達到很高的預測準確率,提高了它們的總分,這不能表現(xiàn)出實際最需要的性能,也就是在穿行發(fā)生前進行預測的性能。為了緩解這種情況,一些作者對樣本細分為更細致的類別,例如在[34]和[37]中的停止、連續(xù)穿行叉、開始和站立,并評估每個子集上的模型。
? ? 觀察長度也有許多不同,從一幀[57]到300幀(10s)[5],大部分都是在0.5s左右( 30 fps 時 15 - 16 幀)。在預測長度方面,三分之一的模型預測觀察后的一幀內(nèi)容,其余的都預測了0.5s~3s未來的穿行動作,這對于實際場景來說更可取,因為它可以讓駕駛員或自動駕駛汽車有時間響應意外事件。
? ? 為了解決上述的不同點,我們作出一下貢獻:(1)為行人過馬路預測任務建立以行為學文獻為基礎的共同評價標準。(2)對基線和先進模型進行實驗(3)分析它們在各種數(shù)據(jù)屬性方面的表現(xiàn)(4)一種預測更準確的新模型
3.標準
? ? 穿行動作預測任務。我們將行人動作預測制定為二分類問題,此目標是預測行人是否會在某個時間t開始過馬路根據(jù)長度為m的觀察視頻。我們將對視頻進行兩種定義:1)在某個時間行人開始過馬路;2)直到觀察到最后一幀行人都不會過馬路。
? ? 數(shù)據(jù)庫。對于這個基準,我們使用兩個大型公共自然數(shù)據(jù)集來研究交通中的行人行為:自動駕駛聯(lián)合關注 (JAAD) [44] 和行人意圖估計 (PIE) [42]因為它們可以免費供學術界和工業(yè)界不受限制地使用。JAAD有346段行人過馬路前的動作視頻組成,這些視頻在幾個不同國家和不同天氣拍攝。PIE 包含在加拿大多倫多天氣晴朗時錄制的 6 小時連續(xù)鏡頭。
? ? 與JAAD關注行人穿行意圖不同,PIE提供在馬路旁所有人的注釋,標識出誰可能會或可能不會試圖在此車輛前面過馬路。作為結論,兩個數(shù)據(jù)庫都存在不平衡:JADD 行為數(shù)據(jù)庫(JAAD beh)都是正在穿越(495)或即將穿越(191)的人,為了完善JAAD數(shù)據(jù)庫 (JAADallJAAD_{all}JAADall?) 加入了2100條其他的行人視頻,他們是一些遠離路口或者不過馬路的行人。與JAAD類似,PIE包含太多的不過馬路的行人(1322不過 VS 512過)但是它們在外觀、他們表現(xiàn)出的行為類型以及相對于路邊的位置方面更加多樣化。
? ? 數(shù)據(jù)抽樣。在 [45] 中數(shù)據(jù)拆分,將323段視頻(不包含較低分辨率及惡劣天氣和夜間錄制的視頻)分為177,117和29段(我覺得這里測試和驗證數(shù)量弄反了),分別用于訓練、測試和分別驗證。我們也采用一樣的拆分方式,將JAADbehJAAD_{beh}JAADbeh?分為214,48和276段,將JAADallJAAD_{all}JAADall?分為1355,202和1023段。在PIE數(shù)據(jù)庫我們參考[42]中的拆分:將set01, set02 和 set06用于訓練,set04 和 set05用于驗證,set03用于測試。PIE中的行人軌跡數(shù)量為880,243和719分別用于訓練,檢驗和測試
? ? 如圖一所示,對每個行人的觀察數(shù)據(jù)進行采樣 ,使最后一幀觀察在穿行發(fā)生12秒前(3060幀)(如數(shù)據(jù)集注釋中提供的)。這種time-to-event (TTE)是由交通研究推動的47]。當TTE小于2秒時行人不太可能穿過[43],但應為緊急機動分配一些時間。由于大多數(shù)城市情景和人類動態(tài)的不可預測性,更長的預測范圍是不切實際的。所有模型的觀察長度固定為 16 幀。 PIE 的樣本重疊設置為 0.6,JAAD 的樣本重疊設置為 0.8。
Figure 1: Crossing prediction task: given a set of observation frames predict action some time in the future to give the driver or autonomous vehicle sufficient time to react to pedestrian behavior
? ? 特征。觀察在JAAD和PIE數(shù)據(jù)集中注釋的幾個明確特征:界限盒坐標bounding box coordinates,此車輛速度ego-vehicle speed(PIE中的sensor data,JAAD中的qualitative labels),以及行人pedestrians和場景scene的各種屬性。
? ? 另外,我們的姿勢信息由Openpose[6]生成(18個身體關節(jié)坐標串聯(lián)成一個36D的 特征向量),整個場景的光流計算使用FlowNet2 [21]。
? ? 生成了幾類視覺特征:scene-整個場景;local box-畫面裁剪成邊界框的大小;local context-圖像區(qū)域為邊界框的1.5大小;local surround-行人邊界框內(nèi)的區(qū)域被灰化的地方。
? ? 指標。我們使用標準二元分類指標報告結果:準確度accuracy、ROC 曲線、AUC、recall、 F1。其中
F1 = 2?(precision?recall)/precision+recall4.基線模型和先進模型
? ? 除了在2.2節(jié)中介紹的幾個模型外,我們還加入了識別領域中一些基線模型。在 [18, 9]中行人穿行方法,此方法不是針對單個行人,因此不包括在標準測試中。
Static一種基線模型,使用VGG16 [53] and ResNet50 [19]后端 和 全連接(fc)層進行預測,并只使用觀察序列的最后一幀。
Are They Going to Cross (ATGC) [44]。此結構由三個CNN流構成,這三個CNN流對每一幀的場景特征、行人步態(tài)和頭部姿勢進行編碼整合成一個共享表示,將其作為SVM的輸入。最終預測被計算為所有觀察幀的平均值。
ConvLSTM[51]一個將一堆圖像作為輸入的模型,使用預訓練的 CNN 對其進行預處理,并將提取的特征輸入卷積 LSTM。 最后的隱性狀態(tài)被輸入到fc層進行預測。
SingleRNN (RNN)[26].輸入特征被連接成單個向量并輸入循環(huán)網(wǎng)絡(GRU [13] 或 LSTM [20]),然后是用于動作預測的 fc 層。
Stacked RNN[59].一堆 RNN 層,其中每個 RNN 都從下面的層接收 RNN 的隱藏狀態(tài)
Multi-stream RNN (MultiRNN) [3]是由獨立處理每種特征類型的獨立RNN流組成。最后,將 RNN 的隱藏狀態(tài)連接起來并輸入到 fc 層進行預測
Hierarchical RNN[14].一種架構,其中單獨的 RNN 分支獨立處理每種特征類型。相應的隱藏狀態(tài)被連接起來并饋送到另一個 RNN 層,然后是 fc 層進行分類。
Stacked with multilevel Fusion RNN(SFRNN) [46].Stacked RNN改良版,在此模型,特征被分層處理,并在沒一層逐漸融合,更復雜的特征在底層饋送,更簡單的特征在頂部融合生成。
Convolutional 3D (C3D) [56],以堆疊RBG幀作為輸入,通過輸入特征進入fc層進行預測。
Inflated 3D (I3D) [7]以RGB圖像作為輸入,最后通過fc進行預測。
TwoStream[52]使用兩個CNN流平行處理RBG圖像和光流(optical flow),并融合兩種特征生成預測。對序列中的每一幀進行預測并取平均值
5.評估
5.1.訓練
? ? 為了對在PIE和JAAD的預訓練進行建模,我們使用對應論文中指定的超參數(shù)。對于其余模型,我們通過改變模型架構(例如骨干、隱藏單元的數(shù)量)、特征類型(光流與 rgb)、學習率和 epoch 數(shù)來執(zhí)行超參數(shù)探索,并選擇最佳模型來報告結果 。為了抵消數(shù)據(jù)庫造成的影響,我們使類權重與每個類樣本所占百分比成反比。
5.2.討論結果
Table 2: Evaluation results for baseline and state-of-the-art models and their variants on PIE and JAAD datasets. JAADbehJAAD_{beh}JAADbeh? 是數(shù)據(jù)圖的子庫(只包含有過馬路意圖的行人片段), JAADallJAAD_{all}JAADall? 包含所有類型的行人片段.。虛線分隔不同類型的架構: static, recurrent, 3D convolutional 和 two-stream.
? ? Table 2總結了所以模型及其變種的評估結果。我們將這些模型分為四個組:static, recurrent, 3D convolution 和 two-stream。在下面的分析中,我們選擇每個分類性能最優(yōu)的模型。Static (使用h ResNet-50 )、MultiRNN 和 I3D(使用光流特征訓練)。由于雙流系統(tǒng)的性能較差我們不作分析。
不同架構的性能。盡管動作預測時一個有關時空的問題,但這個問題仍有可能只使用一張圖片進行預測。如事實所示,最簡單的Static模型表現(xiàn)由于許多在 JAAD 中時間模型和少量在PIE的時間模型。這結果部分歸因于 JAAD 數(shù)據(jù)庫的行人都有明確的過馬路意圖,然而PIE的行人更多樣和包含沒有過馬路意圖的行人。因此,PIE 中的樣本在外觀、軌跡、姿勢和環(huán)境方面更加多樣化,使用 Static 模型更難以捕捉。鑒于 JAAD 也比 PIE 小,在PIE中它可能有足夠的數(shù)據(jù)來學習時間模式。
? ? 在recurrent模型中,ConvLSTM 是迄今為止在小組中最差的模型,甚至比staic模型還差。其他的 recurrent 模型將視覺信息與娶她顯性特征結合起來,如姿勢、軌跡和本車速度。這些模型的性能都十分相近在所有數(shù)據(jù)庫中。這表明特定的架構(GRU 與 LSTM)的選擇或特征的組合方式(例如并行、堆疊或分層)沒有顯著影響。
? ? 3D convolutional 網(wǎng)路與 ConvLSTM 相似,都依賴于視覺信息。C3D 和d I3D 處理視覺信息更高效,并與使用額外數(shù)據(jù)的循環(huán)模型獲得相當?shù)慕Y果。在I3D的案例中,我們考慮使用光流圖來替代RGB圖來獲得更好的結果。
? ? 即使遵循最佳的實踐,TwoStream 模型仍是所有穿行動作預測性能最差的[58]。可能是因為它需要更多更多樣的訓練數(shù)據(jù)。
Figure 2:PIE和JAAD中穿行和不穿行的比例,以及被 所有all/一些/沒有none 模型預測正確的比例。
模型協(xié)議。Figure 2 顯示了那些穿越和未穿越行人樣本被所有模型正確分類,部分模型或沒有模型正確分類(分別稱為簡單、中等和困難樣本)。我們看了樣本的各種數(shù)據(jù)屬性的分布情況,然而并沒有發(fā)現(xiàn)數(shù)據(jù)屬性與模型協(xié)議有強相關性。例如,各種 TTE、遮擋和邊界框大小在簡單、中等和困難集中的分布非常相似。
? ? 同樣的,模型協(xié)議跟場景的語義屬性也沒有強相關性。例如,我們可以合理地假設,分析無信號燈路口的行人行為或亂穿馬路的行人的行為可能比分析有信號燈的路口更困難,因為那里的交通信號和標志界定了使用者的行為。事實上,在 JAAD 中,亂穿馬路的行人(遠離十字路口)更難分類,而在 PIE 中,十字路口是否存在信號或斑馬線與樣本的難度無關。
? ? 其他的因素,如行人相對于路邊的距離、他們面對的方向以及他們是否觀察到交通,也類似地分布在簡單、中等和困難的集合中。
小總結:圖二中的簡單、中等和困難的集合的分類與TTE、遮擋和邊界框及場景語義(斑馬線,紅綠燈)沒有直接關系。
JAADbehJAAD_{beh}JAADbeh? 和 JAADallJAAD_{all}JAADall? 的性能差距。如第 3 節(jié)所述,JAADallJAAD_{all}JAADall?l 通過添加在人行道上檢測到的額外行人來擴展帶有行為注釋的樣本集 (JAADbehJAAD_{beh}JAADbeh?),從而不穿行樣本的數(shù)量增加了 15 倍以上。在擁有更多的訓練數(shù)據(jù)的情況下,各個模型性能都有了顯著的提升,提升幅度在10%~20%。但也為 JAADallJAAD_{all}JAADall?l 帶來了不利的影響。比如,在兩個數(shù)據(jù)集共有的不穿行樣本集中,JAADbehJAAD_{beh}JAADbeh?的錯誤分類率從為3%,而 JAADallJAAD_{all}JAADall? 中的錯誤分類率為 3.8%。
? ? 由此錯誤分類的危險同樣存在于穿行數(shù)據(jù)集中,令人擔憂的是,困難穿行樣本的比例從 JAADbehJAAD_{beh}JAADbeh? 的 3% 顯著增加到 JAADallJAAD_{all}JAADall? 的 10%。同時,所有模型正確分類的簡單穿行樣本數(shù)量從 JAADbehJAAD_{beh}JAADbeh? 的 69% 下降到 JAADallJAAD_{all}JAADall? 的 40%。通過分析JAADbehJAAD_{beh}JAADbeh? 和 AADall 中的困難樣本集的交集,可以得出類似的結論。重疊部分約占兩組并集的 30%,包括穿行和不穿行樣本,所有模型在較大的 JAADallJAAD_{all}JAADall? 數(shù)據(jù)集上訓練仍然很困難。與在 JAADbehJAAD_{beh}JAADbeh? 上訓練的模型相比,在 JAADallJAAD_{all}JAADall? 上訓練的模型在分類不穿行人方面明顯更好(簡易集包括 JAADallJAAD_{all}JAADall? 中 70% 的不穿行人,而在 JAADbehJAAD_{beh}JAADbeh? 中只有 1%)。然而這大部分的提升是由于正確預測添加進去的不穿行樣本,這些行人的屬性相當一致(遠離道路并在交通旁移動),這有助于區(qū)分它們。與此同時,在道路附近仍有很大一部分行人無意過馬路,這些行人被錯誤分類,占困難樣本重疊部分的40%。
Figure 3:在JAADbehJAAD_{beh}JAADbeh?和JAADallJAAD_{all}JAADall?交集中的困難集合(包括穿行與不穿行),同時也是在所有模型預測錯誤的樣本。
? ? Figure 3展示了難以預測的穿行樣本和不穿行示例。這些穿行樣本之所以在所有模型都難以預測是因為它們通常是對比度低、遮擋和擁擠的。而不穿行樣本主要由于行人在車輛旁邊或者前面。
? ? 這些研究結果表明,添加不相關的行人會增加訓練數(shù)據(jù)的總量并提高結果,但不會提高模型在最重要樣本上的性能。總的來說,JAADallJAAD_{all}JAADall?上大部分的性能提升是由于大量對不穿行行人的正確分類,但代價是靠近道路的行人分類率降低。盡管我們不知道PIE是否也是這種情況,但在未來的數(shù)據(jù)收集和注釋時可以考慮下這一點。
Figure 4:影響因素 a) TTE, b) 遮擋 和 c) PIE、JAADbehJAAD_{beh}JAADbeh? 和 JAADallJAAD_{all}JAADall? 數(shù)據(jù)集中模型精度的邊界框高度(視頻截取出行人的分辨率的高)。在 c) 中,數(shù)據(jù)集中邊界框的分布以藍色顯示,對應的右軸
事件發(fā)生時間(TTE)的影響。盡管樣本中不同的TTE均勻分布在所有數(shù)據(jù)庫中,但 TTE 和準確性之間存在相關性,如Figure 4所示。在PIE數(shù)據(jù)庫中我們明顯可以以看到隨著TTE的提高(30幀到60幀)所有模型的準確率逐漸下降(最多20%)。在JAADbehJAAD_{beh}JAADbeh?也出現(xiàn)了相識的趨勢,但在不同的模型中并不那么突出或一致。有一種可能時因為JAADbaeh中的車輛移動速度比PIE中的慢,所以即使在較高的 TTE 下,精確度仍然很高(請參見圖 4c 中所示的 JAADbehJAAD_{beh}JAADbeh? 中的行人邊界框高度分布)。在 JAADallJAAD_{all}JAADall?l 中,由于人行道上有大量不穿行行人樣本,這些樣本很容易與與車輛交互的行人區(qū)分開來,因此這種趨勢不存在。
遮擋的影響。 在三種數(shù)據(jù)庫中絕大多數(shù)觀察視頻都時沒有遮擋的(PIE 82%,JAADbehJAAD_{beh}JAADbeh? 85%,JAADallJAAD_{all}JAADall? 75%)。只有1%-2%的樣本超過一半的觀察幀被完全或者部分遮擋。正如預期的那樣,由于訓練和測試的遮擋數(shù)據(jù)較少,模型的準確性上下波動,遮擋對準確的影響不可預測(圖 4b)。
? ? 行為研究表明,行人或場景的某些部分可能比其他部對穿行預測更有幫助。相似的,計算模型同樣受到遮擋的影響(例如 圖 3 中一些受到遮擋的困難穿行樣本)。然而,由于注釋不提供被遮擋元素的特定位置,因此無法進行更深入的調(diào)查。
尺度的影響。圖 4c 顯示了邊界框高度的分布情況,以及其對準確度的影響。在PIE中,大部分的訓練和測試 數(shù)據(jù)都集中在[80, 120]px范圍內(nèi)。請注意,高度小于 80 px 的較小邊界框的性能會顯著下降,這可能是由于可用的視覺信息不足(尤其是對于 3D 卷積模型)。同時,一些模型在 PIE 數(shù)據(jù)集中 > 500 px 和 JAADallJAAD_{all}JAADall? 中 > 400 px 的大邊界框上取得了近乎完美的性能。這些是靠近車輛的行人樣本,而車輛本身通常是靜止的或非常緩慢地移動,從而在觀察中產(chǎn)生較少的噪音。
? ? 在 JAADbehJAAD_{beh}JAADbeh? 中,不同尺度的行人在訓練和測試數(shù)據(jù)中分布更均勻,性能波動可能是由其他因素引起的。. 在 JAADallJAAD_{all}JAADall? 中,添加場景中可見的其他不穿行的行人,因此增加了 [20, 150] px [44] 范圍內(nèi)的樣本比例,與 JAADbehJAAD_{beh}JAADbeh? 相比,這提高了所有模型在該范圍內(nèi)的準確度。
6.提出的模型 (PCPA)
? ? 基于表 2 中總結的基準測試結果,其中表現(xiàn)最好的模型使用 RNN 和 3D 卷積,我們提出一種新的模型:注意力機制行人穿行預測(PCPA)。我們的模型使用3D卷積編碼視覺數(shù)據(jù)和獨立RNN處理平行顯式特征,例如姿勢、位置和車輛速度。盡管I3D在各個數(shù)據(jù)庫總的表型都比C3D優(yōu)秀,由于I3D較大的尺寸,I3D 與 RNN 相結合顯示出過度擬合的趨勢,尤其是在 JAAD 數(shù)據(jù)集上。因此,對于下面的所有實驗,我們使用 C3D 來計算 3D 卷積特征。
? ? 鑒于過去在許多視覺任務中成功應用注意力,我們添加了受 [31, 2] 啟發(fā)的注意力機制。在一個例子中,它被應用于RNN分支的隱藏狀態(tài)(時間注意Temporal attention)和再次應用于分支的輸出(模式注意Modality attention)。模型示意圖如圖5所示,實現(xiàn)細節(jié)如下。
Figure 5:提出的模型的示意圖。
該模型預測穿行動作 A ∈ {0, 1} 給定的觀察包含以下特征:
1)行人 i 周圍的軍部視覺環(huán)境Cobs,c時從RGB圖像中截取的行人周圍環(huán)境
Cobs={cit?m,cit?m+1,...,cit}C_{obs}=\{c_{i}^{t-m},c_{i}^{t-m+1},...,c_{i}^{t}\}Cobs?={cit?m?,cit?m+1?,...,cit?}
2)軌跡 Lobs ,其中 l是由左上角和右下角點定義的 2D 邊界框
Lobs={lit?m,lit?m+1,...,lit}L_{obs}=\{l_{i}^{t-m},l_{i}^{t-m+1},...,l_{i}^{t}\}Lobs?={lit?m?,lit?m+1?,...,lit?}
3) 行人的姿勢 Pobs ,其中 p 是 OpenPose 檢測到的 18 個關節(jié)的 2D 坐標的 36D 矢量
Pobs={lpit?m,pit?m+1,...,pit}P_{obs}=\{lp_{i}^{t-m},p_{i}^{t-m+1},...,p_{i}^{t}\}Pobs?={lpit?m?,pit?m+1?,...,pit?}
4)車輛的速度Sobs ,t 是事件前 30 - 60 幀 (~ 0.5 - 1s) 的時間(穿行或不穿行)
Sobs={sit?m,sit?m+1,...,sit}S_{obs}=\{s_{i}^{t-m},s_{i}^{t-m+1},...,s_{i}^{t}\}Sobs?={sit?m?,sit?m+1?,...,sit?}
? ? 每個 RNN 編碼器產(chǎn)生一個向量 c=q({h1,...,hm})c = q(\{h_{1},...,h_{m}\})c=q({h1?,...,hm?}),隱藏狀態(tài)hi=f(xi,hi?1)h_{i} = f(x_{i},h_{i-1})hi?=f(xi?,hi?1?),其中 fff 和 qqq 是非線性函數(shù)。
? ? 注意力權重向量 α 的長度與觀察內(nèi)容長度 m 相同,α 的計算得分會考慮到觀察值的最后一個隱藏狀態(tài)(hmh_{m}hm?)與之前每個隱藏狀態(tài)。這樣做時,他將作用于時間注意Temporal attention塊中,改變了觀察中的幀相對于最后看到的幀的重要性。權重表示如下:
α=exp(s(hm,h ̄i))∑i′=1Texp(s(hm,h ̄i′))\alpha = \frac{exp(s(h_{m},\overline{h}_{i}))}{\sum_{i'=1}^{T} exp(s(h_{m},\overline{h}'_{i}))}α=∑i′=1T?exp(s(hm?,hi′?))exp(s(hm?,hi?))?
此處的hmh_{m}hm?是編碼器的最后一個隱藏狀態(tài),s(hm,h ̄i)=hiTWh ̄is(h_{m},\overline{h}_{i})= {h}_{i}^{T}W\overline{h}_{i}s(hm?,hi?)=hiT?Whi?是評分函數(shù),W 為可訓練的權重矩陣。
? ? 將最后一個隱藏狀態(tài) hmh_{m}hm?與所有‘注意力加權隱藏狀態(tài)ct=∑iaih ̄i{c}_{t} = \sum_{i}{a}_{i}\overline{h}_{i}ct?=∑i?ai?hi?( 在最后一個觀察幀之前觀察到的環(huán)境表示)鏈接一起,以此作為前饋網(wǎng)絡以產(chǎn)生注意力輸出向量 a:
a=f(cm,hm)=tahn(Wc[cm:hm])a = f({c}_{m},{h}_{m}) = tahn({W}_{c}[{c}_{m}:{h}_{m}])a=f(cm?,hm?)=tahn(Wc?[cm?:hm?]).
? 然后,我們將相同的注意力機制應用于 RNN 流的加權輸出和 3D 卷積分支(通過具有sigmoid 激活的FC層展平3D圖像,將維度減少到與隱藏層相同)的輸出,即將新的變量定義為 c={C ̄,h ̄L,h ̄P,h ̄S}c = \{\overline{C},\overline{h}_{L},\overline{h}_{P},\overline{h}_{S}\}c={C,hL?,hP?,hS?},其中 h ̄\overline{h}h 是RNN流最后隱藏狀態(tài)的權重。這機制作用于模式注意Modality attention塊。
? ? 然后將模態(tài)注意Modality attention塊的輸出傳遞給 FC 層,用于預測給定觀察的交叉動作 A。
?執(zhí)行。我們使用具有 256 個隱藏單元的 GRU 來編碼非視覺特征,并使用在 Sports-1M 數(shù)據(jù)集 [22] 上預先訓練的權重的 C3D 網(wǎng)絡來編碼視覺特征(局部環(huán)境,如第 3 節(jié)中定義)。在最后的FC預測層使用參數(shù)為0.001的L2正則化,在只有的注意力模塊使用以0.5概率進行隨機丟棄(dropout)。車輛速度特征僅在 PIE 數(shù)據(jù)集中使用,在 JAAD 中省略。
PS:L2正則化和隨機丟棄都是為了防止過擬合。
?訓練。我們使用 Adam 優(yōu)化器 [24]、二元交叉熵損失和批量大小設置為 8 來訓練模型。在我們在PIE中以 5?10?5{5 \cdot 10^{-5}}5?10?5 的學習速率進行60次迭代訓練,在JAAD以5?10?7{5 \cdot 10^{-7}}5?10?7 的學習速率進行80次迭代訓練。
6.1結果
Table 3:使用不同類型的注意力機制訓練的新模型 PCPA 的結果。 其他模型的結果顯示在虛線上方以進行比較。
? ? 在 Table 3 中列出了使用時間和模式注意模型的結果。結果在PIE數(shù)據(jù)庫中得到最大的提升,準確度提高4%,F1分數(shù)提高6%。在 JAADallJAAD_{all}JAADall? 上,我們的模型在某些指標上的表現(xiàn)與最先進的水平相當。由于注意力機制引入了更多的參數(shù),因此在更大和更多樣的數(shù)據(jù)庫中的表現(xiàn)更優(yōu)秀。在JAADbehJAAD_{beh}JAADbeh?中的性能不太好,因為它的訓練數(shù)據(jù)最少且有明星的重疊。
Figure 6 :來自 JAAD 和 PIE 的橫穿和非橫穿行人示例。 由所提出的模型正確分類的樣本以綠色輪廓顯示,錯誤分類的案例以紅色突出顯示。
? ? Figure 6 展示了新模型成功與失敗的示例。部分穿心分類示例來自困難樣本集( 5.2 節(jié)),如行人沒有面向車輛和明顯的模糊。對行人在對話(底行)錯誤分類,因為這需要模型對場景中目標之間的交互進行建模。
?注意力機制的影響。Table 3 也展示了 PCPA 模型不同類型注意力機制帶來的影響。我們可以發(fā)現(xiàn),將時間注意和模式注意單獨分開進行實驗的所有指標都有所提升,當兩種機制結合使用時,可以實現(xiàn)額外的提升。應該注意的是,引入注意力機制使模型變得更復雜,需要更多參數(shù),因此也需要更多更多樣的數(shù)據(jù)用于訓練來避免過擬合。
Table 4: 在具有不同視覺特征的 PIE 數(shù)據(jù)集上訓練的最終 PCPA 模型的結果。
?視覺環(huán)境的影響。除了注意力,我們還嘗試了第 3 節(jié)中定義的各種視覺特征。在JAAD數(shù)據(jù)庫中,訓練各種不同的視覺環(huán)境帶來很小的影響,這可能是由于數(shù)據(jù)庫缺乏多樣化的樣本。 Table 4 展示了在 PIE 執(zhí)行的結果。使用行人環(huán)境和場景環(huán)境都有卓越的效果,除了使用邊界框環(huán)境。
7.總結
? ? 我們提出一個新的評價協(xié)議用于基準行人動作預測算法。我們使用新的標準實驗和評估了一些基線和先進模型。是有兩個公開可用的數(shù)據(jù)庫,PIE 和 JAAD,我們分析static, recurrent, 3D convolutional 和 two-stream結構在不同數(shù)據(jù)屬性下的性能,例如事件發(fā)生時間(TTE)、遮擋和截圖大小。我們發(fā)現(xiàn)很難將樣本的預測難度歸于特定數(shù)據(jù)屬性。此外,我們沒有觀察到模型協(xié)議的一致性。
? ? 基于基準測試結果,我們提出了一個新的混合模型,結合recurrent 和 3D卷積方法,并是有時間和模型注意力機制。所提出的模型在 PIE 和 JAAD 數(shù)據(jù)集上都達到了最先進的水平。
致謝。此項工作收到以下機構支持:加拿大自然科學與工程研究委員會 (NSERC),NSERC 加拿大機器人網(wǎng)絡 (NCRN)、空軍科學研究辦公室 (美國) 和由JKT贈款的加拿大研究主席計劃。
參考
[1] Edoardo Alati, Lorenzo Mauro, Valsamis Ntouskos, and Fiora Pirri. Help by predicting what to do. In IEEE Interna tional Conference on Image Processing (ICIP), 2019.
[2] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014.
[3] Apratim Bhattacharyya, Mario Fritz, and Bernt Schiele. Long-term on-board prediction of people in traffic scenes un der uncertainty. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4194–4202, 2018.
[4] Judith Butepage, Hedvig Kjellstr ¨ om, and Danica Kragic. ¨ Anticipating many futures: Online human motion prediction and generation for human-robot interaction. In IEEE interna tional conference on robotics and automation (ICRA), 2018.
[5] Pablo Rodrigo Gantier Cadena, Ming Yang, Yeqiang Qian, and Chunxiang Wang. Pedestrian Graph: Pedestrian Cross ing Prediction Based on 2D Pose Estimation and Graph Con volutional Networks. In IEEE Intelligent Transportation Sys tems Conference (ITSC), pages 2000–2005, 2019.
[6] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh. Re altime multi-person 2D pose estimation using part affinity fields. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 7291–7299, 2017.
[7] Joao Carreira and Andrew Zisserman. Quo vadis, action recognition? A new model and the kinetics dataset. In IEEE Conference on Computer Vision and Pattern Recog nition (CVPR), pages 6299–6308, 2017.
[8] Sergio Casas, Wenjie Luo, and Raquel Urtasun. Intentnet: Learning to predict intention from raw sensor data. In Con ference on Robot Learning (CORL), 2018.
[9] Mohamed Chaabane, Ameni Trabelsi, Nathaniel Blanchard, and Ross Beveridge. Looking ahead: Anticipating pedes trians crossing with future frames prediction. In IEEE Win ter Conference on Applications of Computer Vision (WACV), pages 2297–2306, 2020. [10] Junwen Chen, Wentao Bao, and Yu Kong. Group activity prediction with sequential relational anticipation model. In European Conference on Computer Vision (ECCV), 2020.
[11] Lei Chen, Jiwen Lu, Zhanjie Song, and Jie Zhou. Part activated deep reinforcement learning for action prediction. In European Conference on Computer Vision (ECCV), 2018.
[12] Wenxiang Chen, Xiangling Zhuang, Zixin Cui, and Guo jie Ma. Drivers recognition of pedestrian road-crossing intentions: Performance and process. Transportation Re search Part F: Traffic Psychology and Behaviour, 64:552– 564, 2019.
[13] Kyunghyun Cho, Bart Van Merrienboer, Dzmitry Bahdanau, ¨ and Yoshua Bengio. On the properties of neural machine translation: Encoder-decoder approaches. arXiv preprint arXiv:1409.1259, 2014.
[14] Yong Du, Wei Wang, and Liang Wang. Hierarchical recur rent neural network for skeleton based action recognition. In IEEE Conference on Computer Vision and Pattern Recogni tion (CVPR), pages 1110–1118, 2015.
[15] Zhijie Fang and Antonio M Lopez. Is the pedestrian going to ′ cross? Answering by 2D pose estimation. In IEEE Intelligent Vehicles Symposium (IV), pages 1271–1276, 2018.
[16] Antonino Furnari and Giovanni Maria Farinella. What would you expect? anticipating egocentric actions with rolling unrolling lstms and modality attention. In IEEE Interna tional Conference on Computer Vision (ICCV), 2019.
[17] Harshala Gammulle, Simon Denman, Sridha Sridharan, and Clinton Fookes. Predicting the future: A jointly learnt model for action anticipation. In IEEE International Conference on Computer Vision (ICCV), 2019.
[18] Pratik Gujjar and Richard Vaughan. Classifying pedestrian actions in advance using predicted video of urban driving scenes. In International Conference on Robotics and Au tomation (ICRA), pages 2097–2103, 2019.
[19] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceed ings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.
[20] Sepp Hochreiter and Jurgen Schmidhuber. Long short-term ¨ memory. Neural computation, 9(8):1735–1780, 1997.
[21] Eddy Ilg, Nikolaus Mayer, Tonmoy Saikia, Margret Keu per, Alexey Dosovitskiy, and Thomas Brox. Flownet 2.0: Evolution of optical flow estimation with deep networks. In IEEE Conference on Computer Vision and Pattern Recogni tion (CVPR), pages 2462–2470, 2017. [22] Andrej Karpathy, George Toderici, Sanketh Shetty, Thomas Leung, Rahul Sukthankar, and Li Fei-Fei. Large-scale video classification with convolutional neural networks. In IEEE conference on Computer Vision and Pattern Recognition (CVPR), pages 1725–1732, 2014.
[23] Qiuhong Ke, Mario Fritz, and Bernt Schiele. Time conditioned action anticipation in one shot. In IEEE Confer ence on Computer Vision and Pattern Recognition (CVPR), 2019.
[24] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
[25] Vineet Kosaraju, Amir Sadeghian, Roberto Martin-Martin, Ian Reid, Hamid Rezatofighi, and Silvio Savarese. Social bigat: Multimodal trajectory forecasting using bicycle-gan and graph attention networks. In Advances in Neural Infor mation Processing Systems (NeurIPS), 2019.
[26] Iuliia Kotseruba, Amir Rasouli, and John K Tsotsos. Do They Want to Cross? Understanding Pedestrian Intention for Behavior Prediction. In IEEE Intelligent Vehicles Symposium (IV), 2020.
[27] Junwei Liang, Lu Jiang, Juan Carlos Niebles, Alexander G. Hauptmann, and Li Fei-Fei. Peeking into the future: Pre dicting future person activities and locations in videos. In IEEE Conference on Computer Vision and Pattern Recogni tion (CVPR), 2019.
[28] Bingbin Liu, Ehsan Adeli, Zhangjie Cao, Kuan-Hui Lee, Abhijeet Shenoi, Adrien Gaidon, and Juan Carlos Niebles. Spatiotemporal Relationship Reasoning for Pedestrian In tent Prediction. IEEE Robotics and Automation Letters, 5(2):3485–3492, 2020.
[29] Chaochao Lu, Michael Hirsch, and Bernhard Scholkopf. Flexible spatio-temporal networks for video prediction. In IEEE Conference on Computer Vision and Pattern Recogni tion (CVPR), 2017.
[30] Ren C Luo and Licong Mai. Human intention inference and on-line human hand motion prediction for human-robot col laboration. In IEEE/RSJ International Conference on Intel ligent Robots and Systems (IROS), pages 5958–5964, 2019.
[31] Minh-Thang Luong, Hieu Pham, and Christopher D Man ning. Effective approaches to attention-based neural machine translation. arXiv preprint arXiv:1508.04025, 2015.
[32] Srikanth Malla, Behzad Dariush, and Chiho Choi. Titan: Future forecast using action priors. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020.
[33] Karttikeya Mangalam, Harshayu Girase, Shreyas Agarwal, Kuan-Hui Lee, Ehsan Adeli, Jitendra Malik, and Adrien Gaidon. It is not the journey but the destination: Endpoint conditioned trajectory prediction. In ECCV, 2020.
[34] Satyajit Neogi, Michael Hoy, Kang Dang, Hang Yu, and Justin Dauwels. Context model for pedestrian intention pre diction using factored latent-dynamic conditional random fields. IEEE Transactions on Intelligent Transportation Sys tems, 2019.
[35] Chonhyon Park, Jan Ondˇrej, Max Gilbert, Kyle Freeman, and Carol O’Sullivan. Hi robot: Human intention-aware robot planning for safe and efficient navigation in crowds. In IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 3320–3326, 2016.
[36] Francesco Piccoli, Rajarathnam Balakrishnan, Maria Jesus Perez, Moraldeepsingh Sachdeo, Carlos Nunez, Matthew Tang, Kajsa Andreasson, Kalle Bjurek, Ria Dass Raj, Ebba Davidsson, et al. FuSSI-Net: Fusion of Spatio-temporal Skeletons for Intention Prediction Network. arXiv preprint arXiv:2005.07796, 2020.
[37] Dnut? Ovidiu Pop. Detection of pedestrian actions based on deep learning approach. Studia UBB Informatica, 2019.
[38] Danut? Ovidiu Pop, Alexandrina Rogozan, Clement Chate- ? lain, Fawzi Nashashibi, and Abdelaziz Bensrhair. Multi-Task Deep Learning for Pedestrian Detection, Action Recogni tion and Time to Cross Prediction. IEEE Access, 7:149318– 149327, 2019.
[39] Mengshi Qi, Jie Qin, Yu Wu, and Yi Yang. Imitative non autoregressive modeling for trajectory forecasting and impu tation. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020.
[40] Adithya Ranga, Filippo Giruzzi, Jagdish Bhanushali, Emi lie Wirbel, Patrick Perez, Tuan-Hung Vu, and Xavier Perot- ′ ton. VRUNet: Multi-Task Learning Model for Intent Predic tion of Vulnerable Road Users. In International Symposium on Electronic Imaging: Autonomous Vehicles and Machines, pages 1–9, 2020.
[41] Amir Rasouli. Deep learning for vision-based prediction: A survey. arXiv:2007.00095, 2020.
[42] Amir Rasouli, Iuliia Kotseruba, Toni Kunic, and John K Tsotsos. PIE: A Large-Scale Dataset and Models for Pedes trian Intention Estimation and Trajectory Prediction. In IEEE International Conference on Computer Vision (ICCV), pages 6262–6271, 2019.
[43] Amir Rasouli, Iuliia Kotseruba, and John K Tsotsos. Agree ing to cross: How drivers and pedestrians communicate. In 2017 IEEE Intelligent Vehicles Symposium (IV), pages 264– 269. IEEE, 2017.
[44] Amir Rasouli, Iuliia Kotseruba, and John K Tsotsos. Are they going to cross? A benchmark dataset and baseline for pedestrian crosswalk behavior. In IEEE International Conference on Computer Vision Workshops (ICCVW), pages 206–213, 2017.
[45] Amir Rasouli, Iuliia Kotseruba, and John K Tsotsos. It’s not all about size: On the role of data properties in pedes trian detection. In European Conference on Computer Vision (ECCV), 2018.
[46] Amir Rasouli, Iuliia Kotseruba, and John K Tsotsos. Pedes trian Action Anticipation using Contextual Feature Fusion in Stacked RNNs. 2019.
[47] Amir Rasouli and John K Tsotsos. Autonomous vehicles that interact with pedestrians: A survey of theory and prac tice. IEEE Transactions on Intelligent Transportation Sys tems, 21(3):900–918, 2020.
[48] Mohammad Sadegh Aliakbarian, Fatemeh Sadat Saleh, Mathieu Salzmann, Basura Fernando, Lars Petersson, and Lars Andersson. Encouraging lstms to anticipate actions very early. In IEEE International Conference on Computer Vision (ICCV), 2017.
[49] Khaled Saleh, Mohammed Hossny, and Saeid Nahavandi. Real-time intent prediction of pedestrians for autonomous ground vehicles via spatio-temporal densenet. In Inter national Conference on Robotics and Automation (ICRA), pages 9704–9710, 2019.
[50] Sarah Schmidt and Berthold Faerber. Pedestrians at the kerb– recognising the action intentions of humans. Transporta tion Research Part F: Traffic Psychology and Behaviour, 12(4):300–310, 2009.
[51] Xingjian Shi, Zhourong Chen, Hao Wang, Dit-Yan Yeung, Wai-Kin Wong, and Wang-chun Woo. Convolutional LSTM network: A machine learning approach for precipitation nowcasting. In Advances in Neural Information Processing Systems (NeurIPS), pages 802–810, 2015.
[52] Karen Simonyan and Andrew Zisserman. Two-stream con volutional networks for action recognition in videos. In Ad vances in Neural Information Processing Systems (NeurIPS), pages 568–576, 2014.
[53] Karen Simonyan and Andrew Zisserman. Very deep convo lutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
[54] Mark Strickland, Georgios Fainekos, and Heni Ben Amor. Deep predictive models for collision risk assessment in au tonomous driving. In International Conference on Robotics and Automation (ICRA), 2018.
[55] Tomoyuki Suzuki, Hirokatsu Kataoka, Yoshimitsu Aoki, and Yutaka Satoh. Anticipating traffic accidents with adaptive loss and large-scale incident db. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[56] Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, and Manohar Paluri. Learning spatiotemporal features with 3D convolutional networks. In IEEE International Confer ence on Computer Vision (ICCV), pages 4489–4497, 2015.
[57] Dimitrios Varytimidis, Fernando Alonso-Fernandez, Boris Duran, and Cristofer Englund. Action and intention recogni tion of pedestrians in urban traffic. In International Confer ence on Signal-Image Technology & Internet-Based Systems (SITIS), pages 676–682, 2018.
[58] Limin Wang, Yuanjun Xiong, Zhe Wang, and Yu Qiao. To wards good practices for very deep two-stream convnets. arXiv preprint arXiv:1507.02159, 2015.
[59] Joe Yue-Hei Ng, Matthew Hausknecht, Sudheendra Vi jayanarasimhan, Oriol Vinyals, Rajat Monga, and George Toderici. Beyond short snippets: Deep networks for video classification. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4694–4702, 2015.
[60] Kuo-Hao Zeng, Shih-Han Chou, Fu-Hsiang Chan, Juan Car los Niebles, and Min Sun. Agent-centric risk assessment: Accident anticipation and risky region localization. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[61] Pu Zhang, Wanli Ouyang, Pengfei Zhang, Jianru Xue, and Nanning Zheng. Sr-lstm: State refinement for lstm towards pedestrian trajectory prediction. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[62] Zhishuai Zhang, Jiyang Gao, Junhua Mao, Yukai Liu, Dragomir Anguelov, and Congcong Li. Stinet: Spatio temporal-interactive network for pedestrian detection and trajectory prediction. In IEEE Conference on Computer Vi sion and Pattern Recognition (CVPR), 2020. [63] He Zhao and Richard P. Wildes. On diverse asynchronous activity anticipation. In European Conference on Computer Vision (ECCV), 2020.
[64] Siyu Zhou, Mariano J Phielipp, Jorge A Sefair, Sara I Walker, and Heni Ben Amor. Clone swarms: Learning to predict and control multi-robot systems by imitation. In IEEE/RSJ International Conference on Intellig.
總結
以上是生活随笔為你收集整理的评估行人行动预测的基准——Benchmark for Evaluating Pedestrian Action Prediction的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: crop图片后,同时修改物体相应的坐标
- 下一篇: ICCV2021|你以为这是一个填色模型