CVPR2020:点云三维目标跟踪的点对盒网络(P2B)
CVPR2020:點(diǎn)云三維目標(biāo)跟蹤的點(diǎn)對(duì)盒網(wǎng)絡(luò)(P2B)
P2B: Point-to-Box Network for 3D Object Tracking in Point Clouds
代碼:https://github.com/HaozheQi/P2B
論文地址:
https://openaccess.thecvf.com/content_CVPR_2020/papers/Qi_P2B_Point-to Box_Network_for_3D_Object_Tracking_in_Point_Clouds_CVPR_2020_paper.pdf
摘要
針對(duì)點(diǎn)云中的三維目標(biāo)跟蹤問(wèn)題,提出了一種新的點(diǎn)對(duì)盒網(wǎng)絡(luò)P2B。主要思想是首先在嵌入目標(biāo)信息的三維搜索區(qū)域中定位潛在的目標(biāo)中心。然后進(jìn)行點(diǎn)驅(qū)動(dòng)三維驗(yàn)證。這樣,可以避免耗時(shí)的3D窮盡搜索。具體地說(shuō),首先從模板和搜索區(qū)域的點(diǎn)云中提取種子。然后,通過(guò)置換不變特征增強(qiáng),將模板中的目標(biāo)線索嵌入到搜索區(qū)域種子中,并用目標(biāo)特征表示。因此,擴(kuò)大搜索區(qū)域種子通過(guò)Hough投票來(lái)回歸潛在的目標(biāo)中心。中心進(jìn)一步加強(qiáng)種子的目標(biāo)性得分。最后,每個(gè)中心將其鄰域聚為一組,利用集合能力進(jìn)行聯(lián)合3D目標(biāo)的提出和驗(yàn)證。以PointNet++為主干,在KITTI跟蹤數(shù)據(jù)集上的實(shí)驗(yàn)證明了P2B的優(yōu)越性(比最先進(jìn)的技術(shù)提高了10%)。請(qǐng)注意,P2B可以在單個(gè)NVIDIA
1080Ti GPU上以40FPS的速度運(yùn)行。
1.介紹
點(diǎn)云中的三維目標(biāo)跟蹤對(duì)于自主駕駛和機(jī)器人視覺(jué)應(yīng)用至關(guān)重要[25,26,7]。然而,點(diǎn)云的稀疏性和無(wú)序性給這項(xiàng)任務(wù)帶來(lái)了很大的挑戰(zhàn),導(dǎo)致了現(xiàn)有的二維目標(biāo)跟蹤方法(如Siamese網(wǎng)[3])無(wú)法直接應(yīng)用。現(xiàn)有的大多數(shù)3D目標(biāo)跟蹤方法[1,4,24,16,15]繼承了2D的經(jīng)驗(yàn),嚴(yán)重依賴于RGB-D信息。但當(dāng)RGB視覺(jué)信息因光照變化而退化甚至無(wú)法訪問(wèn)時(shí),可能會(huì)失效。因此,將重點(diǎn)放在僅使用點(diǎn)云的三維目標(biāo)跟蹤上。關(guān)于這一主題的首創(chuàng)性成果見[11]。主要使用Kalman濾波[12]來(lái)執(zhí)行3D模板匹配,以生成一組3D目標(biāo)建議。同時(shí),利用形狀補(bǔ)全對(duì)點(diǎn)集上的特征學(xué)習(xí)進(jìn)行正則化。然而,該算法存在四個(gè)主要缺陷:1)跟蹤網(wǎng)絡(luò)不能進(jìn)行端到端的訓(xùn)練;2)采用卡爾曼濾波的三維搜索耗費(fèi)大量時(shí)間;3)每個(gè)目標(biāo)方案僅用一維全局特征表示,可能會(huì)丟失有限的局部幾何信息;4) 形狀完備網(wǎng)絡(luò)具有較強(qiáng)的類先驗(yàn)性,削弱了通用性。
針對(duì)以上問(wèn)題,提出了一種新的點(diǎn)對(duì)盒網(wǎng)絡(luò)P2B,可以進(jìn)行端到端的三維目標(biāo)跟蹤。與[11]中使用box的直觀三維搜索不同,轉(zhuǎn)而通過(guò)首先定位潛在目標(biāo)中心,然后聯(lián)合執(zhí)行點(diǎn)驅(qū)動(dòng)目標(biāo)建議和驗(yàn)證來(lái)解決三維目標(biāo)跟蹤問(wèn)題。直覺(jué)依賴于兩點(diǎn)。首先,點(diǎn)態(tài)跟蹤模式可以幫助更好地利用三維局部幾何信息來(lái)描述點(diǎn)云中的目標(biāo)。其次,采用端到端的方式制定三維目標(biāo)跟蹤任務(wù),具有較強(qiáng)的跟蹤目標(biāo)三維外觀變化的能力。
在圖1中舉例說(shuō)明P2B是如何工作的。首先將模板和搜索區(qū)域分別輸入到主干中并獲得種子。搜索區(qū)域種子將因此預(yù)測(cè)潛在的目標(biāo)中心,以便聯(lián)合目標(biāo)建議和驗(yàn)證。然后利用目標(biāo)特征對(duì)搜索區(qū)域種子進(jìn)行增強(qiáng),得到三個(gè)主要組成部分:1)三維位置坐標(biāo)存儲(chǔ)空間幾何信息;2)與模板種子逐點(diǎn)相似,挖掘相似模式并揭示局部跟蹤線索;3)模板編碼目標(biāo)全局特征。這種增強(qiáng)對(duì)種子的排列是不變的,并產(chǎn)生一致的特定目標(biāo)特征。之后,通過(guò)Hough投票將增強(qiáng)的種子投射到潛在的目標(biāo)中心[28]。同時(shí),對(duì)每一個(gè)種子進(jìn)行目標(biāo)性評(píng)價(jià),以規(guī)范早期特征學(xué)習(xí),結(jié)果的目標(biāo)得分進(jìn)一步增強(qiáng)了其預(yù)測(cè)目標(biāo)中心的表征能力。最后,每個(gè)潛在的目標(biāo)中心將鄰域聚集在一起,以利用集成能力進(jìn)行聯(lián)合目標(biāo)建議和驗(yàn)證。在KITTI跟蹤數(shù)據(jù)集[10]上的實(shí)驗(yàn)表明,P2B顯著優(yōu)于最先進(jìn)的方法[11],在很大程度上(成功率和精確度均為10%)。請(qǐng)注意,P2B可以在單個(gè)NVIDIA 1080Ti GPU上以約40FPS的速度運(yùn)行。總體而言,本文的主要貢獻(xiàn)包括
?P2B:一種新穎的點(diǎn)對(duì)盒網(wǎng)絡(luò),用于點(diǎn)云中的三維目標(biāo)跟蹤,可以進(jìn)行端到端的訓(xùn)練;
?目標(biāo)特定特征增強(qiáng),包括3D目標(biāo)跟蹤的全局和局部3D視覺(jué)線索;
?整合3D目標(biāo)提案和驗(yàn)證。
2.相關(guān)工程
將簡(jiǎn)要介紹與P2B最相關(guān)的工作:三維目標(biāo)跟蹤、二維連體跟蹤、點(diǎn)集深度學(xué)習(xí)、目標(biāo)提議和Hough投票。
三維目標(biāo)跟蹤
據(jù)所知,在最近的先驅(qū)嘗試之前,很少有人研究?jī)H使用點(diǎn)云的三維目標(biāo)跟蹤[11]。早期的相關(guān)跟蹤方法[24,16,15,27,1,4]通常依賴于RGB-D信息。盡管經(jīng)過(guò)不同理論層面的努力,可能存在兩個(gè)主要缺陷:1)對(duì)RGB視覺(jué)線索的依賴和退化甚至不可接近性的失敗。這限制了一些實(shí)際應(yīng)用;2)沒(méi)有設(shè)計(jì)用于三維跟蹤的網(wǎng)絡(luò),這可能會(huì)限制代表性的能力。除此之外,中的一些[24,16,15]專注于生成二維盒。上述問(wèn)題在[11]中進(jìn)行了闡述。利用對(duì)點(diǎn)集的深度學(xué)習(xí)和三維目標(biāo)的提出,實(shí)現(xiàn)了僅使用點(diǎn)云的三維目標(biāo)跟蹤的最新成果。然而,仍然像Sec一樣存在一些缺陷。1,這激發(fā)了研究。
二維Siamese跟蹤
許多最先進(jìn)的二維跟蹤方法[33,3,34,13,42,35,20,8,40,36,21]建立在Siamese網(wǎng)絡(luò)上。通常,Siamese網(wǎng)絡(luò)有兩個(gè)分支,模板和搜索區(qū)域具有共享的權(quán)重,以衡量在隱式嵌入空間中的相似性。最近,[21]聯(lián)合區(qū)域建議網(wǎng)絡(luò)和Siamese網(wǎng)絡(luò),以提高性能。因此,可以避免耗時(shí)的多尺度搜索和在線微調(diào)。后來(lái),許多努力[42,20,40,36,8]都遵循這一范式。然而,上述方法都是由2dcnn驅(qū)動(dòng)的,不適用于點(diǎn)云。因此,目標(biāo)是通過(guò)有效的三維目標(biāo)方案,將Siamese跟蹤范式擴(kuò)展到三維目標(biāo)跟蹤。
關(guān)于點(diǎn)集的深度學(xué)習(xí)
近年來(lái),關(guān)于點(diǎn)集的深度學(xué)習(xí)引起了越來(lái)越多的研究興趣[5,30]。為了解決點(diǎn)云的無(wú)序性、稀疏性和旋轉(zhuǎn)變化等問(wèn)題,這些努力促進(jìn)了三維物體識(shí)別[18,23]、三維目標(biāo)檢測(cè)[28,29,32,39]、三維姿態(tài)估計(jì)[22,9,6]和三維目標(biāo)跟蹤[11]的研究。然而,[11]中的3D跟蹤網(wǎng)絡(luò)不能聯(lián)合執(zhí)行端到端的3D目標(biāo)提議和驗(yàn)證,這構(gòu)成了P2B的重點(diǎn)。
目標(biāo)提案
在二維跟蹤任務(wù)中,許多trackingby detection方法[41,37,14]利用模板中包含的目標(biāo)線索來(lái)獲得高質(zhì)量的目標(biāo)特定建議。以目標(biāo)感知的方式對(duì)具有邊緣特征[41]、區(qū)域建議網(wǎng)絡(luò)[37]或注意力圖[14]的(2D)基于區(qū)域的像素進(jìn)行操作。相比之下,P2B將每個(gè)點(diǎn)視為對(duì)潛在目標(biāo)中心的一個(gè)回歸因子,這與三維目標(biāo)的提出直接相關(guān)。
霍夫投票
Hough voting的開創(chuàng)性工作[19]提出了一種高度靈活的對(duì)象形狀學(xué)習(xí)表示,可以在廣義Hough變換[2]的概率擴(kuò)展中結(jié)合不同訓(xùn)練示例上觀察到的信息。最近,[28]將Hough投票嵌入到一個(gè)端到端可訓(xùn)練的deep網(wǎng)絡(luò)中,用于點(diǎn)云中的三維目標(biāo)檢測(cè),進(jìn)一步聚合了局部上下文,產(chǎn)生了很好的結(jié)果。但如何將其有效地應(yīng)用于三維目標(biāo)跟蹤,仍然是一個(gè)有待探索的問(wèn)題。
3. P2B: A Novel Network on Point Set for 3D Object Tracking
3.1.概述
在三維目標(biāo)跟蹤中,著重于在搜索區(qū)域中逐幀定位目標(biāo)(由模板定義)。目的是將模板的目標(biāo)線索嵌入到搜索區(qū)域中,預(yù)測(cè)潛在的目標(biāo)中心,并以端到端的方式執(zhí)行聯(lián)合目標(biāo)建議和驗(yàn)證。P2B有兩個(gè)主要部分(圖2):1)目標(biāo)特定特征增強(qiáng),2)3D目標(biāo)建議和驗(yàn)證。首先將模板和搜索區(qū)域分別輸入到主干中并獲得種子。然后模板種子有助于增加搜索區(qū)域種子與目標(biāo)特定的特征。然后,通過(guò)Hough投票將這些擴(kuò)大的搜索區(qū)域種子投影到潛在的目標(biāo)中心。通過(guò)計(jì)算種子的目標(biāo)得分來(lái)規(guī)范特征學(xué)習(xí),增強(qiáng)這些潛在目標(biāo)中心的識(shí)別能力。然后每個(gè)潛在的目標(biāo)中心將其鄰域聚集起來(lái),進(jìn)行三維目標(biāo)定位。具有最大提案針對(duì)性得分的提案被確認(rèn)為最終結(jié)果。將詳細(xì)說(shuō)明如下。表1定義了P2B中的主要符號(hào)。為了便于理解,還繪制了算法1的詳細(xì)技術(shù)流程。
3.2. 目標(biāo)特定特征增強(qiáng)
在這里,目的是將模板的目標(biāo)信息合并到搜索區(qū)域種子中,以包含全局目標(biāo)線索和局部跟蹤線索。首先將模板和搜索區(qū)域分別輸入到特征主干中,得到種子。利用模板中嵌入的目標(biāo)信息,利用模式匹配的思想,在搜索區(qū)域種子中增加目標(biāo)的特定特征,同時(shí)滿足置換不變性,解決了點(diǎn)云的無(wú)序性問(wèn)題。
3.3.基于潛在目標(biāo)中心的目標(biāo)建議
嵌入目標(biāo)線索,每個(gè)rj可以直接預(yù)測(cè)一個(gè)目標(biāo)方案。但直覺(jué)是,單個(gè)種子只能捕捉到有限的局部線索,這可能不足以滿足最終的預(yù)測(cè)。遵循VoteNet[28]的思想:1)通過(guò)Hough投票將搜索區(qū)域種子回歸到潛在的目標(biāo)中心;2)對(duì)相鄰中心進(jìn)行聚類,利用集合的能力獲得目標(biāo)方案。
3.4.基于種子目標(biāo)度得分的改進(jìn)目標(biāo)方案
認(rèn)為每一個(gè)具有特定目標(biāo)特征的種子都可以通過(guò)其目標(biāo)性直接進(jìn)行評(píng)估,以1)規(guī)范早期特征學(xué)習(xí),2)加強(qiáng)其預(yù)測(cè)潛在目標(biāo)中心的表示。因此,可以獲得更高質(zhì)量的目標(biāo)提案。
- Experiments
使用KITTI跟蹤數(shù)據(jù)集[10](使用激光雷達(dá)掃描點(diǎn)云)作為基準(zhǔn)。遵循了[11]中的設(shè)置(為了簡(jiǎn)單起見,將其簡(jiǎn)稱為SC3D)中的數(shù)據(jù)分割、軌跡生成1和評(píng)估指標(biāo),以便進(jìn)行公平比較。由于KITTI中的汽車數(shù)量最多且種類繁多,主要集中在車輛跟蹤上,并像SC3D一樣對(duì)其進(jìn)行燒蝕研究,還對(duì)其三種目標(biāo)類型(行人、貨車、自行車)進(jìn)行了大量的實(shí)驗(yàn),以便更好地進(jìn)行比較。
點(diǎn)云稀疏性
雖然每幀平均報(bào)告120k個(gè)點(diǎn),但假設(shè)目標(biāo)上的點(diǎn)可能非常稀疏,因?yàn)橐话阏趽鹾图す饫走_(dá)在遠(yuǎn)處目標(biāo)上的缺陷。為了驗(yàn)證想法,在圖5中計(jì)算了KITTI汽車上的點(diǎn)數(shù)。可以觀察到大約34%的汽車持有低于50分的分?jǐn)?shù)。對(duì)于體型較小的行人和騎自行車的人來(lái)說(shuō),情況可能更糟。這種稀疏性給基于點(diǎn)云的三維目標(biāo)跟蹤帶來(lái)了很大的挑戰(zhàn)。
評(píng)價(jià)指標(biāo)
使用一次評(píng)估(OPE)[38]來(lái)衡量不同方法的成功率和精確度。“成功”被定義為預(yù)測(cè)框和基本真相(GT)框之間的借據(jù)。“精度”定義為0到2m誤差(兩個(gè)盒子中心之間的距離)的AUC。
實(shí)施細(xì)節(jié)
模板和搜索區(qū)域
對(duì)于template2,收集并規(guī)范化其點(diǎn)為N1=512個(gè)點(diǎn),隨機(jī)放棄或復(fù)制。對(duì)于搜索區(qū)域,同樣地收集和規(guī)范化的點(diǎn)為N2=1024個(gè)。生成模板和搜索區(qū)域的方法在訓(xùn)練和測(cè)試中有所不同。
網(wǎng)絡(luò)體系結(jié)構(gòu)
采用了PointNet++[30]作為主干。定制包含三個(gè)集合抽象(SA)層,接收半徑分別為0.3、0.5、0.7米和3倍半尺寸縮小采樣。
4.2.綜合比較
只比較了P2B和SC3D[11],SC3D是第一個(gè)也是唯一一個(gè)基于點(diǎn)云的三維目標(biāo)跟蹤。在表2中報(bào)告了3D汽車跟蹤的結(jié)果。生成了以上一個(gè)結(jié)果、上一個(gè)GT或當(dāng)前GT為中心的搜索區(qū)域。使用先前的搜索結(jié)果作為搜索中心可以滿足實(shí)際場(chǎng)景的要求,而使用先前的GT有助于近似評(píng)估短期跟蹤性能。對(duì)于這兩種情況,SC3D應(yīng)用卡爾曼濾波生成建議。使用現(xiàn)有的GT是不合理的,但在SC3D中被認(rèn)為是近似窮舉搜索并評(píng)估SC3D的分辨力。具體而言,SC3D圍繞目標(biāo)中心進(jìn)行網(wǎng)格搜索,以便在生成的提案中包含GT box。然而,P2B聚類潛在的目標(biāo)中心,以生成建議,而不顯式依賴于GT-box。
如表2所示,當(dāng)移除GT盒時(shí),P2B可以適應(yīng)各種情況,而SC3D可能會(huì)退化。綜合來(lái)看,P2B的表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò)SC3D。所有后來(lái)的實(shí)驗(yàn)都采用了更現(xiàn)實(shí)的設(shè)置,即使用先前的結(jié)果。
廣泛的比較
進(jìn)一步比較了P2B和SC3D在行人、貨車和自行車上的差異(表3)。P2B的平均表現(xiàn)超過(guò)SC3D 10%。P2B的優(yōu)勢(shì)在數(shù)據(jù)豐富的汽車和行人上變得顯著。但是P2B隨著訓(xùn)練數(shù)據(jù)的減少而降低,就像貨車和自行車手一樣。推測(cè)P2B可能依賴更多的數(shù)據(jù)來(lái)學(xué)習(xí)更好的網(wǎng)絡(luò),特別是當(dāng)回歸潛在的目標(biāo)中心時(shí)。相比之下,SC3D需要相對(duì)較少的數(shù)據(jù)來(lái)完成兩個(gè)區(qū)域之間的相似性測(cè)量。為了驗(yàn)證這一點(diǎn),使用在數(shù)據(jù)豐富的汽車上訓(xùn)練的模型來(lái)測(cè)試Van,相信汽車類似于Van并且包含潛在的可轉(zhuǎn)移信息。正如預(yù)期的那樣,P2B的成功/精密度結(jié)果顯示提高了49.9/59.9(原始值:40.8/48.4),而SC3D報(bào)告的a下降了37.2/45.9(原始值:40.4/47.0)。
燒蝕研究
目標(biāo)特定特征增強(qiáng)的方法
除了在P2B中的默認(rèn)設(shè)置之外,還有另外四種可能的特征增強(qiáng)方法:刪除(重復(fù)的)模板特征,刪除相似性映射,使用搜索區(qū)域特征A和B(圖6)。比較了表4中的五個(gè)設(shè)置。在這里刪除模板特征或相似性映射大約降低1%或3%,這驗(yàn)證了這兩個(gè)部分在默認(rèn)設(shè)置中的貢獻(xiàn)。搜索區(qū)域功能A和B沒(méi)有改善甚至損害性能。請(qǐng)注意,已經(jīng)在這兩種情況下組合了模板功能。這可能揭示出,搜索區(qū)域特征只捕捉空間上下文而不是目標(biāo)線索,因此對(duì)于目標(biāo)特定特征的增強(qiáng)毫無(wú)用處。相比之下,默認(rèn)設(shè)置從模板種子帶來(lái)更豐富的目標(biāo)線索,從而生成更“定向”的建議生成。
總結(jié)
以上是生活随笔為你收集整理的CVPR2020:点云三维目标跟踪的点对盒网络(P2B)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 深度卷积生成对抗网络
- 下一篇: CVPR2020:三维点云无监督表示学习