RGB-D相机视觉SLAM
RGB-D相機視覺SLAM
Dense Visual SLAM for RGB-D Cameras
開源代碼地址: vision.in.tum.de/data/software/dvo
摘要
本文提出了一種用于RGB-D相機的稠密視覺SLAM方法,該方法可以使所有像素上的光度誤差和深度誤差最小化。與稀疏的、基于特征的方法相比,能夠更好地利用圖像數(shù)據(jù)中的可用信息,從而提高姿態(tài)精度。提出了一種基于熵的相似性度量方法,用于關(guān)鍵幀選擇和環(huán)路閉合檢測。從所有成功的匹配中,構(gòu)建了一個使用g2o框架進行優(yōu)化的圖。在公開的基準(zhǔn)數(shù)據(jù)集上對進行了廣泛的評估,在低紋理和低結(jié)構(gòu)的場景中表現(xiàn)良好。與幾種最先進的方法直接比較,本方法產(chǎn)生的軌跡誤差大大降低。代碼開源。
主要創(chuàng)新點:
本文的主要貢獻有:
?一種快速的幀間配準(zhǔn)方法,可優(yōu)化強度和深度誤差,
?基于熵的關(guān)鍵幀選擇方法,顯著減少了漂移,
?基于相同熵度量驗證循環(huán)閉包的方法,以及
?將上述所有技術(shù)集成到一個通用的圖形SLAM解算器中,進一步減少漂移。
本文目標(biāo)是僅從攝像機的圖像流來估計攝像機的運動。在每個時間步t,相機提供RGB-D圖像,包括強度圖像It和相應(yīng)的深度貼圖Zt。給定兩個連續(xù)時間步的RGB-D圖像,要計算相機的剛體運動g。圖2說明了這個想法。
選擇了測量近鄰搜索,在空間受限的室內(nèi)環(huán)境中操作,而且視覺里程計非常精確。在一個圍繞關(guān)鍵幀位置具有預(yù)定半徑的球體中搜索循環(huán)閉合候選者。在粗分辨率下,計算每個候選幀的兩個關(guān)鍵幀和相關(guān)協(xié)方差矩陣之間的相對變換。為了驗證候選者,采用與關(guān)鍵幀選擇相同的熵比測試。使用中間幀到關(guān)鍵幀的所有成功匹配的平均熵,而不是第一幀到關(guān)鍵幀H(ζk:k+1)的轉(zhuǎn)換熵。這一標(biāo)準(zhǔn)背后的直覺是,中間幀在空間和時間上最接近于關(guān)鍵幀,在此可獲得具有最低不確定性的最佳可能注冊結(jié)果。如果從低分辨率圖像獲得的參數(shù)估計值通過測試,也使用更高分辨率計算改進的估計值。最后,應(yīng)用相同的熵比檢驗。如果這個測試也成功了,就在圖中插入一個帶有相對位姿約束的新邊。圖3顯示,當(dāng)相機返回到捕捉到第50幀的附近(第420450幀)時,熵比再次增大。此外,圖3顯示,高熵比與估計中的低誤差相符。
使用慕尼黑技術(shù)大學(xué)提供的RGB-D基準(zhǔn)進行評估[10]。基準(zhǔn)包含用RGB-D相機捕獲的多個真實數(shù)據(jù)集。每個數(shù)據(jù)集都伴隨著一個由外部運動捕獲系統(tǒng)獲得的精確的地面真值軌跡。在第一組實驗中,評估了組合光度和幾何誤差最小化的好處。具有不同數(shù)量的紋理和結(jié)構(gòu)的RGB-D數(shù)據(jù)集適合于此目的。圖4顯示了不同數(shù)據(jù)集的代表性圖像。表一顯示了實驗結(jié)果。前兩列指示數(shù)據(jù)集是否包含結(jié)構(gòu)/紋理(x)或不包含(-)。第三列顯示相機到場景的定性距離。最后三列顯示了RGBonly、depth only和combined三種不同估計方法的平移漂移(RPE)的均方根誤差(RMSE),單位為m/s。與僅深度變量相比,僅RGB的里程計在具有紋理的無結(jié)構(gòu)場景中效果更好,反之亦然。在這些數(shù)據(jù)集上,組合變量的性能優(yōu)于這兩種方法。但是,在具有結(jié)構(gòu)和紋理的數(shù)據(jù)集上,組合RGB和深度odometry的性能略低于僅RGB的odometry。盡管如此,它在不同場景類型上顯示了更好的泛化。深度項也有助于在由于自動曝光而導(dǎo)致強度突然變化的情況下穩(wěn)定估計值。
本方法與最新的視覺SLAM方法進行比較,即RGB-D SLAM系統(tǒng)[2]、[31]、多分辨率surfel映射(MRSMap)[11]和KinectFusion的PCL實現(xiàn)(KinFu)[5]。表三總結(jié)了結(jié)果。第一列包含數(shù)據(jù)集名稱,第二列顯示系統(tǒng)創(chuàng)建的關(guān)鍵幀數(shù)。以下各列顯示了本系統(tǒng)、RGB-D SLAM、MRSMap和KinectFusion的絕對軌跡誤差的RMSE。本系統(tǒng)在八個數(shù)據(jù)集中表現(xiàn)最好,所有系統(tǒng)的結(jié)果都是可用的。三個方面與最佳系統(tǒng)的區(qū)別其他數(shù)據(jù)集較小。內(nèi)部沖突在長而復(fù)雜的軌道上,例如fr1/房間、fr1/teddy,比其他系統(tǒng)的改進是顯著的。
表二:所有freiburg1數(shù)據(jù)集的平移漂移(RPE)RMSE(m/s),幀間、幀間和幀間里程計,以及姿勢圖優(yōu)化。注意(v)標(biāo)記沒有公共基礎(chǔ)的驗證數(shù)據(jù)集,本文使用在線工具評估了這些數(shù)據(jù)集。與逐幀里程計相比,使用關(guān)鍵幀可將性能提高16%。位姿圖優(yōu)化進一步減小了漂移,平均提高了20%。
表三:與三個最先進的系統(tǒng)相比,本文視覺SLAM系統(tǒng)的絕對軌跡誤差(m)的RMSE。第二列顯示系統(tǒng)使用的關(guān)鍵幀數(shù)。本系統(tǒng)對大多數(shù)數(shù)據(jù)集的性能最好。尤其要注意對具有長而復(fù)雜軌跡的數(shù)據(jù)集(如fr1/房間、fr1/teddy)的改進。
在一臺采用英特爾酷睿i7-2600處理器、3.40GHz和16GB內(nèi)存的PC機上進行了所有實驗。視覺里程計和SLAM組件在不同的線程中運行。幀到關(guān)鍵幀的跟蹤時間在32ms左右?guī)缀跏呛愣ǖ?#xff0c;循環(huán)閉合檢測和優(yōu)化的時間取決于圖中關(guān)鍵幀和邊的數(shù)量。此地圖更新的平均處理時間為135ms。在運動估計的粗到精優(yōu)化中,本文使用三種不同的圖像分辨率,最高可達320×240像素。
總結(jié)
以上是生活随笔為你收集整理的RGB-D相机视觉SLAM的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Visual SLAM
- 下一篇: 三维视觉惯性SLAM的有效Schmidt