KITTI 数据集(CVPR 2012) - 点云 3D
KITTI 數(shù)據(jù)集(CVPR 2012) - 點(diǎn)云 3D
- 0. KITTI 數(shù)據(jù)集 - 點(diǎn)云 3D 簡(jiǎn)述
- 0.1 KITTI 數(shù)據(jù)集采集平臺(tái)
- 0.2 KITTI 3D 目標(biāo)檢測(cè) - 數(shù)據(jù)集解析
- 0.2.1 ImageSets
- 0.2.2 testing & training
- 0.2.2.1 calib
- 0.2.2.2 image_2
- 0.2.2.3 label_2
- 0.2.2.4 planes
- 0.2.2.5 velodyne
- 摘要
- 1. 引言
- 2.挑戰(zhàn)和方法
- 2.1 傳感器和數(shù)據(jù)采集
- 2.2 傳感器校準(zhǔn)
- 2.3 真值
- 2.4 基準(zhǔn)選擇
- 2.5 評(píng)估指標(biāo)
- 3. 實(shí)驗(yàn)評(píng)價(jià)
- 3.1 立體匹配
- 3.2 光流估計(jì)
- 3.3 視覺(jué)里程計(jì)/SLAM
- 3.4 3D目標(biāo)檢測(cè)/方向估計(jì)
- 4. 結(jié)論和未來(lái)工作
- References
聲明:此翻譯僅為個(gè)人學(xué)習(xí)記錄
文章信息
- 標(biāo)題:Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite (CVPR 2012)
- 作者:Andreas Geiger, Philip Lenz and Raquel Urtasun
- 文章鏈接:http://www.cvlibs.net/publications/Geiger2012CVPR.pdf
數(shù)據(jù)集簡(jiǎn)介
- 數(shù)據(jù)集官網(wǎng):http://www.cvlibs.net/datasets/kitti/index.php
- 官方下載地址:http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d
- 第三方下載地址:https://gas.graviti.com/dataset/hellodataset/KITTIObject
0. KITTI 數(shù)據(jù)集 - 點(diǎn)云 3D 簡(jiǎn)述
- KITTI 數(shù)據(jù)集 - 3D 目標(biāo)檢測(cè)網(wǎng)站
3D目標(biāo)檢測(cè)基準(zhǔn)由7481個(gè)訓(xùn)練圖像和7518個(gè)測(cè)試圖像以及相應(yīng)的點(diǎn)云組成,共包含80256個(gè)帶標(biāo)簽的目標(biāo)。( 國(guó)內(nèi)下載方式)
0.1 KITTI 數(shù)據(jù)集采集平臺(tái)
數(shù)據(jù)采集平臺(tái):2個(gè)灰度攝像機(jī),2個(gè)彩色攝像機(jī),1個(gè)激光雷達(dá),4個(gè)光學(xué)鏡頭,1個(gè)GPS導(dǎo)航系統(tǒng)。
- 2 × PointGray Flea2 grayscale cameras (FL2-14S3M-C), 1.4 Megapixels, 1/2” Sony ICX267 CCD, global shutter
- 2 × PointGray Flea2 color cameras (FL2-14S3C-C), 1.4 Megapixels, 1/2” Sony ICX267 CCD, global shutter
- 4 × Edmund Optics lenses, 4mm, opening angle ~ 90?, vertical opening angle of region of interest (ROI) ~ 35?
- 1 × Velodyne HDL-64E rotating 3D laser scanner, 10 Hz, 64 beams, 0.09 degree angular resolution, 2 cm distance accuracy, collecting ~ 1.3 million points/second, field of view: 360? horizontal, 26.8? vertical, range: 120 m
- 1 × OXTS RT3003 inertial and GPS navigation system, 6 axis, 100 Hz, L1/L2 RTK, resolution: 0.02m / 0.1?
傳感器的配置平面圖如上所示。為了生成雙目立體圖像,相同類型的攝像頭相距54cm安裝。由于彩色攝像機(jī)的分辨率和對(duì)比度不夠好,所以還使用了兩個(gè)立體灰度攝像機(jī),它和彩色攝像機(jī)相距6cm安裝。
為了方便傳感器數(shù)據(jù)標(biāo)定,規(guī)定坐標(biāo)系方向如下 :
- Camera: x = right, y = down, z = forward
- Velodyne: x = forward, y = left, z = up
- GPS/IMU: x = forward, y = left, z = up
0.2 KITTI 3D 目標(biāo)檢測(cè) - 數(shù)據(jù)集解析
數(shù)據(jù)集結(jié)構(gòu)
data
│── ?kitti
│??│── ImageSets
│??│── testing
│??│??├── calib & image_2 & velodyne
│??│── training
│??│??├── calib & image_2 & label_2 & planes & velodyne
0.2.1 ImageSets
數(shù)據(jù)集列表信息,一般包括如下3部分:
- train.txt:訓(xùn)練集 列表信息
- trainval.txt:訓(xùn)練集+驗(yàn)證集 列表信息
- val.txt:驗(yàn)證集 列表信息
0.2.2 testing & training
0.2.2.1 calib
P0: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 0.000000000000e+00 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 0.000000000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 0.000000000000e+00 P1: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 -3.875744000000e+02 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 0.000000000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 0.000000000000e+00 P2: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 4.485728000000e+01 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 2.163791000000e-01 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 2.745884000000e-03 P3: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 -3.395242000000e+02 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 2.199936000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 2.729905000000e-03 R0_rect: 9.999239000000e-01 9.837760000000e-03 -7.445048000000e-03 -9.869795000000e-03 9.999421000000e-01 -4.278459000000e-03 7.402527000000e-03 4.351614000000e-03 9.999631000000e-01 Tr_velo_to_cam: 7.533745000000e-03 -9.999714000000e-01 -6.166020000000e-04 -4.069766000000e-03 1.480249000000e-02 7.280733000000e-04 -9.998902000000e-01 -7.631618000000e-02 9.998621000000e-01 7.523790000000e-03 1.480755000000e-02 -2.717806000000e-01 Tr_imu_to_velo: 9.999976000000e-01 7.553071000000e-04 -2.035826000000e-03 -8.086759000000e-01 -7.854027000000e-04 9.998898000000e-01 -1.482298000000e-02 3.195559000000e-01 2.024406000000e-03 1.482454000000e-02 9.998881000000e-01 -7.997231000000e-01- P0 ~ P3:矯正后的投影矩陣
- R0_rect:矯正旋轉(zhuǎn)矩陣
- Tr_velo_to_cam:從雷達(dá)到相機(jī) 0 的旋轉(zhuǎn)平移矩陣
- Tr_imu_to_velo:從慣導(dǎo)或GPS裝置到相機(jī)的旋轉(zhuǎn)平移矩陣
- i ∈ {0, 1, 2, 3} 是相機(jī)索引,其中 0 代表左灰度,1 代表右灰度,2 代表左彩色,3 代表右邊彩色相機(jī)。
注意:
- 所有矩陣都存儲(chǔ)在行中,即第一個(gè)值對(duì)應(yīng)于第一行。 R0_rect 包含一個(gè) 3x3 矩陣,需要將其擴(kuò)展為 4x4 矩陣,方法是在右下角添加 1,在其他位置添加 0。 Tr_xxx是一個(gè) 3x4 矩陣(R | t),需要以相同的方式擴(kuò)展到 4x4 矩陣!
- 通過(guò)使用校準(zhǔn)文件夾中的 3x4 投影矩陣,可以將相機(jī)坐標(biāo)系中的坐標(biāo)投影到圖像中,對(duì)于提供圖像的左側(cè)彩色相機(jī),必須使用 P2。rotation_y 和 alpha 之間的區(qū)別在于 rotation_y 直接在相機(jī)坐標(biāo)中給出,而 alpha 也會(huì)考慮從相機(jī)中心到物體中心的矢量,以計(jì)算物體相對(duì)于相機(jī)的相對(duì)方向。 例如,沿著攝像機(jī)坐標(biāo)系的 X 軸面向的汽車(chē),無(wú)論它位于 X / Z 平面(鳥(niǎo)瞰圖)中的哪個(gè)位置,它的 rotation_y 都為 0,而只有當(dāng)此車(chē)位于相機(jī)的Z軸上時(shí) α 才為零,當(dāng)此車(chē)從 Z 軸移開(kāi)時(shí),觀察角度 α 將會(huì)改變。
0.2.2.2 image_2
0.2.2.3 label_2
The label files contain the following information, which can be read and written using the matlab tools (readLabels.m, writeLabels.m) provided within this devkit. All values (numerical or strings) are separated via spaces, each row corresponds to one object. The 15 columns represent:#Values Name Description ----------------------------------------------------------------------------1 type Describes the type of object: 'Car', 'Van', 'Truck','Pedestrian', 'Person_sitting', 'Cyclist', 'Tram','Misc' or 'DontCare'1 truncated Float from 0 (non-truncated) to 1 (truncated), wheretruncated refers to the object leaving image boundaries1 occluded Integer (0,1,2,3) indicating occlusion state:0 = fully visible, 1 = partly occluded2 = largely occluded, 3 = unknown1 alpha Observation angle of object, ranging [-pi..pi]4 bbox 2D bounding box of object in the image (0-based index):contains left, top, right, bottom pixel coordinates3 dimensions 3D object dimensions: height, width, length (in meters)3 location 3D object location x,y,z in camera coordinates (in meters)1 rotation_y Rotation ry around Y-axis in camera coordinates [-pi..pi]1 score Only for results: Float, indicating confidence indetection, needed for p/r curves, higher is better.Here, 'DontCare' labels denote regions in which objects have not been labeled, for example because they have been too far away from the laser scanner. To prevent such objects from being counted as false positives our evaluation script will ignore objects detected in don't care regions of the test set. You can use the don't care labels in the training set to avoid that your object detector is harvesting hard negatives from those areas, in case you consider non-object regions from the training images as negative examples. Truck 0.00 0 -1.57 599.41 156.40 629.75 189.25 2.85 2.63 12.34 0.47 1.49 69.44 -1.56 Car 0.00 0 1.85 387.63 181.54 423.81 203.12 1.67 1.87 3.69 -16.53 2.39 58.49 1.57 Cyclist 0.00 3 -1.65 676.60 163.95 688.98 193.93 1.86 0.60 2.02 4.59 1.32 45.84 -1.55 DontCare -1 -1 -10 503.89 169.71 590.61 190.13 -1 -1 -1 -1000 -1000 -1000 -10 DontCare -1 -1 -10 511.35 174.96 527.81 187.45 -1 -1 -1 -1000 -1000 -1000 -10 DontCare -1 -1 -10 532.37 176.35 542.68 185.27 -1 -1 -1 -1000 -1000 -1000 -10 DontCare -1 -1 -10 559.62 175.83 575.40 183.15 -1 -1 -1 -1000 -1000 -1000 -10每行代表1個(gè)目標(biāo),每行有16列,其定義如下:
- 第1列(字符串):代表物體類別(type),總共有9類,分別是:Car、Van、Truck、Pedestrian、Person_sitting、Cyclist、Tram、Misc、DontCare。其中DontCare標(biāo)簽表示該區(qū)域沒(méi)有被標(biāo)注,比如由于目標(biāo)物體距離激光雷達(dá)太遠(yuǎn)。為了防止在評(píng)估過(guò)程中(主要是計(jì)算precision),將本來(lái)是目標(biāo)物體但是因?yàn)槟承┰蚨鴽](méi)有標(biāo)注的區(qū)域統(tǒng)計(jì)為假陽(yáng)性(false positives),評(píng)估腳本會(huì)自動(dòng)忽略DontCare區(qū)域的預(yù)測(cè)結(jié)果。
- 第2列(浮點(diǎn)數(shù)):代表物體是否被截?cái)?#xff08;truncated),數(shù)值在0(非截?cái)?#xff09;到1(截?cái)?#xff09;之間浮動(dòng),數(shù)字表示指離開(kāi)圖像邊界對(duì)象的程度。
- 第3列(整數(shù)):代表物體是否被遮擋(occluded),整數(shù)0、1、2、3分別表示被遮擋的程度。
- 第4列(弧度數(shù)):物體的觀察角度(alpha),取值范圍為:-pi ~ pi(單位:rad),它表示在相機(jī)坐標(biāo)系下,以相機(jī)原點(diǎn)為中心,相機(jī)原點(diǎn)到物體中心的連線為半徑,將物體繞相機(jī)y軸旋轉(zhuǎn)至相機(jī)z軸,此時(shí)物體方向與相機(jī)x軸的夾角,如圖1所示。
- 第5~8列(浮點(diǎn)數(shù)):物體的2D邊界框大小(bbox),四個(gè)數(shù)分別是xmin、ymin、xmax、ymax(單位:pixel),表示2維邊界框的左上角和右下角的坐標(biāo)。
- 第9~11列(浮點(diǎn)數(shù)):3D物體的尺寸(dimensions),分別是高、寬、長(zhǎng)(單位:米)
- 第12-14列(整數(shù)):3D物體的位置(location),分別是x、y、z(單位:米),特別注意的是,這里的xyz是在相機(jī)坐標(biāo)系下3D物體的中心點(diǎn)位置。
- 第15列(弧度數(shù)):3D物體的空間方向(rotation_y),取值范圍為:-pi ~ pi(單位:rad),它表示,在照相機(jī)坐標(biāo)系下,物體的全局方向角(物體前進(jìn)方向與相機(jī)坐標(biāo)系x軸的夾角)。
- 第16列(整數(shù)):檢測(cè)的置信度(score),用來(lái)繪制p/r曲線,越高越好。此為模型的輸出,此處省略了。
0.2.2.4 planes
# Plane Width 4 Height 1 -1.851372e-02 -9.998285e-01 -5.362310e-04 1.678761e+000.2.2.5 velodyne
8D 97 92 41 39 B4 48 3D 58 39 54 3F 00 00 00 00 83 C0 92 41 87 16 D9 3D 58 39 54 3F 00 00 00 00 2D 32 4D 42 AE 47 01 3F FE D4 F8 3F 00 00 00 00 37 89 92 41 D3 4D 62 3E 58 39 54 3F 00 00 00 00 E5 D0 92 41 12 83 80 3E E1 7A 54 3F EC 51 B8 3D 7B 14 70 41 2B 87 96 3E 50 8D 37 3F CD CC 4C 3E 96 43 6F 41 7B 14 AE 3E 3D 0A 37 3F E1 7A 14 3F 2F DD 72 41 5E BA C9 3E 87 16 39 3F 00 00 00 00 FA 7E 92 41 5E BA 09 3F 58 39 54 3F 00 00 00 00 66 66 92 41 EC 51 18 3F CF F7 53 3F 00 00 00 00 A4 70 92 41 77 BE 1F 3F CF F7 53 3F 00 00 00 00 A4 70 92 41 8D 97 2E 3F 58 39 54 3F 00 00 00 00 ... ...點(diǎn)云數(shù)據(jù)以浮點(diǎn)二進(jìn)制文件格式存儲(chǔ),每個(gè)浮點(diǎn)數(shù)占4字節(jié)。一個(gè)點(diǎn)云數(shù)據(jù)由4個(gè)浮點(diǎn)數(shù)構(gòu)成,分別表示點(diǎn)云的x、y、z、r,其存儲(chǔ)方式如下表所示:
| pointcloud-1 | x-1 | y-1 | z-1 | r-1 |
| pointcloud-2 | x-2 | y-2 | z-2 | r-2 |
| pointcloud-3 | x-3 | y-3 | z-3 | r-3 |
| … | … | … | … | … |
| pointcloud-n | x-n | y-n | z-n | r-n |
摘要
??今天,視覺(jué)識(shí)別系統(tǒng)仍然很少用于機(jī)器人應(yīng)用。可能這其中的一個(gè)主要原因是缺乏模擬此類場(chǎng)景的苛刻基準(zhǔn)。在本文中,我們利用我們的自動(dòng)駕駛平臺(tái)為立體、光流、視覺(jué)里程計(jì)/SLAM和3D目標(biāo)檢測(cè)任務(wù)開(kāi)發(fā)了具有挑戰(zhàn)性的新基準(zhǔn)。我們的記錄平臺(tái)配備了四臺(tái)高分辨率攝像機(jī)、Velodyne激光掃描儀和最先進(jìn)的定位系統(tǒng)。我們的基準(zhǔn)包括389個(gè)立體和光流圖像對(duì)、39.2km長(zhǎng)的立體視覺(jué)里程測(cè)量序列,以及在雜亂場(chǎng)景中捕獲的超過(guò)200k個(gè)3D目標(biāo)注釋(每張圖像最多可看到15輛汽車(chē)和30名行人)。來(lái)自最先進(jìn)算法的結(jié)果表明,在Middlebury等已建立的數(shù)據(jù)集上排名靠前的方法在實(shí)驗(yàn)室外移動(dòng)到現(xiàn)實(shí)世界時(shí)表現(xiàn)低于平均水平。我們的目標(biāo)是通過(guò)向計(jì)算機(jī)視覺(jué)社區(qū)提供具有挑戰(zhàn)性的基準(zhǔn),并為其帶來(lái)新的困難,從而減少這種偏見(jiàn)。我們的基準(zhǔn)可在線訪問(wèn):www.cvlibs.net/datasets/kitti
1. 引言
??開(kāi)發(fā)能夠幫助人類完成日常任務(wù)的自主系統(tǒng)是現(xiàn)代計(jì)算機(jī)科學(xué)的重大挑戰(zhàn)之一。一個(gè)例子是自動(dòng)駕駛系統(tǒng),它可以幫助減少交通事故造成的死亡人數(shù)。雖然在過(guò)去幾年中,各種新型傳感器被用于目標(biāo)的識(shí)別、導(dǎo)航和操縱等任務(wù),但視覺(jué)傳感器很少被用于機(jī)器人應(yīng)用:自動(dòng)駕駛系統(tǒng)主要依賴GPS、激光測(cè)距儀、雷達(dá)以及非常精確的環(huán)境地圖。
??在過(guò)去幾年中,已經(jīng)開(kāi)發(fā)了越來(lái)越多的基準(zhǔn)來(lái)推動(dòng)視覺(jué)識(shí)別系統(tǒng)的性能,例如Caltech-101[17]、Middlebury立體聲[41]和光流[2]評(píng)估。然而,這些數(shù)據(jù)集大多過(guò)于簡(jiǎn)單化,例如,在受控環(huán)境中采集。一個(gè)顯著的例外是PASCAL VOC檢測(cè)和分割挑戰(zhàn)[16]。
圖1. 帶傳感器的記錄平臺(tái)(左上)、視覺(jué)里程基準(zhǔn)的軌跡(上中)、視差和光流圖(右上)和3D目標(biāo)標(biāo)簽(下)。
??在本文中,我們利用我們的自動(dòng)駕駛平臺(tái)為立體、光流、視覺(jué)里程計(jì)/SLAM和3D目標(biāo)檢測(cè)開(kāi)發(fā)了具有挑戰(zhàn)性的新基準(zhǔn)。我們的基準(zhǔn)是通過(guò)在中等城市、農(nóng)村地區(qū)和高速公路上行駛來(lái)獲得的。我們的記錄平臺(tái)配備了兩個(gè)高分辨率立體攝像系統(tǒng)(灰度和彩色)、每秒產(chǎn)生超過(guò)一百萬(wàn)個(gè)3D點(diǎn)的Velodyne HDL-64E激光掃描儀和結(jié)合GPS、GLONASS、IMU和RTK校正信號(hào)的最先進(jìn)的OXTS RT 3003定位系統(tǒng)。攝像機(jī)、激光掃描儀和定位系統(tǒng)經(jīng)過(guò)校準(zhǔn)和同步,為我們提供了準(zhǔn)確的真值。表1總結(jié)了我們的基準(zhǔn),并提供了與現(xiàn)有數(shù)據(jù)集的比較。
??我們的立體匹配和光流估計(jì)基準(zhǔn)包括194個(gè)訓(xùn)練和195個(gè)測(cè)試圖像對(duì),分辨率為1240×376像素。與之前的數(shù)據(jù)集[41,2,30,29]相比,這是第一個(gè)具有真實(shí)的非合成圖像和準(zhǔn)確真值的數(shù)據(jù)集。困難包括非朗伯曲面(例如,反射率、透明度)大位移(例如,高速)、多種材質(zhì)(例如,無(wú)光與有光澤)以及不同的照明條件(例如,陽(yáng)光與多云)。
??我們的3D視覺(jué)里程計(jì)/SLAM數(shù)據(jù)集由22個(gè)立體序列組成,總長(zhǎng)39.2km。迄今為止,屬于這一類別的數(shù)據(jù)集要么是單目短焦[43],要么由低質(zhì)量圖像組成[42,4,35]。它們通常不提供評(píng)估指標(biāo),因此,對(duì)于應(yīng)使用哪個(gè)基準(zhǔn)來(lái)評(píng)估視覺(jué)里程計(jì)/SLAM方法沒(méi)有共識(shí)。因此,除了基于激光的SLAM[28]外,通常只給出定性結(jié)果。我們相信,由于基準(zhǔn)的大規(guī)模性質(zhì)以及我們提出的新指標(biāo),我們可以在基準(zhǔn)中進(jìn)行公平比較,這些指標(biāo)通過(guò)評(píng)估給定軌跡長(zhǎng)度或行駛速度的所有子序列的誤差統(tǒng)計(jì)來(lái)捕獲不同的誤差源。
??我們的3D目標(biāo)基準(zhǔn)關(guān)注用于目標(biāo)檢測(cè)和3D方向估計(jì)的計(jì)算機(jī)視覺(jué)算法。雖然這些任務(wù)的現(xiàn)有基準(zhǔn)無(wú)法提供準(zhǔn)確的3D信息[17、39、15、16]或缺乏真實(shí)感[33、31、34],但我們的數(shù)據(jù)集為汽車(chē)、貨車(chē)、卡車(chē)、行人、自行車(chē)和電車(chē)等目標(biāo)類別提供了準(zhǔn)確的3D邊界框。我們通過(guò)在Velodyne系統(tǒng)生成的3D點(diǎn)云中手動(dòng)標(biāo)記目標(biāo),并將其投影回圖像中,來(lái)獲得這些信息。這產(chǎn)生了具有精確3D姿態(tài)的軌跡,可用于評(píng)估3D方向估計(jì)和3D跟蹤算法的性能。
??在我們的實(shí)驗(yàn)中,我們使用我們的基準(zhǔn)和新的度量標(biāo)準(zhǔn)來(lái)評(píng)估一組具有代表性的最先進(jìn)系統(tǒng)。也許并不奇怪,許多在諸如Middlebury[41,2]等現(xiàn)有數(shù)據(jù)集上表現(xiàn)良好的算法在我們的基準(zhǔn)上舉步維艱。我們推測(cè)這可能是由于他們的假設(shè)在我們的場(chǎng)景中被違反,以及過(guò)度擬合到一小組訓(xùn)練(測(cè)試)圖像。
??除了基準(zhǔn)測(cè)試之外,我們還提供了MATLAB/C++開(kāi)發(fā)工具包,以方便訪問(wèn)。我們還維護(hù)最新的在線評(píng)估服務(wù)器(www.cvlibs.net/datasets/kitti)。我們希望,我們的努力將有助于提高視覺(jué)識(shí)別系統(tǒng)在機(jī)器人應(yīng)用中的影響力。
2.挑戰(zhàn)和方法
??為上述任務(wù)制定大規(guī)模和現(xiàn)實(shí)的評(píng)估基準(zhǔn)提出了一系列挑戰(zhàn),包括實(shí)時(shí)收集大量數(shù)據(jù)、校準(zhǔn)以不同速率工作的各種傳感器、生成真值最大限度地減少所需的監(jiān)督,為每個(gè)基準(zhǔn)選擇適當(dāng)?shù)男蛄泻蛶?#xff0c;以及為每個(gè)任務(wù)制定度量。在本節(jié)中,我們將討論如何應(yīng)對(duì)這些挑戰(zhàn)。
2.1 傳感器和數(shù)據(jù)采集
??我們配備了一輛標(biāo)準(zhǔn)旅行車(chē),配備了兩個(gè)彩色和兩個(gè)灰度的PointGrey Flea2攝像機(jī)(10 Hz,分辨率:1392×512像素,開(kāi)口:90°×35°)、Velodyne HDL-64E 3D激光掃描儀(10 Hz、64束激光,范圍:100 m)、帶有RTK校正信號(hào)的GPS/IMU定位單元(開(kāi)放天空定位誤差<5 cm)和運(yùn)行實(shí)時(shí)數(shù)據(jù)庫(kù)的強(qiáng)大計(jì)算機(jī)[22]。
??我們將所有攝像頭(即兩個(gè)單元,每個(gè)單元由一個(gè)彩色攝像頭和一個(gè)灰度攝像頭組成)安裝在車(chē)輛頂部。我們將一個(gè)單元放在機(jī)架的左側(cè),另一個(gè)放在右側(cè)。我們的相機(jī)設(shè)置被選擇為使得我們?cè)谙嗤愋偷南鄼C(jī)之間獲得大約54cm的基線,并且彩色和灰度相機(jī)之間的距離被最小化(6cm)。我們認(rèn)為這是一個(gè)很好的設(shè)置,因?yàn)椴噬珗D像對(duì)于分割和目標(biāo)檢測(cè)等任務(wù)非常有用,但與灰度圖像相比,其對(duì)比度和靈敏度較低,這在立體匹配和光流估計(jì)中至關(guān)重要。
??我們使用Velodyne HDL-64E單元,因?yàn)樗强蓮囊苿?dòng)平臺(tái)提供準(zhǔn)確3D信息的少數(shù)傳感器之一。相比之下,像Microsoft Kinect這樣的結(jié)構(gòu)光系統(tǒng)在戶外場(chǎng)景中不起作用,而且感應(yīng)范圍非常有限。為了補(bǔ)償3D激光測(cè)量中的自我運(yùn)動(dòng),我們使用來(lái)自GPS/IMU系統(tǒng)的位置信息。
2.2 傳感器校準(zhǔn)
??準(zhǔn)確的傳感器校準(zhǔn)是獲得可靠真值的關(guān)鍵。我們的校準(zhǔn)流程如下:首先,我們對(duì)四臺(tái)攝像機(jī)進(jìn)行內(nèi)部和外部校準(zhǔn),并對(duì)輸入圖像進(jìn)行校正。然后,我們找到與激光掃描儀、定位單元和參考相機(jī)的坐標(biāo)系相關(guān)的三維剛性運(yùn)動(dòng)參數(shù)。雖然我們的相機(jī)到相機(jī)和GPS/IMU到Velodyne的配準(zhǔn)方法是全自動(dòng)的,但Velodyne到相機(jī)的校準(zhǔn)需要用戶手動(dòng)選擇激光和相機(jī)圖像之間的少量對(duì)應(yīng)關(guān)系。這是必要的,因?yàn)檫@項(xiàng)任務(wù)的現(xiàn)有技術(shù)不夠精確,無(wú)法計(jì)算真值估計(jì)。
攝像機(jī)到攝像機(jī)校準(zhǔn)。為了自動(dòng)校準(zhǔn)攝像機(jī)的內(nèi)部和外部參數(shù),我們?cè)谲?chē)庫(kù)的墻上安裝了棋盤(pán)圖案,并在校準(zhǔn)圖像中檢測(cè)角落。基于梯度信息和離散能量最小化,我們將角點(diǎn)分配給棋盤(pán),在相機(jī)之間進(jìn)行匹配,并通過(guò)最小化平均重投影誤差來(lái)優(yōu)化所有參數(shù)[19]。
表1. 當(dāng)前最先進(jìn)基準(zhǔn)和數(shù)據(jù)集的比較。
Velodyne至攝像頭校準(zhǔn)。將激光掃描儀與攝像頭配準(zhǔn)是非常重要的,因?yàn)橛捎诜瓷渎手抵械拇罅吭肼?#xff0c;很難建立對(duì)應(yīng)關(guān)系。因此,我們依賴于半自動(dòng)技術(shù):首先,我們使用[19]的全自動(dòng)方法注冊(cè)兩個(gè)傳感器。接下來(lái),我們結(jié)合激光點(diǎn)云和圖像之間的一些手動(dòng)選擇的對(duì)應(yīng)關(guān)系的重投影誤差,將基準(zhǔn)測(cè)試中表現(xiàn)最好的方法的視差異常值的數(shù)量最小化。作為對(duì)應(yīng),我們選擇了兩個(gè)領(lǐng)域(即圖像和點(diǎn)云)中人類容易定位的邊緣。通過(guò)使用Metropolis Hastings抽取樣本并選擇能量最低的解決方案來(lái)進(jìn)行優(yōu)化。
GPS/IMU至Velodyne校準(zhǔn)。我們的GPS/IMU到Velodyne的注冊(cè)過(guò)程是全自動(dòng)的。我們不能依賴視覺(jué)對(duì)應(yīng),然而,如果提供了來(lái)自兩個(gè)傳感器的運(yùn)動(dòng)估計(jì),則該問(wèn)題將與眾所周知的手眼校準(zhǔn)問(wèn)題相同,該問(wèn)題已在機(jī)器人界進(jìn)行了廣泛探索[14]。利用ICP,我們精確地記錄了停車(chē)序列的激光點(diǎn)云,因?yàn)檫@提供了很好地調(diào)節(jié)最小化問(wèn)題所需的各種方向和平移。接下來(lái),我們從這個(gè)序列中隨機(jī)抽樣1000對(duì)姿勢(shì),并使用[14]獲得期望的結(jié)果。
2.3 真值
??校準(zhǔn)并登記所有傳感器后,我們準(zhǔn)備為圖1所示的單個(gè)基準(zhǔn)生成真值。
??為了獲得高的立體和光流真值密度,我們使用ICP注冊(cè)一組連續(xù)幀(感興趣幀之前5幀和之后5幀)。我們將累積的點(diǎn)云投影到圖像上,并自動(dòng)刪除落在圖像之外的點(diǎn)。然后,我們手動(dòng)刪除所有模糊的圖像區(qū)域,如窗口和圍欄。給定相機(jī)校準(zhǔn),可以容易地計(jì)算相應(yīng)的視差圖。通過(guò)將3D點(diǎn)投影到下一幀中獲得光學(xué)流場(chǎng)。對(duì)于這兩項(xiàng)任務(wù),我們?cè)u(píng)估了非遮擋像素以及真值可用的所有像素。我們的非遮擋評(píng)估排除了落在圖像平面之外的所有表面點(diǎn)。由于激光掃描儀的特性,不能以全自動(dòng)的方式可靠地估計(jì)同一圖像內(nèi)被目標(biāo)遮擋的點(diǎn)。為了避免人為誤差,我們不插值真值視差圖和光學(xué)流場(chǎng),導(dǎo)致真值密度平均值為~50%。
??視覺(jué)里程計(jì)/SLAM的真值由GPS/IMU定位單元的輸出直接給出,該單元在校正后投影到左攝像機(jī)的坐標(biāo)系中。
圖2. 數(shù)據(jù)集的目標(biāo)發(fā)生和目標(biāo)幾何統(tǒng)計(jì)。該圖顯示(從左到右,從上到下):在我們的序列中出現(xiàn)的不同類型的目標(biāo),圖像中實(shí)例數(shù)量的冪律分布,以及兩個(gè)最主要類別“汽車(chē)”和“行人”的方向直方圖和目標(biāo)大小分布。
??為了生成3D目標(biāo)真值,我們雇傭了一組注釋員,并要求他們以3D邊界框的形式為汽車(chē)、貨車(chē)、卡車(chē)、電車(chē)、行人和自行車(chē)等目標(biāo)分配軌跡。與大多數(shù)現(xiàn)有基準(zhǔn)不同,我們不依賴在線眾包來(lái)執(zhí)行標(biāo)注。為了實(shí)現(xiàn)這一目標(biāo),我們創(chuàng)建了一個(gè)特殊用途的標(biāo)簽工具,它顯示3D激光點(diǎn)以及相機(jī)圖像,以提高注釋的質(zhì)量。在[16]之后,我們要求注釋器將每個(gè)邊界框額外標(biāo)記為可見(jiàn)、半遮擋、完全遮擋或截?cái)?。我們的?biāo)簽工作統(tǒng)計(jì)數(shù)據(jù)如圖2所示。
2.4 基準(zhǔn)選擇
??我們總共收集了約3 TB的數(shù)據(jù),從中我們選擇了一個(gè)代表性的子集來(lái)評(píng)估每個(gè)任務(wù)。在我們的實(shí)驗(yàn)中,我們目前專注于灰度圖像,因?yàn)樗鼈儽炔噬珗D像提供更高的質(zhì)量。
??對(duì)于我們的立體和光流基準(zhǔn),我們選擇了環(huán)境靜止的序列子集。為了最大化多樣性,我們使用新的表示對(duì)數(shù)據(jù)執(zhí)行k均值(k=400)聚類,并選擇最接近每個(gè)聚類中心的元素作為基準(zhǔn)。我們使用144維圖像描述符描述每個(gè)圖像,該描述符通過(guò)將圖像細(xì)分為12×4個(gè)矩形塊并計(jì)算每個(gè)塊的平均視差和光流位移而獲得。在移除具有不良照明條件的場(chǎng)景(例如,隧道)之后,我們獲得了兩個(gè)基準(zhǔn)的194個(gè)訓(xùn)練和195個(gè)測(cè)試圖像對(duì)。
??對(duì)于我們的視覺(jué)里程計(jì)/SLAM評(píng)估,我們選擇了具有高質(zhì)量定位的不同速度的長(zhǎng)序列,以每秒10幀的速度拍攝了一組41.000幀,總行駛距離為39.2公里,并頻繁關(guān)閉SLAM感興趣的環(huán)路。
??我們的3D目標(biāo)檢測(cè)和方向估計(jì)基準(zhǔn)是根據(jù)場(chǎng)景中未遮擋目標(biāo)的數(shù)量以及目標(biāo)方向分布的熵來(lái)選擇的。為了確保多樣性,需要高熵。為了實(shí)現(xiàn)這個(gè)目標(biāo),我們使用了貪婪算法:我們將數(shù)據(jù)集X初始化為空集?,并使用以下規(guī)則迭代添加圖像
其中X是當(dāng)前集合,x是來(lái)自數(shù)據(jù)集的圖像,noc(x)表示圖像x中未遮擋目標(biāo)的數(shù)量,C表示目標(biāo)類的數(shù)量。Hc是c類相對(duì)于方向的熵(我們對(duì)行人/汽車(chē)使用8/16個(gè)方向箱)。我們進(jìn)一步確保來(lái)自一個(gè)序列的圖像不會(huì)出現(xiàn)在訓(xùn)練集和測(cè)試集中。
2.5 評(píng)估指標(biāo)
??我們利用一組不同的指標(biāo)評(píng)估最先進(jìn)的方法。在[41,2]之后,我們使用視差和終點(diǎn)誤差方面的錯(cuò)誤像素的平均數(shù)量來(lái)評(píng)估立體和光流。與[41,2]相反,我們的圖像沒(méi)有向下采樣。因此,我們將視差/終點(diǎn)誤差閾值τ∈{2,…,5}px作為基準(zhǔn),τ=3 px是默認(rèn)設(shè)置,它考慮了幾乎所有的校準(zhǔn)和激光測(cè)量誤差。我們報(bào)告了非遮擋像素以及真值可用的所有像素的錯(cuò)誤。
??基于軌跡終點(diǎn)的誤差評(píng)估視覺(jué)里程計(jì)/SLAM方法可能會(huì)產(chǎn)生誤導(dǎo),因?yàn)樵摐y(cè)量強(qiáng)烈依賴于產(chǎn)生誤差的時(shí)間點(diǎn),例如,序列中較早的旋轉(zhuǎn)誤差導(dǎo)致較大的終點(diǎn)誤差。K¨ummerle等人[28]建議計(jì)算固定距離處所有相對(duì)關(guān)系的平均值。在這里,我們以兩種方式擴(kuò)展這個(gè)度量。我們不是將旋轉(zhuǎn)和平移誤差合并為一個(gè)度量,而是將它們分開(kāi)處理。此外,我們還評(píng)估了作為軌跡長(zhǎng)度和速度的函數(shù)的誤差。這允許對(duì)單個(gè)方法的質(zhì)量和故障模式進(jìn)行更深入的了解。正式地,我們的誤差度量定義為
其中,F是一組幀(i,j),分別估計(jì)p^\hat{p}p^?∈SE(3)和p∈E(3),真實(shí)相機(jī)姿態(tài),?表示逆合成算子[28],∠[·]是旋轉(zhuǎn)角。
??我們的3D目標(biāo)檢測(cè)和方向估計(jì)基準(zhǔn)分為三個(gè)部分:首先,我們使用[16]中描述的建立良好的平均精度(AP)度量,通過(guò)測(cè)量性能來(lái)評(píng)估經(jīng)典的2D目標(biāo)檢測(cè)。從最大重疊開(kāi)始檢測(cè)被迭代地分配給真值標(biāo)簽,通過(guò)邊界框的IOU來(lái)測(cè)量。我們要求真陽(yáng)性重疊超過(guò)50%,并將同一目標(biāo)的多次檢測(cè)計(jì)數(shù)為假陽(yáng)性。我們使用我們稱為平均方向相似性(AOS)的新度量來(lái)評(píng)估聯(lián)合檢測(cè)目標(biāo)和估計(jì)其3D方向的性能,我們將其定義為:
這里,r=TPTP+FNr=\frac{TP}{TP+FN}r=TP+FNTP?是PASCAL目標(biāo)檢測(cè)召回,其中檢測(cè)到的2D邊界框如果與真值邊界框重疊至少50%,則是正確的。召回r處的方向相似性s∈[0,1]是余弦相似性的歸一化([0…1])變量,定義為
其中D(r)表示在召回率r下所有目標(biāo)檢測(cè)的集合,?θ(i)?^{(i)}_θ?θ(i)?是檢測(cè)i的估計(jì)方位和真值方位之間的角度差。為了懲罰解釋單個(gè)目標(biāo)的多個(gè)檢測(cè),如果檢測(cè)i已分配給真值邊界框(重疊至少50%),我們?cè)O(shè)置δi=1,如果未分配,則設(shè)置δi=0。
??最后,我們還評(píng)估了純分類(汽車(chē)的16個(gè)箱)和回歸(連續(xù)方向)在3D目標(biāo)方向估計(jì)任務(wù)中的方向相似性性能。
圖3. PCBP的立體結(jié)果[46]。輸入圖像(頂部)、估計(jì)視差圖(中部)、視差誤差(底部)。誤差范圍:0像素(黑色)至≥5像素(白色)。
圖4. TGV2CENSUS的光流結(jié)果[45]。輸入圖像(頂部)、估計(jì)流場(chǎng)(中部)、終點(diǎn)誤差(底部)。誤差范圍:0像素(黑色)至≥5像素(白色)。
3. 實(shí)驗(yàn)評(píng)價(jià)
??我們?yōu)槊總€(gè)任務(wù)運(yùn)行一組具有代表性的最先進(jìn)算法。有趣的是,我們發(fā)現(xiàn)在現(xiàn)有基準(zhǔn)測(cè)試中排名靠前的算法在遇到更現(xiàn)實(shí)的場(chǎng)景時(shí)往往會(huì)失敗。本節(jié)講述了他們的故事。
3.1 立體匹配
??對(duì)于立體匹配,我們使用全局[26,37,46],半全局[23],局部[5,20,38]和種子生長(zhǎng)[27,10,9]方法。我們使用的參數(shù)設(shè)置可以在www.cvlibs.net/datasets/kitti上找到。使用背景插值[23]為每個(gè)算法填充缺失的差異,以生成密集的差異圖,然后進(jìn)行比較。如表2所示,我們基準(zhǔn)測(cè)試的誤差高于Middlebury[41]報(bào)告的誤差,表明我們真實(shí)世界數(shù)據(jù)集的難度增加。有趣的是,Middlebury排名靠前的方法在我們的數(shù)據(jù)集上表現(xiàn)尤其糟糕,例如,引導(dǎo)成本體積過(guò)濾[38]、逐像素圖形切割[26]。這主要是由于數(shù)據(jù)集的差異:由于Middlebury基準(zhǔn)在很大程度上具有良好的紋理,并提供了較小的標(biāo)簽集,因此專注于精確的目標(biāo)邊界分割的方法表現(xiàn)良好。相比之下,我們的數(shù)據(jù)需要更多的全局推理,以了解分割性能不太關(guān)鍵的紋理很少、模糊或沒(méi)有紋理的區(qū)域。如果假設(shè)前向平行表面,則純局部方法[5,38]失敗,因?yàn)樵谡鎸?shí)場(chǎng)景(例如道路或建筑物)中,這一假設(shè)經(jīng)常被強(qiáng)烈違反。
??圖3顯示了(當(dāng)前)排名靠前的立體方法PCBP的最佳和最差測(cè)試結(jié)果[46]。雖然自然環(huán)境中的小錯(cuò)誤是由于大量的紋理,但城市內(nèi)部的場(chǎng)景被證明是具有挑戰(zhàn)性的。這里,主要的誤差源是圖像飽和度(左側(cè)的墻)、視差陰影(RV遮擋道路)和非朗伯曲面(RV主體上的反射)。
3.2 光流估計(jì)
??對(duì)于光流,我們?cè)u(píng)估了最先進(jìn)的變分[24,6,48,44,7,9,45]和局部[5,47]方法。表2總結(jié)了我們的實(shí)驗(yàn)結(jié)果。我們觀察到經(jīng)典變分方法[24,44,45]對(duì)我們的圖像效果最好。然而,表現(xiàn)最好的方法TGV2CENSUS[45]平均仍產(chǎn)生約11%的誤差。如圖4所示,大多數(shù)誤差發(fā)生在幀之間發(fā)生較大位移的區(qū)域,例如街道上的近距離像素。此外,由于缺少紋理,金字塔實(shí)現(xiàn)缺乏在金字塔的更高層次上估計(jì)流場(chǎng)的能力。雖然在小運(yùn)動(dòng)時(shí)獲得最佳結(jié)果(圖4左側(cè),流量≤55像素),但在高速行駛時(shí)(圖4右側(cè),流量≤176像素)會(huì)導(dǎo)致大位移,這無(wú)法通過(guò)任何評(píng)估方法可靠地處理。我們認(rèn)為,要克服這些問(wèn)題,我們需要更復(fù)雜的模型,利用世界的先驗(yàn)知識(shí)。以前由于缺乏足夠的訓(xùn)練數(shù)據(jù)而受到阻礙,這種方法將在不久的將來(lái)變得可行,因?yàn)槲覀兲峁┝烁蟮挠?xùn)練集。
表2. 2012年4月2日的立體(左)和光流(右)排名。數(shù)字表示視差誤差或光流終點(diǎn)誤差(歐氏距離)大于τ=3px的像素百分比,在所有測(cè)試圖像上取平均值。這里,非遮擋指的是在兩個(gè)圖像中投影之后留在圖像內(nèi)部的像素,并且all表示真值信息可用的所有像素。密度是指估計(jì)的像素?cái)?shù)。為了可比性,對(duì)無(wú)效差異和流量矢量進(jìn)行了插值。
圖5. 視覺(jué)里程表評(píng)估。平移和旋轉(zhuǎn)誤差,在給定長(zhǎng)度或速度的所有子序列上取平均值。
3.3 視覺(jué)里程計(jì)/SLAM
??我們?cè)谖覀兊囊曈X(jué)里程計(jì)/SLAM數(shù)據(jù)集上評(píng)估了五種不同的方法:VISO2-S/M[21],一種基于增量運(yùn)動(dòng)估計(jì)的實(shí)時(shí)立體/單目視覺(jué)里程計(jì)庫(kù),[1]的方法,有無(wú)局部束調(diào)整(LBA)[32],以及[25]的流分離方法。所有算法都是可比的,因?yàn)樗鼈兌疾皇褂醚h(huán)閉合信息。除了VISO2-M[21]僅使用單眼圖像外,所有方法都使用立體。圖5描述了作為軌跡長(zhǎng)度和驅(qū)動(dòng)速度的函數(shù)的旋轉(zhuǎn)和平移誤差。
??在我們的評(píng)估中,VISO2-S[21]最接近真值軌跡,平均平移誤差為2.2%,平均旋轉(zhuǎn)誤差為0.016度/米。根據(jù)我們的光流實(shí)驗(yàn),大運(yùn)動(dòng)會(huì)影響性能,特別是在平移方面。以每秒10幀的記錄速率,車(chē)輛每幀移動(dòng)2.8米。此外,大型運(yùn)動(dòng)主要發(fā)生在3D結(jié)構(gòu)不太豐富的高速公路上。低速時(shí)的大誤差源于這樣一個(gè)事實(shí),即基于增量或滑動(dòng)窗口的方法會(huì)隨著時(shí)間緩慢漂移,在低速時(shí)相對(duì)影響最大。如果在車(chē)輛緩慢移動(dòng)或靜止時(shí)優(yōu)化更大的時(shí)間間隔,則可以容易地緩解此問(wèn)題。在我們的實(shí)驗(yàn)中,沒(méi)有使用真值信息來(lái)訓(xùn)練模型參數(shù)。我們期望檢測(cè)環(huán)路閉合,利用更多增強(qiáng)的束調(diào)整技術(shù),以及利用訓(xùn)練數(shù)據(jù)進(jìn)行參數(shù)擬合,以進(jìn)一步提高性能。
圖6. 目標(biāo)檢測(cè)和方向估計(jì)結(jié)果。有關(guān)指標(biāo)的詳細(xì)信息,請(qǐng)參見(jiàn)第2.5節(jié)。
表3. 汽車(chē)的目標(biāo)方向錯(cuò)誤。根據(jù)方向相似性測(cè)量的性能(等式5)。越高越好。
3.4 3D目標(biāo)檢測(cè)/方向估計(jì)
??我們使用第2.5節(jié)所述的平均精度和平均方向相似度來(lái)評(píng)估目標(biāo)檢測(cè)以及聯(lián)合檢測(cè)和方向估計(jì)。我們從完整數(shù)據(jù)集中提取的基準(zhǔn)包括12000張圖像和40000個(gè)目標(biāo)。我們首先將訓(xùn)練集細(xì)分為16個(gè)定向類,并使用每個(gè)類100個(gè)非遮擋示例,通過(guò)將組件初始化為16個(gè)類,但在優(yōu)化期間讓組件變化(固定初始化)。
??我們?cè)u(píng)估了所有非遮擋和弱遮擋(<20%)的目標(biāo),這些目標(biāo)的高度既不被截?cái)?#xff0c;也不小于40像素。我們不將檢測(cè)到截?cái)嗷蛘趽醯哪繕?biāo)算作誤報(bào)。對(duì)于我們的目標(biāo)檢測(cè)實(shí)驗(yàn),我們需要至少50%的邊界框重疊,結(jié)果如圖所示。6(a)。對(duì)于檢測(cè)和方向估計(jì),我們需要相同的重疊,并繪制兩個(gè)無(wú)監(jiān)督變體的平均方向相似性(等式5)與召回(圖6(b))。注意,精度是平均方向相似度的上限。
??總之,我們沒(méi)有發(fā)現(xiàn)我們研究的基于部件的檢測(cè)器變體之間有任何實(shí)質(zhì)性差異。所有這些都實(shí)現(xiàn)了高精度,而召回似乎受到一些難以檢測(cè)的物體的限制。我們計(jì)劃將在線評(píng)估擴(kuò)展到更復(fù)雜的場(chǎng)景,例如半遮擋或截?cái)嗄繕?biāo)以及其他目標(biāo)類,如面包車(chē)、卡車(chē)、行人和自行車(chē)。
??最后,我們還評(píng)估了目標(biāo)定向估計(jì)。我們使用16個(gè)方向箱,每個(gè)方向箱提取100個(gè)汽車(chē)實(shí)例。我們?cè)谒胁眉艉驼{(diào)整大小的邊界框上計(jì)算HOG特征[12],邊界框具有19×13個(gè)塊、8×8個(gè)像素單元和12個(gè)方向箱。我們?cè)u(píng)估了多種分類和回歸算法,并報(bào)告了平均方向相似性(方程5)。表3顯示了我們的結(jié)果。我們發(fā)現(xiàn),對(duì)于分類任務(wù),SVM[11]明顯優(yōu)于最近鄰分類。對(duì)于回歸任務(wù),高斯過(guò)程回歸[36]表現(xiàn)最好。
4. 結(jié)論和未來(lái)工作
??我們希望,為現(xiàn)有方法提供新的視角,建議的基準(zhǔn)將補(bǔ)充其他基準(zhǔn),有助于減少對(duì)幾乎沒(méi)有訓(xùn)練或測(cè)試示例的數(shù)據(jù)集的過(guò)度擬合,并有助于開(kāi)發(fā)在實(shí)踐中運(yùn)行良好的算法。由于我們的記錄數(shù)據(jù)提供的信息超過(guò)了迄今為止編入基準(zhǔn)的信息,我們的意圖是逐步增加他們的困難。此外,我們還計(jì)劃將具有閉環(huán)功能的視覺(jué)SLAM、目標(biāo)跟蹤、分割、運(yùn)動(dòng)結(jié)構(gòu)和3D場(chǎng)景理解納入我們的評(píng)估框架。
References
[1] P. Alcantarilla, L. Bergasa, and F. Dellaert. Visual odometry priors for robust EKF-SLAM. In ICRA, 2010. 6
[2] S. Baker, D. Scharstein, J. Lewis, S. Roth, M. Black, and R. Szeliski. A database and evaluation methodology for optical flow. IJCV, 92:1–31, 2011. 1, 2, 3, 4, 5
[3] S. M. Bileschi. Streetscenes: Towards scene understanding in still images. Technical report, MIT, 2006. 3
[4] J.-L. Blanco, F.-A. Moreno, and J. Gonzalez. A collection of outdoor robotic datasets with centimeter-accuracy ground truth. Auton. Robots, 27:327–351, 2009. 2, 3
[5] G. Bradski. The opencv library. Dr. Dobb’s Journal of Software Tools, 2000. 5, 6
[6] T. Brox, A. Bruhn, N. Papenberg, and J. Weickert. High accuracy optical flow estimation based on a theory for warping. In ECCV, 2004. 6
[7] T. Brox and J. Malik. Large displacement optical flow: Descriptor matching in variational motion estimation. PAMI, 33:500–513, March 2011. 6
[8] M. E. C. G. Keller and D. M. Gavrila. A new benchmark for stereo-based pedestrian detection. In IV, 2011. 3
[9] J. Cech, J. Sanchez-Riera, and R. P. Horaud. Scene flow estimation by growing correspondence seeds. In CVPR, 2011. 5, 6
[10] J. Cech and R. Sara. Efficient sampling of disparity space for fast and accurate matching. In BenCOS, 2007. 5, 6
[11] C.-C. Chang and C.-J. Lin. LIBSVM: a library for support vector machines. Technical report, 2001. 7
[12] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005. 7
[13] P. Dollar, C. Wojek, B. Schiele, and P. Perona. Pedestrian detection: An evaluation of the state of the art. In PAMI, volume 99, 2011. 3
[14] F. Dornaika and R. Horaud. Simultaneous robot-world and hand-eye calibration. Rob. and Aut., 1998. 3
[15] A. Ess, B. Leibe, and L. V. Gool. Depth and appearance for mobile scene analysis. In ICCV, 2007. 2, 3
[16] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes Challenge 2011 (VOC2011) Results. 1, 2, 3, 4, 5
[17] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: an incremental bayesian approach tested on 101 object categories. In Workshop on Generative-Model Based Vision, 2004. 1, 2, 3
[18] P. Felzenszwalb, R.Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained partbased models. PAMI, 32:1627–1645, 2010. 7
[19] A. Geiger, F. Moosmann, O. Car, and B. Schuster. A toolbox for automatic calibration of range and camera sensors using a single shot. In ICRA, 2012. 3
[20] A. Geiger, M. Roser, and R. Urtasun. Efficient large-scale stereo matching. In ACCV, 2010. 5, 6
[21] A. Geiger, J. Ziegler, and C. Stiller. StereoScan: Dense 3d reconstruction in real-time. In IV, 2011. 6
[22] M. Goebl and G. Faerber. A real-time-capable hard- and software architecture for joint image and knowledge processing in cognitive automobiles. In IV, 2007. 2
[23] H. Hirschmueller. Stereo processing by semiglobal matching and mutual information. PAMI, 30:328–41, 2008. 5
[24] B. K. P. Horn and B. G. Schunck. Determining optical flow: A retrospective. AI, 59:81–87, 1993. 6
[25] M. Kaess, K. Ni, and F. Dellaert. Flow separation for fast and robust stereo odometry. In ICRA, 2009. 6
[26] V. Kolmogorov and R. Zabih. Computing visual correspondence with occlusions using graph cuts. In ICCV, pages 508–515, 2001. 5, 6
[27] J. Kostkova. Stratified dense matching for stereopsis in complex scenes. In BMVC, 2003. 5, 6
[28] R. Kuemmerle, B. Steder, C. Dornhege, M. Ruhnke, G. Grisetti, C. Stachniss, and A. Kleiner. On measuring the accuracy of SLAM algorithms. Auton. Robots, 27:387–407, 2009. 2, 5
[29] L. Ladicky, P. Sturgess, C. Russell, S. Sengupta, Y. Bastanlar, W. Clocksin, and P. Torr. Joint optimisation for object class segmentation and dense stereo reconstruction. In BMVC, 2010. 1, 3
[30] S. Morales and R. Klette. Ground truth evaluation of stereo algorithms for real world applications. In ACCV Workshops, volume 2 of LNCS, pages 152–162, 2010. 1, 3
[31] P. Moreels and P. Perona. Evaluation of features, detectors and descriptors based on 3d objects. IJCV, 73:263–284, 2007. 2, 3
[32] E. Mouragnon, M. Lhuillier, M. Dhome, F. Dekeyser, and P. Sayd. Generic and real-time structure from motion using local bundle adjustment. IVC, 27:1178–1193, 2009. 6
[33] Nayar and H. Murase. Columbia Object Image Library: COIL-100. Technical report, Department of Computer Science, Columbia University, 1996. 2, 3
[34] M. Ozuysal, V. Lepetit, and P.Fua. Pose estimation for category specific multiview object localization. In CVPR, 2009. 2, 3
[35] G. Pandey, J. R. McBride, and R. M. Eustice. Ford campus vision and lidar data set. IJRR, 2011. 2, 3
[36] C. E. Rasmussen and C. K. I. Williams. Gaussian Processes for Machine Learning. MIT Press, 2005. 7
[37] T. P. H. B. Rene Ranftl, Stefan Gehrig. Pushing the limits of stereo using variational stereo estimation. In IV, 2012. 5, 6
[38] C. Rhemann, A. Hosni, M. Bleyer, C. Rother, and M. Gelautz. Fast cost-volume filtering for visual correspondence and beyond. In CVPR, 2011. 5, 6
[39] B. Russell, A. Torralba, K. Murphy, and W. Freeman. Labelme: A database and web-based tool for image annotation. IJCV, 77:157–173, 2008. 2, 3
[40] A. Saxena, J. Schulte, and A. Y. Ng. Depth estimation using monocular and stereo cues. In IJCAI, 2007. 3
[41] D. Scharstein and R. Szeliski. A taxonomy and evaluation of dense two-frame stereo correspondence algorithms. IJCV, 47:7–42, 2001. 1, 2, 3, 4, 5
[42] M. Smith, I. Baldwin, W. Churchill, R. Paul, and P. Newman. The new college vision and laser data set. IJRR, 28:595–599, 2009. 2, 3
[43] J. Sturm, S. Magnenat, N. Engelhard, F. Pomerleau, F. Colas, W. Burgard, D. Cremers, and R. Siegwart. Towards a benchmark for RGB-D SLAM evaluation. In RGB-D Workshop, 2011. 2, 3
[44] D. Sun, S. Roth, and M. J. Black. Secrets of optical flow estimation and their principles. In CVPR, 2010. 6
[45] M. Werlberger. Convex Approaches for High Performance Video Processing. phdthesis, Graz University of Technology, 2012. 5, 6
[46] K. Yamaguchi, T. Hazan, D. McAllester, and R. Urtasun. Continuous markov random fields for robust stereo estimation. In arXiv:1204.1393v1, 2012. 5, 6
[47] J. yves Bouguet. Pyramidal implementation of the Lucas Kanade feature tracker. Intel, 2000. 6
[48] C. Zach, T. Pock, and H. Bischof. A duality based approach for realtime TV-L1 optical flow. In DAGM, pages 214–223, 2007. 6
總結(jié)
以上是生活随笔為你收集整理的KITTI 数据集(CVPR 2012) - 点云 3D的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: SQL注入技术
- 下一篇: 信息系统项目管理师(软考高项)备考经验与