【论文翻译】ADVIO: An Authentic Dataset for Visual-Inertial Odometry
ADVIO: An Authentic Dataset for Visual-Inertial Odometry
該數據集的特點:使用iPhone手機采集、真實復雜場景、對比現有商用和學術研究VIO系統性能
【摘要】對于行人場景的VIO的研究,由于缺少真實和公開的基準數據集,很難準確比較各公開算法的不同點。已有的數據集缺少六自由度的真值,或由于選用光學跟蹤系統構建真值,因此受限于很小的空間。我們利用的純慣性導航的優勢,針對VIO開發了一套多用途、有挑戰性的計算機視覺基準數據集。為了實現這個目標,我們建造了一個包括iPhone、Google Pixel、Android phone、 Google Tango等硬件的試驗平臺。提供范圍廣泛的傳感器原始數據,幾乎可以在任何智能手機上得到,并且具有高質量的跟蹤真值(ground-truth)。我們還對Google Tango、ARCore、 Apple ARKit,以及兩個最近發布的學術方法進行了視覺-慣導跟蹤結果對比。數據集包括室內室外場景,包括樓梯、手扶梯、升降梯、辦公環境、商場和地鐵站。
【關鍵詞】VIO、導航、基準數據集
數據集下載鏈接:https://github.com/AaltoVision/ADVIO
?
1、引言
? ? ? ?最近出現了各種系統和方法來跟蹤基于攝像機和慣性測量單元(IMUS)的手持或可穿戴移動設備的運動。同時存在開源的方法和非公開的專用系統(Google的ARCore,Apple的ARKit在各自制造商的旗艦智能手機型號上運行)。移動設備的其他例子包括谷歌Tango平板設備和微軟HoloLens增強現實眼鏡。開發智能移動設備的里程計算法的主要動機是支持需要精確實時跟蹤自我運動的增強現實應用。這些應用在很多領域具有重要的價值,比如建筑和設計,游戲和娛樂,遠程呈現,教育和培訓。
? ? ? 雖然VIO有著重要的學術和商業價值,該領域的發展受限于缺少公開的數據集和基準,并用來對提出的算法進行公平的比較,推動現有最好系統的不斷提升和進一步發展。例如,由于每個系統的性能取決于所使用的算法和傳感器,很難公平地比較方法的進步和算法的貢獻,因為來自硬件和軟件的因素可能是混合的。此外,由于許多現有的數據集要么是在較小的空間中捕獲的,要么是利用了比低成本消費設備更好的傳感器硬件,很難評估現有的方法在手機端上能否實現中遠距測距或大尺度SLAM。
? ? ? ?此外,使用智能手機傳感器采集的真實感傳感器數據,再加上足夠精確的真值,將有助于加快學術研究的進展,并降低新研究人員進入該領域的門檻。許多計算機視覺問題清楚地證明了公共數據集和基準作為推動快速發展的動力的重要性,如圖像分類[9,19],目標檢測[13],立體重建[10]和語義分割[13,6]等等。然而,對于視覺慣性里程計(VIO),沒有公開可用的數據集或基準,可以在典型的智能手機環境中評估最近的方法。此外,由于開源軟件文化在這一研究領域并不像在圖像分類和目標檢測方面那樣普遍,因此研究環境對于促進快速發展并不是最理想的。此外,由于上述原因,這一領域有一種危險,即只有大公司資助的大型研究小組才能進入這一領域,這將減緩進展,使開放的學術研究走向衰敗。
? ? ??在這項工作中,我們提出了一個數據集,旨在促進智能手機或其他帶有低成本傳感器(卷簾相機、MEMS慣性器件)的移動終端上的VIO和SLAM方法的發展。我們的傳感器數據通過iPhone 6s手機采集,包括真值位姿軌跡和從傳感器采集的原始數據流(RGB視頻相機、加速度計、陀螺儀、磁力計、平臺提供的地理坐標、氣壓計)。總共采集了4.5Km的序列,包括在室內室外各種環境下的手持運動。數據集是在公共場所收集的,符合當地關于拍攝和出版的法律規定。真值的計算方法是將最近的純慣性導航系統(INS)[24]與基于精密地面平面圖的頻繁手動定位相結合,驗證了地面真實值的質量,并對其精度進行了估計。除了基準數據集外,我們還對視覺慣性進行了比較。
? ? ? ?除了基準數據集,我們比較了VIO算法,包括三個最近的專有平臺:ARCore on?a Google Pixel device, Apple ARKit on the iPhone, and Tango odometry on?a Google Tango tablet device,以及兩個最近發布的VIO算法:ROVIO和PIVO。比較數據由捕獲設備上的三個設備采集,圖1進行了介紹說明。數據采集的常用應用也應用到每個設備中。
? ? ? 我們工作的主要貢獻概述如下:
? ? ? (1)一個帶有6自由度的iphone傳感器數據的公開數據集,可為現實生活應用場景中的單目VIO提供基準,這些場景包括各種環境中的運動,還包括樓梯、電梯和自動扶梯;
? ? ? (2)比較最新的VIO平臺和算法;
? ? ? (3)提出一種在真實使用場景中,將純慣性導航與手動定位相結合的智能手機里程計的真值采集方法;
?
2、相關工作
? ? ? ?盡管視覺慣性里程計(VIO)是對手持設備和可穿戴設備進行實時跟蹤的最有希望的方法之一,但目前還缺乏用于對不同方法進行基準測試的良好的公共數據集。相關基準應該包括帶有同步時間戳的視頻和慣性傳感器記錄,最好是用消費類智能手機傳感器捕獲。此外,數據集應該是真實的,并說明實際的應用場景。也就是說,它應該包含具有稀有視覺特征的具有挑戰性的環境,無論是室內還是室外,以及各種不同的運動,還包括快速旋轉而不進行平移,因為它們對于單目視覺測量來說是有問題的。我們的工作是第一個解決這一需求的。
? ? ? ?關于純視覺測徑或SLAM,有幾個數據集和基準可用[23,6,8,26],但它們缺少慣性傳感器數據。此外,其中許多數據集是有限的,因為它們:
? ? ? ?(1)使用地面車輛記錄,因此沒有快速旋轉[23,6];
? ? ? ?(2)不包含低紋理室內場景[23,6];
? ? ? ?(3)用定制硬件(如魚眼鏡頭或全球快門照相機)拍攝[8];
? ? ? ?(4)缺乏充分的6自由度真值[8];
? ? ? ?(5)限制在較小的環境,因此是SLAM系統的理想場景,但不適用于中遠距離導航基準里程計[26]。
? ? ? ?然而,除了純視覺數據集外,還有一些含有慣性傳感器數據的公共數據集,例如[10、5、4、3、18]。大部分這些數據集都是用傳感器嚴格地連接到輪式地面車輛上記錄的。例如,廣泛使用的Kitti數據集[10]包含從一輛移動汽車上激光雷達掃描和多個攝像機錄制的視頻。真值使用一個非常精確的GPS/IMU定位單元與RTK校正信號。但是IMU采集頻率只有10Hz,這對于劇烈運動的手持設備來說是不夠的。進一步講,即便高頻率的IMU數據可用,KITTI數據集也受到上面提到的(1)(2)(3)限制,使得它對于智能手機里程計來說是沒有用的。
? ? ?與KITTI的另一個相似之處是,我們也使用帶有外部定位的純慣性導航來確定地面真值。在我們的例子中,由于GPS在室內是不準確或不可用的,所以GPS校正將被手動定位校正所取代。此外,與Kitti相反,通過利用最近慣性導航[24]的進展,我們能夠使用iphone的慣性傳感器進行真值計算,因此不依賴高級別的IMU,過去這對于手持式的設備來說很難達到。在我們的情況下,手動定位修復是從參考視頻確定的(圖3a),通過查看視頻進行視覺識別地標,從精確的建筑平面圖或航空圖像中準確地定位地標。不使用光學方法建立真值的好處是,我們可以很容易地記錄長序列,并且記錄設備的相機可以收到暫時的遮擋。這使得我們的基準也適用于評估VIO方法的遮擋魯棒性[25]。和KITTI一樣,Rawseeds[5]和NCLT[4]數據集也是用輪式地面車輛記錄的。它們都使用自定義傳感器(例如全向攝像機或工業級IMU)。這些數據集用于評估緩慢移動車輛的測向和自我定位,而不適合于手持設備和增強現實的VIO方法的基準測試。
? ? ??與我們最相關的數據集是Euroc[3]和PennCOSYVIO[18]。Euroc提供用全域快門立體相機和戰術級IMU在微型飛行器(MAV)上捕獲的視覺和慣性數據[17]。這些序列記錄在兩個不同的房間,其中配備了運動捕捉系統或激光跟蹤器,以獲得準確的運動真值。在 PennCOSYVIO中,數據采集是使用一個手持平臺進行的,它包含兩個Google?Tango平板電腦、三個Gopro 4攝像頭和一個類似于Euroc的視覺慣性傳感器單元。這些數據是通過在大學校園幾次步行150米的路徑收集到的,真值是通過光學標記獲取的。由于需要光學定位來確定真值,Euroc和 PennCOSYVIO都只包含少數幾個相對小規模的環境的數據。此外,這兩個數據集都使用相同的高質量定制傳感器和寬視場立體相機[17]。相反,我們的數據集包含大約4.5公里的序列,這些序列是在幾個不同的建筑和不同的室外環境中,用普通智能手機傳感器記錄的。此外,我們的數據集包含樓梯、電梯和自動扶梯的運動,如圖2所示,還包括臨時遮擋和缺乏視覺特征。我們不知道有任何類似的公共數據集。表1總結了不同數據集的性質。我們靈活的數據收集過程的有利因素是利用純慣性導航的最新進展和人工定位修正[24]。事實上,確定真值的方法是我們工作的貢獻之一。此外,作為第三個貢獻,基于我們的挑戰性數據集,比較了最近的VIO方法和專用的最先進的平臺。
?
3、數據采集
? ? ? 數據是用三個設備(iPhone6s,Pixel,Tango)嚴格地連接到一個鋁架上記錄的(圖1)。此外,我們使用一個額外的相機視頻拍攝記錄人并記錄下采集過程(圖3)。
? ? ? ?對于2D地圖(即結構平面圖或航空圖像/地圖),手動定位是從外部攝像機的角度確定的。由于設備是手持的,在大多數固定位置,高度是以高于地面水平的恒定距離(具有合理的不確定性估計)給出的,這樣優化后的軌跡才能最佳地平衡固定位置和IMU信號的信息(第4節詳細介紹)。
? ? ? ?使用網絡提供的時間同步來自所有四個設備的數據流。也就是說,在捕獲會話開始時,設備時鐘通過網絡時間協議(NTP)請求進行同步。在記錄過程中,所有設備都連接到4G網絡上,并且為了能夠在同一坐標系下對數據進行分析,我們通過捕獲棋盤的多個視圖來校準所有相機的內外參數。這是在每次步驟之前進行的,以解釋運輸和儲存過程中的微小運動。記錄的數據流列于表2中。
3.1?Raw iPhone Sensor Capture
? ? ? ?基于Swift 4開發了一個iOS數據采集應用程序,它保存了與蘋果Arkit姿態估計同步的慣性和視覺數據。所有單個數據點都在內部加蓋時間戳,然后同步到全局時間。全局時間是使用Kronos Swift NTP client獲取的。這些數據是用運行iOS 11.0.3的iPhone6S采集的。同樣的軟件和相同的iPhone被用來收集參考視頻。之所以選擇這款手機,是因為iphone 6s(2015年發布)在硬件上更接近于普通智能手機,而不是最新的旗艦iPhone,而且與谷歌像素硬件也很匹配。
? ? ??在捕捉過程中,相機由ARKit服務控制,它執行通常的自動曝光和白平衡,但焦距保持固定(ARkit返回的相機矩陣存儲在捕獲過程中)。分辨率也由ARKIT控制,為1280*720。幀被打包成一個H.264/MPEG-4視頻文件。全球導航衛星系統/網絡定位數據是通過協同定位方案收集的,請求的位置精度為“kCLLocationAccuracyBest”。定位服務提供緯度和經度、水平精度、高度、垂直精度和速度。加速度計、陀螺儀、磁強計和氣壓計數據通過CoeMotion API收集,并以最大速率記錄。表2給出了多個數據流的近似捕獲率。磁強計值沒有校準,氣壓計采樣值既包含氣壓,又包含相關的相對高度讀數。
?
3.2?Apple ARKit Data
? ? ? ?捕獲原始數據的應用程序運行ARKit框架。它提供了與每個視頻幀相關聯的姿態估計。將姿態保存為平移向量和以歐拉角表示的旋轉。每個姿態相對于手機創建的全局坐標幀。
?
3.3 Google ARCore Data
? ? ? ?我們根據谷歌的ARCore示例編寫了一個應用程序,用于捕獲ARCore跟蹤結果。與ARKit一樣,姿態數據包含到捕獲的第一幀的轉換和到全局坐標框架的旋轉。與ARKIT不同的是,方向被存儲為單位四元數。注意捕獲速率比ARKit慢。我們不保存視頻幀或傳感器數據在Pixel上。數據采集使用Google Pixel device?運行ndroid 8.0.0,并使用Tango Core AR developer preview得到。
?
3.4 Google Tango Data
? ? ? ?基于Paraview?Project,[11]開發和發布了一個數據采集APP,在此基礎上進行了修改以收集相關數據。捕獲數據包括設備相對于第一幀的位置、全局坐標中的方位、魚眼灰度圖像和深度傳感器產生的點云。Tango service?運行在基于Android?4.4.2 and?使用?Tango Core Argentine的Project Tango tablet?上。 Tango service輸出兩組位姿,Raw odometry(不帶回環)?和?Area learning(帶回環)。 Raw odometry是在沒有長期內存的情況下建立幀的,而 Area learning使用正在進行的地圖構建來封閉回環和減少漂移。這兩個軌跡都被捕獲和保存。
?
3.5 Reference Video and Locations
? ? ? ?本文的一個重要貢獻是靈活的數據采集框架,它使我們能夠在大型環境中捕獲實際的場景。在這種情況下,使用視覺標記、運動捕捉或激光掃描器獲取真值是不可行的。相反,我們的工作利用了純慣性導航和手動定位修復,如4.1節所述。為了獲得定位修復,我們記錄了一個額外的參考視頻,這是由一個輔助人員在離實際采集人很短的距離處采集得到的。圖3a舉例說明了這類視頻的一個示例框架,參考視頻使我們能夠確定數據收集設備相對于環境的位置,并獲得純慣性導航方法的手動定位固定裝置(受測量噪聲影響)[24]。
? ? ??在實踐中,使用為本文開發的位置標記工具作為后處理步驟,可以瀏覽視頻,并在相應的平面圖圖像上標記手動位置修復。在容易確定相對于平面圖圖像的設備位置的場合(例如,在自動扶梯的開始和結束、進入和退出電梯、通過門或走過建筑物的拐角處),插入位置校正(location fixes)。在我們所有的記錄數據中,很容易找到足夠的這樣的實例來建立一個準確的真值。請注意,它足夠手動確定設備的位置,而不是定位。
? ? ? ?初始位置的確定必須從平面圖的像素坐標進一步轉換為公制的世界坐標,這首先是通過使用人工測量的參考距離(例如柱子之間的距離)將像素轉換成米來完成的。然后,使用手動確定的地標點(例如柱子或樓梯)和地面高度測量來相互注冊平面圖圖像。
?
4?方法
4.1 Ground-Truth
? ? ? ?真值是在[24 ]中提出的純慣性里程計算法的一種實現,其中使用外部參考視頻記錄了人工固定點(見3.5節)。用于獲取真值的純慣性導航系統中使用的IMU數據來自iphone,并且該部分數據共享為數據集的一部分。此外,還為iPhone IMU獲取了額外的校準數據,包括加性陀螺儀偏差、加性加速度計偏差和乘性加速度計比例尺偏差。
? ? ? ?iPhone姿態軌跡(位置和方向)的推斷如[24]所述,增加了狀態估計、附加校準數據和手動定點的融合。姿態軌跡對應的INS估計值與固定校正點和外部校準有關。
? ? ? ?考慮到固定點位置的不確定性和不精確性,不強制要求手機的跟蹤與這些固定點完全匹配,而是在固定位置點包括一個高斯測量噪聲項,其標準偏差為25厘米(在所有方向)。這允許估計軌跡與固定點不同。在樓層間上下時,位置固定點被給定為未知高度的三維位置或2D點。
? ? ? ?推理問題最終用擴展卡爾曼濾波器(前通)和擴展的Ruch-Ton-Striebel平滑器(后傳,見[24]中的技術細節)解決。由于這里不需要實時計算,我們也可以使用批處理優化,但這不會導致結果發生明顯的變化。手工逐幀檢查計算出的軌跡,并通過額外的固定點對姿態軌跡進行改進,直到軌道與所有三個攝像機和平面圖圖像中所看到的運動相匹配為止。圖2c顯示了估計的估計的真值軌跡的例子。垂直線是在乘坐電梯(停在每一層)。如果放大,可以看到人行走的周期性運動,從補充材料中的示例視頻中也可以查看所獲得的精度。
?
4.2 Evaluation Metrics?評估方法
? ? ? ?對于在采集數據的過程中動態采集到的里程計結果,我們提出了以下評價方法:所有數據首先臨時對齊同一個全局時鐘(由NTP請求在捕獲數據時獲取),使得時間對齊精確到1-2秒。通過最大限度地減小裝置偏航和橫滾角之間的中位誤差來確定一個恒定的時間偏移,從而進一步改進了時間對準。這種對齊兼顧了設備間的時間配準誤差和測向方法中的內部延遲。
? ? ? ?在時間對齊之后,三個設備提供的軌跡被切成相同的長度,覆蓋相同的時間跨度,因為不同設備的錄音的啟動和停止時間可能有幾秒的差異。垂直方向已經與重力對齊。考慮到設備、估計位姿和真值之間的相對姿態,我們估計了估計軌跡和地面之間的平面剛性變換(2d旋轉和平移)-基于每種方法中估計值的前60s的真值(使用整個路徑對結果沒有明顯的影響)。不使用校準的相對姿態的原因是,特別是ARCore(ARKit偶爾)在軌道的開始處顯示了劇烈跳變,這將對該方法產生相當大的影響并破壞了這些數據集。
? ? ? ?所有對齊軌跡都從原點開始,我們測量每一種方法給出的估計輸出與真值的絕對誤差,并將絕對位置誤差的經驗累積分布函數定義為:
?
其中,1e是事件e的指示函數,e是相對于真值的絕對位置誤差的向量,n是位置的個數。
?
5 Data and Results 數據和結果
? ? ? ?該數據集包含在6個不同位置拍攝的23個單獨的序列,所有序列的總長度為4.47公里,總持續時間為1小時8分鐘。有19個室內和4個室外序列。在室內序列中,平均每3.7米(或3.8秒)有一個手動固定點,而在每14.7米(或10秒)室外有一個手動固定點。所有序列的三維軌跡真值在補充材料中得到了說明,并給出了更多的細節。此外,補充視頻還說明了其中一個序列及其真值,并簡要介紹了數據集序列和環境的主要特征。
? ? ? ?我們的數據集主要是針對中、長程里程計設計。最明顯的用例是在大空間內的室內導航,但我們也包含了戶外路徑以保證完整性。在一個7層高的購物中心(135,000平方米)、一個地鐵站和兩個不同的辦公大樓中獲得了室內序列。購物中心和車站位于同一建筑綜合體中。地鐵和公交車站位于底層,采集到的視頻中有大量的移動人員和偶爾可以看到的大型車輛,這對于純視覺里程計具有挑戰性。此外,商場較低的樓層包含大量的移動人員。圖2顯示了購物中心的總體視圖,以及地面真相路徑示例和Tango點云(圖2B)。圖4b展示了商場和車站的實例框架。用例盡可能逼真,包括樓梯、電梯和自動扶梯上的動作,以及暫時遮擋和缺乏視覺特征的區域。購物中心有10個序列,車站有兩個序列。
? ? ? ?在大廳和兩棟辦公樓的走廊里進行了數據采集。它們包含了一些靜止的人和幾個移動的人。順序包括樓梯攀登和乘坐電梯。有封閉和開放的(玻璃)電梯序列,示例框架如圖4a所示。
? ? ? ?室外序列記錄在市中心(城市,兩個序列)和大學校園(郊區,兩個序列)。圖4c和4d顯示了兩個地點的示例幀。城市戶外數據采集是城市街區進行的,它們包括開放的空間、人和車輛。郊區的戶外數據采集是在人口稀少的地區進行的。序列中有少數人步行和一些車輛。大部分空間是開放的。室外序列的平均長度為334.6米,從133米到514米不等。室外序列是在一天中不同的時間獲得的,說明了幾種日光條件。
? ? ? ?圖5a顯示從地面提取的不同運動度量的直方圖。圖5a顯示速度直方圖,它有三個峰值,反映三個主要的運動模式。
從慢到快,它們是自動扶梯、樓梯和步行。圖5b顯示了僅包含自動扶梯和正常步行的一個序列的速度直方圖。定位直方圖顯示,手機通常保持在與載體相同的位置(縱向方向,略微向下)。俯仰角反映了航向的均勻分布。
?
5.1 Benchmark Results
? ? ? ?我們使用原始的iPhone數據對兩個研究級別的VIO系統進行評估,并在各自設備上運行的三種專有解決方案(Pixel上的ARcore、iPhone上的ARKit和平板電腦上的Tango)。所使用的研究系統是ROVIO[2,1,20]和PIVO[25]。ROVIO是一種相當新的方法,它已經被證明在高質量的IMU和大視場相機數據上能很好地工作。Pivo是最近的一種方法,與使用智能手機數據的Google探戈[25]相比,它顯示出了有希望的結果。對于這兩種方法,都使用了原始作者的實現(ROVIO作為maplab 7的一部分)(在僅限里程計模式下,沒有地圖構建或循環閉包)。我們使用了精確的攝像機參數和從攝像機到imu的剛性變換,并對過程和測量噪聲尺度參數進行了預估計。
? ? ? ?為了測試目的,我們還對原始數據(dso[7]和orb-slam 2[15])進行了兩種僅用視覺測量的方法,這兩種方法都能夠跟蹤路徑的子集,但小視場、旋轉的快速運動和具有挑戰性的環境使它們在所有路徑上都無法成功。
? ? ? ?一般來說,專有系統比研究方法工作得更好,如圖7所示。在室內序列中,所有專有系統一般都工作得很好(如圖7a所示)。Tango有最好的性能,ARKit表現良好和強勁,只有少數明確的失敗案例(95th percentile _10 meters),而Arcore偶爾失敗,顯然由于不正確的視覺回環檢測。包括室外序列稍微改變了度量(圖7b)。ARKit在室外序列有嚴重的漂移問題。在方位誤差方面,所有系統都是精確的,平均誤差小于2度,這是由于陀螺儀在校準良好的情況下,通過對陀螺進行積分跟蹤而實現的。如圖7所示,我們的iPhone數據具有窄視場和低成本的IMU,基于研究的方法面臨挑戰。有許多序列,這兩種方法完全發散(例如圖6)。另一方面,也有一些序列可以很好地工作。這可能部分是因為ROVIO和PIVO在內部動態估計IMU的校準參數(例如加速度計和陀螺儀偏差),而且兩個系統都沒有直接支持提供預先校準的IMU參數作為輸入。ROVIO只考慮加性加速度計的偏差,它在許多序列中顯示為指數爬行,我們用我們的數據提供真值的IMU校準參數,因此也可以用預先校準的值來評估它們的性能。或者,部分序列可用于自校準,其他用于測試。專有系統可能從工廠校準的參數中受益。圖5e和圖6顯示了結果的示例。在這些情況下,所有商業解決方案都運行良好。盡管如此,ARCore在戶外路徑開始時仍然存在一些問題。此外,在多層樓的情況下,漂移通常更為嚴重,而且有一些序列顯示,專有系統也有明顯的故障。
? ? ? ?一般來說,ROVIO在處理視覺數據和慣性數據之間的存在的長期遮擋和不一致方面存在問題。此外,在圖5e中,它的標度很明顯不準確,這很可能是由于加速度中沒有建模的尺度偏差(scale bias),而這種偏差顯然不足以滿足消費者級傳感器的要求,這些傳感器也表現出乘性的偏差(multiplicative?biases)[22]。另一方面,PIVO采用了加性和乘性加速度計偏差的模型。然而,使用PIVO,主要的挑戰似乎是,如果沒有適當的運動,從零開始在線校準各種IMU參數需要相當長的時間,從而減緩收斂到正確的軌道上。
?
6 Discussion and Conclusion?討論和總結
? ? ? ?我們提出了第一個使用標準智能手機傳感器的手持設備遠距離視覺慣性里程計的公共基準數據集。該數據集包含23條記錄在不同真實環境中多層樓內的23個序列。序列的總長度為4.5km。此外,我們還提供了三種專用VIO平臺和兩種最新的學術VIO方法的定量比較,其中我們使用了原始的傳感器數據。據我們所知,這是第一次背靠背比較ARKit, ARCore, and Tango。
? ? ??蘋果的ARKit在大多數場景中表現很好。只有在一個較難的室外序列中,ARKit出現了典型的慣性推算失敗,估計的位置失去控制完全錯誤。與ARKit相比,Google的ARCore表現出更積極的視覺回環功能,而ARKit則出現在假陽性的“跳躍”,散落在軌道上(在視覺上相似的區域之間)。Tango中的專用硬件給了它優勢,這也可以在圖7中看到。區域學習( 帶回環)是測試的最魯棒和準確的系統。然而,所有的系統在開放的電梯中都表現得比較好,玻璃墻讓攝像機看到電梯運動時打開的大廳。在關閉電梯的情況下,沒有一個系統能夠將慣性運動與靜態視覺場景相協調。從ROVIO和PIVO的結果來看,這種數據集的需求是顯而易見的。該研究領域需要挑戰狹隘的視野和低性能IMU的數據,以開發和測試新的VIO方法,這些方法可以推廣到消費級硬件。
? ? ? 數據采集過程可以很好地擴展到新的環境。因此,將來可以用相當小的努力來擴展數據集。數據集的目的是使視覺慣性測定儀的方法能夠進行公平的比較,并加快這一研究領域的發展。這是相關的,因為VIO是用于增強現實中對移動設備的實時跟蹤,目前最常用的方法。
? ? ??有關數據集和下載鏈接的更多細節可以在網頁上找到:https:/github.com/aaltovision/advio。
?
References
1. Bloesch, M., Burri, M., Omari, S., Hutter, M., Siegwart, R.: Iterated extended?Kalman filter based visual-inertial odometry using direct photometric feedback.?International Journal of Robotics Research 36(10), 1053–1072 (2017) 3, 12
2. Bl?sch, M., Omari, S., Hutter, M., Siegwart, R.: Robust visual inertial odometry?using a direct EKF-based approach. In: Proceedings of the International Conference?on Intelligent Robots and Systems (IROS). pp. 298–304. Hamburg, Germany?(2015) 1, 3, 12
3. Burri, M., Nikolic, J., Gohl, P., Schneider, T., Rehder, J., Omari, S., Achtelik,?M.W., Siegwart, R.: The EuRoC micro aerial vehicle datasets. International Journal?of Robotics Research 35, 1157–1163 (2016) 4, 5
4. Carlevaris-Bianco, N., Ushani, A.K., Eustice, R.M.: University of Michigan North?Campus long-term vision and LIDAR dataset. International Journal of Robotics?Research 35, 1023–1035 (2015) 4, 5
5. Ceriani, S., Fontana, G., Giusti, A., Marzorati, D., Matteucci, M., Migliore, D.,?Rizzi, D., Sorrenti, D.G., Taddei, P.: Rawseeds ground truth collection systems for?indoor self-localization and mapping. Autonomous Robot 27(4), 353–371 (2009)?4, 5
6. Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R.,?Franke, U., Roth, S., Schiele, B.: The Cityscapes dataset for semantic urban scene?understanding. In: Proceedings of the IEEE Conference on Computer Vision and?Pattern Recognition (CVPR). pp. 3213–3223. Las Vegas, USA (2016) 2, 4
7. Engel, J., Koltun, V., Cremers, D.: Direct sparse odometry. IEEE Transactions on?Pattern Analysis and Machine Intelligence 40(3), 611–625 (2018) 12
8. Engel, J., Usenko, V.C., Cremers, D.: A photometrically calibrated benchmark for?monocular visual odometry. arXiv preprint arXiv:1607.02555 (2016) 4
9. Everingham, M., Eslami, A., Van Gool, L., Williams, I., Winn, J., Zisserman, A.:?The PASCAL visual object classes challenge: A retrospective. International Journal?of Computer Vision (IJCV) 111(1), 98–136 (2015) 2
10. Geiger, A., Lenz, P., Urtasun, R.: Are we ready for autonomous driving? The?KITTI vision benchmark suite. In: Proceedings of the IEEE Conference on Computer?Vision and Pattern Recognition (CVPR). pp. 3354–3361. Providence, Rhode?Island (2012) 2, 4
11. Laskar, Z., Huttunen, S., Herrera, D., Rahtu, E., Kannala, J.: Robust loop closures?for scene reconstruction by combining odometry and visual correspondences. In:?Proceedings of the International Conference on Image Processing (ICIP). pp. 2603–?2607. Phoenix, AZ, USA (2016) 8
12. Li, M., Kim, B.H., Mourikis, A.I.: Real-time motion tracking on a cellphone using?inertial sensing and a rolling-shutter camera. In: Proceedings of the International?Conference on Robotics and Automation (ICRA). pp. 4712–4719 (2013) 1
13. Lin, T., Maire, M., Belongie, S.J., Hays, J., Perona, P., Ramanan, D., Dollár,?P., Zitnick, C.L.: Microsoft COCO: Common objects in context. In: Proceedings?of the European Conference on Computer Vision (ECCV). pp. 740–755. Zurich,?Switzerland (2014) 2
14. Mourikis, A.I., Roumeliotis, S.I.: A multi-state constraint Kalman filter for visionaided?inertial navigation. In: Proceedings of the International Conference on?Robotics and Automation (ICRA). pp. 3565–3572. Rome, Italy (2007) 1
15. Mur-Artal, R., Tardós, J.D.: ORB-SLAM2: An open-source SLAM system for?monocular, stereo and RGB-D cameras. IEEE Transactions on Robotics 33(5),?1255–1262 (2017) 12
16. Mur-Artal, R., Tardós, J.D.: Visual-inertial monocular SLAM with map reuse.?Robotics and Automation Letters 2(2), 796–803 (2017) 1
17. Nikolic, J., Rehder, J., Burri, M., Gohl, P., Leutenegger, S., Furgale, P.T., Siegwart,R.: A synchronized visual-inertial sensor system with FPGA pre-processing for?accurate real-time SLAM. In: Proceedings of the IEEE International Conference?on Robotics and Automation (ICRA). pp. 431–437. Hong-Kong, China (2014) 5
18. Pfrommer, B., Sanket, N., Daniilidis, K., Cleveland, J.: PennCOSYVIO: A challenging?visual inertial odometry benchmark. In: Proceedings of the IEEE International?Conference on Robotics and Automation (ICRA). pp. 3847–3854. Singapore?(2017) 4, 5
19. Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z.,?Karpathy, A., Khosla, A., Bernstein, M., Berg, A., Fei-Fei, L.: ImageNet Large?Scale Visual Recognition Challenge. International Journal of Computer Vision?(IJCV) 115(3), 211–252 (2015) 2
20. Schneider, T., Dymczyk, M.T., Fehr, M., Egger, K., Lynen, S., Gilitschenski, I.,Siegwart, R.: Maplab: An open framework for research in visual-inertial mapping?and localization. IEEE Robotics and Automation Letters 3(3), 1418–1425 (2018)?12
21. Sch?ps, T., Engel, J., Cremers, D.: Semi-dense visual odometry for AR on a smartphone.?In: Proceedings of the International Symposium on Mixed and Augmented?Reality (ISMAR). pp. 145–150 (2014) 1
22. Shelley, M.A.: Monocular Visual Inertial Odometry on a Mobile Device. Master’s?thesis, Technical University of Munich, Germany (2014) 13
23. Smith, M., Baldwin, I., Churchill, W., Paul, R., Newman, P.: The New College?vision and laser data set. International Journal of Robotics Research 28(5), 595–?599 (2009) 4
24. Solin, A., Cortes, S., Rahtu, E., Kannala, J.: Inertial odometry on handheld smartphones.?In: Proceedings of the International Conference on Information Fusion?(FUSION). Cambridge, UK (2018) 3, 5, 8, 9
25. Solin, A., Cortes, S., Rahtu, E., Kannala, J.: PIVO: Probabilistic inertial-visual?odometry for occlusion-robust navigation. In: Proceeding of the IEEE Winter?Conference on Applications of Computer Vision (WACV). Lake Tahoe, NV, USA?(2018) 3, 5, 12
26. Sturm, J., Engelhard, N., Endres, F., Burgard, W., Cremers, D.: A benchmark?for the evaluation of RGB-D SLAM systems. In: Proceedings of the International?Conference on Intelligent Robot Systems (IROS). pp. 573–580 (2012) 4
?
補充材料
A Description of supplementary video
所附的補充視頻顯示了數據集序列16的真值軌跡(在這兩幢辦公樓中的一幢采集)。可視化軌跡是從整個IMU數據序列中計算出的真值軌跡。用于軌跡計算的固定點由dots可視化。當前地板上的軌道顯示為紅色。視頻已被加速。
?
B Details on collected data
B.1 Ground-truth
Ground-truth poses:根據原始的IMU數據和一組已知的固定點計算相機的姿態(平移和方位)。在100 Hz處采樣真值軌跡。
Fix points:一組以視覺編輯為標志的真值點。這些要點是基于系統存儲的三個視頻(主要是iphone和第二部iphone,其中記錄了記錄捕獲者的參考軌跡)和平面圖布局。
?
B.2 iPhone
Camera frames:相機幀在60fps(1280*720,縱向)時被捕獲。平臺獲取的準確幀采集時間被存儲。這些幀被打包到一個H.264/MPEG-4視頻文件中。
Platform location:?通過核心定位收集的數據。更新速度取決于設備及其功能。所要求的位置具有所需的kCLLocationAccuracyBest。將時間戳轉換為與其他傳感器相同的時鐘(自設備啟動以來的時間間隔)。
Accelerometer:?通過CoreMotion/CMMotionManager采集,100Hz(最大采集速率)
Gyroscope:?通過CoreMotion/CMMotionManager采集,100Hz(最大采集速率),請注意,讀數在蘋果設備坐標系中(這里沒有任何改變)。
Magnetometer:?通過CoreMotion/CMMotionManager采集,100Hz(最大采集速率),值是三軸磁強計的讀數。所有的數值都是未校準的。
Barometric altimeter:?CoreMotion/CMAltimeter采集,以不均勻的采樣率(1Hz)獲取的。采樣數據回調到達時被存儲。實際氣壓值為0,推斷的相對高度(用蘋果magic計算)儲存在Value 1中。
ARKit poses:?蘋果ARKit的位姿(平移和旋轉)是在60Hz采集的。ARKit在iPhone上報告的相機參數也被存儲在iPhone上。
?
B.3 Tango
Tango poses (raw):?谷歌Tango原始姿態(平移和旋轉)在60Hz捕獲。
Tango poses (area learning):? 60Hz。
Camera frames:?視頻從Tango廣角(魚眼)攝像機上 在5 fps/640*480捕獲。這些幀被打包成一個MPEG-4視頻文件。
Tango point clouds:?Tango裝置采集的 Tango點云數據,與設備的當前姿態對齊。采樣率不均勻。
?
B.4 Pixel
ARCore poses: The Google ARCore poses (translation and orientation) are?captured at 30 Hz.
?
C Dataset structure
為了最大限度地兼容,所有數據都以開放和簡單的文件格式發布。逗號分隔值(CSV)文件在第一列中保存時間戳,并在后面的列中保存相應的數據。所有時間戳在傳感器類型和設備之間同步。
攝像機幀存儲為H.264/MPEG視頻,相關的幀時間戳可在單獨的CSV文件中使用。一個數據集的文件夾結構如下所示:
?
?
?
E Data set paths
下表列出了每個路徑形狀(頂部/側面視圖)和匯總信息。
?
總結
以上是生活随笔為你收集整理的【论文翻译】ADVIO: An Authentic Dataset for Visual-Inertial Odometry的全部內容,希望文章能夠幫你解決所遇到的問題。