实时SLAM的未来及深度学习与SLAM对比
第一部分:為什么SLAM重要
vSALM(Visual SLAM)能夠在跟蹤攝像機(用于AR的手持或者頭盔,或者裝備在機器人上)位置和方位的同時構(gòu)建三維地圖. SLAM算法與ConvNets和深度學習是互補的。SLAM關注幾何問題,而深度學習主要關注識別問題。如果你想讓機器人走到冰箱面前而不撞到墻,就用SLAM。如果你想讓機器人識別冰箱里的物品,就用ConvNets。http://openmvg.readthedocs.io/en/latest/
SLAM相當于實時版本的SFM(Structure From Motion)。vSLAM使用攝像機,放棄了昂貴的激光傳感器和慣性傳感器(IMU)。單目SLAM使用單個相機,而非單目SLAM通常使用預先標定好的固定基線的立體攝像機。SLAM是基于幾何方法的計算機視覺的一個主要的例子。事實上,CMU(卡內(nèi)基梅隴大學)的機器人研究機構(gòu)劃分了兩個課程:基于學習方法的視覺和基于幾何方法的視覺。
SFM vs vSLAM
SFM和SLAM解決的是相似的問題,但SFM是以傳統(tǒng)的離線的方式來實現(xiàn)的。SLAM慢慢地朝著低功耗,實時和單個RGB相機模式發(fā)展。下面是一些流行的開源SFM軟件庫。
- Bundler: 一個開源SFM工具箱,http://www.cs.cornell.edu/~snavely/bundler/
- Libceres: 一個非線性最小二乘法庫(對bundle adjustment問題非常有用),http://ceres-solver.org/
- Andrew Zisserman's多視圖幾何Matlab函數(shù)庫,http://www.robots.ox.ac.uk/~vgg/hzbook/code/
vSLAM vs 自動駕駛
自動駕駛汽車是SLAM最重要的一個應用領域。未來很多年里,在自動駕駛領域?qū)⒊掷m(xù)地研究SLAM。
第二部分:實時SLAM的未來
Andres Davison做了一個非常精彩的關于15年來基于視覺的SLAM的總結(jié)。過去10-15年來最典型的幾個SLAM系統(tǒng)如下:
- MonoSLAM
- PTAM
- FAB-MAP
- DTAM
- KinectFusion
Davison vs Horn: 機器人視覺的下一篇
Davision正在寫一本新的機器人視覺的書,該書第一版由B.K. Horn1986年出版。另外有兩本很優(yōu)秀的圖書值得學習。他們分別是Hartlet等著的<Multiple View Geometry>和Thrun等著的<Probabilistic Robotics>。這兩本書可堪稱SLAM的經(jīng)典基礎,必讀。
參考:Davison的15年來的基于視覺的SLAM的PPT鏈接地址:http://wp.doc.ic.ac.uk/thefutureofslam/wp-content/uploads/sites/93/2015/12/slides_ajd.pdf
Talk 1: Christian Kerl on Continuous Trajectories in SLAM
Talk 2: Semi-Dense Direct SLAM by Jakob Engel
LSD-SLAM在2014年的ECCV上誕生,是我比較喜歡的一個SLAM系統(tǒng)。LSD_SLAM是Large-Scale Direct Monocular SLAM的縮寫。LSD-SLAM對SLAM研究者來說是一個重要的系統(tǒng),因為它沒有使用角點(corners)或者其他任何本地特征(local features)。
原文:LSD-SLAM is an important system for SLAM researchers because it does not use corners or any other local features.?Direct tracking is performed by image-to-image alignment?using a coarse-to-fine algorithm with a robust Huber loss. This is quite different than the feature-based systems out there. Depth estimation uses an inverse depth parametrization (like many other SLAM systems) and uses a large number or relatively small baseline image pairs. Rather than relying on image features, the algorithms is effectively performing “texture tracking”. Global mapping is performed by creating and solving a pose graph "bundle adjustment" optimization problem, and all of this works in real-time. The method is semi-dense because it only estimates depth at pixels solely near image boundaries. LSD-SLAM output is denser than traditional features, but not fully dense like Kinect-style RGBD SLAM.
LSD-SLAM的擴展包括Omni(全景) LSD-SLAM和Stereo(立體) SLAM。
Talk 3: Sattler on The challenges of Large-Scale Localization and Mapping
Talk 4: Mur-Artal on Feature-based vs Direct-Methods
ORB-SLAM的創(chuàng)建者Raúl Mur-Artal的演講集中在Feature-based和Direct-methond的爭論上。他堅定地站在feature-based這邊。ORB-SLAM是一個優(yōu)秀的開源SLMA系統(tǒng)。
Talk 5: Project Tango and Visual loop-closure for image-2-image constraints
谷歌的Project Tango是世界上首個試圖將SLAM商業(yè)化的產(chǎn)品。谷歌想將SLAM能力納入到下一代Android設備上。
Talk 6: ElasticFusion is DenseSLAM without a pose-graph
ElasticFusion是一個稠密SLAM技術,它需要類似Kinect的RGBD傳感器。
Talk 7: Richard Newcombe’s DynamicFusion
Richard Newcombe是最后一個演講者,他創(chuàng)辦的公司最近被Oculus收購了。看到DTAM,KinectFusion和DynamicFusion背后的人如今投入到VR領域,這真是一件很酷的事。
第三部分:深度學習 vs SLAM
SLAM討論組非常有意思。在我們進入深度學習與SLAM的重要性討論之前,我應該提到每個討論組的演講者都認為:語義(semantics)對于構(gòu)建一個更大,更好的SLAM系統(tǒng)是非常必要的。
集成語義信息進入SLAM
結(jié)束語
今天的SLAM系統(tǒng)幫助機器從幾何的角度來理解現(xiàn)實世界,而深度學習則幫助機器進行合理地分類。最后與大家分享一下Newcombe和Davision在視覺SLAM中的令人興奮的事:基于視覺的算法即將把AR/VR變成數(shù)十億美金的市場。然而,我們不應該忘記密切關注一個萬億美金的市場,那就是機器人。SLAM機器人的時代即將到來。
以上筆記僅供學習參考,由于本人的SLAM基礎尚不扎實,理解難免有偏差。要想全面理解作者的文章,請閱讀原文:http://www.computervisionblog.com/2016/01/why-slam-matters-future-of-real-time.html
總結(jié)
以上是生活随笔為你收集整理的实时SLAM的未来及深度学习与SLAM对比的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从理论到实践,机器人SLAM技术详解
- 下一篇: VSLAM与SLAM联手应对数十万台巡检