谷歌预测景深新研究:单一视点也能合成3D深度图
一個你邊走邊拍得到的普通視頻,現在也能重建出精準的3D世界了。
這一次,谷歌用深度學習的方法,不僅從視頻中重建了移動對象的景深圖,而且效果精準驚艷。即使拍攝相機和人物同時在運動,也能很好重建景深圖。
輸入這樣的視頻:
谷歌在博客中表示,這是世界首個在攝像機和人體同時運動情況下的深度學習景深預測算法,優于制作深度圖的最先進工具。
半天時間,推特有近千次的點贊,網友表示:“超級酷”。
研究論文也被CVPR 2019 接收,脫穎而出成為一篇Oral論文。
學習先驗
讓網友high起來的點在于,傳統的創建景深圖的方法,需要至少兩個視點同時捕捉影像。通過兩個不同的視角在同一時間段的變化軌跡,才能拼接重建出3D的影像。
就像下面這樣:
而谷歌的這項研究,只需要用一個視點的影像即可預測位置關系進行重建,比傳統方法簡化了不是一星半點,變成了下面這樣:
在論文Learning the Depths of Moving People by Watching Frozen People中,研究人員介紹了具體的設計細節。
和傳統方法最大的改進在于,谷歌的新方法可以用深度學習,從數據中學習人體姿態和形狀的先驗知識,避開了直接的3D三角測量(3D triangulation)。
這個模型應該如何去構建? 鄭州不孕不育醫院:http://jbk.39.net/yiyuanzaixian/zztjyy/鄭州不孕不育醫院哪家好:http://jbk.39.net/yiyuanzaixian/zztjyy/鄭州不孕不育醫院排行:http://jbk.39.net/yiyuanzaixian/zztjyy/
如何獲取訓練數據是擺在前面的第一個問題,在這個數據集中,需要移動的攝像機拍攝的自然場景視頻,以及精確的深度圖。這樣的數據集,似乎在谷歌家族產品中就能找到。
研究人員選取了YouTube上關于#假人挑戰#(Mannequin Challenge)話題的數據,在這種類型的視頻中,被拍攝者需做出一個定格動作,且要表現與人體模型一樣靜止不動,并由攝影師透過移動鏡頭的技巧進行拍攝:
有了這些數據,再利用多視角立體( Multi-View Stereo,MVS)算法,就可以獲取到包含其中人物在內整個場景的深度圖了。
總結
以上是生活随笔為你收集整理的谷歌预测景深新研究:单一视点也能合成3D深度图的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《统计学》学习笔记之导论
- 下一篇: 《统计学》学习笔记之数据的收集