利用二维数据学习纹理三维网格生成(CVPR 2020)
點擊上方“3D視覺工坊”,選擇“星標”
干貨第一時間送達
作者丨paopaoslam
來源丨泡泡機器人SLAM?
標題:Leveraging 2D Data to Learn Textured 3D Mesh Generation
作者:Paul Henderson, Vagia Tsiminaki, Christoph H. Lampert
來源:CVPR 2020
編譯:徐奕聰
審核:阮建源 王志勇
摘要
????業(yè)界已經(jīng)提出了若干針對3D物體進行概率生成的建模方法。然而,尚無一種方法可以產(chǎn)生帶紋理的物體,使得這些建模方法的應用場景十分的有限。本文提出了第一種可以生成帶紋理的3D網(wǎng)格的模型。訓練此類模型通常需要大量帶紋理的網(wǎng)格數(shù)據(jù)集,但是現(xiàn)有的網(wǎng)格數(shù)據(jù)集缺乏細致的紋理。于是,我們提出了一種毋需三維信息而是通過二維圖像即可進行學習的方法。我們將每張圖片視為三維前景物體放置在二維背景圖前的渲染,并對此進行建模,來解釋訓練圖像的分布。模型最終習得如何生成一種網(wǎng)格:這種網(wǎng)格在被渲染的時候,生成的2D圖像將盡量接近訓練集中的二維圖像。
????深度神經(jīng)網(wǎng)絡生成網(wǎng)格的過程中,自重疊的出現(xiàn)會帶來一系列的問題。本文的第二處貢獻是我們提出的3D網(wǎng)格的生成方法避免了自重疊的出現(xiàn)。該方法的直觀來源是面在移動過程中會將其他面推開。
????我們進行了廣泛的實驗,用合成數(shù)據(jù)和自然圖像計算了數(shù)值結(jié)果和品質(zhì)測試的計算。結(jié)果顯示我們的方法成功地學習了如何生成帶紋理的3D樣本。這些樣本隸屬于五類較難識別的物體,結(jié)果區(qū)分度高,令人信服。
主要工作與貢獻
????本文的第一個貢獻是提出了針對有紋理的3D形狀的生成模型。第二,也是最主要的貢獻,是用一種方法將該模型訓練為與圖片分布相匹配。我們的模型通過學習,可以用與類似圖片生成的物理過程相似的方式,重新生成訓練圖片集。我們在生成模型的基礎上,使用了圖像形成模型。我們將生成的三維物體放置在相機前,使其在背景前被渲染來得到圖片。一個編碼網(wǎng)絡預測潛在的參數(shù)來產(chǎn)生給定圖片。因此,該模型可以解釋這樣一種訓練圖像的分布,描述了一個3D前景物體在2D背景下的概率模型。使用容量有限的錢在空間對物體多樣性進行建模,我們確保了產(chǎn)生完整一致的三維物體,而不是可以解釋每個訓練圖片個例的不真實的三維圖形。通俗來講,此方法可行的原因是,編碼一個依賴于視角的、體現(xiàn)多個物體片面樣貌的分布,所需要的數(shù)據(jù)量要遠遠大于一個全局最優(yōu)的外觀模型的變種。
方法概述
????我們首先定義了對于有紋理的3D柵格的生成概率模型。每組柵格含有Nv頂點和NF頂點三角形面。每個三角形面賦予一個顏色c。面和頂點之間的映射在計算過程中保持一致。為了產(chǎn)生柵格,模型必須對所有頂點的位置v和面的顏色c進行采樣。
圖:我們首先定義了對于有紋理的3D柵格的生成概率模型。粉色部分是背景圖和3D前景物體生成圖片的模型。通過使用該模型,我們闡述了如何利用2D數(shù)據(jù)進行訓練。綠色部分的編碼模型預測一個給定圖片中潛在參數(shù)的后驗概率。加入該模塊后,我們訓練模型將一個圖片數(shù)據(jù)集的概率最大化。白色圓形代表隨機變量,有色方塊是稠密連接的網(wǎng)絡。梯形模塊為卷積網(wǎng)絡。
????我們利用標準高斯分布產(chǎn)生隱性低維編碼變量,并且將這些傳給解碼網(wǎng)絡來產(chǎn)生需要的特性。
其中,zshape代表了物體的三維形狀;形狀解碼網(wǎng)絡decshape可為稠密連接的ELU網(wǎng)絡,輸出v包含了3Nv個變量,代表了每個頂點的三維坐標。zcolor表示紋理。deccolor為稠密連接的ELU網(wǎng)絡,輸出c代表了每個面的顏色的RGB值。
????使用神經(jīng)網(wǎng)絡來計算頂點位置經(jīng)常會產(chǎn)生高度不規(guī)則且自我重疊的柵格。我們使用了一個更加復雜的結(jié)構(gòu)來設計decshape來保證結(jié)果不會自我重疊。第4jp中對使用的方法進行了詳細的介紹
從圖片中訓練
????我們的目標僅僅使用二維圖片來訓練第3節(jié)中討論的生成模型,不使用任何三維數(shù)據(jù)。我們假設數(shù)據(jù)集的每個圖片都只包含一個目標物體的實例,并且由兩種配置進行訓練:
(蒙版)我們可以獲得(i)大致的相機標定信息;(ii)每個目標實例的分割蒙版;(iii)背景圖片。
(無蒙版)我們只有相機的標定信息。這種配置下問題更具有挑戰(zhàn)性。
????為了在這兩種配置下訓練模型,我們給生成模型增加了額外的成分來模擬整個圖片的形成過程(上圖中粉色模塊)。對柵格進行采樣后,我們將其呈現(xiàn)在三維空間中的透視相機前,在背景圖上渲染。最后,觀察到的圖片x是各向同性的高斯隨機變量,均值為渲染的像素數(shù)量,方差固定。我們接著使用了編碼網(wǎng)絡來預測給定圖片的隱性變量。這使得我們訓練的模型可以匹配一個圖片的分布(而不是網(wǎng)格)。模型學習重建的是背景圖片前的前景網(wǎng)格。
實驗數(shù)據(jù)與結(jié)果
????我們用五類物體進行了實驗:鳥,汽車,飛機,椅子和沙發(fā)。若干關(guān)于弱監(jiān)督學習的重建論文也主要研究了這幾類物體。6.1中我們在受控的條件下渲染了ShapeNet的網(wǎng)格,驗證了本文的方法,并分析了不同設置和參數(shù)下的性能。6.2中我們展示了該模型如何從兩大具有挑戰(zhàn)性的自然圖片集合中學習生成了模型。最后在6.3節(jié)中,我們展示了訓練好的模型可以從單張自然圖片中重建3D模型。
????使用人造數(shù)據(jù)的實驗中,我們使用了ShapeNet的四類物體:汽車,椅子,飛機,沙發(fā)。這四類物體特征各不相同。訓練使用的是渲染圖而不是網(wǎng)格本身。結(jié)果如下圖:
圖:從本文模型中進行采樣得到的紋理網(wǎng)格。由ShapeNet的渲染圖像訓練。每行的五張圖是不同視角觀察同一個采樣得到的網(wǎng)格。汽車和沙發(fā)在無蒙版和稠密參數(shù)的設置下訓練。椅子和飛機是在有蒙版和外推設置下訓練,因此即使有精密的幾何細節(jié)仍然沒有自我重疊。
表:四個ShapeNet分類的生成的數(shù)值結(jié)果。左右兩欄表示了是否使用真實結(jié)果的蒙版。IS列的數(shù)值越大代表結(jié)果越優(yōu),FID/KID相反。
表:每個產(chǎn)生網(wǎng)格的平均重疊面的比例。
自然圖片的生成結(jié)果和單張圖片的3D重建結(jié)果詳見原文。
結(jié)論
????我們呈現(xiàn)了一種針對有紋理的3D網(wǎng)格的生成模型,并且提出了一種僅使用圖片的訓練方法。我們通過捕捉圖片的產(chǎn)生過程,對訓練方法進行了增益。我們嘗試讓模型解析訓練圖片,將每張圖片重建為一組3D網(wǎng)格在背景圖前的渲染。本文中的方法可以讓我們針對五類不同的物體產(chǎn)生真實的紋理網(wǎng)格。本文的方法不僅適用于渲染圖作為數(shù)據(jù),也適用于自然圖片;同時也不依賴于分割蒙版或者要求物體實例圖片多樣的角度。
????我們提出的網(wǎng)格參數(shù)化方法也避免了自重疊,對物理仿真和3D打印的相關(guān)應用具有重要意義。
Abstract
Numerous methods have been proposed for probabilisticgenerative modelling of 3D objects. However, none of theseis able to produce textured objects, which renders them oflimited use for practical tasks. In this work, we present thefirst generative model of textured 3D meshes. Training sucha model would traditionally require a large dataset of textured meshes, but unfortunately, existing datasets of mesheslack detailed textures. We instead propose a new trainingmethodology that allows learning from collections of 2Dimages without any 3D information. To do so, we train ourmodel to explain a distribution of images by modelling eachimage as a 3D foreground object placed in front of a 2Dbackground. Thus, it learns to generate meshes that whenrendered, produce images similar to those in its training set.
A well-known problem when generating meshes withdeep networks is the emergence of self-intersections, whichare problematic for many use-cases. As a second contribution we therefore introduce a new generation process for 3Dmeshes that guarantees no self-intersections arise, based onthe physical intuition that faces should push one another outof the way as they move.
We conduct extensive experiments on our approach, reporting quantitative and qualitative results on both synthetic data and natural images. These show our methodsuccessfully learns to generate plausible and diverse textured 3D samples for five challenging object classes.
本文僅做學術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
3D視覺工坊精品課程官網(wǎng):3dcver.com
1.面向自動駕駛領域的多傳感器數(shù)據(jù)融合技術(shù)
2.面向自動駕駛領域的3D點云目標檢測全棧學習路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)
3.徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進
4.國內(nèi)首個面向工業(yè)級實戰(zhàn)的點云處理課程
5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解
6.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦
7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化
8.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實戰(zhàn)(cartographer+LOAM +LIO-SAM)
9.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實踐]
10.單目深度估計方法:算法梳理與代碼實現(xiàn)
11.自動駕駛中的深度學習模型部署實戰(zhàn)
12.相機模型與標定(單目+雙目+魚眼)
13.重磅!四旋翼飛行器:算法與實戰(zhàn)
14.ROS2從入門到精通:理論與實戰(zhàn)
15.國內(nèi)首個3D缺陷檢測教程:理論、源碼與實戰(zhàn)
16.基于Open3D的點云處理入門與實戰(zhàn)教程
重磅!3DCVer-學術(shù)論文寫作投稿?交流群已成立
掃碼添加小助手微信,可申請加入3D視覺工坊-學術(shù)論文寫作與投稿?微信交流群,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細分方向交流群,目前主要有3D視覺、CV&深度學習、SLAM、三維重建、點云后處理、自動駕駛、多傳感器融合、CV入門、三維測量、VR/AR、3D人臉識別、醫(yī)療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產(chǎn)品落地、視覺競賽、車牌識別、硬件選型、學術(shù)交流、求職交流、ORB-SLAM系列源碼交流、深度估計等微信群。
一定要備注:研究方向+學校/公司+昵稱,例如:”3D視覺?+ 上海交大 + 靜靜“。請按照格式備注,可快速被通過且邀請進群。原創(chuàng)投稿也請聯(lián)系。
▲長按加微信群或投稿
▲長按關(guān)注公眾號
3D視覺從入門到精通知識星球:針對3D視覺領域的視頻課程(三維重建系列、三維點云系列、結(jié)構(gòu)光系列、手眼標定、相機標定、激光/視覺SLAM、自動駕駛等)、知識點匯總、入門進階學習路線、最新paper分享、疑問解答五個方面進行深耕,更有各類大廠的算法工程人員進行技術(shù)指導。與此同時,星球?qū)⒙?lián)合知名企業(yè)發(fā)布3D視覺相關(guān)算法開發(fā)崗位以及項目對接信息,打造成集技術(shù)與就業(yè)為一體的鐵桿粉絲聚集區(qū),近4000星球成員為創(chuàng)造更好的AI世界共同進步,知識星球入口:
學習3D視覺核心技術(shù),掃描查看介紹,3天內(nèi)無條件退款
?圈里有高質(zhì)量教程資料、答疑解惑、助你高效解決問題
覺得有用,麻煩給個贊和在看~??
總結(jié)
以上是生活随笔為你收集整理的利用二维数据学习纹理三维网格生成(CVPR 2020)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ADAS中国术语标准
- 下一篇: 46家著名公司的技术类笔试真题