ICCV 2019 | 从多视角RGB图像生成三维网格模型Pixel2Mesh++
本文發(fā)表于 ICCV 2019,由復旦大學、Google 公司和 NURO 公司合作完成。文章提出了從幾張已知相機位置的多視角彩色圖片生成三角網格模型(3D Mesh)的網絡結構。?
Github 鏈接:
https://github.com/walsvid/Pixel2MeshPlusPlus
模型架構
得益于深度學習的強大表征能力,也來越多的工作關注三維形狀生成任務。之前的工作大多直接從先驗中直接學習形狀,而本文使用圖卷積神經網絡(GCN [1]),從多視角圖片的交叉信息學習進一步提升形狀質量。相比于直接建立從圖像到最終 3D 形狀的映射,本文預測一系列形變,逐漸將由多視角圖片生成的粗略形狀精細化。
受傳統(tǒng)多視角幾何的啟發(fā),本文從粗略形狀的網格頂點周圍采樣候選的形變位置,利用多視角圖片的統(tǒng)計一致性特征來推理形變的可能位置。大量的實驗表明,本文的模型可以生成準確的 3D 形狀,不僅從輸入角度看似合理,而且可以與任意視點很好地對齊。得益于物理驅動的網絡結構模塊,本文的精細化粗略形狀(Coarse Mesh Refinement)的網絡結構還展現了跨不同語義類別、不同輸入圖像數量和初始網格質量的泛化能力。
研究動機
▲?圖1. 不同方法在多個視角的3D-2D對齊情況
憑借深度學習的驚人表示能力,許多文章已經證明了可以僅從單個彩色圖像成功生成 3D 形狀。然而,由于僅從一個角度觀察物體視覺證據有限,基于單個圖像的方法通常會在被遮擋的區(qū)域中產生粗糙的幾何形狀,并且在推廣到非訓練域數據的情況下進行測試時效果不佳,例如跨語義類別。
添加更多的幾張圖像是為三維形狀生成系統(tǒng)提供有關 3D 形狀的更多信息的一種行之有效的方法。一方面,多視圖圖像提供了更多的視覺外觀信息。另一方面,傳統(tǒng)的多視角幾何方法(Multi-view Geometry)從視圖之間的對應關系中準確地推斷出3D形狀,已經有很好的定義,并且不易受到泛化問題的影響。
不過傳統(tǒng)方法在多視角圖片數量非常有限的情況下難以顯式解出形狀,但多視角的形狀信息則可能直接由神經網絡隱式編碼和學習。雖然多視角圖片有著更好的研究動機,但是這個方向上的研究文獻還很少,而且如圖 1 所示,將基于單張圖片的模型簡單擴展為多視圖版本效果不佳。
模型架構
▲?圖2.?System Pipeline
Pixel2Mesh++ 的網絡結構如圖 2 所示。網絡以同一個物體在不同視角的彩色圖片作為輸入,假設已知不同視角之間的相機參數,最終網絡預測一個在主視角相機坐標系下的三維網格模型。?
網絡由從粗到精的模式進行生成,首先生成合理但粗略的形狀,稍后再添加形狀細節(jié)。由于現有的三維形狀生成網絡甚至能在僅給出單張圖片的情況下提供合理的粗略形狀,本文使用 Pixel2Mesh 從單張或多張圖片生成粗略形狀,作為第一步的粗略形狀生成,然后使用 Multi-View Deformation Network (MDN) 進行進一步的細化。?
Multi-View Deformation Network是本文網絡結構的核心,它首先使用 Deformation Hypothesis Sampling 來獲得潛在的形變候選位置,然后用 Cross-View Perceptual Feature Pooling 來從多張圖片中匯集跨視角的特征信息,最后由 Deformation Reasoning 模塊學習從特征中推斷出最佳的變形位置。
MDN 的模型本質上是 GCN,并且可以與其他基于 GCN 的模型(例如 Pixel2Mesh [2])共同訓練。但不同點在于 MDN 中的圖除了直接表示 3D Mesh 的頂點,還有頂點位置與形變假設(Deformation Hypothesis)組成的局部 GCN。?
Deformation Hypothesis Sampling?
為每個頂點選擇形變的假設位置等價于在頂點周圍的 3D 空間中采樣點,為了盡可能均勻采樣,本文從 Level-1 Icosahedron 上采樣 42 個點,并在 Icosahedron 表面和 Mesh 的頂點之間構建局部個 GCN 結構,用以預測 Mesh 頂點的形變。具體結構如圖 3 所示。
▲?圖3.?Deformation Hypothesis Sampling
Cross-View Perceptual Feature Pooling?
如何有效從多視角(Multi-view)圖像中獲取信息是多視圖形狀生成的關鍵。受 Pixel2Mesh 啟發(fā),本文也使用 VGG16 的結構來提取 perceptual feature。由于假設已知相機內參和外參,每個頂點和形變假設都能在所有的圖像平面利用虛擬相機投影得到 2D 坐標。與 Pixel2Mesh 不同,本文使用更靠前的卷積層,以擁有更大的特征圖空間尺寸和更局部的特征信息。?
在匯集多個圖像的特征時,concatenation 往往是一種無損的 aggregate 方式,但這樣將導致網絡結構與輸入圖片數量相關。在多視角形狀分類任務中使用的統(tǒng)計特征(statistics feature)能解決這一問題。本文通過將任意數量圖片的統(tǒng)計量信息(mean, max, std)進行拼接,得到與視角數量無關的跨視角特征。基于統(tǒng)計的圖像特征與 3D 坐標特征拼接在一起作為后續(xù)用于推理形變位置的特征信息。具體結構如圖 4 所示。
▲?圖4.?Cross-View Perceptual Feature Pooling
Deformation Reasoning?
為每個頂點推理最優(yōu)的形變位置是 Pixel2Mesh++ 能夠進一步提升形狀質量的關鍵。值得注意的是選擇最優(yōu)的假設需要不可導的 argmax 操作,因此本文還提出了可導的尋找理想形變假設位置的 soft-argmax 模塊。具體來說,跨視角的特征 P 通過 GCN,為每個假設學習到權重 c_i,權重再通過 softmax 層來歸一化為選擇的概率 s_i?其中,頂點的位置則更新為這些假設坐標 h_i?的加權和。具體結構如圖 5 所示。
▲?圖5.?Deformation Reasoning and 3D-soft-argmax
Loss function?
本文繼承了 Pixel2Mesh 的損失函數形式,但對 ChamferLoss 進行擴展。受 Ladicky et.al [3][4] 啟發(fā),從均勻分布中利用重采樣公式,在三角形面片中采樣點,使得 ChamferLoss 的計算更加穩(wěn)定合理。采樣公式如下:
實驗效果
實驗比較了現有的基于多視角圖片生成三維模型的方法 [5][6] 以及利用單張圖片生成器 Pixel2Mesh 擴展得到的簡單 Baseline。如表 1 所示,實驗證明了本文方法在 F-score 的指標上優(yōu)于現有方法。
▲?表1. 與現有方法及baseline的F-score對比
實驗生成三維網格模型的結果如圖 6 所示:
▲?圖6. 網格生成結果
同時本文還通過實驗比較了 MDN 的強大泛化能力,包括跨語義類別、圖片數量和初始粗略形狀質量等,圖 7 為針對 Initial Mesh 的不同質量的魯棒性實驗。
▲?圖7. 網絡針對不同輸入的泛化能力
全文總結
本文提出一種基于圖卷積的網絡框架,從多視角圖像生成 3D 網格模型。Pixel2Mesh++ 模型學習如何利用交叉視圖信息并迭代地生成頂點變形,以改善直接預測方法(例如:Pixel2Mesh 及其多視圖擴展)。?
受多視圖幾何方法啟發(fā),本文的模型在每個網格頂點周圍的附近區(qū)域中搜索最佳位置進行頂點位置變形。與之前的方法相比,本文的模型達到了最先進的性能,所生成的形狀包含準確的表面細節(jié),而不僅僅是從輸入視角上看似合理,并且在許多方面都具有良好的泛化能力。
參考文獻
[1]?Thomas N. Kipf and Max Welling. Semi-supervised classi?cation with graph convolutional networks. In ICLR, 2016.?
[2] Nanyang Wang, Yinda Zhang, Zhuwen Li, Yanwei Fu, Wei Liu, and Yu-Gang Jiang. Pixel2mesh: Generating 3d mesh models from single rgb images. In ECCV, 2018.?
[3] Lubor Ladicky, Olivier Saurer, SoHyeon Jeong, Fabio Maninchedda, and Marc Pollefeys. From point clouds to mesh using regression. In Proceedings of the IEEE International Conference on Computer Vision, pages 3893–3902, 2017.?
[4] Smith, E. J., Fujimoto, S., Romero, A., & Meger, D. (2019). GEOMetrics: Exploiting Geometric Structure for Graph-Encoded Objects. arXiv preprint arXiv:1901.11461.?
[5] Christopher B Choy, Danfei Xu, JunYoung Gwak, Kevin Chen, and Silvio Savarese. 3d-r2n2: A uni?ed approach for single and multi-view 3d object reconstruction. In ECCV, 2016.?
[6] Abhishek Kar, Christian Hane, and Jitendra Malik. Learning a multi-view stereo machine. In Advances in neural information processing systems, pages 365–376, 2017.
點擊以下標題查看更多往期內容:?
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質內容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
📝?來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
📬 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的ICCV 2019 | 从多视角RGB图像生成三维网格模型Pixel2Mesh++的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 手机不能查征信,中国人民银行并未授权手机
- 下一篇: 久悬账户是什么意思