仅输入单张图片,就能“看”出物体材质!这篇图形学论文已被SIGGRAPH 2021收录...
?OPPO
日前,計算機圖形學頂級國際學術會議ACM SIGGRAPH 2021收錄了Highlight-aware Two-stream Network for Single-image SVBRDF Acquisition(《用于單幀圖像 SVBRDF 估計的高光感知雙流網(wǎng)絡》)。SIGGRAPH是全球影響最廣、規(guī)模最大、最權威的計算機圖形學會議,每年全球僅130篇左右論文入選。該論文由南京大學過潔博士、OPPO研究員等多位專家學者共同提出了一種深度學習方法,可從單個隨意捕獲的圖像中生成解纏結的 SVBRDF 映射。
讓計算機產(chǎn)生令人賞心悅目的圖片,創(chuàng)造出和真實世界一致的虛擬世界,一直是計算機圖形學研究人員追求的目標。
受限于傳統(tǒng)方法在處理大規(guī)模幾何、復雜材質以及特殊光照方面的局限性,計算機還無法達到“以假亂真”的程度。因此,研究人員需要新的探索方向,提高計算機的圖形渲染能力。
在本篇論文中,研究員們從深度學習出發(fā),用神經(jīng)網(wǎng)絡結合大量數(shù)據(jù),嘗試在未知的空間變化情況下,完成平面材質的外觀建模。論文中的方法僅采用了單張圖片作為輸入,不需要相機參數(shù)和光源參數(shù),就能輸出高質量材質參數(shù)。
01
圖形學和深度學習的融合
在虛擬三維場景內容創(chuàng)建過程中,材質的高質量重建向來是一個復雜耗時的工作。傳統(tǒng)的材質重建方法通常需要依賴特殊的設備、受過專業(yè)訓練的技術員以及長時間的拍攝。
而本次設計的雙流網(wǎng)絡,只需要消費級別的相機(手機等),并且只需要拍攝一張圖片,即可由非專業(yè)人員重建出高質量的材質參數(shù)。
其中,雙流網(wǎng)絡以HA卷積為基礎,其中HA卷積的作用是:在過度曝光的圖像區(qū)域填補缺失內容;因此,雙流網(wǎng)絡可以充分利用圖像的有用特征,促進材質屬性的解纏學習。這也正是本篇論文的關鍵性創(chuàng)新。
以下是詳細介紹:
本文的任務
讓計算機感知真實環(huán)境中真實物體的材質。
材質用使用空間變化的表面函數(shù)表示,即SVBRDF(Spatially Varying Bidirectional Reflectance Distribution Function ),研究人員進一步簡化為漫反射(diffuse)、法向(normal)、粗糙度(roughness)、高光(specular)。
模型架構
雙流網(wǎng)絡(Two-Stream)包含三個方面,HA卷積、AFS(An attention-based feature selection )以及FU-Branch。
HA卷積受gated convolution的設計啟發(fā),旨在當圖片被高光污染時,對高光區(qū)域的細節(jié)進行恢復;
Two-Stream中兩個獨立分支的雙流網(wǎng)絡:HA-Branch和ST-Branch,主要用于特征提取。還能改善簡單地堆疊HA卷積產(chǎn)生的問題,即產(chǎn)生過度模糊的法線和有偏的鏡面分量;
AFS借鑒了Channel Attention的思想,針對SVBRDF的不同材質貼圖的恢復,能夠從HA-Branch和ST-Branch中側重提取不同的特征。
FU-Branch的作用是融合提取的特征,并在設計上采用四個獨立網(wǎng)絡,能夠分別重建材質的漫反射diffuse、法向normal、粗糙度roughness、高光specular。
解決的難點
1.如何解決圖像過曝問題?
由于過曝區(qū)域無法估計,采用讓網(wǎng)絡自學習判別過曝區(qū)域,并修復。
2.如何解決模型過擬合?
訓練數(shù)據(jù)集包含18萬張圖片,可以比較好地避免過擬合的問題。
由于材質估計是具有二義性的,即不同的SVBRDF 也有可能生成一樣的材質圖,所以研究人員訓練loss中包含render loss ,即估計的材質貼圖與ground truth 在同樣的光照條件下渲染出材質圖做L1 loss。這樣即表示不那么強調材質貼圖的完全一致,可以有效緩解過擬合問題。
3.如何解決diffuse 和specular 貼圖的解纏效果差?
使用多解碼器以及其中的AFS模塊,多解碼器是為了讓每個解碼器可以在high level 特征提取時就通過AFS 模塊著重提取對應的貼圖需要的特征,以達到解纏目的。
02
模型介紹
HA卷積
HA卷積框架圖
HA卷積有兩個卷積層,第一個卷積旨在識別特征圖X????中潛在的過度曝光的高光區(qū)域。第二次卷積可以采用任何激活函數(shù),可以從有效內容中提取特征。
此外,研究員將IN(Instance Normalization)加入,目的是去除材質圖的陰影。雖然IN的存在能夠穩(wěn)定網(wǎng)絡訓練,但它未能保持關于輸入圖像的非局部信息。為此,研究員在HA卷積中增加了一個inception block。其有兩個軌道,軌道1包含3x3的卷積,軌道2包含兩個3x3的卷積。
定義inception block學習的映射為p,因此HA卷積的完整表公式為:
雙流網(wǎng)絡
雙流網(wǎng)絡
在HA卷積的基礎上,研究員們設計了用單張圖片重建SVBRDF的雙流網(wǎng)絡。如上圖所示,其有兩個獨立的分支HA-Branch 和 ST-Branch組成,作用是特征提取。FU-Branch有四個,每個都具有相同的結構,其作用是融合HA和ST提取的特征,并做最后的材質參數(shù)估計。DG和DL分別代表全局判別器和局部判別器。
AFS框架圖
其中,雙流網(wǎng)絡中的基于注意力的特征選擇(AFS)模塊,由全局平均池化(GAP)和多層感知器(MLP)組成。
損失函數(shù)
雙流網(wǎng)絡通過聯(lián)合損失函數(shù)進行訓練,其有三部分組成:用L1計算得到的重建材質映射損失L_map;基于L1在9個新渲染圖得到的L_render,以及對抗損失L_adv。不同于傳統(tǒng)損失函數(shù),聯(lián)合損失函數(shù)經(jīng)過了對抗訓練。
性能評估&分析
通過在各種可用的數(shù)據(jù)集上進行定性和定量實驗,研究員們驗證了模型捕獲SVBRDF的性能。尤其是在高光圖片數(shù)據(jù)集上進行了驗證。
Adobe Stock數(shù)據(jù)集中的一個示例。
定性來看,“ours”效果做好。
在合成數(shù)據(jù)上實驗結果顯示,HA卷積能夠通過學習掩碼(masks),在大量數(shù)據(jù)訓練加持下,對卷積核不斷更新權重,直到網(wǎng)絡收斂。如此能有效克服對初始化的依賴,并且用合理的內容填充缺失區(qū)域。
黑色加粗處為最佳分數(shù)
為了進一步驗證方法的有效性,研究員們對重建的材質圖和新的渲染圖進行了定量分析。結果如上表所示,論文中的變種模型在各個參數(shù)的“捕獲”中獲得了最佳分數(shù)。
各模型在真實樣本上的表現(xiàn)
在真實樣本上表現(xiàn)如何?研究員們選了四張照片,這四張照片是通過開啟閃光燈的手機相機拍攝的,儲存格式為LDR,每一張都有高光,都會考驗模型能否分辨“有歧義”的飽和像素。上圖展示的是一張圖片的實驗結果,RAND方法diffuse 和specular 貼圖的解纏效果不好,DIR方法依賴相機參數(shù)。而本篇論文的研究員們提出的方法,由于采用四個獨立的解碼器和對抗性訓練策略,因此在從一幅輸入圖像中提取不同的材質屬性方面取得了相當大的成功。
單圖方法和多圖方法的效果對比
雖然只使用一幅輸入圖像,但有時可以達到與基于多圖像的方法相當?shù)男阅堋H缟蠄D所示,雖然一幅圖像中包含的信息不夠充分,但研究員們仍達到了與MaterialGAN相似的效果。另外,雪花恢復光澤(左)、卡通圖像更加飽和(右)都說明了該方法的解纏效果。
高分辨率下的測試
由于雙流網(wǎng)絡是全卷積,因此任意分辨率的圖像可以直接送入網(wǎng)絡,而且不需要任何再訓練。如上圖所示,在1024×1024高分辨率下的測試結果:如果高光區(qū)域較小,重建的高分辨率材質圖的質量足以匹敵真實圖像。此外,缺失的細節(jié)也被補全了。
03
結束語
深度學習為解決傳統(tǒng)的圖形學相關問題帶來新的機遇。計算機圖形學的研究員們認為,深度學習可以很方便地處理傳統(tǒng)圖形問題中的高維度和多模態(tài)數(shù)據(jù),以及提升傳統(tǒng)算法的性能和魯棒性。
具體在這篇論文中,完成材質估計,傳統(tǒng)的方法需要依賴昂貴的設備和專業(yè)的人員,但是深度學習所帶來的智能化操作使得普通用戶也能完成材質估計這個任務。
關注OPPO TECH公眾號,后臺回復“SIGGRAPH”即可查看《用于單幀圖像 SVBRDF 估計的高光感知雙流網(wǎng)絡》技術報告。
推薦閱讀
四兩撥千斤!OPPO用“輕巧”模型角逐超大規(guī)模圖網(wǎng)絡
國際頂級材料科學期刊收錄OPPO在材料領域的最新研究
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的仅输入单张图片,就能“看”出物体材质!这篇图形学论文已被SIGGRAPH 2021收录...的全部內容,希望文章能夠幫你解決所遇到的問題。