CVPR 2022 | 谷歌提出mip-NeRF 360:全景NeRF越来越丝滑!
轉(zhuǎn)載自:機(jī)器之心
NeRF 家族的 360° 全景 3D 效果真是越來越絲滑了。?
前段時間,CVPR 2022 公布了今年的論文接收結(jié)果,同時也意味著投稿的論文終于熬過了靜默期。不少作者都感嘆:終于可以在社交媒體上聊聊我們的論文了!
今天要介紹的論文來自谷歌研究院和哈佛大學(xué)。谷歌研究科學(xué)家、論文一作 Jon Barron 表示,他們開發(fā)了一種名為 Mip-NeRF 360 的模型,該模型能夠生成無界場景的逼真渲染,給我們帶來了 360° 的逼真效果和漂亮的深度圖。
下面是幾張效果圖:
這么好的效果什么時候能讓 VR 頭盔用上
作者回答說,「我們已經(jīng)可以在瀏覽器 (http://nerf.live) 或桌面 GPU (https://nvlabs.github.io/instant-ngp/) 上實時渲染 NeRF,所以把它放到 VR 頭盔上應(yīng)該是可行的。」
論文概覽
神經(jīng)輻射場 (NeRF) 通過在基于坐標(biāo)的多層感知器 (MLP) 的權(quán)重內(nèi)編碼場景的體積密度和顏色,來合成高度逼真的場景渲染。這種方法在逼真的視圖合成方面取得了重大進(jìn)展 [30]。然而,NeRF 使用 3D 點對 MLP 的輸入進(jìn)行建模,這在渲染不同分辨率的視圖時會導(dǎo)致混疊。?
基于這個問題,Mip-NeRF 擴(kuò)展了 NeRF ,不再對沿錐體的體積截頭體進(jìn)行推理 [3]。盡管這樣做提高了質(zhì)量,但 NeRF 和 mipNeRF 在處理無界場景時會遇到挑戰(zhàn),無界場景中的相機(jī)可能面向任何方向并且場景內(nèi)容可能位于任何位置。
在這篇論文中,研究者提出了對 mip-NeRF 的擴(kuò)展 ——mip-NeRF 360,它能夠生成這些無界場景的逼真渲染(圖 1)。
將類似 NeRF 的模型應(yīng)用于大型無界場景會引發(fā)三個關(guān)鍵問題:
- 參數(shù)化問題。mip-NeRF 要求將 3D 場景坐標(biāo)映射到有界域,所以無界的 360 度的場景會占據(jù)無窮大的歐式空間區(qū)域。 
- 效率問題。巨大且細(xì)節(jié)化的場景需要巨大的網(wǎng)絡(luò)容量,所以在訓(xùn)練期間,頻繁地沿每條射線去查詢巨大的 MLP 網(wǎng)絡(luò)會產(chǎn)生巨大的消耗 。 
- 歧義問題。無界 360 度場景的背景區(qū)域明顯比中心區(qū)域的光線稀疏。這種現(xiàn)象加劇了從 2D 圖像重建 3D 內(nèi)容的固有模糊性。 
基于上述問題,研究者提出了 mip-NeRF 的擴(kuò)展模型,它使用非線性場景參數(shù)化、在線蒸餾和新穎的基于失真的正則化器來克服無界場景帶來的挑戰(zhàn)。新模型被稱為「mip-NeRF 360」,因為該研究針對的是相機(jī)圍繞一個點旋轉(zhuǎn) 360 度的場景,與 mip-NeRF 相比,均方誤差降低了 54%,并且能夠生成逼真的合成視圖和詳細(xì)的深度用于高度復(fù)雜、無界的現(xiàn)實世界場景的地圖。
- Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields 
- 論文鏈接:https://arxiv.org/pdf/2111.12077.pdf 
- 視頻解讀:https://www.youtube.com/watch?v=zBSH-k9GbV4 
技術(shù)細(xì)節(jié)
讓 mip-NeRF 在無界場景中正常工作存在三個主要問題,而本文的三個主要貢獻(xiàn)旨在解決這些問題。接下來,讓我們結(jié)合作者給出的解讀視頻來了解一下。
第一個問題是在表示方面,mip-NeRF 適用于有界坐標(biāo)空間中,而非無界場景,研究者使用一種看起來很像是一種擴(kuò)展版的卡爾曼濾波器將 mip-NeRF 的高斯函數(shù)扭曲到非歐式空間中。
第二個問題是,場景通常是細(xì)節(jié)化的,如果想將 mip-NeRF 用于無界場景,可以將網(wǎng)絡(luò)變得更大,但是這樣會讓訓(xùn)練速度變慢。所以,在優(yōu)化階段,研究者提出訓(xùn)練一個較小的 MLP 來限制空間大小,這可以讓訓(xùn)練速度變快三倍。
第三個問題是,在更大的場景下,3D 重建的結(jié)果會變得較為模糊,產(chǎn)生偽影。為了解決這個問題,研究者引入了一種新型正則化器,專門用于 mip-NeRF 中的射線間隔。
首先來談第一個問題,以一個有著三個攝像頭的平地場景為例,在 mip-NeRF 中,這些相機(jī)將高斯函數(shù)投射到場景中。在一個大的場景,這導(dǎo)致高斯函數(shù)逐漸遠(yuǎn)離原點并且被拉長。這是因為 mip-NeRF 需要基于有界的坐標(biāo)空間并且高斯函數(shù)在某種程度上是各向同性的。
為了解決這個問題,研究者定義了一個扭曲函數(shù),來平滑地將藍(lán)色圓(Unaffected Domain)外部的坐標(biāo)映射到橙色圓(Contracted Domain)內(nèi)。扭曲函數(shù)旨在消除 mip-NeRF 中的高斯非線性間距的影響。
為了將這種扭曲應(yīng)用于 mip-NeRF 中的高斯函數(shù),研究者使用了一個擴(kuò)展版的卡爾曼濾波器,這樣一來,沒有邊界的場景就可以被約束到橙色圓內(nèi),橙色圓內(nèi)是一個非歐式空間,其中的坐標(biāo)就是 MLP 的輸入。
為了能理解論文中的在線蒸餾模型,我們首先需要介紹 mip-NeRF 是如何訓(xùn)練以及采樣的。在 mip-NeRF 中,首先需要定義一組大致均勻分布的區(qū)間,可以理解為直方圖中的端點。如圖所示,每個間隔的高斯都被送入 mlp,并且得到直方圖權(quán)重 w^c 和顏色 c^c。然后將這些顏色加權(quán)后得到像素點的顏色 C^c。之后這些權(quán)重被重采樣,并得到一組新的區(qū)間,并且在場景中有內(nèi)容的地方,端點就會較為聚集。
這個重采樣可以多次進(jìn)行,但為了方便在這里只顯示一個。這個新的區(qū)間中的數(shù)據(jù)被送入同一 MLP 來得到一組新的權(quán)重和顏色,然后再通過加權(quán)得到像素點的顏色 C^f。mip-NeRF 只是最小化所有渲染像素值和輸入圖像真實像素值之間的重構(gòu)損失。只有精細(xì)的顏色被用來渲染最終的圖像是非常浪費的。
粗略渲染需要有監(jiān)督學(xué)習(xí)來完成的唯一原因是幫助指導(dǎo)精細(xì)直方圖的采樣,這一觀察激發(fā)了文中模型的訓(xùn)練和采樣過程。研究者從一組均勻分布的直方圖開始,將它們送入提出的 MLP 以產(chǎn)生一組權(quán)重,但不產(chǎn)生顏色。
這些權(quán)重會被重新采樣,同樣這個過程可以重復(fù)多次,但他們在視頻中只展示了一個重采用過程。他們提出的 mlp 產(chǎn)生的最后一組區(qū)間被送入另一個 mlp,該 mlp 的行為與 mip-NeRF 中的完全相同,他們將其稱為 NeRF mlp。NeRF mlp 為他們提供了一組可以用于渲染像素顏色的權(quán)重和顏色。
研究者將通過監(jiān)督學(xué)習(xí)的方式,使得像素渲染得到的顏色接近真實圖片中的顏色。他們讓監(jiān)督輸出權(quán)重與 NeRF mlp 的輸出權(quán)重一致,而不是監(jiān)督文中提出的 mlp 來重建圖像。這種設(shè)置意味著只需要經(jīng)常去訪問一個較小的 mlp,而較大的 NeRF mlp 則不需要太多的訪問次數(shù)。
為了使模型起效,他們需要一個損失函數(shù)來鼓勵具有不同區(qū)間劃分的直方圖彼此一致。為了說明這一點,如上圖所示,他們在左側(cè)構(gòu)建了一個真實的一維分布,在右側(cè)的是兩個該真實分布的直方圖。
因為這兩個直方圖刻畫同一個分布,研究者可以對它們之間的關(guān)系做出一些強(qiáng)有力的斷言,例如上面突出顯示的那個區(qū)間的權(quán)重一定不會超過在下面的直方圖中與其重疊的區(qū)間權(quán)重的總和。基于這個事實,他們可以使用一個直方圖的權(quán)重來構(gòu)造另一個直方圖權(quán)重的上限。?
再一次聲明,如果這兩個直方圖同時刻畫相同的真實分布的,上界是必須確定的。
因此,在訓(xùn)練期間,研究者對他們提出的 mlp 和 NeRF mlp 分別生成的直方圖之間構(gòu)造了損失,該損失會懲罰任何違反此處以紅色顯示的邊界的多余部分。通過這樣方式,來鼓勵他們提出的 mlp 學(xué)習(xí)什么是有效的上界。
基于 nerf mlp 學(xué)習(xí)的體積場景密度,新模型中用來解決歧義問題的組件是光線直方圖上的簡單正則化器,他們簡單地最小化沿光線的所有點之間的加權(quán)絕對距離,來鼓勵每個直方圖盡可能接近 delta 函數(shù)。這里顯示的這個二重積分不容易計算,但可以推導(dǎo)出一個很好的封閉形式,計算起來很簡單。
實驗結(jié)果
表 1 展示了數(shù)據(jù)集中測試圖像的平均 PSNR、SSIM [46] 和 LPIPS [49]。從中可以看出,本文提出的模型大大優(yōu)于所有先前的類似 NeRF 的模型,并且可以看到相對于 mip-NeRF ,均方誤差減少了 54%,而訓(xùn)練時間僅為 1.92 倍。
在表 2 中,研究者對模型在自行車場景中進(jìn)行了消融研究,并在此總結(jié)了研究結(jié)果。
A) 移除 L_prop 會導(dǎo)致災(zāi)難性的失敗,因為 MLP 完全不受監(jiān)督。
B) 移除 L_dist 通過引入偽影降低圖像質(zhì)量(參見圖 5)。
C) Mildenhall 等人提出的正則化器 [30] 將高斯噪聲 (σ = 1) 注入密度當(dāng)中,但效果不如我們的正則化器。
D) 移除研究者提出的 MLP 并使用單個 MLP 對場景和權(quán)重進(jìn)行建模不會降低性能,但會比他們提出的 MLP 增加約為 2 倍的訓(xùn)練時間。
E) 刪除 MLP 并使用 mip-NeRF 的方法訓(xùn)練本文提出的模型(在所有粗略尺度上應(yīng)用 L_recon 而不是 L_prop)會降低速度和準(zhǔn)確性,這證明研究者使用的監(jiān)督策略是合理的。
F) 使用小型 NeRF MLP(256 個隱藏單元而不是 1024 個隱藏單元)加速了訓(xùn)練,但降低了質(zhì)量,這展示了大容量 MLP 在建模詳細(xì)場景時的價值。
G) 完全移除 IPE 并使用 NeRF 的位置編碼 [30] 會降低性能,顯示了基于 mip-NeRF 而不是 NeRF 的價值。
H) 消除收縮并增加位置編碼頻率來限制場景會降低準(zhǔn)確性和速度。
I) 使用 DONeRF [31] 中提出的參數(shù)化和對數(shù)射線間距會降低精度。
J) 盡管使用 NeRF++ [48] 中提出的雙 MLP 參數(shù)化可以優(yōu)于本文中的技術(shù) —— 但代價是訓(xùn)練時間加倍,因為 MLP 的驗證時間加倍(為了保持恒定的模型容量,研究者將兩個 MLP 的隱藏單元數(shù)除以 √2)。
更多細(xì)節(jié)請參考原論文。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
干貨下載與學(xué)習(xí)
后臺回復(fù):巴塞羅那自治大學(xué)課件,即可下載國外大學(xué)沉淀數(shù)年3D Vison精品課件
后臺回復(fù):計算機(jī)視覺書籍,即可下載3D視覺領(lǐng)域經(jīng)典書籍pdf
后臺回復(fù):3D視覺課程,即可學(xué)習(xí)3D視覺領(lǐng)域精品課程
3D視覺精品課程推薦:
1.面向自動駕駛領(lǐng)域的多傳感器數(shù)據(jù)融合技術(shù)
2.面向自動駕駛領(lǐng)域的3D點云目標(biāo)檢測全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)
3.徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)
4.國內(nèi)首個面向工業(yè)級實戰(zhàn)的點云處理課程
5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解
6.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦
7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化
8.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實戰(zhàn)(cartographer+LOAM +LIO-SAM)
9.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實踐]
10.單目深度估計方法:算法梳理與代碼實現(xiàn)
11.自動駕駛中的深度學(xué)習(xí)模型部署實戰(zhàn)
12.相機(jī)模型與標(biāo)定(單目+雙目+魚眼)
13.重磅!四旋翼飛行器:算法與實戰(zhàn)
14.ROS2從入門到精通:理論與實戰(zhàn)
15.國內(nèi)首個3D缺陷檢測教程:理論、源碼與實戰(zhàn)
重磅!3DCVer-學(xué)術(shù)論文寫作投稿?交流群已成立
掃碼添加小助手微信,可申請加入3D視覺工坊-學(xué)術(shù)論文寫作與投稿?微信交流群,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細(xì)分方向交流群,目前主要有3D視覺、CV&深度學(xué)習(xí)、SLAM、三維重建、點云后處理、自動駕駛、多傳感器融合、CV入門、三維測量、VR/AR、3D人臉識別、醫(yī)療影像、缺陷檢測、行人重識別、目標(biāo)跟蹤、視覺產(chǎn)品落地、視覺競賽、車牌識別、硬件選型、學(xué)術(shù)交流、求職交流、ORB-SLAM系列源碼交流、深度估計等微信群。
一定要備注:研究方向+學(xué)校/公司+昵稱,例如:”3D視覺?+ 上海交大 + 靜靜“。請按照格式備注,可快速被通過且邀請進(jìn)群。原創(chuàng)投稿也請聯(lián)系。
▲長按加微信群或投稿
▲長按關(guān)注公眾號
3D視覺從入門到精通知識星球:針對3D視覺領(lǐng)域的視頻課程(三維重建系列、三維點云系列、結(jié)構(gòu)光系列、手眼標(biāo)定、相機(jī)標(biāo)定、激光/視覺SLAM、自動駕駛等)、知識點匯總、入門進(jìn)階學(xué)習(xí)路線、最新paper分享、疑問解答五個方面進(jìn)行深耕,更有各類大廠的算法工程人員進(jìn)行技術(shù)指導(dǎo)。與此同時,星球?qū)⒙?lián)合知名企業(yè)發(fā)布3D視覺相關(guān)算法開發(fā)崗位以及項目對接信息,打造成集技術(shù)與就業(yè)為一體的鐵桿粉絲聚集區(qū),近5000星球成員為創(chuàng)造更好的AI世界共同進(jìn)步,知識星球入口:
學(xué)習(xí)3D視覺核心技術(shù),掃描查看介紹,3天內(nèi)無條件退款
?圈里有高質(zhì)量教程資料、答疑解惑、助你高效解決問題
覺得有用,麻煩給個贊和在看~??
總結(jié)
以上是生活随笔為你收集整理的CVPR 2022 | 谷歌提出mip-NeRF 360:全景NeRF越来越丝滑!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: vs2013配置qt5.7.0
- 下一篇: wpf/sl下的复合程序-CAG入门
