将隐式神经表示(INR)用于2D图像
?PaperWeekly 原創 ·?作者 | 張一帆
學校 | 中科院自動化所博士生
研究方向 | 計算機視覺
以圖像為例,其最常見的表示方式為二維空間上的離散像素點。但是,在真實世界中,我們看到的世界可以認為是連續的,或者近似連續。于是,可以考慮使用一個連續函數來表示圖像的真實狀態,然而我們無從得知這個連續函數的準確形式,因此有人提出用神經網絡來逼近這個連續函數,這種表示方法被稱為“隱式神經表示“ (Implicit Neural Representation,INR)。
舉幾個例子,圖像、視頻、體素,都能用 INR 來表示,其數學表達如下:
對于圖像,INR 函數將二維坐標映射到 rgb 值。
對于視頻,INR 函數將時刻 t 以及圖像二維坐標 xy 映射到 rgb 值。對于一個三維形狀,INR 函數將三維坐標 xyz 映射到 0 或 1,表示空間中的某一位置處于物體內部還是外部。當然還有其他形式,如 NERF 將 xyz 映射到 rgb 和 sigma。總而言之,這個函數就是將坐標映射到目標值。一旦該函數確定,那么一個圖像/視頻/體素就確定了。
本文挑選了近幾年來 INR 用于 2D 圖像的文章,對其發展做一個大致的介紹。
SIREN
論文標題:
Implicit Neural Representations with Periodic Activation Functions
論文鏈接:
https://arxiv.org/abs/2006.09661
收錄會議:
NeurIPS 2020
項目地址:
https://vsitzmann.github.io/siren/
雖然 INR 非常的有效而且與傳統方法相比有很多好處,但是目前的網絡架構不能有效的非常詳細的對信號進行建模,而且無法對信號的高階導數進行求解,而高階導數又是求解偏微分方程的必經之路,這就大大的限制了 INR 表達在物理信號上的使用。
而這些缺點主要是因為傳統網絡大多數使用了 ReLU,TanH 等激活函數,本文使用周期性的激活函數(sin 函數),并將網絡稱之為 SIREN,本文發現 SIREN 非常適合于表示復雜的自然信號及其導數,而且在 2D,3D 信號表示上也比傳統激活函數好很多。
X-Fields
論文標題:
X-Fields: Implicit Neural View-, Light- and Time-Image Interpolation
論文鏈接:
https://arxiv.org/abs/2010.00450
收錄會議:
SIGGRAPH Asia 2020
項目地址:
https://xfields.mpi-inf.mpg.de/
它提出了一種新穎的方法來對 2D 圖像的時間、光線和視圖進行無縫插值,即使用稀疏數據 X-field。這個 X-field 是通過學習一個神經網絡來表征,將時間、光線或視圖坐標映射到 2D 圖像上。
傳感器從不同的點(視頻)、角度(光場)或在變化的照明(反射場)下捕獲場景的圖像。人們可以利用這種多樣化的信息來改善 VR(虛擬現實)的體驗。利用此信息,可以插入新視圖、光線等,實現從一個場景到另一個場景的無縫過渡。但是,無縫插值需要密集采樣,從而導致過多的存儲、捕獲和處理需求。稀疏采樣是一種替代方法,但很明顯,這需要在時間、光線和視野范圍內進行精確插值。
X-field 是跨不同視圖、時間或照明條件(即視頻、光場、反射場或其組合)拍攝的一組 2D 圖像。作者提出了一種基于神經網絡的架構,可以表示這種高維 X-fields。根據下面的圖 1,可以理解本文的關鍵所在:利用在不同條件和坐標下觀察到的稀疏圖像(在這種情況下為時間),來訓練神經網絡(映射),可以在提供空間、時間或光線坐標作為輸入的情況下,生成觀察到的樣本圖像作為輸出。對于未觀察到的坐標,將對輸出進行如實插值(如 GIF 所示)。
Overview of the Proposed Method
具體來說,X-Fields 就是學一個函數:
這里 是參數,函數將 維的輸入映射為有 個像素值的 2D RGB 圖像。X-Field 維度取決于捕獲方式,四維的話就包括 即 2D 圖像的坐標,時間維度和光照角度。
我們可將 X-field 視為高維連續空間。我們有有限的、非常稀疏的輸入圖像。這種稀疏觀察到的 X-Field 坐標可以表示為 ,在已知坐標 處捕獲了圖像 。 很稀疏,即很小,例如 、 等。例如,給定一個 的光場圖像序列,輸入是 2D 坐標 ,其中 ,。在測試期間,我們可以為 給出 到 之間的任意連續值,為 給出 到 之間的任意連續值。學習的神經網絡架構將如實地在給定范圍內進行插值。
總之,這里訓練了一個 架構,以將向量 映射到捕獲的圖像 ,同時也希望得到對于未觀察到的向量 產生合理圖像 。
Architecture Design
本文的網絡架構也是一個創新點,主要通過四個步驟來實現:
分離陰影和反照率:陰影是指在 3D 模型(3D 計算機圖形學領域)或插圖(2D 計算機圖形學范圍)中,通過改變暗度來進行深度感知的描述。反照率是入射光從表面反射出去的比例。換句話說,它是物體的整體亮度。
插值圖像是變形圖像(即訓練數據出現的圖像)的加權組合。
使用神經網絡表示“flow(流)”。
解決不連續問題。
這部分比較復雜具體參見原文,本文在各個數據集上實現了非常平滑的插值,效果比目前的 SOTA 好很多。
LIIF
論文標題:
Learning Continuous Image Representation with Local Implicit Image Function
論文鏈接:
https://arxiv.org/abs/2012.09161
收錄會議:
CVPR 2021
項目地址:
https://github.com/yinboc/liif
本次提出局部隱函數(Local Implicit Image Function,LIIF),以一個圖像坐標和坐標周圍的二維深度特征作為輸入,預測給定坐標處的 RGB 值作為輸出。由于坐標是連續的,所以 LIIF 可以呈現出任意分辨率。作者通過超分辨率的自監督任務來訓練編碼器和 LIIF 表示,以生成基于像素圖像的連續表示。連續表示可以在任意分辨率下呈現,在沒有提供訓練任務的情況下,甚至可以放大到 ×30 更高的分辨率。
本文采用的是 encoder-decoder 架構,即使用一個 encoder 對所有的 object 預測 latent vectors,然后所有 object 共享一個 decoder,對于給定的坐標,根據坐標信息查詢該坐標附近的局部 latent codes 作為函數輸入,預測其 RGB 值。
公式化的描述,每個 image 會被表示為一個 2D 的特征圖 。然后一個 decoder 用來進行預測:
很好理解,二維坐標。 是本文理解的一個要點,即該位置附近的局部信息。
注意我們的圖像是 的,比特征圖要大,因此需要 decoder 進行一定的轉換。即如下所示:
這里的 是距離位置 最近的 latent code, 是 所在的位置。也就是說每個 latent code 表示連續圖像的一個局部信息,負責預測距離它最近的一組坐標的信號。
為了提升豐富 latent 蘊含的信息,作者進行了 feature unfolding,即將 范圍內的 latent 進行連結。邊角的地方進行 0 填充。
但是此時預測過程還有一個嚴重的問題,那就是不連續,如下圖所示,因為 位置的臨近信息只依賴于與他最近的那個 latent vector(此圖中是 ),因此當 上移或者左移超過虛線的時候,預測結果就會立刻改變,即一個很小的輸入擾動就會造成非常大的結果誤差,這是不合理的,因此作者將最終的預測結果改為使用臨近四個位置 latent code 的加權和。
網絡很簡單,先將數據預處理成高分辨率和低分辨率的圖片,對低分辨率圖片過一個 encoder,得到 feature map,然后輸入高分辨率圖像坐標(x,y)和低分辨率的 feature map,使用一個 MLP 預測高分辨率的 rgb 值。
最后 INR 的 idea 確實非常驚艷,其表達能力也很出眾,有著以下幾個卓越的特點:1)輸入輸出自然對其,與數據的形式(1-D,2-D,3-D)無關;2)與訓練數據的分辨率無關。INR 的思想已經被用在了超分,3D 渲染,跨模態生成等很多領域,相信這種對數據建模的思想還有這其他重要用途。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的将隐式神经表示(INR)用于2D图像的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 女中职生没有高考成绩能当兵吗?
- 下一篇: 能打仗、打胜仗、有优良作风的军队