【IJCV2020】【语义编辑】Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis
注:拉到最后有視頻版~
論文地址:https://genforce.github.io/higan
?
這次給大家分享一篇做場景編輯的文章,作者是周博磊老師組的楊策元,中的是 IJCV2020
我會從這五個方面開始我的講解
背景
首先是背景,背景就是 GAN 在圖片合成領(lǐng)域表現(xiàn)優(yōu)異
動機
動機是現(xiàn)在目標檢測的解釋性工作比較多,對于 GAN 這種生成模型的解釋性工作還比較少
目標
研究目標是探究下語義層級信息在 layer-wise 輸入的 GAN 模型中的表現(xiàn),這里可以看到兩個圖,左圖是本文章主要探究的幾個語義屬性,比如 layout(格局),category(種類),attribute 和 color;右圖是不同類型的 GAN,一般的 GAN 都是直接輸入網(wǎng)絡(luò),但是 StyleGAN 的變量是 layer-wise 進去的
方法
先看下本文定義的多種語義,對于 bedroom 和 living room 這兩種場景,有以下的定義: attribute 就是用不同的分類器分出來的, layout 是提取墻的線得到的,object 是場景分割得到的
具體的方法就是 SVM 和 Re-score,SVM 我已經(jīng)說過很多次,就是在 GAN 的 latent space 中,每個點對應(yīng)著 image space 中的一張圖片,同時也對應(yīng)著 semantic space 中的多種語義。Sample 一定量的圖片后,用預(yù)訓練好的分類器去獲取他們對應(yīng)的不同語義,接著對于某個屬性,用一個 SVM 在 latent space 中學一個超平面,得到支持向量 n,這就是這個模型中的語義向量,和 InterfaceGAN 的方法幾乎一樣,不過 InterfaceGAN 處理的對象是 face,face 是容易定義的,而本文處理的是 scene,scene 的變化是很大的。
在獲取了語義向量后,我們用 Re-score 來衡量這個語義方向,也就是說看編輯前后圖片的語義變化程度,公式在下面,K 是樣本數(shù)
驗證完畢后,文章有三種編輯的手段,第一張很簡單,就是在 latent space 中向語義的方向推,第二種是向兩個語義方向的加和方向推,第三種是在推的時候加一點隨機擾動
實驗
然后來看實驗,比如對于 layout,object 這幾類屬性,正負樣本是怎么分的,layout 就是看支撐墻的中點在左邊還是右邊;文章做實驗用到的模型列在下面
首先看下出現(xiàn)的語義層級,對于本文用到的網(wǎng)絡(luò),我們在 y 的層面而不是 z 的層面,做 rescore 來研究,探究某個層級后在整體效果中的占比,可以看到 layout,object 和其他屬性的峰值(即變化最大)都對應(yīng)著不同的層級,user-study 也證明了這一點
然后看編輯實驗,對不同的屬性,都可以做相當定向的編輯,還能結(jié)合起來做編輯,效果都很不錯
當我們把 living room 的 scene 用語義向量推到 bedroom,再推到 dining room,跟蹤一些 object 的像素的變化,可以看到這樣的圖。出現(xiàn)這樣的現(xiàn)象的原因,是因為某些 object 是某個 scene 獨有的,因為床,沙發(fā),椅子是 bedroom,living room 和 dining room 的特有物件。有這個現(xiàn)象,我們就可以做特定的編輯,也不用像其他 cgan 的那種 label 方式
場景的編輯肯定依賴于訓練的數(shù)據(jù),故這里分析了一下訓練數(shù)據(jù)的分布,在 bridge 的場景,sunny 占主要的變化,其他場景也有對應(yīng)的屬性,這些屬性都是這個場景獨有的
回顧下之前的編輯,對于不同的語義編輯,可以看到同時編輯的效果是可以把兩個語義同時加上去的,隨機擾動的編輯可以加上讓語義更加豐富
消融實驗主要為了證明自己的方法的有效性,先看第一個圖,在 bedroom 場景中,這幾個屬性一直保持接近 1 的值,這說明這幾個屬性是沒法區(qū)分的,我們的方法用 rescore 可以把這些給去掉;第二個圖,在 SVM 分類效果的指標上來看,幾乎所有的屬性都被完美分開,無法區(qū)分出主次,但我們的方法 rescore 可以把找出變化最明顯的屬性
這是對不同層做操作的消融實驗,從第一個圖可以看到對目標層和對所有層編輯的對比,對所有層的編輯帶來了更多其他屬性的變化
第二個圖是在底層對四個屬性進行編輯,可以發(fā)現(xiàn)大多都只改變了布局
在看解耦合的實驗,當我們定向編輯紅色向量的時候,發(fā)現(xiàn)在 rescore 的指標上,其他特征變化都不大
在其他的 GAN 模型上也能得到類似的結(jié)果
結(jié)論
結(jié)論就是 layer-wise 的層級對應(yīng)于特定的語義,和人一樣從宏觀到微觀生成圖片
不足
不足也很明顯,首先是分類器可能不一定準確,第二是 layout 屬性的定義很難,第三是 SVM 的分類是線性的,效果可能不夠好
?
[IJCV2020]Semantic Hierarchy Emerges in Deep Generative Representations for Scen
總結(jié)
以上是生活随笔為你收集整理的【IJCV2020】【语义编辑】Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Linux】文件类型
- 下一篇: 听著名服务端主程讲座有感 - archy