ICCV 2021 | CMU朱俊彦团队:用一张草图轻松创建GAN模型
?作者?|?杜偉、陳
來源?|?機器之心
CMU 助理教授朱俊彥團隊的最新研究將 GAN 玩出了花,僅僅使用一個或數個手繪草圖,即可以自定義一個現成的 GAN 模型,進而輸出與草圖匹配的圖像。相關論文已被 ICCV 2021 會議接收。
深度生成模型(例如 GAN)強大之處在于,它們能夠以最少的用戶努力合成無數具有真實性、多樣性和新穎的內容。近年來,隨著大規模生成模型的質量和分辨率的不斷提高,這些模型的潛在應用也不斷的在增長。
然而,訓練高質量生成模型需要高性能的計算平臺,這使得大多數用戶都無法完成這種訓練。此外,訓練高質量的模型還需要收集大規模數據以及復雜的預處理過程。常用的數據集(例如 ImageNet 、LSUN)需要人工標注和過濾;而專用的數據集 FFHQ Face 需要進行人臉對齊以及超分辨率預處理。此外,開發一個高級生成模型需要一組專家的領域知識,他們通常會在特定數據集的單個模型上投入數月或數年的時間,耗時較長。
這就引出了一個問題:普通用戶如何創建自己的生成模型?比如,用貓來創造藝術作品的用戶可能不愿意使用普通的貓模型,而希望是一種特殊貓的定制模特,擺著特定的姿勢:在附近、斜倚著,或者都向左看。一般來說,要獲得這樣的定制模型,用戶必須管理成千上萬的向左傾斜的貓圖像,然后需要領域專家花幾個月的時間進行模型訓練和參數調整,才能生成一個較為理想的模型。
在這項工作中,朱俊彥等來自 CMU 和 MIT 的研究者提出 GAN Sketching,該方法通過一個或多個草圖重寫 GAN,讓新手用戶更容易地訓練 GAN。具體地,該方法還能通過用戶草圖改變原始 GAN 模型的權重,并且通過跨域(cross-domain )對抗損失鼓勵模型輸出來匹配用戶草圖。
此外,該研究還探索了不同的正則化方法,以保持原始模型的多樣性和圖像質量。
論文地址:https://arxiv.org/pdf/2108.02774.pdf
項目地址:https://peterwang512.github.io/GANSketching
實驗表明,GAN Sketching 可以塑造 GAN 來匹配草圖指定的形狀和姿態,同時保持真實感和多樣性。研究者最后演示了生成的 GAN 的一些應用,包括潛在空間插值和圖像編輯等應用。
它的效果是這樣的:繪制一張貓咪草圖,模型會匹配與草圖神似的貓咪圖片:
看起來在遠處、趴著的貓咪:
匹配和你對視的貓咪:
方法
研究者的目標是創建一個真實圖像的模型,其中這些照片的形狀和姿態由草圖來指導,但輸出的是真實圖像,而不再是草圖。
基于此,研究者提出了一個使用域轉換網絡的跨域對抗損失。不過,單單使用跨域對抗損失明顯改變了模型的行為,并生成了不真實的結果。因此,他們通過圖像空間正則化進一步訓練模型,并且為了減輕模型的過擬合,他們限制了特定層的更新,并使用到了數據增強策略。
完整的訓練流程如下圖 2 所示:
跨域對抗學習
假設 X, Y 分別是由圖像和草圖組成的域。研究者收集了一個大規模訓練圖像集 x ~ p_data(x)和一些手繪草圖 y ~ p_data(y)。他們將 G(z; θ)作為一個從低維代碼 z 中生成圖像 x 的預訓練 GAN,并希望創建一個新的 GAN 模型 G(z; θ′),它的輸出圖像呈現與 X 相同的數據分布,同時輸出圖像的草圖也與 Y 的數據分布相似。
為了縮小草圖訓練數據與圖像生成模型之間的差距,研究者提出以跨域對抗損失來激勵生成的圖像匹配草圖 Y。在傳遞至判別器之前,生成器的輸出通過預訓練的圖像 - 草圖網絡 F 轉換成了草圖。如公式(1)所示:
其中,研究者將 Photosketch 作為圖像 - 草圖網絡 F。
?圖像空間正則化
研究者觀察到,僅使用草圖上的損失將大大降低圖像質量和生成結果的多樣性,這是因為該損失迫使生成圖像的形狀匹配草圖。為了解決這一問題,他們添加了第二個對抗損失,以將輸出與原始模型的訓練設置進行比較。如公式(2)所示:
其中,判別器 D_X 用來保持圖像質量和模型輸出的多樣性,并匹配用戶的草圖。
研究者還實驗了權重正則化,其中使用公式(3)中的損失來顯式地懲罰大的變化:
最后,研究者實驗了圖像和權重正則化方法聯合訓練的模型,結果發現,該模型并不優于僅通過圖像正則化訓練的模型。
優化
研究者的目標是:
為了防止模型過擬合并加速微調速度,他們僅修改了 StyleGAN2 的映射網絡的權重,其本質上是將 z ~ N (0, I)重映射為不同的中間潛在空間(W 空間)。
此外,研究者使用了一個預訓練的 Photosketch 網絡 F,并通過訓練固定了 F 的權重。他們實驗了應用于訓練草圖的可微增強策略,結果發現,輕微的增強在場景測試中表現更好。在本研究中,他們使用了轉換增強。
實驗
為了實現大規模的定量評估,研究者構建了一個模型草圖場景數據集。該研究使用 PhotoSketch 將數據集 LSUN 中的馬、貓和教堂的圖像轉換為草圖,并手工選擇 30 幅形狀和姿勢相似的草圖集合,指定為用戶輸入,如下圖 3 所示。
該研究根據生成圖像和評估集之間 FID(Frechet Inception Distance)來評估模型,為了公平比較,該研究通過選擇具有最佳 FID 的迭代來評估每個模型。
該研究與以下基線進行了比較:(1)基線 (SBIR),使用 Bui 等人提出的基于草圖的圖像檢索方法選擇最佳匹配樣本(2) 基線 (Chamfer),使用 PhotoSketch 計算的輸入草圖 y 和圖像 x 的草圖之間的對稱倒角距離 d(x, y) + d(y, x) 匹配樣本。
表 1 為定量比較,由結果可得該研究所用方法獲得的 FID 明顯優于基線 (SBIR) 和基線(Chamfer)。此外,該研究還調查了其他訓練因素的影響,如表 1 所示。
更少的草圖樣本:該研究還測試了 GAN Sketching 方法是否能夠處理較少數量的草圖。每項任務只使用 1 或 5 個草圖訓練模型,這些草圖選自前 30 個草圖。結果如下表 1 所示。
消融實驗:首先,該研究對正則化方法和數據增強效果進行了實驗,結果如下表 2 所示:
正則化方法對比:與使用 L_sketch 訓練相比,正則化方法 L_image 或者 L_weight 提高了 FID,而使用 L_image 優于 L_weight 正則化方法。這與下圖 4 中的觀察結果一致,展示了經過正則化和不經過正則化訓練的模型的 snapshot。
為了讓普通用戶可以定制 GAN,該研究還在新手手繪草圖上進行了測試。研究者從 Quickdraw 數據集收集貓和馬的草圖作為訓練圖像。首先他們在一個草圖上訓練模型,并在下圖 5 中顯示成功和失敗的案例。
該研究還觀察到,在困難的情況下,可以通過增加輸入用戶草圖的數量來提高性能,如下圖 6 所示:
研究者還發現,增強策略是該方法在用戶草圖中獲得成功必不可少的因素。如下圖 7 所示,給定相同的輸入草圖,僅有通過增強策略訓練的模型生成了忠實匹配輸入草圖的圖像。
研究者將他們的方法應用于人臉生成模型,并使用增強策略加持的方法自定義了在 4 張人類手繪草圖上訓練的 StyleGAN2 FFHQ 模型。具體結果如下圖 11 所示,可以看到,輸出的圖像與輸入的草圖匹配。
應用
研究者了探討了將他們的方法應用于圖像編輯和合成任務的幾種方法,并表示:用戶利用自定義模型可以更好地執行潛在空間編輯以及更好地操控自然圖像。
對于潛在空間編輯來說,研究者在原始模型中應用了潛在發現方法 GANSpace。如下圖 8 所示,通過沿著得出的潛在方向移動,他們發現自定義模型可以執行與 Harkonen 等人工作中完全相同的操作。
由于研究者僅調整了生成器的映射網絡,他們的方法并沒有改變模型處理 W 空間潛變量的方式,因此保留了潛在編輯的屬性。他們還觀察到,潛在插值(latent interpolation)在模型中保留了平滑性。下圖 9 為利用自定義模型的差值結果:
對于 自然圖像編輯來說,研究者表示,自然圖像編輯可以通過圖像投影(image projection)來實現。下圖 10 為利用原始和自定義模型進行的自然圖像編輯:
不過,研究者也遇到了一些失敗的示例,具體如下圖 12 所示,生成的圖像無法忠實地匹配草圖的姿態:
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的ICCV 2021 | CMU朱俊彦团队:用一张草图轻松创建GAN模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 北京招聘 | 美团视觉智能中心招聘视觉算
- 下一篇: 什么是公共网络项目