ICCV 2019 开源论文 | ShapeMatchingGAN:打造炫酷动态的艺术字
作者丨楊帥
學校丨北京大學博士生
研究方向丨圖像風格化
論文引入
當你制作 PPT 時想要打造與背景圖片風格一致的標題,當你設計宣傳海報時想要一個引人注意的標題,當你發朋友圈時想要更生動地展示文字所傳達的信息,你現在可能需要的是文字風格化算法。
文字風格化是一種為文字設計特效,將之渲染為獨一無二的藝術字的過程。藝術字往往需要設計師依靠技術和經驗花費幾個小時去創作。這種耗時的工作當然可以交給計算機來做,ShapeMatchingGAN 應運而生,只需要提供一張風格圖片,就能打造自己的火焰字、水滴字、閃電字、花瓣字等等。
▲?將不同程度的火焰風格渲染到文字上
在文字風格化中,有一點需要注意,以火焰字為例,要使火焰在文字上燒起來,文字邊緣勢必要進行形狀的調整,而過多的調整又會損害文字的可讀性。因此,需要在文字的藝術性和可識別性上進行折衷。ShapeMatchingGAN 貼心地考慮到了這一點,提供了文字形變程度 l 這一參數。通過調整 l,就能實時獲得不同變形程度的藝術字。想更硬朗一點,還是更飄逸一點,輕松選擇。
▲?選擇最合適的藝術字效果
本篇的目的是解讀在文字風格化任務中,如何讓網絡在一張用戶指定的風格圖像上實現訓練,以及如何做到對文字不同變形程度的支持。
本篇的主角 ShapeMatchingGAN,是 ICCV 2019 Oral,實現了變形程度可控的文字風格化。作者還開源了 PyTorch 實現:https://github.com/TAMU-VITA/ShapeMatchingGAN,喜歡設計的小伙伴可以去嘗試渲染一下自己的藝術字。
雙向形狀匹配策略
ShapeMatchingGAN 的首要目的是學會文字的變形。不同于紋理尺度、風格強度等可用超參描述的特征,文字變形難以定義與建模,同時也沒有對應的數據集支撐。為了解決這個問題,文章提出了雙向形狀匹配策略:
整體思路是比較直觀理解的。分為兩個階段,第一個階段(反向結構遷移),提取風格圖的結構,反向將文字的形狀風格遷移到結構圖上,獲得簡化的結構圖。第二個階段(正向風格遷移),正向學習該上述過程的逆過程,即學習將簡化的結構映射到原始結構再進一步映射回風格圖。這樣網絡就學會了為文字邊緣增添風格圖的形狀特征和渲染紋理。
但是我們還面臨兩個挑戰,首先,如何在風格圖只有一張的條件下,訓練網絡;其次,如何訓練一個網絡來快速處理不同的變形程度。
接下來,我們對各個部分詳細的進行梳理,展示文章是如何應對這兩個挑戰的。
反向結構遷移
反向結構遷移的目的是生成風格圖的結構圖與簡化結構圖,與風格圖構成成對的訓練集。針對第一個挑戰,文章采用隨機裁剪的方式,將風格圖,結構圖和簡化結構圖,裁剪為大量的子圖像,從而獲得足夠的訓練數據。
為了將文字的形狀特征遷移到風格圖的結構圖上,文章提出了 Sketch Module,它包含一個模糊模塊和一個去模糊模塊。模糊模塊使用高斯濾波模糊圖像邊緣,將文字圖和結構圖映射到同一個模糊領域,然后通過在文字圖上訓練去模糊模塊恢復文字簡潔的邊緣,讓網絡在測試時能簡化結構圖的邊緣。?
針對第二個挑戰,為了學習不同的文字變形程度,對應的,也需要生成不同簡化程度的簡化結構圖。文章的解決方案是使用文字形變程度控制高斯濾波的核函數的標準差。l 越大,邊緣模糊程度越高,對應結構圖簡化程度也越高,反過來學到的文字變形程度也越大。
正向風格遷移
正向結構遷移包含結構遷移和紋理遷移。在結構遷移任務中,文章訓練網絡 GS 將不同簡化程度的結構圖映射回原始的結構圖。這是一個多對一的映射問題,網絡可能會僅僅記住輸出的結果,而忽略輸入的不同。
為了應對這個問題,文章提出了可控的 ResBlock,由兩個 ResBlock 以 l 為權重線性加權組合得到。當?l?= 0 或 1 時,其退化為單個 ResBlock,分別學習最大和最小的變形程度。而當?l?在 0 至 1 之間時,網絡學會在兩個極端下折衷,從而應對第二個挑戰。
最后,文章訓練一個網絡 GT 將結構圖映射為風格圖,從而學會為文字增添紋理。文章同時還考慮了非邊緣部分字形的保持和使用 style loss 增強紋理的細節。
實驗
實驗對比?
和已有的方法,ShapeMatchingGAN 進行了定性和定量上的對比。與這些方法相比,ShapeMatchingGAN 能夠生成更自然的邊緣和細節豐富的紋理。在主觀打分上,ShapeMatchingGAN 獲得了 0.802 的用戶傾向均值, 而 Image Analogy [1], NST [2], Doodle [3], T-Effect [4] 和 UT-Effect [5] 分別為 0.513,0.376,0.537,0.230 和 0.542,ShapeMatchingGAN 取得最好的結果。
消融對比?
文章定性上做了消融對比實驗,包括直接使用 GT 不使用 GS (baseline),使用串聯 l 的方式代替可控的ResBlock (w/o CR),直接使用 GS 不使用 GT (w/o TN),以及完整的網絡。
可控的變形程度
下圖展示了文字邊緣的葉片和文字邊緣的冰晶逐漸生長得愈發豐茂的過程。我們的方法能快速且連續地逐步增加文字的變形程度。
動態藝術字
通過對輸入圖像添加噪聲,能得到同一風格下不同形態的藝術字,組合起來就能讓藝術字動起來。
總結
文章提出了 ShapeMatchingGAN,一種用于將風格圖片的形狀和紋理風格渲染到目標文字上的文字風格化模型。通過提出的雙向結構匹配策略,ShapeMatchingGAN 能構建文字與風格在形狀之間不同尺度上的對應關系,而可控的 ResBlock 的加入支持網絡魯棒地學會這樣的對應關系。從實驗結果上可以成功地實現文字風格化,并控制文字的形變程度,較其他方法取得了一定的優勢。
更多文字風格化的工作
如果你對文字風格化感興趣,歡迎關注作者其他幾篇相關的工作:
基于塊匹配的字效遷移:http://www.icst.pku.edu.cn/struct/Projects/TET.html
藝術字生成與圖文結合:http://www.icst.pku.edu.cn/struct/Projects/UTS.html
基于特征解耦的字效遷移:http://39.96.165.147/Projects/ys_aaai19/TETGAN.html
關注小配飾的字效遷移:https://daooshee.github.io/Typography2019/TE141K
字效數據庫:https://daooshee.github.io/TE141K/
參考文獻
[1] A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H. Salesin. Image analogies. SIGGRAPH. 2001?[2] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using Convolutional neural networks. CVPR. 2016?[3] A. J. Champandard. Semantic style transfer and turning two-bit doodles into fine artworks. Arxiv. 2016?[4] S. Yang, J. Liu, Z. Lian, and Z. Guo. Awesome typography: statistics-based text effects transfer. CVPR. 2017?[5] S. Yang, J. Liu, W. Yang, and Z. Guo. Context-aware text-based binary image stylization and synthesis. TIP. 2019
#活 動 推 薦#
?10.31-11.1 北京智源大會?
世界AI看中國,中國AI看北京!?百位頂級專家,60+前沿報告,10+圓桌論壇與尖峰對話,為你帶來內行的AI盛會。薈萃全球頂級學者:John Hopcroft(圖靈獎),Michael Jordan(機器學習權威學者),Chris Manning(NLP權威學者),朱松純(計算機視覺權威學者),張鈸、高文、戴瓊海和張平文院士等100多位專家。掃碼查看大會詳細日程,注冊參會時輸入優惠碼「PAPERWEEKLY」專享7折優惠,學生票僅69元(數量有限,先到先得)。
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的ICCV 2019 开源论文 | ShapeMatchingGAN:打造炫酷动态的艺术字的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实录分享 | 计算未来轻沙龙:自然语言处
- 下一篇: 花盖蟹蒸多久 教你如何烹饪美味的花盖蟹?