當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

DCGAN in Tensorflow生成动漫人物

發(fā)布時(shí)間：2024/4/17 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 DCGAN in Tensorflow生成动漫人物小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

引自：GAN學(xué)習(xí)指南：從原理入門到制作生成Demo

生成式對(duì)抗網(wǎng)絡(luò)（GAN）是近年來(lái)大熱的深度學(xué)習(xí)模型。最近正好有空看了這方面的一些論文，跑了一個(gè)GAN的代碼，于是寫了這篇文章來(lái)介紹一下GAN。

本文主要分為三個(gè)部分：

介紹原始的GAN的原理?
同樣非常重要的DCGAN的原理?
如何在Tensorflow跑DCGAN的代碼，生成如題圖所示的動(dòng)漫頭像，附送數(shù)據(jù)集哦 :-)

GAN原理介紹

說(shuō)到GAN第一篇要看的paper當(dāng)然是Ian Goodfellow大牛的Generative Adversarial Networks（arxiv：https://arxiv.org/abs/1406.2661），這篇paper算是這個(gè)領(lǐng)域的開(kāi)山之作。

GAN的基本原理其實(shí)非常簡(jiǎn)單，這里以生成圖片為例進(jìn)行說(shuō)明。假設(shè)我們有兩個(gè)網(wǎng)絡(luò)，G（Generator）和D（Discriminator）。正如它的名字所暗示的那樣，它們的功能分別是：

G是一個(gè)生成圖片的網(wǎng)絡(luò)，它接收一個(gè)隨機(jī)的噪聲z，通過(guò)這個(gè)噪聲生成圖片，記做G(z)。
D是一個(gè)判別網(wǎng)絡(luò)，判別一張圖片是不是“真實(shí)的”。它的輸入?yún)?shù)是x，x代表一張圖片，輸出D（x）代表x為真實(shí)圖片的概率，如果為1，就代表100%是真實(shí)的圖片，而輸出為0，就代表不可能是真實(shí)的圖片。

在訓(xùn)練過(guò)程中，生成網(wǎng)絡(luò)G的目標(biāo)就是盡量生成真實(shí)的圖片去欺騙判別網(wǎng)絡(luò)D。而D的目標(biāo)就是盡量把G生成的圖片和真實(shí)的圖片分別開(kāi)來(lái)。這樣，G和D構(gòu)成了一個(gè)動(dòng)態(tài)的“博弈過(guò)程”。

最后博弈的結(jié)果是什么？在最理想的狀態(tài)下，G可以生成足以“以假亂真”的圖片G(z)。對(duì)于D來(lái)說(shuō)，它難以判定G生成的圖片究竟是不是真實(shí)的，因此D(G(z)) = 0.5。

這樣我們的目的就達(dá)成了：我們得到了一個(gè)生成式的模型G，它可以用來(lái)生成圖片。

以上只是大致說(shuō)了一下GAN的核心原理，如何用數(shù)學(xué)語(yǔ)言描述呢？這里直接摘錄論文里的公式：

簡(jiǎn)單分析一下這個(gè)公式：

整個(gè)式子由兩項(xiàng)構(gòu)成。x表示真實(shí)圖片，z表示輸入G網(wǎng)絡(luò)的噪聲，而G(z)表示G網(wǎng)絡(luò)生成的圖片。
D(x)表示D網(wǎng)絡(luò)判斷真實(shí)圖片是否真實(shí)的概率（因?yàn)閤就是真實(shí)的，所以對(duì)于D來(lái)說(shuō)，這個(gè)值越接近1越好）。而D(G(z))是D網(wǎng)絡(luò)判斷G生成的圖片的是否真實(shí)的概率。
G的目的：上面提到過(guò)，D(G(z))是D網(wǎng)絡(luò)判斷G生成的圖片是否真實(shí)的概率，G應(yīng)該希望自己生成的圖片“越接近真實(shí)越好”。也就是說(shuō)，G希望D(G(z))盡可能得大，這時(shí)V(D, G)會(huì)變小。因此我們看到式子的最前面的記號(hào)是min_G。
D的目的：D的能力越強(qiáng)，D(x)應(yīng)該越大，D(G(x))應(yīng)該越小。這時(shí)V(D,G)會(huì)變大。因此式子對(duì)于D來(lái)說(shuō)是求最大(max_D)

下面這幅圖片很好地描述了這個(gè)過(guò)程：

那么如何用隨機(jī)梯度下降法訓(xùn)練D和G？論文中也給出了算法：

這里紅框圈出的部分是我們要額外注意的。第一步我們訓(xùn)練D，D是希望V(G, D)越大越好，所以是加上梯度(ascending)。第二步訓(xùn)練G時(shí)，V(G, D)越小越好，所以是減去梯度(descending)。整個(gè)訓(xùn)練過(guò)程交替進(jìn)行。

DCGAN原理介紹

我們知道深度學(xué)習(xí)中對(duì)圖像處理應(yīng)用最好的模型是CNN，那么如何把CNN與GAN結(jié)合？DCGAN是這方面最好的嘗試之一（論文地址：[1511.06434] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks）

DCGAN的原理和GAN是一樣的，這里就不在贅述。它只是把上述的G和D換成了兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)（CNN）。但不是直接換就可以了，DCGAN對(duì)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)做了一些改變，以提高樣本的質(zhì)量和收斂的速度，這些改變有：

取消所有pooling層。G網(wǎng)絡(luò)中使用轉(zhuǎn)置卷積（transposed convolutional layer）進(jìn)行上采樣，D網(wǎng)絡(luò)中用加入stride的卷積代替pooling。
在D和G中均使用batch normalization
去掉FC層，使網(wǎng)絡(luò)變?yōu)槿矸e網(wǎng)絡(luò)
G網(wǎng)絡(luò)中使用ReLU作為激活函數(shù)，最后一層使用tanh
D網(wǎng)絡(luò)中使用LeakyReLU作為激活函數(shù)

DCGAN中的G網(wǎng)絡(luò)示意：

DCGAN in Tensorflow

好了，上面說(shuō)了一通原理，下面說(shuō)點(diǎn)有意思的實(shí)踐部分的內(nèi)容。

DCGAN的原作者用DCGAN生成LSUN的臥室圖片，這并不是特別有意思。之前在網(wǎng)上看到一篇文章?Chainerで顔イラストの自動(dòng)生成 - Qiita?，是用DCGAN生成動(dòng)漫人物頭像的，效果如下：

這是個(gè)很有趣的實(shí)踐內(nèi)容。可惜原文是用Chainer做的，這個(gè)框架使用的人不多。下面我們就在Tensorflow中復(fù)現(xiàn)這個(gè)結(jié)果。

原始數(shù)據(jù)集的搜集

首先我們需要用爬蟲(chóng)爬取大量的動(dòng)漫圖片，原文是在這個(gè)網(wǎng)站：http://safebooru.donmai.us/中爬取的。我嘗試的時(shí)候，發(fā)現(xiàn)在我的網(wǎng)絡(luò)環(huán)境下無(wú)法訪問(wèn)這個(gè)網(wǎng)站，于是我就寫了一個(gè)簡(jiǎn)單的爬蟲(chóng)爬了另外一個(gè)著名的動(dòng)漫圖庫(kù)網(wǎng)站：konachan.net - Konachan.com Anime Wallpapers。

爬蟲(chóng)代碼如下：

import requests from bs4 import BeautifulSoup import os import tracebackdef download(url, filename):if os.path.exists(filename):print('file exists!')returntry:r = requests.get(url, stream=True, timeout=60)r.raise_for_status()with open(filename, 'wb') as f:for chunk in r.iter_content(chunk_size=1024):if chunk: # filter out keep-alive new chunksf.write(chunk)f.flush()return filenameexcept KeyboardInterrupt:if os.path.exists(filename):os.remove(filename)raise KeyboardInterruptexcept Exception:traceback.print_exc()if os.path.exists(filename):os.remove(filename)if os.path.exists('imgs') is False:os.makedirs('imgs')start = 1 end = 8000 for i in range(start, end + 1):url = 'http://konachan.net/post?page=%d&tags=' % ihtml = requests.get(url).textsoup = BeautifulSoup(html, 'html.parser')for img in soup.find_all('img', class_="preview"):target_url = 'http:' + img['src']filename = os.path.join('imgs', target_url.split('/')[-1])download(target_url, filename)print('%d / %d' % (i, end))

這個(gè)爬蟲(chóng)大概跑了一天，爬下來(lái)12萬(wàn)張圖片，大概是這樣的：

可以看到這里面的圖片大多數(shù)比較雜亂，還不能直接作為數(shù)據(jù)訓(xùn)練，我們需要用合適的工具，截取人物的頭像進(jìn)行訓(xùn)練。

頭像截取

截取頭像和原文一樣，直接使用github上一個(gè)基于opencv的工具：nagadomi/lbpcascade_animeface。

簡(jiǎn)單包裝下代碼：

作者：何之源鏈接：https://zhuanlan.zhihu.com/p/24767059 來(lái)源：知乎著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán)，非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。import cv2 import sys import os.path from glob import globdef detect(filename, cascade_file="lbpcascade_animeface.xml"):if not os.path.isfile(cascade_file):raise RuntimeError("%s: not found" % cascade_file)cascade = cv2.CascadeClassifier(cascade_file)image = cv2.imread(filename)gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)gray = cv2.equalizeHist(gray)faces = cascade.detectMultiScale(gray,# detector optionsscaleFactor=1.1,minNeighbors=5,minSize=(48, 48))for i, (x, y, w, h) in enumerate(faces):face = image[y: y + h, x:x + w, :]face = cv2.resize(face, (96, 96))save_filename = '%s-%d.jpg' % (os.path.basename(filename).split('.')[0], i)cv2.imwrite("faces/" + save_filename, face)if __name__ == '__main__':if os.path.exists('faces') is False:os.makedirs('faces')file_list = glob('imgs/*.jpg')for filename in file_list:detect(filename)

截取頭像后的人物數(shù)據(jù)：

這樣就可以用來(lái)訓(xùn)練了！

如果你不想從頭開(kāi)始爬圖片，可以直接使用我爬好的頭像數(shù)據(jù)（275M，約5萬(wàn)多張圖片）：https://pan.baidu.com/s/1eSifHcA?提取碼：g5qa

訓(xùn)練

DCGAN在Tensorflow中已經(jīng)有人造好了輪子：carpedm20/DCGAN-tensorflow，我們直接使用這個(gè)代碼就可以了。

不過(guò)原始代碼中只提供了有限的幾個(gè)數(shù)據(jù)庫(kù)，如何訓(xùn)練自己的數(shù)據(jù)？在model.py中我們找到讀數(shù)據(jù)的幾行代碼：

if config.dataset == 'mnist':data_X, data_y = self.load_mnist()else:data = glob(os.path.join("./data", config.dataset, "*.jpg"))

這樣讀數(shù)據(jù)的邏輯就很清楚了，我們?cè)赿ata文件夾中再新建一個(gè)anime文件夾，把圖片直接放到這個(gè)文件夾里，運(yùn)行時(shí)指定–dataset anime即可。

運(yùn)行指令（參數(shù)含義：指定生成的圖片的尺寸為48x48，我們圖片的大小是96x96，跑300個(gè)epoch）：

python main.py --image_size 96 --output_size 48 --dataset anime --is_crop True --is_train True --epoch 300

結(jié)果

第1個(gè)epoch跑完（只有一點(diǎn)點(diǎn)輪廓）：

第5個(gè)epoch之后的結(jié)果：

第10個(gè)epoch：

200個(gè)epoch，仔細(xì)看有些圖片確實(shí)是足以以假亂真的：

題圖是我從第300個(gè)epoch生成的。

總結(jié)和后續(xù)

簡(jiǎn)單介紹了一下GAN和DCGAN的原理。以及如何使用Tensorflow做一個(gè)簡(jiǎn)單的生成圖片的demo。

Ian Goodfellow對(duì)GAN一系列工作總結(jié)的ppt，確實(shí)精彩，推薦：獨(dú)家 | GAN之父NIPS 2016演講現(xiàn)場(chǎng)直擊：全方位解讀生成對(duì)抗網(wǎng)絡(luò)的原理及未來(lái)（附PPT）
GAN論文匯總，包含code：zhangqianhui/AdversarialNetsPapers

轉(zhuǎn)載于:https://www.cnblogs.com/Anita9002/p/9109642.html

總結(jié)

以上是生活随笔為你收集整理的DCGAN in Tensorflow生成动漫人物的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。