文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研
基于近年來圖像處理和語言理解方面的技術(shù)突破,融合圖像和文本處理的多模態(tài)任務(wù)獲得了廣泛的關(guān)注并取得了顯著成功。
文本生成圖像(text-to-image)是圖像和文本處理的多模態(tài)任務(wù)的一項子任務(wù),其根據(jù)給定文本生成符合描述的真實圖像,具有巨大的應(yīng)用潛力,如視覺推理、圖像編輯、視頻游戲、動畫制作和計算機輔助設(shè)計。
目前,各種各樣的模型已經(jīng)開發(fā)用于文本到圖像的生成,模型主要可以分為三大類:擴散模型(Diffusion Model)、自回歸模型(Autoregressive Model)、生成對抗網(wǎng)絡(luò)模型(Generative Adversarial Networks),下面梳理一些近幾年重要的模型并對比這三種方法的優(yōu)劣:
一、基本原理
1.1、擴散模型(Diffusion Model)
擴散模型是一類生成模型,其通過迭代去噪過程將高斯噪聲轉(zhuǎn)換為已知數(shù)據(jù)分布的樣本,生成的圖片具有較好的多樣性和寫實性。
擴散過程逐步向原始圖像添加高斯噪聲,是一個固定的馬爾科夫鏈過程,最后圖像也被漸進變換為一個高斯噪聲。而逆向過程則通過去噪一步步恢復原始圖像,從而實現(xiàn)圖像的生成。
隨機輸入一張高斯噪聲顯然不能按照人的意愿生成我們想要的內(nèi)容,我們需要將一些具體的指導融入擴散模型中去,如:Classifier Guidance、Semantic Diffusion Guidance、Classifier-Free Guidance。
擴散模型在實現(xiàn)文本生成圖像上大概有以下策略:
這兩種想法可以將普通擴散模型改進為引導擴散模型(Guided Diffusion),并對生成的圖像進行一定程度上的細粒度控制。
1.2、自回歸模型(Autoregressive Model)
自回歸模型模型利用其強大的注意力機制已成為序列相關(guān)建模的范例,受GPT模型在自然語言建模中的成功啟發(fā),圖像GPT(iGPT)通過將展平圖像序列視為離散標記,采用Transformer進行自回歸圖像生成。生成圖像的合理性表明,Transformer模型能夠模擬像素和高級屬性(紋理、語義和比例)之間的空間關(guān)系。Transformer整體主要分為Encoder和Decoder兩大部分,利用多頭自注意力機制進行編碼和解碼。
自回歸模型在實現(xiàn)文本生成圖像上大概有以下策略:
1.3、生成對抗網(wǎng)絡(luò)模型(Generative Adversarial Networks)
生成對抗網(wǎng)絡(luò)包含一個生成模型和一個判別模型。其中,生成模型負責捕捉樣本數(shù)據(jù)的分布,而判別模型一般情況下是一個二分類器,判別輸入是真實數(shù)據(jù)還是生成的樣本。整個訓練過程都是兩者不斷地進行相互博弈和優(yōu)化。生成器不斷得生成圖像的分布不斷接近真實圖像分布,來達到欺騙判別器的目的,提高判別器的判別能力。判別器對真實圖像和生成圖像進行判別,來提高生成器的生成能力。
生成對抗網(wǎng)絡(luò)實現(xiàn)文本生成圖像主要分為三大部分:文本編碼器、生成器和鑒別器。文本編碼器由RNN或者Bi-LSTM組成,生成器可以做成堆疊結(jié)構(gòu)或者單階段生成結(jié)構(gòu),主要用于在滿足文本信息語義的基礎(chǔ)上生成圖像,鑒別器用于鑒別生成器生成的圖像是否為真和是否符合文本語義。
生成對抗網(wǎng)絡(luò)模型在實現(xiàn)文本生成圖像上主要有以下策略:
二、三種框架的對比
2.1、圖像質(zhì)量
在生成圖像的質(zhì)量上:擴散模型最好,自回歸模型和生成對抗網(wǎng)絡(luò)其次:
| KNN-Diffusion | 擴散模型 | 16.66 |
| Stable Diffusion | 擴散模型 | 12.63 |
| GLIDE | 擴散模型 | 12.24 |
| DALL-E 2 | 擴散模型 | 10.39 |
| Imagen | 擴散模型 | 7.27 |
| Re-Imagen | 擴散模型 | 6.88 |
| DALL-E | 自回歸模型 | 28 |
| CogView | 自回歸模型 | 27.1 |
| CogView2 | 自回歸模型 | 24.0 |
| Parti | 自回歸模型 | 7.23 |
| StackGAN++ | 生成對抗網(wǎng)絡(luò) | 81.59 |
| AttnGAN | 生成對抗網(wǎng)絡(luò) | 35.49 |
| DM-GAN | 生成對抗網(wǎng)絡(luò) | 32.64 |
| DF-GAN | 生成對抗網(wǎng)絡(luò) | 21.42 |
| SSA-GAN | 生成對抗網(wǎng)絡(luò) | 19.37 |
2.2、參數(shù)量
在參數(shù)量的比較上,自回歸模型和擴散模型參數(shù)量達到了十億級別,屬于自回歸模型的Parti甚至達到了百億級別的參數(shù)量,而生成對抗網(wǎng)絡(luò)的模型參數(shù)量一般在千萬級別,明顯輕巧便捷。
| GLIDE | 擴散模型 | 35億 |
| DALLE-2 | 擴散模型 | 35億 |
| Imagen | 擴散模型 | 34億 |
| Re-Imagen | 擴散模型 | 36億 |
| DALLE | 自回歸模型 | 120億 |
| Cogview | 自回歸模型 | 40億 |
| Cogview2 | 自回歸模型 | 60億 |
| Parti | 自回歸模型 | 200億 |
| DFGAN | 生成對抗網(wǎng)絡(luò) | 0.19億 |
2.3、易擴展性
在易擴展度的比較上,由于訓練的計算成本小,且開源模型較多,生成對抗網(wǎng)絡(luò)在文本生成圖像的任務(wù)上仍然有很大的優(yōu)勢。而擴散模型和自回歸模型的開源量較少,目前大多數(shù)都是大型公司(谷歌、Meta等)在研究,大型通用模型對設(shè)備的要求較高,在單張A100 GPU下,DALL-E需要18萬小時,擁有200億參數(shù)的 Parti 更是需要超過100萬小時,成本高昂。
個人總結(jié)來說:
| 圖像質(zhì)量 | 優(yōu) | 良+ | 良 |
| 參數(shù)量 | 中 | 差 | 優(yōu) |
| 易擴展性 | 中 | 中 | 優(yōu) |
| 優(yōu)勢原因 | 逐漸添加/去除噪聲的性質(zhì),只學習大規(guī)模的結(jié)構(gòu),不引入歸納偏差 | 更大的batch size、更多的隱藏層、Transformer的多頭自注意力機制 | 生成器和判別器動態(tài)對抗的特點,避免了馬爾科夫鏈式的學習機制,無需在學習過程中進行推斷 |
| 優(yōu)點 | 更好的可解釋性,生成的質(zhì)量高 | 生成質(zhì)量較高,生成分布更加均勻 | 采樣速度很快,靈活的設(shè)計框架 |
| 缺點 | 大量擴散步驟導致采樣速度慢 | 需要將圖像轉(zhuǎn)為token進行自回歸預測,采樣速度慢 | 可解釋性差,容易模式崩潰 |
三、生成性網(wǎng)絡(luò)的三難困境
目前的生成式學習框架還不能同時滿足三個關(guān)鍵要求,包括(i)高質(zhì)量樣本,(ii)模式覆蓋和樣本多樣性,(iii)快速和低廉的計算成本。而這些要求往往是它們在現(xiàn)實問題中廣泛采用所必需的,普遍來說:
參考:
《TACKLING THE GENERATIVE LEARNING TRILEMMA WITH DENOISING DIFFUSION GANS》
《Retrieval-Augmented Multimodal Language Modeling》
https://blog.csdn.net/qq_32275289/article/details/126951463
https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/124641910
💡 最后
我們已經(jīng)建立了🏤T2I研學社群,如果你還有其他疑問或者對🎓文本生成圖像很感興趣,可以私信我加入社群。
📝 加入社群 抱團學習:中杯可樂多加冰-采苓AI研習社
🔥 限時免費訂閱:文本生成圖像T2I專欄
🎉 支持我:點贊👍+收藏??+留言📝
總結(jié)
以上是生活随笔為你收集整理的文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 网络安全——使用反弹木马进行提权获取主机
- 下一篇: https://zhuanlan.zhi