當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读

發(fā)布時間：2025/3/21 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

題目：Segattingan：關(guān)注分割的文本到圖像生成
時間：2020.5
作者：茍玉川,吳千城,李明浩,龔柏,韓梅
被 CVPR 2020 的 AI 內(nèi)容創(chuàng)作研討會錄取

Abstract

在本文中，我們提出了一種新的生成網(wǎng)絡(luò)（SegAttnGAN），它利用額外的分割信息來完成文本到圖像的合成任務(wù)。由于引入到模型中的分割數(shù)據(jù)為生成器訓(xùn)練提供了有用的指導(dǎo)，因此與以往的先進(jìn)方法相比，該模型可以生成更逼真的圖像，并具有更高的量化度量。我們在CUB數(shù)據(jù)集和Oxford-102數(shù)據(jù)集上的初始得分分別為4.84和3.52。此外，我們還測試了self-attenting SegAttnGAN，它使用生成的分割數(shù)據(jù)而不是來自數(shù)據(jù)集的masks來進(jìn)行注意，并獲得了類似的高質(zhì)量結(jié)果，這表明我們的模型可以適用于文本到圖像的合成任務(wù)。

1.Introduction

研究現(xiàn)狀：基于語義描述生成高保真、逼真的圖像是許多應(yīng)用程序的核心任務(wù)。很多研究都集中在文本到圖像合成任務(wù)上，該任務(wù)采用自然語言描述生成與文本匹配的圖像。該任務(wù)的許多模型使用生成性對抗網(wǎng)絡(luò)（GAN），以文本輸入為條件，而不是高斯噪聲來生成圖像。

現(xiàn)有模型存在的問題：盡管像這樣的模型在保持圖像文本一致性的同時實(shí)現(xiàn)了令人滿意的視覺質(zhì)量，但除了唯一約束對象形狀的特定關(guān)鍵字外，對生成圖像的布局幾乎沒有控制。這些模型通常會生成形狀變形的對象或布局不切實(shí)際的圖像（見圖1和圖3）。

最近的工作表明，當(dāng)分割數(shù)據(jù)的空間注意力用于指導(dǎo)圖像生成時，圖像合成任務(wù)可以獲得良好的結(jié)果。為了解決變形的形狀和不切實(shí)際的布局問題，我們設(shè)計了SegAttnGAN，它利用分割來增加文本輸入之外的全局空間注意力。我們希望空間信息能夠調(diào)整生成圖像的布局，從而創(chuàng)建更逼真的圖像。實(shí)驗表明，當(dāng)使用額外的分割信息來指導(dǎo)圖像生成時，將獲得令人滿意的結(jié)果。

本文的貢獻(xiàn)總結(jié)如下：
（1）我們提出了一種新的生成網(wǎng)絡(luò)，它利用文本和空間注意來生成真實(shí)的圖像。
（2）我們驗證了在GAN中加入空間注意機(jī)制可以通過調(diào)節(jié)物體形狀和圖像布局顯著提高視覺真實(shí)感。
（3）我們構(gòu)建了一個自注意網(wǎng)絡(luò)，首先生成分割masks，然后使用它生成圖像。基于定性結(jié)果，自注意模型也能很好地約束對象的形狀。

2.Related Work

由于文本圖像合成在許多應(yīng)用中發(fā)揮著重要作用，人們提出了不同的文本到圖像的合成技術(shù)。Reed等人利用PixelCNN從文本描述生成圖像。Mansimov等人提出了一個在畫布上迭代繪制補(bǔ)丁，同時注意描述中的相關(guān)單詞的模型，Nguyen等人使用近似的Langevin采樣方法生成以文本為條件的圖像。

自從Goodfellow等人引入生成性對抗網(wǎng)絡(luò)（GAN）以來，人們對不同類型的GAN的圖像生成任務(wù)進(jìn)行了廣泛的研究，并取得了高質(zhì)量的結(jié)果。與此同時，研究人員也開始將GAN技術(shù)應(yīng)用于文本到圖像合成任務(wù)。Reed等人提出了一種條件GAN，用于根據(jù)詳細(xì)的文本描述生成鳥和花的圖像，他們并向條件GAN添加了對象位置控制。Zhang等人提出了StackGAN從文本生成圖像。StackGAN由第一階段和第二階段的GAN組成，第一階段GAN生成低分辨率圖像，第二階段GAN生成高分辨率圖像。與句子層面上的StackGAN相比，Xu等人提出的AttnGAN在句子層面和單詞層面上發(fā)展了條件作用，旨在從文本描述中生成細(xì)粒度的高質(zhì)量圖像。Zhang等人提出了一種用于文本到圖像合成的分層嵌套GAN。喬等人提出了MirrorGAN，以實(shí)現(xiàn)視覺真實(shí)感和語義一致性。Hong等人和Li等人都以從粗到精的方式專注于文本到圖像的合成任務(wù)。但他們的重點(diǎn)是通過在全局或?qū)ο蠹墑e設(shè)計雙向LSTM來實(shí)現(xiàn)單詞嵌入模塊和對象級別的識別。而我們的重點(diǎn)在于具有注意機(jī)制的生成器，可以有效地約束給定分割圖的對象邊界。

語義信息為圖像生成提供了有用的指導(dǎo)。它被引入以不同的格式作為輸入。之前有些工作中的作品在圖像到圖像的轉(zhuǎn)化中使用了邊緣映射作為指導(dǎo)。Karacan等人和Park等人在圖像生成中使用語義布局作為指導(dǎo)。我們的工作不同于這些工作，因為我們將語義的masks應(yīng)用于文本到圖像的合成任務(wù)，而他們的工作是處理圖像到圖像的轉(zhuǎn)化或圖像生成。

3.SegAttnGAN for text-to-image synthesis

3.1SegAttnGAN architecture

文本到圖像的生成模型通常將整個句子的文本描述編碼為一個條件向量。AttnGAN還提出了一個單詞注意模型，該模型有助于根據(jù)單詞生成不同的圖像。如圖2所示，我們在SegAttnGAN采用了這種機(jī)制和一個LSTM文本編碼器來提取單詞特征和句子特征。句子特征與隨機(jī)潛在向量連接，單詞特征被用作單詞級注意。

3.2Segmentation attention module

分割注意模塊通過保持輸入語義圖的空間約束來增強(qiáng)圖像合成。Park等人已經(jīng)證明了它的有效性，我們使用同樣分割注意力模塊機(jī)制。

數(shù)學(xué)上，我們將F定義為前一層的特征，將S定義為輸入分割圖。這個保持空間約束的注意力模塊的輸出可以用方程1表示：

其中BN()是批規(guī)范化函數(shù)，而Conv()是卷積函數(shù)。該函數(shù)的核心是保留分割模板的空間信息。這與超分辨率任務(wù)中的注意力模塊非常相似。該模型采用從粗到精的策略，在每個上采樣圖中引入語義圖注意，從而避免了純上采樣層對語義的消除。

3.3Segmentation mask strategies

當(dāng)我們應(yīng)用不同的分割masks的策略時，我們有兩種不同的模型。第一個模型名為SegAttnGAN，使用數(shù)據(jù)集中預(yù)先存在的masks作為注意力輸入。另一個名為自注意SegAttnGAN，使用自注意生成器生成的masks。

自注意生成器生成分割masks，并使用相應(yīng)的鑒別器進(jìn)行訓(xùn)練。與SegAttnGAN一樣，它采用從粗到精的訓(xùn)練策略，分辨率從6464、128128到256*256。自注意生成器將來自SegAttnGAN的相同z向量和文本嵌入向量作為輸入。在每個分辨率級別，都有一個用于訓(xùn)練的鑒別器。

3.4Objective

對于生成性對抗網(wǎng)絡(luò)，具有條件輸入的經(jīng)典目標(biāo)函數(shù)是等式2中定義的生成器和鑒別器之間的最小-最大博弈：

其中，x表示來自真實(shí)數(shù)據(jù)分布的圖像，z表示驅(qū)動偽數(shù)據(jù)生成的隨機(jī)潛在向量。t和s分別指文本和分割輸入。

因此，生成器的損失函數(shù)在方程式3中定義：

其中，第一項是確定圖像是真是假的無條件損失，而第二項是條件丟失，確定生成的圖像是否與文本描述匹配。

鑒別器D_i的損失函數(shù)定義如等式4所示：

其中前兩項對應(yīng)于優(yōu)化鑒別器的無條件損失，而后兩項對應(yīng)于條件損失。

對于自注意SegAttnGAN，我們將自注意生成器定義為G_s。我們用G_s(z，t)代替方程3和4中的s來定義G損失和D損失。總損失在方程式5中定義：

3.5Implementation details

如圖2所示，SegAttnGAN中的生成器輸出64? 64, 128 ? 128, 256 ? 256的圖片。首先，我們將分割mask處理成標(biāo)簽圖（每個通道包含不同的對象）。在生成器的每個上采樣層，我們將分割標(biāo)簽圖映射降采樣為與生成器中當(dāng)前隱藏特征相同的分辨率張量。然后，在之前的上采樣操作之后，我們應(yīng)用了注意模塊。文本和圖像編碼器采用了來自AttnGAN的相同實(shí)現(xiàn)。對于自注意SegAttnGAN，自注意的生成器沒有單詞特征。文本嵌入維度設(shè)置為256，損失權(quán)重λ設(shè)置為5.0。生成器和鑒別器使用beta_1=0.5且學(xué)習(xí)率為0.0002的ADAM解算器。

4.Experiments

4.1Dataset

我們使用CUB和Oxford-102數(shù)據(jù)集來評估我們提出的方法。CUB數(shù)據(jù)集包含200個類別的不同鳥類的圖像。我們使用該數(shù)據(jù)集中的8841張圖像進(jìn)行訓(xùn)練，2947張圖像進(jìn)行測試。Oxford-102是另一個由花的圖像組成的數(shù)據(jù)集。從這個數(shù)據(jù)集中，我們選擇6141張圖像進(jìn)行訓(xùn)練，2047張圖像進(jìn)行測試。

4.2Evaluation metrics

我們使用兩種定量測量來評估生成的圖像。
第一個指標(biāo)是初始分?jǐn)?shù)，它已被廣泛用于評估生成圖像的質(zhì)量。
另一個指標(biāo)是R-精度，作為文本到圖像合成任務(wù)的補(bǔ)充評估指標(biāo)，以確定生成的圖像是否良好地依賴于給定的文本描述。

4.3Quantitative results

初始分?jǐn)?shù)：我們用生成的圖像計算初始分?jǐn)?shù)，并將其與其他最先進(jìn)的方法進(jìn)行比較。CUB和Oxford-102數(shù)據(jù)集的比較如表1所示。我們的模型SegAttnGAN 在CUB和Oxford-102數(shù)據(jù)集上都獲得了最高的初始分?jǐn)?shù)。與基線模型AttnGAN相比，我們的SegAttnGAN 將CUB數(shù)據(jù)集的初始得分從4.36提高到4.82。此外，我們的自注意SegAttnGAN 在CUB和Oxford-102上分別獲得了4.44分和3.34分。

R-精度分?jǐn)?shù)：如表2所示，我們的SegAttnGAN和自注意SegAttnGAN與AttnGAN相比也獲得了良好的R-精度分?jǐn)?shù)。SegAttnGAN分?jǐn)?shù)幾乎與AttnGAN的分?jǐn)?shù)相同，表明SegAttnGAN可以生成與輸入文本描述一致的圖像。MirrorGAN的R-精度得分最高，因為它包含一個用于提高語義一致性的模塊。

4.4Qualitative results

在圖3（a）中，我們展示了AttnGAN和我們的模型生成的一些樣本。如圖所示，與基線模型AttnGAN相比，我們的SegAttnGAN生成的結(jié)果具有更好的對象形狀。盡管自注意SegAttnGAN使用生成的分割masks，但它可以約束對象的形狀，生成比AttnGAN更好的圖像。圖3（b）顯示了示例，說明了形狀和文本如何約束CUB和Oxford-102數(shù)據(jù)集上SegAttnGAN的輸出圖像。如圖所示，與顏色相關(guān)的單詞，如紅色和紫色，會導(dǎo)致不同顏色的結(jié)果。生成的圖像中與輸入masks匹配的對象形狀表明，分割圖可以很好地控制對象形狀。

4.5Limitation and discussion

與其他方法相比，SegAttnGAN表現(xiàn)良好，初始得分最高，但該模型在推理階段需要分段輸入。我們的自注意SegAttnGAN只需要在訓(xùn)練階段使用分割數(shù)據(jù)，并且在對象形狀約束的幫助下，與其他模型相比，它獲得了更好的視覺效果。但它的初始評分顯示，它的結(jié)果得到了與AttnGAN的圖像客觀性和多樣性。

5.Conclusion

在本文中，我們提出了用于文本到圖像合成任務(wù)的SegAttnGAN，它使用分割注意來約束GAN訓(xùn)練，并且與其他最先進(jìn)的方法相比，成功地生成了質(zhì)量更好的圖像。

使用數(shù)據(jù)集的分割masks作為輸入，我們的SegAttnGAN在CUB和Oxford-102數(shù)據(jù)集上都獲得了最高的初始分?jǐn)?shù)。當(dāng)masks通過我們的自注意生成器生成時，與其他最先進(jìn)的方法相比，我們的自注意SegAttnGAN也能生成具有更好視覺真實(shí)感的結(jié)果。

總結(jié)

以上是生活随笔為你收集整理的SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：知云文献翻译登录时不显示二维码，显示二维
下一篇： Cascade EF-GAN: Prog