SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读
題目:Segattingan:關(guān)注分割的文本到圖像生成
時間:2020.5
作者:茍玉川,吳千城,李明浩,龔柏,韓梅
被 CVPR 2020 的 AI 內(nèi)容創(chuàng)作研討會錄取
Abstract
在本文中,我們提出了一種新的生成網(wǎng)絡(luò)(SegAttnGAN),它利用額外的分割信息來完成文本到圖像的合成任務(wù)。由于引入到模型中的分割數(shù)據(jù)為生成器訓(xùn)練提供了有用的指導(dǎo),因此與以往的先進(jìn)方法相比,該模型可以生成更逼真的圖像,并具有更高的量化度量。我們在CUB數(shù)據(jù)集和Oxford-102數(shù)據(jù)集上的初始得分分別為4.84和3.52。此外,我們還測試了self-attenting SegAttnGAN,它使用生成的分割數(shù)據(jù)而不是來自數(shù)據(jù)集的masks來進(jìn)行注意,并獲得了類似的高質(zhì)量結(jié)果,這表明我們的模型可以適用于文本到圖像的合成任務(wù)。
1.Introduction
(1)我們提出了一種新的生成網(wǎng)絡(luò),它利用文本和空間注意來生成真實(shí)的圖像。
(2)我們驗證了在GAN中加入空間注意機(jī)制可以通過調(diào)節(jié)物體形狀和圖像布局顯著提高視覺真實(shí)感。
(3)我們構(gòu)建了一個自注意網(wǎng)絡(luò),首先生成分割masks,然后使用它生成圖像。基于定性結(jié)果,自注意模型也能很好地約束對象的形狀。
2.Related Work
3.SegAttnGAN for text-to-image synthesis
3.1SegAttnGAN architecture
文本到圖像的生成模型通常將整個句子的文本描述編碼為一個條件向量。AttnGAN還提出了一個單詞注意模型,該模型有助于根據(jù)單詞生成不同的圖像。如圖2所示,我們在SegAttnGAN采用了這種機(jī)制和一個LSTM文本編碼器來提取單詞特征和句子特征。句子特征與隨機(jī)潛在向量連接,單詞特征被用作單詞級注意。
3.2Segmentation attention module
其中BN()是批規(guī)范化函數(shù),而Conv()是卷積函數(shù)。該函數(shù)的核心是保留分割模板的空間信息。這與超分辨率任務(wù)中的注意力模塊非常相似。該模型采用從粗到精的策略,在每個上采樣圖中引入語義圖注意,從而避免了純上采樣層對語義的消除。
3.3Segmentation mask strategies
3.4Objective
其中,x表示來自真實(shí)數(shù)據(jù)分布的圖像,z表示驅(qū)動偽數(shù)據(jù)生成的隨機(jī)潛在向量。t和s分別指文本和分割輸入。
其中,第一項是確定圖像是真是假的無條件損失,而第二項是條件丟失,確定生成的圖像是否與文本描述匹配。
其中前兩項對應(yīng)于優(yōu)化鑒別器的無條件損失,而后兩項對應(yīng)于條件損失。
3.5Implementation details
如圖2所示,SegAttnGAN中的生成器輸出64? 64, 128 ? 128, 256 ? 256的圖片。首先,我們將分割mask處理成標(biāo)簽圖(每個通道包含不同的對象)。在生成器的每個上采樣層,我們將分割標(biāo)簽圖映射降采樣為與生成器中當(dāng)前隱藏特征相同的分辨率張量。然后,在之前的上采樣操作之后,我們應(yīng)用了注意模塊。文本和圖像編碼器采用了來自AttnGAN的相同實(shí)現(xiàn)。對于自注意SegAttnGAN,自注意的生成器沒有單詞特征。文本嵌入維度設(shè)置為256,損失權(quán)重λ設(shè)置為5.0。生成器和鑒別器使用beta_1=0.5且學(xué)習(xí)率為0.0002的ADAM解算器。
4.Experiments
4.1Dataset
我們使用CUB和Oxford-102數(shù)據(jù)集來評估我們提出的方法。CUB數(shù)據(jù)集包含200個類別的不同鳥類的圖像。我們使用該數(shù)據(jù)集中的8841張圖像進(jìn)行訓(xùn)練,2947張圖像進(jìn)行測試。Oxford-102是另一個由花的圖像組成的數(shù)據(jù)集。從這個數(shù)據(jù)集中,我們選擇6141張圖像進(jìn)行訓(xùn)練,2047張圖像進(jìn)行測試。
4.2Evaluation metrics
我們使用兩種定量測量來評估生成的圖像。
第一個指標(biāo)是初始分?jǐn)?shù),它已被廣泛用于評估生成圖像的質(zhì)量。
另一個指標(biāo)是R-精度,作為文本到圖像合成任務(wù)的補(bǔ)充評估指標(biāo),以確定生成的圖像是否良好地依賴于給定的文本描述。
4.3Quantitative results
初始分?jǐn)?shù):我們用生成的圖像計算初始分?jǐn)?shù),并將其與其他最先進(jìn)的方法進(jìn)行比較。CUB和Oxford-102數(shù)據(jù)集的比較如表1所示。我們的模型SegAttnGAN 在CUB和Oxford-102數(shù)據(jù)集上都獲得了最高的初始分?jǐn)?shù)。與基線模型AttnGAN相比,我們的SegAttnGAN 將CUB數(shù)據(jù)集的初始得分從4.36提高到4.82。此外,我們的自注意SegAttnGAN 在CUB和Oxford-102上分別獲得了4.44分和3.34分。
R-精度分?jǐn)?shù):如表2所示,我們的SegAttnGAN和自注意SegAttnGAN與AttnGAN相比也獲得了良好的R-精度分?jǐn)?shù)。SegAttnGAN分?jǐn)?shù)幾乎與AttnGAN的分?jǐn)?shù)相同,表明SegAttnGAN可以生成與輸入文本描述一致的圖像。MirrorGAN的R-精度得分最高,因為它包含一個用于提高語義一致性的模塊。
4.4Qualitative results
在圖3(a)中,我們展示了AttnGAN和我們的模型生成的一些樣本。如圖所示,與基線模型AttnGAN相比,我們的SegAttnGAN生成的結(jié)果具有更好的對象形狀。盡管自注意SegAttnGAN使用生成的分割masks,但它可以約束對象的形狀,生成比AttnGAN更好的圖像。圖3(b)顯示了示例,說明了形狀和文本如何約束CUB和Oxford-102數(shù)據(jù)集上SegAttnGAN的輸出圖像。如圖所示,與顏色相關(guān)的單詞,如紅色和紫色,會導(dǎo)致不同顏色的結(jié)果。生成的圖像中與輸入masks匹配的對象形狀表明,分割圖可以很好地控制對象形狀。
4.5Limitation and discussion
與其他方法相比,SegAttnGAN表現(xiàn)良好,初始得分最高,但該模型在推理階段需要分段輸入。我們的自注意SegAttnGAN只需要在訓(xùn)練階段使用分割數(shù)據(jù),并且在對象形狀約束的幫助下,與其他模型相比,它獲得了更好的視覺效果。但它的初始評分顯示,它的結(jié)果得到了與AttnGAN的圖像客觀性和多樣性。
5.Conclusion
總結(jié)
以上是生活随笔為你收集整理的SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 知云文献翻译登录时不显示二维码,显示二维
- 下一篇: Cascade EF-GAN: Prog