AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks论文解读
題目:AttnGAN:具有注意的生成對抗網絡的細粒度文本到圖像生成
時間:2018
作者:Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He
CVPR
Abstract
在本文中,我們提出了一種注意力生成對抗網絡(AttnGAN),它允許對細粒度文本到圖像的生成進行注意力驅動和多階段細化。通過一種新的注意生成網絡,AttnGAN可以通過關注自然語言描述中的相關單詞,在圖像的不同子區域合成細粒度細節。
此外,本文還提出了一個深度注意多模態相似性模型來計算細粒度圖像到文本的匹配損失,以訓練生成器。提出的AttnGAN顯著優于之前的最新水平,在CUB數據集和更具挑戰性的COCO數據集上,最佳報告的初始得分分別提高了14.14%和170.25%。通過可視化AttnGAN的注意層,也可以進行詳細的分析。這是第一次表明分層注意GAN能夠自動選擇單詞級別的條件來生成圖像的不同部分。
1.Introduction
(1)第一個組成部分是注意力生成網絡,其中為生成器開發了一種注意機制,讓生成器通過關注與所繪制的子區域最相關的單詞來繪制圖像的不同子區域(見圖1)。更具體地說,除了將自然語言描述編碼為一個全局句子向量外,句子中的每個單詞也被編碼為一個單詞向量。生成網絡在第一階段利用全局句子向量生成低分辨率圖像。在接下來的步驟中,它使用每個子區域中的圖像向量,通過使用一個注意層來形成單詞上下文向量來查詢單詞向量。然后,該模型將區域圖像向量和相應的單詞上下文向量結合起來,形成多模態上下文向量,并在此基礎上在周圍的子區域生成新的圖像特征。這有效地產生了更高分辨率的圖片,每個階段都有更多細節。
(2)AttnGAN的另一個組成部分是深度注意多模態相似模型(DAMSM)。通過注意機制,DAMSM能夠利用全局句子級信息和細粒度單詞級信息計算生成的圖像和句子之間的相似性。因此,DAMSM為訓練生成器提供了額外的細粒度圖像到文本的匹配損失。
(1)提出了一種注意生成對抗網絡,用于從文本描述中合成圖像。具體來說,AttnGAN提出了兩個新的組成部分,包括注意生成網絡和DAMSM。
(2)進行廣泛的研究,經驗性評估提出的AttnGAN。實驗結果表明,AttnGAN的性能明顯優于以前最先進的GAN模型。
(3)通過可視化AttnGAN的注意層進行詳細分析。首次證明了分層條件GAN能夠自動關注相關單詞,形成圖像生成的條件。
2.Related Work
3.Attentional Generative Adversarial Network
如圖2所示,提出的注意生成對抗網絡(AttnGAN)有兩個新的組成部分:注意生成網絡和深度注意多模態相似模型。我們將在本節的其余部分詳細介紹其中的每一項。
3.1Attentional Generative Network
當前基于GAN的文本到圖像生成模型通常將整個句子文本描述編碼為單個向量,作為圖像生成的條件,但缺乏細粒度的單詞級信息。在本節中,我們提出了一種新的注意模型,該模型使生成網絡能夠根據與這些子區域最相關的單詞繪制圖像的不同子區域。
如圖2所示,提出的注意生成網絡有m個生成器(G0,G1,…,Gm?1) ,它取隱藏狀態(h0,h1,…,hm?1) 作為輸入并生成從小到大比例的圖像(?x0,?x1,…,?xm-1)。具體來說,
為了生成具有多個條件層次(即句子層次和單詞層次)的真實圖像,注意生成網絡的最終目標函數被定義為 :
這里,λ是一個超參數,用于平衡等式(3)的兩項。第一項是GAN損失,它聯合近似于條件和無條件分布。在AttnGAN的第i級,生成器G_i具有相應的鑒別器D_i。G_i的對抗性損失定義為:
其中,無條件損失決定圖像是真是假,而條件損失決定圖像和句子是否匹配。
與G_i的訓練交替地,每個鑒別器D_i都被訓練通過最小化定義的交叉熵損失,將輸入分類為真或假
等式(3)的第二項L_DAMSM是由DAMSM計算的單詞級細粒度圖像到文本的匹配損失,將在第3.2小節中詳細說明。
3.2Deep Attentional Multimodal Similarity Model
DAMSM學習兩個神經網絡,將圖像的子區域和句子的單詞映射到一個公共語義空間,從而在單詞級別測量圖像-文本相似度,以計算圖像生成的細粒度損失。
注意驅動的圖像-文本匹配分數是根據圖像和文本之間的注意模型來衡量圖像-句子對的匹配程度。
我們首先計算句子中所有可能的詞對和圖像中的子區域的相似度矩陣:
"w"代表的是單詞。
對稱地,我們也最小化:
句子D_i與其對應的圖像Q_i匹配的后驗概率為:
基于在一個持久的驗證集上的實驗,我們將本節中的超參數設置為:γ1=5、γ2=5、γ3=10和M=50。DAMSM被預訓練通過使用真實圖像-文本對最小化L_DAMSM。由于預訓練DAMSM的圖像大小不受可生成圖像大小的限制,因此使用大小為299×299的真實圖像。此外,DAMSM中的預訓練文本編碼器為注意力生成網絡提供了從圖像-文本對數據中學習的視覺鑒別詞向量。相比之下,在純文本數據上預訓練的傳統詞向量通常在視覺上沒有區分性,例如,不同顏色的詞向量,例如紅色、藍色、黃色等,由于缺乏與實際視覺信號的聯系,通常在向量空間中聚集在一起。
總之,我們提出了兩種新的注意模型,注意生成網絡和DAMSM,它們在AttnGAN中扮演著不同的角色。(1)生成網絡中的注意機制(見等式2)使AttnGAN能夠自動選擇單詞級條件來生成圖像的不同子區域。(2)通過注意機制(見等式9),DAMSM能夠計算細粒度文本到圖像的匹配損失L_DAMSM。值得一提的是,L_DAMSM僅適用于最后一個生成器G_(m-1)的輸出,因為AttnGAN的最終目標是通過最后一個生成器生成大圖像。我們嘗試在(G_0,G_1,…,G_(m-1))生成的所有分辨率的圖像上應用L_DAMSM. 然而,性能沒有得到改善,但計算成本增加。
4.Experiments
進行了大量實驗來評估提出的AttnGAN。我們首先研究AttnGAN的重要組成部分,包括注意生成網絡和DAMSM。然后,我們將AttnGAN與之前用于文本到圖像合成的最先進的GAN模型進行比較。
數據集。與之前的文本到圖像方法相同,我們的方法是在CUB和COCO數據集上評估的。我們按照[36]中的方法對CUB數據集進行預處理。表1列出了數據集的統計數據。
評價我們使用初始分數作為定量評估指標。由于初始分數不能反映生成的圖像是否良好地依賴于給定的文本描述,因此我們建議使用R-精度作為文本到圖像合成任務的補充評估指標,R-精度是一種對檢索結果進行排名的常用評估指標。如果一個查詢有R個相關文檔,我們檢查一個系統中排名前R的檢索結果,發現r個是相關的,然后根據定義,R-精度是r/R。更具體地說,我們進行檢索實驗,即使用生成的圖像來查詢它們對應的文本描述。首先,利用預訓練DAMSM中學習的圖像和文本編碼器提取生成圖像和給定文本描述的全局特征向量。然后,我們計算全局圖像向量和全局文本向量之間的余弦相似性。最后,我們對每幅圖像的候選文本描述按相似性遞減進行排序,并找到計算R-精度的前r個相關描述。為了計算初始分數和R精度,每個模型從隨機選擇的看不見的文本描述中生成30000個圖像。每個查詢圖像的候選文本描述由一個基本事實(即R=1)和99個隨機選擇的不匹配描述組成。
我們通過以下方式抑制和圖像子區域不太相關的單詞:
4.1 Component analysis
2.DAMSM損失。為了測試提出的L_DAMSM,我們調整λ的值(見等式(3))。如圖3所示,在CUB和COCO數據集上,較大的λ會導致更高的R精度率。在CUB數據集上,當λ的值從0.1增加到5時,AttnGAN1的初始分數從4.19提高到4.35,相應的R精度率從16.55%提高到58.65%(見表2)。在COCO數據集上,通過將λ的值從0.1增加到50,AttnGAN1實現了較高的初始分數和R精度率(見圖3)。這種比較表明,**適當增加L_DAMSM的權重有助于生成更高質量的圖像,更好地適應給定的文本描述。原因是,提出的細粒度圖像到文本的匹配損失L_DAMSM為生成器的訓練提供了額外的監督(即單詞級匹配信息)。**此外,在我們的實驗中,我們沒有觀察到在AttnGAN生成的圖像的可視化中有任何崩潰的無意義模式。這表明,在額外的監督下,細粒度圖像到文本的匹配損失也有助于穩定AttnGAN的訓練過程。此外,在CUB數據集上訓練了一個基線模型,帶有文本編碼器“AttnGAN1,沒有注意機制”。在不使用注意的情況下,其初始得分和R精度分別下降到3.98%和10.37%,這進一步證明了所提出的L_DAMSM的有效性。
4.2Comparison with previous methods
5.Conclusions
本文提出了一種用于細粒度文本到圖像合成的注意力生成對抗網絡AttnGAN。我們構建了一個新的注意力生成網絡,讓AttnGAN通過多階段過程生成高質量的圖像。我們提出了一個深度注意多模態相似模型來計算細粒度圖像-文本的匹配損失,以訓練AttnGAN的生成器。我們的AttnGAN顯著優于最先進的GAN模型,在CUB數據集和更具挑戰性的COCO數據集上,分別將最佳初始分數提高了14.14%和170.25%。大量的實驗結果證明了AttnGAN中提出的注意機制的有效性,這對于復雜場景中的文本到圖像生成尤其關鍵。
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks论文解读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Cascade EF-GAN: Prog
- 下一篇: Golang经典面试题上