语义分割-ICCV2017 Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks循环一致对抗网
Image-to-Image Translation using Cycle-Consistent Adversarial Networks:使用循環(huán)一致對抗網(wǎng)絡(luò)進行圖像到圖像的翻譯
- 0.摘要
- 1.概述
- 2.相關(guān)工作
- 2.1.生成對抗網(wǎng)絡(luò)GAN
- 2.2.圖像到圖像的翻譯
- 2.3. 未配對圖像到圖像的翻譯
- 2.4.循環(huán)一致性
- 2.5.神經(jīng)風格轉(zhuǎn)移
- 3.公式
- 3.1.對抗損失
- 3.2.循環(huán)一致性損失
- 3.3.整個優(yōu)化對象
- 4.實現(xiàn)
- 4.1.網(wǎng)絡(luò)結(jié)構(gòu)
- 4.2.訓練細節(jié)
- 5.結(jié)果
- 5.1.評估
- 5.1.1.評估指標
- 5.1.2.基線
- 5.1.3.與基線的比較
- 5.1.4.損失函數(shù)的分析
- 5.1.5.圖像重建質(zhì)量
- 5.1.6.配對數(shù)據(jù)集的其他結(jié)果
- 5.2.應(yīng)用
- 6.限制和討論
- 7.附錄
- 7.1.訓練細節(jié)
- 7.2. 網(wǎng)絡(luò)架構(gòu)
- 參考文獻
代碼地址
論文地址
0.摘要
圖像到圖像的翻譯是一類視覺和圖形問題,其目標是使用對齊的圖像對訓練集來學習輸入圖像和輸出圖像之間的映射。然而,對于許多任務(wù),成對的訓練數(shù)據(jù)是不可用的。我們提出了一種學習在沒有成對例子的情況下將圖像從源域X轉(zhuǎn)換為目標域Y的方法。我們的目標是學習一種映射G: X→Y,使G(X)的圖像分布與使用對抗性損失的分布Y難以區(qū)分。由于這個映射是高度欠約束的,我們將它與一個逆映射F: Y→X耦合,并引入一個循環(huán)一致性損失來強制F (G(X))≈X(反之亦然)。在不存在配對訓練數(shù)據(jù)的幾個任務(wù)上給出了定性結(jié)果,包括采集風格轉(zhuǎn)換、對象變形、季節(jié)轉(zhuǎn)換、照片增強等。與以前幾種方法的定量比較表明了我們的方法的優(yōu)越性。
1.概述
圖2:成對訓練數(shù)據(jù)(左)由訓練實例{Xi,Yi} Ni=1組成,其中對應(yīng)于每個Xi的Yi給出[20 ]。相反,我們考慮不成對的訓練數(shù)據(jù)(右),由源集{xi} Ni=1∈ X組成和目標集{yj}Mj=1∈ Y,沒有提供關(guān)于xi匹配的信息yi。
在本文中,我們提出了一種方法,可以學習做同樣的事情:捕獲一個圖像集合的特殊特征,并找出如何將這些特征轉(zhuǎn)化為另一個圖像集合,所有這些都不需要任何成對的訓練示例。
這個問題可以更廣泛地描述為圖像到圖像的轉(zhuǎn)換[22],將圖像從給定場景的一種表示形式x轉(zhuǎn)換為另一種表示形式y(tǒng),例如灰度到顏色、圖像到語義標簽、邊緣映射到照片。計算機視覺、圖像處理、計算攝影和圖形學方面的研究已經(jīng)在有監(jiān)督的環(huán)境中產(chǎn)生了強大的翻譯系統(tǒng),其中示例圖像對{xi,yi}Ni=1可用(圖2,左),例如[11,19,22,23,28,33,45,56,58,62]。然而,獲得成對的訓練數(shù)據(jù)可能既困難又昂貴。例如,對于語義分割(例如[4])等任務(wù),只有幾個數(shù)據(jù)集存在,而且它們相對較小。由于所需的輸出非常復雜,通常需要藝術(shù)創(chuàng)作,因此為藝術(shù)風格化等圖形任務(wù)獲取輸入-輸出對可能會更加困難。用于許多任務(wù),如物體變形(例如斑馬?horse,圖1(上中),所需的輸出甚至沒有很好的定義。
因此,我們尋求一種算法,可以在沒有成對輸入輸出示例的情況下學習在域之間進行翻譯(圖2,右圖)。我們假設(shè)這些域之間存在某種潛在關(guān)系——例如,它們是同一潛在場景的兩個不同渲染——并試圖了解這種關(guān)系。雖然我們?nèi)狈Τ蓪κ纠问降谋O(jiān)控,但我們可以利用集合級別的監(jiān)控:我們在域X中獲得一組圖像,在域Y中獲得另一組圖像。我們可以訓練一個映射G:X→Y,使得輸出y∧=G(x)(x∈X,y∈Y) 與y無法被訓練得到的對抗網(wǎng)絡(luò)圖像區(qū)分。理論上,該目標所生成的Y∧上產(chǎn)生的分布應(yīng)當和經(jīng)驗分布pdata(Y)相匹配(通常,這要求G是隨機的)[16]。因此,最優(yōu)G將域X轉(zhuǎn)換為與Y相同分布的域Y∧。然而,這樣的轉(zhuǎn)換并不能保證單個輸入x和輸出y以有意義的方式配對——有無限多個映射G會在y∧上產(chǎn)生相同的分布。此外,在實踐中,我們發(fā)現(xiàn),孤立地優(yōu)化對抗目標很困難:標準程序通常會導致眾所周知的模式崩潰問題,即所有輸入圖像映射到同一輸出圖像,優(yōu)化無法取得進展[15]。
這些問題要求為我們的目標增加更多的結(jié)構(gòu)。因此,我們利用了翻譯應(yīng)該是“循環(huán)一致”的特性,即如果我們將一個句子從英語翻譯成法語,然后將其從法語翻譯回英語,我們應(yīng)該回到原始句子[3]。從數(shù)學上來說,如果我們有一個翻譯器G:X→ Y和另一位翻譯F:Y→ X、 那么G和F應(yīng)該是彼此的倒數(shù),兩個映射都應(yīng)該是雙射。我們通過同時訓練映射G和F,并添加一個鼓勵F(G(x))的循環(huán)一致性損失[64],來應(yīng)用這個結(jié)構(gòu)性假設(shè) F(G(x))≈ x和G(F(y))≈ y。將這種損失與域X和y上的對抗性損失結(jié)合起來,我們就可以實現(xiàn)未配對圖像到圖像的翻譯。我們將我們的方法應(yīng)用到廣泛的應(yīng)用中,包括收集樣式轉(zhuǎn)換、對象變形、季節(jié)轉(zhuǎn)換和照片增強。我們還與以前的方法進行了比較,這些方法要么依賴于手工定義的風格和內(nèi)容分解,要么依賴于共享的嵌入函數(shù),并且表明我們的方法優(yōu)于這些基線。我們提供PyTorch和Torch實現(xiàn)。在我們的網(wǎng)站上查看更多結(jié)果。
2.相關(guān)工作
2.1.生成對抗網(wǎng)絡(luò)GAN
生成性對抗網(wǎng)絡(luò)[16,63]在圖像生成[6,39]、圖像編輯[66]和表征學習[39,43,37]方面取得了令人印象深刻的成果。最近的方法在條件圖像生成應(yīng)用中采用了相同的想法,如text2image[41]、圖像修復[38]和未來預測[36],以及視頻[54]和3D數(shù)據(jù)[57]等其他領(lǐng)域。GANs成功的關(guān)鍵在于對抗性損失迫使生成的圖像在原則上與真實照片無法區(qū)分。這種損失對于圖像生成任務(wù)來說尤其效果尤為強大,因為這正是許多計算機圖形學旨在優(yōu)化的目標。我們采用對抗性丟失來學習映射,這樣翻譯后的圖像就無法與目標域中的圖像區(qū)分開來 。
2.2.圖像到圖像的翻譯
圖像到圖像轉(zhuǎn)換的想法至少可以追溯到Hertzmann等人的圖像類比[19],他們在單個輸入輸出訓練圖像對上采用了非參數(shù)紋理模型[10]。最近的方法使用輸入輸出示例數(shù)據(jù)集,使用CNN學習參數(shù)轉(zhuǎn)換函數(shù)(例如[33])。我們的方法基于Isola等人[22]的**“pix2pix”框架**,該框架使用條件生成對抗網(wǎng)絡(luò)[16]來學習從輸入到輸出圖像的映射。類似的想法也被應(yīng)用到各種任務(wù)中,比如從草圖[44]或從屬性和語義布局[25]生成照片。然而,與前面的工作不同,我們學習映射時沒有成對的訓練示例。
2.3. 未配對圖像到圖像的翻譯
其他幾種方法也可以處理未配對設(shè)置,其目標是關(guān)聯(lián)兩個數(shù)據(jù)域:X和Y。Rosales等人[42]提出了一個貝葉斯框架,該框架包括從源圖像計算的基于補丁的馬爾可夫隨機場的先驗知識和從多個樣式圖像獲得的似然項。最近,CoGAN[32]和跨模態(tài)場景網(wǎng)絡(luò)[1]使用權(quán)重共享策略來學習跨域的公共表示。與我們的方法同時,Liu等人[31]將上述框架擴展為可變自動編碼器[27]和生成性對抗網(wǎng)絡(luò)[16]的組合。另一種并行工作[46、49、2]鼓勵輸入和輸出共享特定的“內(nèi)容”特征,盡管它們在“風格”上可能有所不同。這些方法還使用對抗性網(wǎng)絡(luò),并使用額外的術(shù)語來強制輸出在預定義的度量空間(如類標簽空間[2])中接近輸入、圖像像素空間[46]和圖像特征空間[49]。
與上述方法不同,我們的公式不依賴于輸入和輸出之間任何特定于任務(wù)的預定義相似性函數(shù),也不假設(shè)輸入和輸出必須位于同一低維嵌入空間中。這使我們的方法成為許多視覺和圖形任務(wù)的通用解決方案。我們在第5.1節(jié)中直接比較了幾種先前和當代的方法。
2.4.循環(huán)一致性
使用轉(zhuǎn)遞性來規(guī)范結(jié)構(gòu)化數(shù)據(jù)的想法由來已久。在視覺跟蹤中,強制執(zhí)行簡單的前后一致性幾十年來一直是一個標準技巧[24,48]。在語言領(lǐng)域,通過“反向翻譯和協(xié)調(diào)”驗證和改進翻譯是人類翻譯人員[3](幽默地說,包括馬克·吐溫[51])以及機器[17]使用的一種技術(shù)。最近,高階循環(huán)一致性被用于運動結(jié)構(gòu)[61]、三維形狀匹配[21]、共分段[55]、密集語義對齊[65,64]和深度估計[14]。其中,Zhou等人[64]和Godard等人[14]與我們的工作最為相似,因為他們使用循環(huán)一致性損失作為使用及物性監(jiān)督CNN培訓的一種方式。在這項工作中,我們引入了一個類似的損耗來推動G和F相互一致。與我們的工作同時,在這些相同的程序中,Yi等人[59]在機器翻譯的雙重學習[17]的啟發(fā)下,獨立使用了一個類似的未配對圖像到圖像翻譯的目標。
2.5.神經(jīng)風格轉(zhuǎn)移
神經(jīng)風格轉(zhuǎn)換[13,23,52,12]是執(zhí)行圖像到圖像轉(zhuǎn)換的另一種方法,它通過匹配預先訓練的深度特征的Gram矩陣統(tǒng)計信息,將一幅圖像的內(nèi)容與另一幅圖像(通常是一幅畫)的風格相結(jié)合,合成一幅新圖像。另一方面,我們主要關(guān)注的是通過嘗試捕捉更高層次的外觀結(jié)構(gòu)之間的對應(yīng)關(guān)系,學習兩個圖像集合之間的映射,而不是兩個特定圖像之間的映射。因此,我們的方法可以應(yīng)用于其他任務(wù),例如繪畫→ 照片、物體變形等,單一樣本轉(zhuǎn)移方法效果不佳。我們在第5.2節(jié)中比較了這兩種方法。
3.公式
我們的目標是學習兩個域X和Y給定的訓練樣本{xi}Ni=1之間的映射函數(shù),其中xi∈ X和{yj}Mj=1,其中yj∈ Y 。我們將數(shù)據(jù)分布表示為x~ pdata(x)和y~ pdata(y)。如圖3(a)所示,我們的模型包括兩個映射G:X→ Y和F:Y→X 此外,我們引入了兩個對抗性鑒別器DX和DY,其中DX旨在區(qū)分圖像{X}和翻譯圖像{F(y)};同樣,DY的目的是區(qū)分{y}和{G(x)}。我們的目標包括兩類:對抗性損失[16],用于將生成的圖像分布與目標域中的數(shù)據(jù)分布相匹配;循環(huán)一致性損失,以防止學習到的映射G和F相互矛盾。
圖3:(a)我們的模型包含兩個映射函數(shù)G:X→ Y和F:Y→ X、 以及相關(guān)的對抗性鑒別器DY和DX。DY鼓勵G將X轉(zhuǎn)換為與域Y不可區(qū)分的輸出,反之亦然,用于DX、F和DX。為了進一步正則化映射,我們引入了兩個“周期一致性損失”,它們捕捉到了這樣一種直覺:如果我們從一個域轉(zhuǎn)換到另一個域,然后再轉(zhuǎn)換回來,我們應(yīng)該到達我們開始的地方:(b)前向周期一致性損失:x→ G(x)→ F(G(x))≈ x、 和(c)反向循環(huán)一致性損失:y→ F(y)→ G(F(y))≈ y
3.1.對抗損失
我們將對抗性損失[16]應(yīng)用于兩個映射函數(shù)。對于映射函數(shù)G:X→ Y及其鑒別器DY,我們將目標表示為:
其中,G試圖生成看起來與域Y中的圖像相似的圖像G(x),而DY的目的是區(qū)分翻譯樣本G(x)和真實樣本Y。G的目的是最小化這個目標,以對抗試圖最大化它的對手D,即minG maxDY LGAN(G,DY,X,Y)我們?yōu)橛成浜瘮?shù)F:Y→ X引入了類似的對抗損失及其鑒別器DX:即minF maxDX LGAN(F,DX,Y,X)
3.2.循環(huán)一致性損失
從理論上講,對抗性訓練可以學習映射G和F,它們分別產(chǎn)生與目標域Y和X相同分布的輸出(嚴格來說,這要求G和F是隨機函數(shù))[15]。然而,如果容量足夠大,網(wǎng)絡(luò)可以將同一組輸入圖像映射到目標域中的任意圖像隨機排列,其中任何學習到的映射都可以產(chǎn)生與目標分布匹配的輸出分布。因此,僅僅對抗性的損失不能保證習得的函數(shù)可以將單個輸入xi映射到期望的輸出yi。為了進一步減少可能的映射函數(shù)的空間, 我們認為,所學的映射函數(shù)應(yīng)該是周期一致的:如圖3(b)所示,對于域x中的每個圖像x,圖像轉(zhuǎn)換循環(huán)應(yīng)該能夠?qū)帶回原始圖像,即x→ G(x)→ F(G(x))≈ x、 我們稱之為前向循環(huán)一致性。類似地,如圖3(c)所示,對于來自域Y的每個圖像y、G和F,也應(yīng)該滿足反向循環(huán)一致性:y→ F(y)→ G(F(y))≈ y、 我們使用周期一致性損失來激勵這種行為:
在初步實驗中,我們還嘗試用F(G(x))和x之間,以及G(F(y))和y之間的對抗性損失來替換這種損失中的L1范數(shù),但沒有觀察到性能的改善。
在圖4中可以觀察到由循環(huán)一致性損失引起的行為:重構(gòu)圖像F(G(x))最終與輸入圖像x緊密匹配
3.3.整個優(yōu)化對象
我們的全部目標是: .
其中λ控制兩個目標的相對重要性。我們的目標是解決:
請注意,我們的模型可以被視為訓練兩個“自動編碼器”[20]:我們學習一個自動編碼器F? G:X→ X聯(lián)合另一個G? F:Y→ Y。然而,這些自動編碼器都有特殊的內(nèi)部結(jié)構(gòu):它們通過中間表示將圖像映射到自身,中間表示是將圖像轉(zhuǎn)換到另一個域中。這種設(shè)置也可以被視為“對抗性自動編碼器”[34]的特例,它使用對抗性損失來訓練自動編碼器的瓶頸層,以匹配任意目標分布。在我們的例子中,X→ X的目標分布自動編碼器是域Y的自動編碼器。
在第5.1.4節(jié)中,我們將我們的方法與整個目標的消融進行了比較,包括單獨的對抗性損失LGAN和單獨的周期一致性損失Lcyc,并從經(jīng)驗上證明,這兩個目標在獲得高質(zhì)量結(jié)果方面起著關(guān)鍵作用。我們還評估了我們的方法,僅在一個方向上有周期損失,并表明單個周期不足以正則化這個欠約束問題的訓練。
4.實現(xiàn)
4.1.網(wǎng)絡(luò)結(jié)構(gòu)
我們采用了Johnson等人[23]的生成網(wǎng)絡(luò)架構(gòu),他們在神經(jīng)風格轉(zhuǎn)換和超分辨率方面取得了令人印象深刻的結(jié)果。該網(wǎng)絡(luò)包含三個卷積、幾個剩余塊[18],兩個步幅為1-2的分步卷積,以及一個將特征映射到RGB的卷積。我們對128×128圖像使用6個塊,對256×256及更高分辨率的訓練圖像使用9個塊。與Johnson等人[23]類似,我們使用實例規(guī)范化[53]。對于鑒別器網(wǎng)絡(luò),我們使用70×70補丁[22,30,29],其目的是分類70×70重疊圖像補丁是真是假。這種面片級鑒別器結(jié)構(gòu)的參數(shù)比全圖像鑒別器少,可以以完全卷積的方式處理任意化的圖像[22]。
4.2.訓練細節(jié)
我們應(yīng)用最近工作中的兩種技術(shù)來穩(wěn)定我們的模型訓練過程。首先,對于LGAN(方程式1),我們將負對數(shù)似然目標替換為最小二乘損失[35]。這種損失在訓練期間更穩(wěn)定,并產(chǎn)生更高質(zhì)量的結(jié)果。特別地,對于GAN損耗LGAN(G,D,X,Y),我們訓練G以最小化Ex~pdata(x)[(D(G(x))? 1) 2]并對D進行訓練,以盡量減少Ey~pdata(y)[(D(y)? 1)2]+Ex~pdata(x)[D(G(x))2]。
其次,為了減少模型振蕩[15],我們遵循Shrivastava等人的策略[46],使用生成圖像的歷史記錄而不是最新生成的圖像更新discriminator。我們保留一個圖像緩沖區(qū),用于存儲之前創(chuàng)建的50幅圖像。對于所有實驗,我們在方程3中設(shè)置λ=10。我們使用批次大小為1的Adam solver[26]。所有網(wǎng)絡(luò)都從零開始接受培訓,學習率為0.0002。我們在前100個時期保持相同的學習率,在接下來的100個時期內(nèi)線性衰減到零。有關(guān)數(shù)據(jù)集、體系結(jié)構(gòu)和培訓程序的更多詳細信息,請參見附錄(第7節(jié))。
5.結(jié)果
首先,我們將我們的方法與最近在成對數(shù)據(jù)集上進行未配對圖像到圖像翻譯的方法進行比較,在配對數(shù)據(jù)集上,地面真值輸入輸出對可用于評估。然后,我們研究了對抗性損失和周期一致性損失的重要性,并將我們的完整方法與幾種變體進行了比較。最后,我們展示了我們的算法在不存在成對數(shù)據(jù)的廣泛應(yīng)用中的通用性。為了簡單起見,我們將我們的方法稱為CycleGAN。PyTorch和Torch代碼、模型和完整結(jié)果可在我們的網(wǎng)站上找到。
5.1.評估
使用與“pix2pix”相同的評估數(shù)據(jù)集和指標[22],我們將我們的方法與幾個基線進行定性和定量比較。這些任務(wù)包括語義標簽?城市景觀數(shù)據(jù)集[4]上的照片和地圖?從谷歌地圖上截取的數(shù)據(jù)上的航拍照片。我們還對全損失函數(shù)進行了消融研究。
5.1.1.評估指標
Amazon Mechanical Turk perceptual studies
在地圖上?在航拍任務(wù)中,我們對Amazon Mechanical Turk (AMT)進行“真假”知覺研究,以評估我們輸出的真實性。我們遵循與Isola等人[22]相同的知覺研究方案,只是我們只從每個測試算法的25名參與者那里收集數(shù)據(jù)。向參與者展示一系列成對的圖像,一張是真實的照片或地圖,另一張是假的(由我們的算法或基線生成),并要求他們點擊他們認為是真實的圖像。每節(jié)課的前10次試驗都是練習,并就參與者的回答是否正確給出反饋。剩下的40項試驗用于評估每種算法欺騙參與者的比率。每個環(huán)節(jié)只測試一個算法,參與者只允許完成一個環(huán)節(jié)。我們在這里報告的數(shù)字與[22]中的數(shù)字沒有直接的可比性,因為我們對地面真相圖像的處理略有不同2,我們測試的參與者池可能與[22]中測試的參與者池的分布不同(因為在不同的日期和時間進行實驗)。因此,我們的數(shù)字應(yīng)該只用于比較我們當前的方法與基線(在相同條件下運行
FCN分數(shù) **
雖然知覺研究可能是評估圖形真實性的黃金標準,但我們也尋求一種不需要人類實驗的自動定量測量方法。為此,我們采用[22]中的“FCN分數(shù)”,并使用它來評估城市景觀標簽→拍照任務(wù)。FCN度量根據(jù)現(xiàn)成的語義分割算法(完全卷積網(wǎng)絡(luò),FCN,摘自[33])評估生成的照片的可解釋性。FCN預測生成照片的標簽圖。然后,可以使用標準語義segmen在測試時在512×512圖像上卷積運行**,將該標簽圖與輸入的地面真相標簽進行比較。在我們的實驗中,我們選擇256×256,因為許多基線無法擴展到高分辨率圖像,而且COGA無法完全卷積測試。下文介紹了這些指標。直覺是,如果我們從**“道路上的汽車”的標簽地圖生成一張照片**,那么如果應(yīng)用于生成的照片的FCN檢測到“道路上的汽車”,我們就成功了。
語義分割度量 **
評估照片的性能→標簽,我們使用城市景觀基準[4]中的標準度量,包括像素精度、每類精度和聯(lián)合上的平均類交集**(類IOU)[4]。
5.1.2.基線
CoGAN **
該方法學習一個用于域X的GAN生成器和一個用于域Y的GAN生成器**,在前幾層上綁定權(quán)重以共享潛在表示。從X到Y(jié)的轉(zhuǎn)換可以通過找到生成圖像X的潛在表示,然后將該潛在表示渲染為樣式Y(jié)來實現(xiàn)。
SimGAN
與我們的方法一樣,Shrivastava等人[46]使用對抗性損失訓練從X到Y(jié)的翻譯。正則化項||x? G(x)||1用于懲罰在像素級進行大的變化。
Feature loss + GAN
我們還測試了SimGAN[46]的一種變體,其中L1損耗是使用預訓練網(wǎng)絡(luò)(VGG-16 relu4 2[47])在深度圖像特征上計算的,而不是在RGB像素值上計算的。像這樣在深層特征空間中計算距離有時也被稱為使用“感知損失”[8,23]。
BiGAN/ALI **
無條件GANs[16]學習生成器G:Z→X,這將隨機噪聲z映射到圖像X**。BiGAN[9]和ALI[7]還建議學習逆映射函數(shù)F:X→ Z.雖然它們最初設(shè)計用于將潛在向量Z映射到圖像x,但我們實現(xiàn)了將源圖像x映射到目標圖像y的相同目標。
pix2pix
我們還將其與pix2pix[22]進行了比較,pix2pix[22]是根據(jù)成對數(shù)據(jù)進行訓練的,以觀察在不使用任何成對數(shù)據(jù)的情況下,我們能多接近這個“上限”。
為了進行公平比較,我們使用與我們的方法相同的架構(gòu)和細節(jié)來實現(xiàn)所有基線,除了CoGAN[32]。CoGAN建立在生成器的基礎(chǔ)上,該生成器從共享的潛在表示生成圖像,這與我們的圖像到圖像網(wǎng)絡(luò)不兼容。我們使用CoGAN的公共實現(xiàn)。
5.1.3.與基線的比較
圖5:繪制航空照片的不同方法?谷歌地圖上的地圖。從左到右:輸入、BiGAN/ALI[6,7]、CoGAN[28]、CycleGAN(我們的)、根據(jù)配對數(shù)據(jù)訓練的pix2pix[20]和地面真相。
圖6:映射標簽方法的不同變體?在城市景觀上訓練的照片。從左到右:輸入,僅循環(huán)一致性損失,僅對抗性損失,GAN+前向循環(huán)一致性損失(F(G(x))≈ x) ,GAN+反向循環(huán)一致性損失(G(F(y))≈ y) 、CycleGAN(我們的完整方法)和地面真相。Cycle One和GAN+backward都無法生成與目標域相似的圖像。GAN單獨和GAN+正向受到模式崩潰的影響,無論輸入照片如何,都會產(chǎn)生相同的標簽貼圖。
如圖5和圖6所示,我們無法在任何基線上取得令人信服的結(jié)果。 我們的方法另一方面可以生成通常與完全監(jiān)督的pix2pix具有相似質(zhì)量的翻譯。
表1報告了AMT知覺現(xiàn)實主義任務(wù)的表現(xiàn)。在這里,我們可以看到,我們的方法可以在兩張地圖上的大約四分之一的試驗中欺騙參與者→航拍照片方向和航拍照片→以256×256分辨率映射方向3。所有的基線幾乎從未欺騙過參與者。
表1:地圖上的AMT“真假”測試?航拍照片
表2:城市景觀標簽上評估的不同方法的FCN分數(shù)→照片。
表3:照片的分類性能→城市景觀上不同方法的標簽。
表2評估了標簽的性能→城市景觀上的照片任務(wù)。表3評估了相反的地圖(照片→標簽)。在這兩種情況下,我們的方法再次優(yōu)于基線。
5.1.4.損失函數(shù)的分析
在表4和表5中,我們比較了我們?nèi)繐p失的消融情況。去除GAN損耗會顯著降低結(jié)果,去除循環(huán)一致性損耗也是如此。因此,我們得出結(jié)論,這兩個術(shù)語對我們的結(jié)果都至關(guān)重要。我們還評估了我們的方法,周期損耗僅在一個方向:GAN+正向周期損耗Ex~pdata(x)[||F(G(x))?x||1]或GAN+反向循環(huán)損耗Ey~pdata(y)[||G(F(y))?y||1](方程式2),發(fā)現(xiàn)它通常會導致訓練不穩(wěn)定,并導致模式崩潰,尤其是對于移除的映射方向。圖7顯示了幾個定性示例。
5.1.5.圖像重建質(zhì)量
圖4:映射標簽的不同方法→在城市景觀上訓練的照片。從左到右:輸入、BiGAN/ALI[6,7]、CoGAN[28]、CycleGAN(我們的)、根據(jù)配對數(shù)據(jù)訓練的pix2pix[20]和地面真相
在圖4中,我們展示了重建圖像F(G(x))的幾個隨機樣本。我們觀察到,在訓練和測試時,重建的圖像往往接近原始輸入x,即使在一個域代表更多樣化信息的情況下,如map?航空照片。
5.1.6.配對數(shù)據(jù)集的其他結(jié)果
圖8顯示了“pix2pix”[22]中使用的其他成對數(shù)據(jù)集的一些示例結(jié)果,例如架構(gòu)標簽?來自CMP Facade數(shù)據(jù)庫的照片[40],以及邊緣?UT Zapposo50K數(shù)據(jù)集中的鞋子[60]。我們的結(jié)果的圖像質(zhì)量接近于完全監(jiān)督的pix2pix,而我們的方法在沒有成對監(jiān)督的情況下學習映射
5.2.應(yīng)用
我們在幾個不存在成對訓練數(shù)據(jù)的應(yīng)用中演示了我們的方法。有關(guān)數(shù)據(jù)集的更多詳細信息,請參閱附錄(第7節(jié))。我們觀察到,訓練數(shù)據(jù)的翻譯通常比測試數(shù)據(jù)的翻譯更具吸引力,訓練和測試數(shù)據(jù)的所有應(yīng)用程序的完整結(jié)果都可以在我們的項目網(wǎng)站上查看。
集合樣式轉(zhuǎn)換(圖10和圖11)
我們在Flickr和WikiArt下載的風景照片上訓練模型。與最近關(guān)于“神經(jīng)風格轉(zhuǎn)移”的研究不同[13],我們的方法學習模仿整個藝術(shù)作品集的風格,而不是轉(zhuǎn)移單個選定藝術(shù)作品的風格。因此,我們可以學習以梵高(V an Gogh)的風格生成照片,而不僅僅是星夜的風格。對于塞尚、莫奈、梵高和浮世繪,每個藝術(shù)家/風格的數(shù)據(jù)集大小分別為526、1073、400和563。
**對象變形(圖13) **
該模型經(jīng)過訓練,可以將一個對象類從ImageNet[5]轉(zhuǎn)換為另一個對象類(每個類包含大約1000個訓練圖像)。Turmukhambetov等人[50]提出了一個子空間模型,將一個對象轉(zhuǎn)換為同一類別的另一個對象,而我們的方法側(cè)重于兩個視覺相似類別之間的對象變形。
**季節(jié)轉(zhuǎn)換(圖13) **
該模型接受了從Flickr下載的854張冬季照片和1273張夏季照片的訓練。
**從繪畫中生成照片(圖12) **.
用于繪畫→我們發(fā)現(xiàn),引入額外的損失有助于鼓勵映射以保持輸入和輸出之間的顏色組成。特別是,我們采用了Taigman等人[49]的技術(shù),當目標域的真實樣本作為生成器的輸入時,將生成器正則化為接近身份映射:即Lidentity(G,F)=Ey~pdata(y)[||G(y)? y||1]+Ex~pdata(x)[||F(x)? x||1]。
如果沒有Lidentity,生成器G和F可以在無需更改輸入圖像的色調(diào)時自由更改。例如,在學習莫奈繪畫和Flickr照片之間的映射時,生成器通常會將白天的繪畫映射到日落時拍攝的照片,因為這種映射在對抗性損失和周期一致性損失下可能同樣有效。這種身份映射丟失的影響如圖9所示。
在圖12中,我們展示了將莫奈的繪畫轉(zhuǎn)化為照片的其他結(jié)果。此圖和圖9顯示了訓練集中包含的繪畫的結(jié)果,而對于本文中的所有其他實驗,我們只評估和顯示測試集的結(jié)果。因為訓練集不包含配對數(shù)據(jù),所以為訓練集繪制提供一個合理的翻譯是一項不平凡的任務(wù)。事實上,由于莫奈不再能夠創(chuàng)作新的繪畫作品,將其概括為看不見的“測試集”,繪畫并不是一個緊迫的問題。
**照片增強(圖14) **
我們表明,我們的方法可以用于生成景深較淺的照片。我們在Flickr下載的花朵照片上訓練模型。源域由智能手機拍攝的花朵照片組成,由于孔徑較小,這些照片通常具有較深的自由度。目標包含由具有較大光圈的單反相機拍攝的照片。我們的模型成功地從智能手機拍攝的照片生成了景深較淺的照片。
**與Gatys等人的比較。 **
在圖15中,我們將我們的結(jié)果與照片風格化的神經(jīng)風格轉(zhuǎn)移[13]進行了比較。對于每一行,我們首先使用兩件具有代表性的藝術(shù)品作為[13]的風格圖像。另一方面,我們的方法可以生成整個收藏風格的照片。為了與整個集合的神經(jīng)風格轉(zhuǎn)移進行比較,我們計算了整個目標域的平均Gram矩陣,并使用該矩陣轉(zhuǎn)移Gatys等人[13]的“平均風格”。
圖16展示了其他翻譯任務(wù)的類似比較。我們觀察到,Gatys等人[13]要求找到與所需輸出非常匹配的目標樣式圖像,但仍然經(jīng)常無法產(chǎn)生真實照片效果,而我們的方法成功地生成了與目標域類似的自然外觀結(jié)果。
6.限制和討論
雖然我們的方法在很多情況下都能取得令人信服的結(jié)果,但結(jié)果遠不是一致的積極結(jié)果。圖17顯示了幾種典型的故障情況。在涉及顏色和紋理變化的翻譯任務(wù)中,正如上文所述,這種方法通常會成功。我們還探索了需要幾何變化的任務(wù),但收效甚微。例如,關(guān)于狗的任務(wù)→cat變形,學習的翻譯退化為對輸入進行最小的更改(圖17)。這種故障可能是由我們的發(fā)電機架構(gòu)造成的,這些架構(gòu)是為在外觀變化方面的良好性能而定制的。處理更加多樣和極端的變換,尤其是幾何變化,是未來工作的一個重要問題。
一些故障案例是由訓練數(shù)據(jù)集的分布特征引起的。例如,我們的方法在馬身上被搞糊涂了→ 斑馬示例(圖17,右),因為我們的模型是在ImageNet的野馬和斑馬合成集上訓練的,它不包含騎馬或斑馬的圖像。
我們還觀察到,配對訓練數(shù)據(jù)的結(jié)果與未配對方法的結(jié)果之間仍然存在差距。在某些情況下,這一差距可能很難縮小,甚至不可能縮小:例如,我們的方法有時會在照片的輸出中排列樹和建筑物的標簽→標簽任務(wù)。解決這種歧義可能需要某種形式的弱語義監(jiān)督。集成弱數(shù)據(jù)或半監(jiān)督數(shù)據(jù)可能會產(chǎn)生更強大的翻譯人員,但其成本仍然只是完全監(jiān)督系統(tǒng)的注釋成本的一小部分。
盡管如此,在許多情況下,完全不成對的數(shù)據(jù)是充分可用的,應(yīng)該加以利用。本文突破了在這種“無監(jiān)督”環(huán)境下可能發(fā)生的事情的界限。
7.附錄
7.1.訓練細節(jié)
我們從頭開始訓練我們的網(wǎng)絡(luò),學習率為0.0002。在實踐中,我們將目標除以2,同時優(yōu)化D,這會降低D相對于G的學習速度。我們在前100個階段保持相同的學習速度,并在接下來的100個階段線性衰減到零。根據(jù)高斯分布N(0,0.02)初始化權(quán)重。
城市景觀標簽?照片
2975來自城市景觀訓練集[4]的訓練圖像,圖像大小為128×128。我們使用Cityscapes val集進行測試。
地圖?航空照片
1096張訓練圖像是從谷歌地圖[22]上截取的,圖像大小為256×256。這些圖像是從紐約市及其周邊地區(qū)采集的。然后將數(shù)據(jù)分為關(guān)于采樣區(qū)域的中間緯度的訓練和測試(添加緩沖區(qū)以確保測試集中沒有出現(xiàn)訓練像素)。
建筑立面標簽?圖
400 CMP Facade數(shù)據(jù)庫中的訓練圖像[40]。邊緣→來自UT Zapposo50K數(shù)據(jù)集的大約50000張訓練圖像[60]。該模型訓練了5個時期。
馬?斑馬和蘋果?橙
我們使用關(guān)鍵詞野馬、斑馬、蘋果和臍橙從ImageNet[5]下載了這些圖像。圖像被縮放到256×256像素。每個班級的訓練集大小:939(馬)、1177(斑馬)、996(蘋果)和1020(橙色)。
夏天?冬天
使用Flickr API下載圖像,帶有yosemite標記和DateTake字段。黑白照片被刪掉了。圖像被縮放到256×256像素。每個類的訓練規(guī)模:1273(夏季)和854(冬季)。
照片?藝術(shù)風格轉(zhuǎn)換
藝術(shù)圖片是從Wikiart下載的。一些素描或太淫穢的藝術(shù)品被手工修剪。這些照片是從Flickr下載的,結(jié)合了景觀和景觀攝影。黑白照片被刪掉了。圖像被縮放到256×256像素。每個班級的培訓規(guī)模分別為1074(莫奈)、584(塞尚)、401(梵高)、1433(浮世繪)和6853(照片)。莫奈的數(shù)據(jù)集被特別刪減,只包括風景畫,梵高的數(shù)據(jù)集只包括代表他最知名藝術(shù)風格的后期作品。
莫奈的繪畫→照片
為了在保存內(nèi)存的同時獲得高分辨率的照片,我們使用原始圖像的隨機方形裁剪進行訓練。為了生成結(jié)果,我們將寬度為512像素、縱橫比正確的圖像作為輸入傳遞到生成器網(wǎng)絡(luò)。恒等映射損失的權(quán)重為0.5λ,其中λ是循環(huán)一致性損失的權(quán)重。我們設(shè)定λ=10。
花朵照片增強
通過使用搜索文本Flower搜索蘋果iPhone 5、5s或6拍攝的照片,可以從Flickr下載智能手機上拍攝的花朵圖片。具有淺自由度的DSLR圖像也通過搜索標簽flower,DoF從Flickr下載。這些圖像按寬度縮放到360像素。采用同一映射失重0.5λ。智能手機和DSLR數(shù)據(jù)集的訓練集大小分別為1813和3326。我們設(shè)定λ=10。
7.2. 網(wǎng)絡(luò)架構(gòu)
我們提供PyTorch和Torch實現(xiàn)。
生成器架構(gòu)
我們采用Johnson等人[23]的架構(gòu)。對于128×128的訓練圖像,我們使用6個殘差塊,對于256×256或更高分辨率的訓練圖像,我們使用9個殘差塊。下面,我們遵循Johnson等人的Github存儲庫中使用的命名約定。
設(shè)c7s1-k表示一個7×7卷積-InstanceNorm-RELU層,帶有k濾波器和步長1。dk表示一個3×3卷積InstanceNRM ReLU層,帶有k個濾波器和步長2。反射填充用于減少偽影。Rk表示包含兩個3×3卷積層的剩余塊,兩層上的濾波器數(shù)量相同。uk表示3×3分數(shù)步進卷積Stanconorm ReLU層,帶有k濾波器和步進1/2。
**鑒別器結(jié)構(gòu) **
對于鑒別器網(wǎng)絡(luò),我們使用70×70 PatchGAN[22]。設(shè)Ck表示一個4×4卷積瞬時形式的漏層,帶有k個濾波器和跨步2。在最后一層之后,我們應(yīng)用卷積來產(chǎn)生一維輸出。我們在第一個C64層中不使用InstanceNorm。我們使用的是坡度為0.2的leaky ReLUs。鑒別器結(jié)構(gòu)為:C64-C128-C256-C512
參考文獻
[1] Y . Aytar, L. Castrejon, C. V ondrick, H. Pirsiavash, and A. Torralba. Cross-modal scene networks. PAMI, 2016. 3
[2] K. Bousmalis, N. Silberman, D. Dohan, D. Erhan, and D. Krishnan. Unsupervised pixel-level domain a^daptation with generative adversarial networks. In CVPR, 2017. 3
[3] R. W. Brislin. Back-translation for cross-cultural research. Journal of cross-cultural psychology, 1(3):185–216, 1970. 2, 3
[4] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR, 2016. 2, 5, 6, 18
[5] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A large-scale hierarchical image database. In CVPR, 2009. 8, 13, 18
[6] E. L. Denton, S. Chintala, R. Fergus, et al. Deep generative image models using a laplacian pyramid of adversarial networks. In NIPS, 2015. 2
[7] J. Donahue, P . Kr?henbühl, and T. Darrell. Adversarial feature learning. In ICLR, 2017. 6, 7
[8] A. Dosovitskiy and T. Brox. Generating images with perceptual similarity metrics based on deep networks. In NIPS, 2016. 7
[9] V . Dumoulin, I. Belghazi, B. Poole, A. Lamb, M. Arjovsky, O. Mastropietro, and A. Courville. Adversarially learned inference. In ICLR, 2017. 6, 7
[10] A. A. Efros and T. K. Leung. Texture synthesis by non-parametric sampling. In ICCV, 1999. 3
[11] D. Eigen and R. Fergus. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. In ICCV, 2015. 2
[12] L. A. Gatys, M. Bethge, A. Hertzmann, and E. Shechtman. Preserving color in neural artistic style transfer. arXiv preprint arXiv:1606.05897, 2016. 3
[13] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. CVPR, 2016. 3, 8, 9, 14, 15
[14] C. Godard, O. Mac Aodha, and G. J. Brostow. Unsupervised monocular depth estimation with left-right consistency. In CVPR, 2017. 3
[15] I. Goodfellow. NIPS 2016 tutorial: Generative adversarial networks. arXiv preprint arXiv:1701.00160, 2016. 2, 4, 5
[16] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y . Bengio. Generative adversarial nets. In NIPS, 2014. 2, 3, 4, 7
[17] D. He, Y . Xia, T. Qin, L. Wang, N. Y u, T. Liu, and W.-Y . Ma. Dual learning for machine translation. In NIPS, 2016. 3
[18] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016. 5
[19] A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H. Salesin. Image analogies. In SIGGRAPH, 2001. 2, 3
[20] G. E. Hinton and R. R. Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 313(5786):504–507, 2006. 5
[21] Q.-X. Huang and L. Guibas. Consistent shape maps via semidefinite programming. In Symposium on Geometry Processing, 2013. 3
[22] P . Isola, J.-Y . Zhu, T. Zhou, and A. A. Efros. Imageto-image translation with conditional adversarial networks. In CVPR, 2017. 2, 3, 5, 6, 7, 8, 18
[23] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In ECCV, 2016. 2, 3, 5, 7, 18
[24] Z. Kalal, K. Mikolajczyk, and J. Matas. Forwardbackward error: Automatic detection of tracking failures. In ICPR, 2010. 3
[25] L. Karacan, Z. Akata, A. Erdem, and E. Erdem. Learning to generate images of outdoor scenes from attributes and semantic layouts. arXiv preprint arXiv:1612.00215, 2016. 3
[26] D. Kingma and J. Ba. Adam: A method for stochastic optimization. In ICLR, 2015. 5
[27] D. P . Kingma and M. Welling. Auto-encoding variational bayes. ICLR, 2014. 3
[28] P .-Y . Laffont, Z. Ren, X. Tao, C. Qian, and J. Hays. Transient attributes for high-level understanding and editing of outdoor scenes. ACM TOG, 33(4):149, 2014. 2
[29] C. Ledig, L. Theis, F. Huszár, J. Caballero, A. Cunningham, A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, et al. Photo-realistic single image superresolution using a generative adversarial network. In CVPR, 2017. 5
[30] C. Li and M. Wand. Precomputed real-time texture synthesis with markovian generative adversarial networks. ECCV, 2016. 5
[31] M.-Y . Liu, T. Breuel, and J. Kautz. Unsupervised image-to-image translation networks. In NIPS, 2017. 3
[32] M.-Y . Liu and O. Tuzel. Coupled generative adversarial networks. In NIPS, 2016. 3, 6, 7
[33] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 2, 3, 6
[34] A. Makhzani, J. Shlens, N. Jaitly, I. Goodfellow, and B. Frey. Adversarial autoencoders. In ICLR, 2016. 5
[35] X. Mao, Q. Li, H. Xie, R. Y . Lau, Z. Wang, and S. P . Smolley. Least squares generative adversarial networks. In CVPR. IEEE, 2017. 5
[36] M. Mathieu, C. Couprie, and Y . LeCun. Deep multiscale video prediction beyond mean square error. In ICLR, 2016. 2
[37] M. F. Mathieu, J. Zhao, A. Ramesh, P . Sprechmann, and Y . LeCun. Disentangling factors of variation in deep representation using adversarial training. In NIPS, 2016. 2
[38] D. Pathak, P . Krahenbuhl, J. Donahue, T. Darrell, and A. A. Efros. Context encoders: Feature learning by inpainting. CVPR, 2016. 2
[39] A. Radford, L. Metz, and S. Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. In ICLR, 2016. 2
[40] R. ˇS. Radim Tyleˇcek. Spatial pattern templates for recognition of objects with regular structure. In Proc. GCPR, Saarbrucken, Germany, 2013. 8, 18
[41] S. Reed, Z. Akata, X. Y an, L. Logeswaran, B. Schiele, and H. Lee. Generative adversarial text to image synthesis. In ICML, 2016. 2
[42] R. Rosales, K. Achan, and B. J. Frey. Unsupervised image translation. In ICCV, 2003. 3
[43] T. Salimans, I. Goodfellow, W. Zaremba, V . Cheung, A. Radford, and X. Chen. Improved techniques for training GANs. In NIPS, 2016. 2
[44] P . Sangkloy, J. Lu, C. Fang, F. Y u, and J. Hays. Scribbler: Controlling deep image synthesis with sketch and color. In CVPR, 2017. 3
[45] Y . Shih, S. Paris, F. Durand, and W. T. Freeman. Datadriven hallucination of different times of day from a single outdoor photo. ACM TOG, 32(6):200, 2013. 2
[46] A. Shrivastava, T. Pfister, O. Tuzel, J. Susskind, W. Wang, and R. Webb. Learning from simulated and unsupervised images through adversarial training. In CVPR, 2017. 3, 5, 6, 7
[47] K. Simonyan and A. Zisserman. V ery deep convolutional networks for large-scale image recognition. In ICLR, 2015. 7
[48] N. Sundaram, T. Brox, and K. Keutzer. Dense point trajectories by gpu-accelerated large displacement optical flow. In ECCV, 2010. 3
[49] Y . Taigman, A. Polyak, and L. Wolf. Unsupervised cross-domain image generation. In ICLR, 2017. 3, 8
[50] D. Turmukhambetov, N. D. Campbell, S. J. Prince, and J. Kautz. Modeling object appearance using context-conditioned component analysis. In CVPR, 2015. 8
[51] M. Twain. The jumping frog: in english, then in french, and then clawed back into a civilized language once more by patient. Unremunerated Toil, 3, 1903. 3
[52] D. Ulyanov, V . Lebedev, A. V edaldi, and V . Lempitsky. Texture networks: Feed-forward synthesis of textures and stylized images. In ICML, 2016. 3
[53] D. Ulyanov, A. V edaldi, and V . Lempitsky. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022, 2016. 5
[54] C. V ondrick, H. Pirsiavash, and A. Torralba. Generating videos with scene dynamics. In NIPS, 2016. 2
[55] F. Wang, Q. Huang, and L. J. Guibas. Image cosegmentation via consistent functional maps. In ICCV, 2013. 3
[56] X. Wang and A. Gupta. Generative image modeling using style and structure adversarial networks. In ECCV, 2016. 2
[57] J. Wu, C. Zhang, T. Xue, B. Freeman, and J. Tenenbaum. Learning a probabilistic latent space of object shapes via 3d generative-adversarial modeling. In NIPS, 2016. 2
[58] S. Xie and Z. Tu. Holistically-nested edge detection. In ICCV, 2015. 2
[59] Z. Yi, H. Zhang, T. Gong, Tan, and M. Gong. Dualgan: Unsupervised dual learning for image-to-image translation. In ICCV, 2017. 3
[60] A. Y u and K. Grauman. Fine-grained visual comparisons with local learning. In CVPR, 2014. 8, 18
[61] C. Zach, M. Klopschitz, and M. Pollefeys. Disambiguating visual relations using loop constraints. In CVPR, 2010. 3
[62] R. Zhang, P . Isola, and A. A. Efros. Colorful image colorization. In ECCV, 2016. 2
[63] J. Zhao, M. Mathieu, and Y . LeCun. Energy-based generative adversarial network. In ICLR, 2017. 2
[64] T. Zhou, P . Krahenbuhl, M. Aubry, Q. Huang, and A. A. Efros. Learning dense correspondence via 3dguided cycle consistency. In CVPR, 2016. 2, 3
[65] T. Zhou, Y . J. Lee, S. Y u, and A. A. Efros. Flowweb: Joint image set alignment by weaving consistent, pixel-wise correspondences. In CVPR, 2015. 3
[66] J.-Y . Zhu, P . Kr?henbühl, E. Shechtman, and A. A. Efros. Generative visual manipulation on the natural image manifold. In ECCV, 2016. 2
總結(jié)
以上是生活随笔為你收集整理的语义分割-ICCV2017 Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks循环一致对抗网的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最近处理的几个小问题_20160311
- 下一篇: 2.3 Factory Method(工