图像太宽无法输出请裁剪图像或降低分辨率然后重试_真·无监督!延世大学提出图像到图像无监督模型,实验结果超SOTA...
作者 | 蔣寶尚
編輯 | 叢 末
圖像翻譯目的是用模型將源域圖像轉換到目標域圖像,通常涉及標簽圖到場景圖的轉換、圖像風格、人臉的屬性變換、標簽圖到場景圖的轉換。
圖像翻譯任務自生成對抗網絡提出就得到了快速發展,例如經典的pix2pix、CycleGAN、StarGAN。
上述模型雖然實現了從源域圖像到目標域圖像的轉換,但也需要一定的標簽參與或者需要建立源域和目標域各自的生成器。
而近日韓國延世大學的一篇名為《Rethinking the Truly Unsupervised Image-to-Image Translation》的論文號稱實現了真正的“無監督”學習。
論文地址:https://arxiv.org/pdf/2006.06500.pdf
論文的導語部分提到,近期的圖像到圖像的一些模型都至少使用了圖像級別(輸入輸出對(input-output pairs))或者集合級別(set-level)(域標簽)監督中的一種。后者往往被稱為“無監督”,而這種方法還有一個重要的假設:域標簽是先驗的。
在論文中作者提出了一種真正無監督的圖像到圖像轉換方法(truly unsupervised image-to image translation method,TUNIT),此方法既不需要“輸入輸出對”也不需要域標簽。其通過信息理論方法學習分離圖像域,并使用估計的域標簽生成相應的圖像。
另外,作者在不同數據集上對比了FUNIT和MSGAN這倆最先進的多域和跨域圖像到圖像的翻譯模型。實驗結果表明,作者提出的方法能成功地實現域的分離和跨域的圖像翻譯。在半監督環境下,作者也聲稱其方法的性能優于當前現有的集合級監督方法。
1
思想簡介
圖注:方法概述如上,上圖說明了模型轉換貓品種的過程:1.使用引導網絡的估計域訓練多任務鑒別器;2.引導網絡為生成器提供參考圖像( reference image )的樣式代碼。另外,估計域再次用于GAN訓練。
具體而言,作者通過三個子問題來解決這一問題:1)區分圖像(即域)的集合特征;2)對輸入圖像的個別內容和風格進行編碼;3)學習估計域之間的映射函數。
另外,作者引入了一個引導網絡(guiding network),從而提供用于識別器和生成器的偽域標簽和編碼風格特征。為了估計域標簽,作者還采用了一種能夠最大化圖像的域分配與其增強版本之間相互信息(mutual information)的無監督方法。這有助于引導網絡將相似的圖像分組在一起,并同時均勻地分隔類別。另外,通過參與圖像翻譯過程,引導網絡還可以利用來自生成器和鑒別器的梯度。
注:增強版本是對指對原圖像隨機裁剪、水平翻轉之后生成的圖像。
對于嵌入風格碼,作者采用了對比損失,其使得模型能夠更好地理解圖像之間的差異性,從而更好地進行表示學習。另外,引導網絡和對抗性網絡之間的交互,也讓模型成功地分離域和翻譯圖像。
2
主要方法
前面也提到,引導網絡有兩個作用,其一是將風格代碼(style code)提供給生成器,其二是將偽域標簽提供給鑒別器來指導翻譯。另外,生成器還會根據鑒別器的反饋合成目標域的圖像,同時尊重參考圖像的風格(例如毛皮圖案)保持源圖像的內容(例如姿勢)。
主要的方法有兩個部分,第一是學習如何產生域標簽以及編碼風格特征。
在這一部分中作者使用無監督聚類方法自動產生給定圖像的域標簽,也就是前面所說的最大化圖像的域分配與其增強版本之間相互信息。公式如下:
其中
為:
雖然L_MI提供了一種自動生成輸入圖像的域標簽方法,但是當圖像的分辨率高于64x64或樣本變得復雜多樣時它無法放大。因此我們作者向引導網絡中添加輔助支路Estyle并施加對比損耗來克服這一點,公式如下:
第二部分是域引導下的圖像到圖像的翻譯。這部分是為了解決翻譯模式應該提供包含目標域視覺特征的逼真圖像。為此作者采用了三種損失:1)對抗性損失以生成逼真的圖像;2)風格對比損失以鼓勵模型不忽略風格代碼;3)圖像重建損失以保持域不變特征。
其中,對于對抗性損失訓練,作者采用多任務鑒別器,其設計目的是同時對每個領域進行歧視(discrimination)。然后僅利用估計輸入圖像的域的損失來計算其梯度。
另外,為了防止出現生成器忽略給定的風格代碼而合成域的隨機圖像的退化情況,對生成器施加的風格對比損失函數如下:
為了保證生成器在給定其原始風格時可以重建源圖像,其施加圖像重建損失為:
上述公式不僅能保證生成器可以保留其輸入圖像的域不變性特征(例如,姿態),而且還有助于通過提取源圖像的原始風格來學習引導網絡的風格表示。
最后,總的訓練模型公式表示如下:
圖注: λ是超參數。
3
實驗結果
在實驗部分,一共進行了三個,分別是分析目標函數和訓練策略的效果、在三個未標記的數據集上進行無監督的圖像到圖像的翻譯、在半監督監督環境下與最先進的(SOTA)技術的比較。
在訓練策略效果實驗中,作者選擇了AnimalFaces 10數據集,并驗證了引入引導網絡中的對抗損失能夠提高模型的整體翻譯性能。通過對訓練策略的研究,證實了引導網絡與GAN之間的互動確實提高了翻譯效果。
作者為了研究所提出的方法能夠處理無監督的圖像到圖像的翻譯,在AFHQ、FFHQ和LSUN CAR數據集上對模型進行了評估。整體結果如下圖:
上圖是在AFHQ野生類上訓練的引導網絡的t-SNE結果和來自每個域的示例圖像。
上圖是定性的圖像翻譯結果,每幅圖像由源圖像和每個域中所有測試圖像的平均風格碼碼合成。可以清晰的看出,每個輸出都成功地反映了每個領域的視覺特征(即毛皮圖案和顏色)以及其物種的視覺特征。
FHQ和LSUN CAR的結果如圖8所示。雖然還不清楚如何在FFHQ中定義“域”,但該網絡成功地將圖像分成了視覺上不同的類別,如眼鏡、發色和劉海。
作者的第三個實驗是與半監督學習環境下在兩種方案下訓練的最先進的翻譯模型進行比較。如下圖,展示了與使用樸素方案訓練的基線之間的定性比較。
下圖分別展示了在Summer2wendor和AnimalFaces-10上使用class-wise FID的定量結果。隨著比值(γ)的降低,基線模型的性能顯著下降,而作者提出的模型無論γ如何,都將FID值維持在60和45左右。
招 聘
AI 科技評論希望能夠招聘 科技編輯/記者 一名
辦公地點:北京
職務:以跟蹤學術熱點、人物專訪為主
工作內容:
1、關注學術領域熱點事件,并及時跟蹤報道;
2、采訪人工智能領域學者或研發人員;
3、參加各種人工智能學術會議,并做會議內容報道。
要求:
1、熱愛人工智能學術研究內容,擅長與學者或企業工程人員打交道;
2、有一定的理工科背景,對人工智能技術有所了解者更佳;
3、英語能力強(工作內容涉及大量英文資料);
4、學習能力強,對人工智能前沿技術有一定的了解,并能夠逐漸形成自己的觀點。
感興趣者,可將簡歷發送到郵箱:jiangbaoshang@yanxishe.com
總結
以上是生活随笔為你收集整理的图像太宽无法输出请裁剪图像或降低分辨率然后重试_真·无监督!延世大学提出图像到图像无监督模型,实验结果超SOTA...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java 栈 大小_java – J
- 下一篇: dev控件swiftplot图滚动方法_