當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【翻译】Adaptive Convolutions for Structure-Aware Style Transfer

發布時間：2023/12/10 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了【翻译】Adaptive Convolutions for Structure-Aware Style Transfer 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

用于結構感知的風格遷移的自適應卷積

文章目錄

Abstract
1. Introduction
2. Related Work
3. 使用 AdaConv 進行特征調制（ Feature Modulation with AdaConv）
- 3.1. 概述
- 3.2. 用 AdaConv 進行風格轉換
- - 3.2.1 Style Encoder
  - 3.2.2 預測深度可分離卷積
- 3.3. Training
4. Results
- 4.1. Style Transfer
- 4.2. 生成模型的擴展
5. 結論

Abstract

圖像之間的風格轉移是CNN的一種藝術應用，即把一個圖像的 "風格 "轉移到另一個圖像上，同時保留了后者的內容。神經風格轉移的技術現狀是基于自適應實例歸一化（AdaIN），該技術將風格特征的統計屬性轉移到內容圖像上，并能實時轉移大量的風格。然而，AdaIN是一個全局性的操作，因此在傳輸過程中，風格圖像中的局部幾何結構往往被忽略。我們提出了自適應卷積法（AdaConv），這是AdaIN的一個通用擴展，允許實時地同時轉移統計和結構風格。除了風格轉移，我們的方法還可以隨時擴展到基于風格的圖像生成，以及其他已經采用AdaIN的任務。

1. Introduction

近年來，卷積神經網絡（CNN）已被用于探索和操縱圖像的風格。圖像風格通常由圖像特征定義，如繪畫中的整體顏色和筆觸的局部結構，或生成性圖像應用中的臉部姿勢和表情。風格也是在不同的分辨率下定義的，因此既可以包括臉部的整體特征，也可以包括皮膚上雀斑的局部結構。這一領域的研究隨著神經風格轉移的出現而獲得了很大的發展，最初是由Gatys等人提出的[8]，其中一個CNN被訓練來重現一個輸入圖像的內容，但以另一個圖像的風格來呈現。本著類似的精神，生成對抗網絡（GANs）被用來生成具有隨機矢量輸入定義的風格的真實的同步圖像，例如在創建合成臉部圖像時[18]。

處理風格的廣泛方法是通過自適應實例歸一化（AdaIN），這是一種轉換圖像特征的平均值和方差的方法。例如，AdaIN經常被用來將風格圖像的特征統計數據轉移到內容圖像上。自從Huang等人在2017年提出定義以來[13]，這種操作已經在基于CNN的圖像處理文獻中變得非常普遍。然而，AdaIN的一個主要缺點是，統計學計算是一個全局性的操作；因此，風格中的局部空間結構不能被有效捕捉和轉移。一個具體的例子見圖1（第1行），風格圖像有明顯的特征，如黑白的圓和方。AdaIN的結果將該圖像的統計數據轉移到內容圖像上，但結果缺乏任何風格的結構。類似的現象可以在第2行看到，對于不同的風格圖像。

圖1：我們提出了自適應卷積（AdaConv），這是自適應實例歸一化（AdaIN）在圖像風格轉移方面的一個擴展，它能夠轉移統計和結構風格元素。AdaConv也可以應用于生成模型，如StyleGAN，用于眾多數據集上的逼真圖像合成1。

在這項工作中，我們引入了對AdaIN的擴展，稱為自適應卷積（AdaConv），它允許同時適應統計和結構風格。在風格轉移的背景下，我們的方法不是從每個風格特征中轉移一對簡單的全局統計數據（平均值和標準差），而是從風格圖像中估計完整的卷積核和偏置值，然后將其卷積在內容圖像的特征上。由于這些內核能更好地捕捉風格中的局部空間結構，AdaConv能更忠實地將風格圖像的結構元素轉移到內容圖像上，如圖1（第4和第7列）所示。

為深度學習任務預測卷積核的概念已經在視頻幀插值[26, 27, 28]和變性[1, 35]等領域顯示了一些前景。在這里，我們利用這個想法來擴展AdaIN，以實現更普遍的圖像風格操作。AdaConv可以將AdaIN重新置于幾乎所有已經采用AdaIN的應用中，為基于CNN的圖像生成和風格操作提供一個新的、通用的構建模塊。為了說明AdaConv的通用性，我們展示了它在風格轉移和基于風格的生成性面部建模（StyleGAN[18]）中的應用。

2. Related Work

本節回顧了與我們的工作更密切相關的神經風格轉移、生成模型中的調制層和內核預測等領域的前期工作。

基于CNN的神經風格轉移最初是由Gatys等人[8]提出的。雖然他們的方法允許在圖像之間轉移任意的風格，但它是基于一個緩慢的優化過程。Johnson等人[17]通過引入感知損失來解決這個問題，使優化的速度大大加快，實現了實時結果。同時，Ulyanov等人[33]提出了一種風格轉移方法，通過評估特定風格和預訓練的前饋神經網絡，進一步加快推理速度。在后續的工作中[34]，他們還用實例規范化（IN）取代了批量規范化（BN）的鋪墊，以產生更高質量的結果而不影響速度。為了改善對風格轉移結果的控制，Gatys等人[9]隨后通過在基于優化和前饋的方法中重新調整損失函數，引入了明確的顏色、比例和空間控制[9]。在IN的基礎上，Dumoulin等人[7]提出了有條件的實例規范化（CIN），并將規范化層以風格為條件，允許一個模型從32種預定義的風格或其插值中的一種進行風格轉移。Ghiasi等人[11]進一步擴展了CIN，允許在訓練時未見的任意風格的轉換；這是用一個大型的風格語料庫來訓練一個編碼器，將風格圖像轉換為條件潛伏向量。Cheng等人[6]提出了基于補丁的風格互換方法，用于任意風格的轉換。同時，Huang等人[13]提出了一種任意風格轉換的方法，通過有效地使IN適應風格特征的平均值和標準差，從而導致AdaIN。Li等人[22]通過對給定風格的潛在特征進行白化和著色來擴展這一方法。這個想法被Sheng等人[31]用一個風格裝飾模塊和多尺度風格適應來進一步擴展。其他的工作也研究了用于風格轉換的元網絡[30]，使用學習的線性變換的快速風格轉換[21]和立體圖像的風格轉換[4]。最近，Jing等人[15]注意到，直接用風格特征的統計數據替換內容特征的統計數據可能是次優的；相反，他們的動態實例歸一化（DIN）方法訓練風格編碼器輸出內容特征的新統計數據，同時還調整后續卷積層的大小和采樣位置。除了實例歸一化，Kotovenko等人[20]還探索了對抗性學習，以更好地將風格與內容區分開來。Jing等人[16]最近發表的評論文章中對其他神經風格轉移方法進行了深入描述。我們工作的目的是進一步擴展AdaIN，根據風格圖像預測整個卷積核和偏差，以轉移風格的統計數據和局部結構。

生成模型中的調制層也對風格轉移之外的其他突破做出了貢獻。最值得注意的是，StyleGAN[18]使用了AdaIN的原始版本，但輸入的風格統計是由一個MLP從高斯噪聲向量中預測出來的。為了減輕AdaIN造成的一些可見的假象，StyleGAN2[19]用一個權重解調層取代了它，它只對標準差進行歸一化和調制，而不改變平均值。由于AdaIN及其變體只轉換全局統計數據，它們對風格中的局部空間語義不敏感。為了解決這一局限性，已經提出了新的方法，從輸入的空間布局圖像中預測空間變化的標準化參數[29, 39, 15]。SPADE[29]用從輸入空間遮罩回歸的每像素變換取代了AdaIN的全局仿生變換。SEAN[39]通過考慮輸入布局遮罩的額外樣式向量進一步擴展了SPADE。SPADE和SEAN都為語義圖像生成的目的保留了調節空間布局；它們有效地控制了每個內核在特定圖像位置的強調或壓制方式。相比之下，我們的Ada-Conv方法在測試時產生了全新的內核。另外，SPADE和SEAN并不直接適用于風格轉換的應用，在這種情況下，必須保留內容圖像的空間布局。

核預測在以前的工作中也有過探索。需要注意的是，上述所有的特征諾瑪化和調制方法都遵循一個類似的程序：它們定義了標量仿射變換，獨立地應用于每個特征通道。主要的區別在于：
(i) 變換參數是手工制作的，還是在訓練中學習的，還是在測試時預測的；
(ii) 每個通道的變換是全局的還是空間變化的。
那些回歸全局變換的方法也可以理解為在測試時預測1×1的二維內核。對于風格轉換，Chen等人[3, 5]學習了針對風格的濾波器組，這些濾波器組被卷積在內容圖像的特征上。他們的方法僅限于在訓練時學習的濾波器組；它不能為測試時給出的未見過的風格生成新的內核。Jing等人[15]聲稱能夠使用他們的通用DIN塊從輸入中回歸動態卷積；然而，報告的實驗結果僅限于1×1的反演。關于內核預測的相關工作也超越了風格轉換。Jia等人[14]提出了用于視頻和立體圖像預測的動態解決方案，其中測試時間特征被重塑為新的過濾器，這些過濾器被卷積地應用或以特定位置的方式應用。最先進的蒙特卡洛渲染去噪方法[1, 35, 10]使用神經網絡來預測用于重建最終去噪幀的動態濾波。也有人提出用神經網絡來預測用手持相機以突發模式拍攝的自然圖像的去噪內核[24, 36]。Niklaus等人[26]預測視頻的幀插值核；他們后來將這項工作擴展到預測分離卷積參數[27, 28]。Xue等人[37]使用一個CNN來預測來自隨機高斯變量的運動核，用于合成可信的下一幀。Esquivel等人[38]預測自適應內核，用于減少在有限的計算資源下對圖像進行準確分類所需的層數。在本文的其余部分，我們探討了一個類似的想法，在測試時利用內核預測來改善生成模型中的風格轉移和基于風格的調制。

3. 使用 AdaConv 進行特征調制（ Feature Modulation with AdaConv）

我們現在描述AdaConv和我們的內核預測器，說明AdaConv是如何概括和擴展基于風格的特征調制中典型的1×1仿射變換的。我們首先在風格轉移的背景下與AdaIN相提并論，然后說明AdaConv如何允許對局部特征結構進行更好的調節，以更好地轉移空間風格，同時也適用于風格轉移之外的高質量生成模型。

3.1. 概述

考慮通常的風格表示{a, b}∈R2，其中a和b分別代表風格的尺度和偏置項（例如，對于風格轉換，a和b是風格圖像特征的平均值和標準偏差）。給定一個數值為x∈R的輸入特征通道和所需的風格，AdaIN對歸一化的輸入特征進行風格定義的仿射轉換，

其中μx和σx是特征通道的平均值和標準差。因此，AdaIN只改變了基于調節風格參數{a, b}的每個通道的全局統計數據。請注意，無論每個樣本x周圍的特征值的空間分布（結構）如何，整個通道都是被平等調制的。

因此，我們擴展AdaIN的第一步是引入一個有條件的二維風格濾波器f∈Rkh×kw，取代尺度項并產生擴展的風格參數{f, b}。這個濾波器可以根據樣本x周圍的鄰域N(x)的局部結構，以空間變化的方式來調節特征通道，

請注意，這個深度AdaConv變體包含AdaIN，它是一個具有1×1過濾器f和N(x)={x}的特殊情況。

我們的第二個也是最后一個步驟是通過擴大輸入風格參數來擴展這個深度變體，也包括一個可分離的、點式卷積張量p∈RC，用于具有C特征通道的輸入。這使得AdaConv能夠根據一種風格進行調制，這種風格不僅能夠捕捉到全局統計數據和空間結構，而且能夠捕捉到不同輸入通道c中的特征xc之間的相關性，

AdaConv的輸入樣式{p, f, b}有效地包括一個深度可分的三維內核[12]，有深度和點卷積成分，以及每通道的偏置。用于調制輸入的深度和點卷積核的實際數量是一個設計選擇，可以是任意的大。正如我們在后面的第3.2.2節中所描述的，這可以用深度可分離卷積層的組數ng來控制。

在下文中，我們為AdaConv提出了一個內核預測框架，并展示了如何將其作為AdaIN的通用替代物，以便在風格轉換和其他高質量生成模型中實現更全面的基于風格的調節。

3.2. 用 AdaConv 進行風格轉換

對于風格轉移，我們從Huang等人[13]的原始架構開始，并在訓練期間應用相同的內容和風格損失。然而，我們并沒有使用AdaIN直接將全局風格的統計數字映射到內容特征上，而是使用我們新的內核預測器和AdaConv來更全面地轉移風格的不同屬性。圖2給出了我們的風格轉移架構的概述。

圖2：帶有我們新的內核預測器和AdaConv的網絡架構，用于結構感知的風格轉移。

輸入的風格和內容圖像用預先訓練好的VGG-19[32]編碼器進行編碼，以獲得風格S和內容C的潛在特征。對于內核預測，風格特征S由風格編碼器ES進一步編碼，以獲得全局風格描述符W。這些預測被攝入到解碼器D的所有層中，并輸出風格轉換的結果。

我們的風格轉換架構采用了4個內核預測器，在解碼圖像的4個不同的分辨率下運行，其內核的維度不同。每個解碼層都有一個自適應卷積塊（圖3），其中預測的縱深和點狀卷積在標準卷積之前。這些標準卷積層負責學習與風格無關的內核，這些內核對重建自然圖像很有用，并且在測試時保持固定。編碼器ES、內核預測器K和解碼器D被聯合訓練，以最小化VGG-19潛在特征空間內的內容和風格損失的相同加權和[13]。

3.2.1 Style Encoder

我們現在轉向從風格特征S預測卷積核的目標，以便在我們的圖像解碼器的每個尺度上應用于內容特征C。在這里，一個中間步驟是計算一個風格表征W，全面描述不同尺度的風格圖像，同時以風格轉移損失為指導。這一設計選擇也是通過與最先進的生成模型[18, 19]進行類比而產生的，其中術語 "風格 "表示圖像的全局和局部屬性。

預先訓練好的VGG-19網絡在VGG-19 relu4 1層將尺寸為（通道、高度、寬度）的原始輸入風格圖像翻譯成尺寸為（512、32、32）的風格張量S。在這里，感受野并沒有覆蓋整個風格圖像。因此，我們通過訓練一個額外的編碼器組件ES，將S減少到我們的全局嵌入W，如圖3所示。

圖3：全局風格編碼器ES、內核預測器Ki和AdaConv塊中的結構調制的架構，所產生的深度可分卷積核應用于輸入內容特征（右上）。

我們的風格編碼器ES包括3個初始區塊，每個區塊都有一個3 x 3的卷積，一個平均池操作，以及一個泄漏的ReLU激活。然后，輸出被重塑并送入最后的全連接層，該層提供全局風格描述符，反過來又被重塑為一個大小為（SD，SH，SW）的輸出張量W。這個嵌入的尺寸是超參數，定義為要預測的內核大小的一個因素。

由于使用了這個全連接層，我們的網絡被限制在與固定尺寸（3，256，256）的輸入風格圖像的工作。然而，內容圖像的尺寸不受限制，因為它流經網絡的一個完全卷積部分。

3.2.2 預測深度可分離卷積

圖2中的每一個核預測器K都是一個簡單的卷積網絡，其輸入是風格描述器W，而輸出是一個可深度分離的核。選擇預測深度可分的核[12]的動機是希望保持核預測器的簡單和計算效率，同時也使隨后的卷積更快。

一個標準的卷積層需要一個尺寸為(1, cin, h, w)的輸入圖像張量，并用一個尺寸為(cout, cin, kh, kw)的內核張量進行卷積，其中cin和cout是輸入和輸出通道的數量。每個通道的偏置也被添加到輸出中。因此，該層所需的權重數量為cout × cin × kh × kw + cout。深度可分離卷積通過將輸入通道收集成n個獨立的組，并應用單獨的空間和點式核，分別學習結構和跨通道的相關性，從而減少了這個數字。所需的權重數量減少為cout × cin /ng × kh × kw + cout。對于ng=cin的深度卷積層，輸入的每個通道都與它自己的cout/cin濾波器組進行卷積。然后用1×1的核進行點卷積，以擴大輸出中的通道數量，在最終輸出中加入每個通道的偏置。

在這里，需要注意的是，我們的解碼器中的四個AdaConv 層的cin分別等于512、256、128和64，隨著空間分辨率的提高而減少。因此，最低空間分辨率的內核預測器通常具有最高的參數數量。為了將我們的網絡能力均勻地分布在連續的復述層上，我們在較低的分辨率上設置了較大的ng∈{cin, cin/ 2 , cin/ 4 , cin/ 8 }，并在連續的層上逐漸減少，從而導致更好的結果（在補充中給出了與常數ng=cin的比較）。對于深度卷積核和點卷積核，ng的設置是相同的。

因此，每個內核預測器K都會為解碼器的那個規模的深度卷積AdaConv層輸出必要的權重。這些權重包括：
(i) 大小為（cout, cin /ng , kh, kw）的空間核，
(ii) 大小為（cout, cout/ ng , 1, 1）的點式核，
(iii) 偏置項b∈Rcout。

每個核預測器K的輸入是大小為(SD, SH, SW)的全局風格描述符W，它通過卷積層和匯集層來輸出目標尺寸的空間核，圖3。這些層可以由標準卷積或轉置卷積組成，其參數在設計時確定，并取決于要預測的核的大小。為了預測點狀的1×1核，我們將W匯集成一個大小（SD，1，1），然后進行1D卷積來預測cout點狀核。我們使用一個單獨的預測器來預測每個通道的偏差，與點式內核的預測器類似。一旦內核和偏置被預測出來，它們就被用來調制一個輸入，如圖3的右半部分所示。

3.3. Training

為了與現有的風格轉換技術進行比較（見圖4），我們使用COCO數據集[23]作為內容圖像，使用WikiArt數據集[25]作為風格圖像來訓練我們的方法。在其余與AdaIN的比較中，我們使用了一個由大約4000張人臉組成的自定義內容數據集作為內容圖像，并繼續使用WikiArt數據集作為風格圖像。在使用人臉作為內容的實驗中，我們從頭開始重新訓練AdaIN和AdaConv，以進行公平的比較。為了訓練我們的方法，我們使用Adam優化器，學習率為1e-4，批次大小為8。對于 AdaIN，我們使用與 [13] 中相同的設置。關于我們訓練的其他細節在補充材料中介紹。

圖4：AdaConv的表現與目前最先進的方法1,2相當。我們的方法特別善于將風格圖像的局部結構轉換為內容圖像。

4. Results

我們現在展示了使用AdaConv作為AdaIN的擴展來進行風格轉換和生成式建模的結果。

4.1. Style Transfer

我們的工作主要是以圖像風格轉移的應用為動機，與最初的AdaIN[13]很相似。在本節中，我們所有的結果都是在風格描述符大小sd=512和內核大小3×3的情況下創建的。

定性比較。我們首先將AdaConv與幾種風格轉換方法進行比較，包括Huang和Belongie的AdaIN[13]、Chen和Schmidt[6]、Ulyanov等人[34]、Gatys等人[8]、Jing等人[15]、Li等人[22]、Sheng等人[31]，以及Johnson等人[17]。圖4顯示，我們的方法與目前的技術水平相當，并且在保留風格圖像的結構方面有明顯的優勢。例如，帆船圖像（第一行）中的水的結構與風格圖像中的頭發絲相似；藝術畫中的筆觸結構被自然地轉移到內容圖像上。

由于AdaConv擴展了AdaIN，我們在圖5中進行了更徹底的比較。在所有情況下，AdaConv渲染的內容圖像更忠實于風格圖像的結構（局部空間分布），同時也傳遞了風格的全局統計數據。AdaIN不能轉移風格結構，只能轉移風格的全局統計數據。

圖5：與AdaIN[13]相比，由于我們的內核預測方法，我們的AdaConv擴展在保持風格圖像的結構方面做得更好。

風格旋轉。我們進一步強調了Ada-Conv在保留風格圖像結構方面的好處，即在不同程度的旋轉下應用同一風格圖像。當然，旋轉的風格圖像實際上是一種不同的風格。然而，當使用AdaIN轉移風格時，這一概念在很大程度上消失了，因為全局特征統計在旋轉下基本保持不變。我們在圖6中說明了這一效果，我們將四種不同旋轉的風格圖像轉移到同一內容圖像上（取自圖5的最后一行）。我們可以看到，AdaConv成功地保留了轉移結果中風格圖像的空間方向，而AdaIN的結果看起來基本與旋轉無關。我們鼓勵讀者在補充視頻中查看更多旋轉結果。

圖6：當旋轉風格圖像時，使用AdaConv將風格定向很好地轉移到內容圖像上，而AdaIN的結果大多是旋轉不變的，因為全局統計數據在旋轉下變化不大。

風格插值。與AdaIN一樣，我們也可以在風格空間中插值，以產生混合多種輸入風格的結果。在AdaConv的情況下，我們在內核預測器之前對風格特征編碼器的輸出進行插值。插值后的風格描述器產生內核，改變解碼結果的結構。因此，風格圖像的結構元素被平滑地插值到空間。這可以在圖7中觀察到，我們在兩個結構非常不同的風格圖像之間進行插值，并將結果應用于一個面部的內容圖像。與AdaIN相比，AdaConv生成的插值結果的結構也介于兩個風格圖像的結構之間。例如，人們可以很容易地看到像粗線這樣的結構元素在使用AdaConv時從一個結果到另一個結果的實際變形和扭曲。

圖7：當我們在兩個風格的圖像之間插值時，AdaConv的結果比AdaIN更平滑，我們可以通過AdaConv的方法在空間上變形時對個別結構進行跟蹤。

用戶研究。我們還進行了一項用戶研究來比較AdaConv和AdaIN的結果。參與者評估了由AdaIN和AdaConv獲得的總共10個并排的風格轉換結果，兩個結果以隨機的順序顯示。參與者被要求根據以下3個問題選擇一個結果：（1）哪一個風格轉換結果更好地保留了內容圖像？(2) 哪一個風格轉換結果更好地保留了風格圖像中的風格結構？（3）哪種風格轉移的結果在將風格轉移到內容圖像方面總體上做得更好？共有185名來自多個國家、年齡段和背景的參與者參加了我們的在線調查。不出所料，93.9%的參與者認為AdaIN在內容保存方面做得更好，而92%的參與者認為AdaConv在風格結構方面抓得更好。總的來說，絕大多數的參與者（71.8%）表示AdaConv在風格轉移方面做得更好。

視頻風格轉換。最后，從補充視頻中可以看出，AdaConv對視頻序列進行風格轉換時具有良好的時間穩定性，即使在對每一幀獨立應用轉換時也是如此。通過將AdaConv與視頻風格轉換的光學流技術相結合，可以提高時間穩定性[2]。

4.2. 生成模型的擴展

雖然AdaIN最初是為風格轉移而提出的，但它已被發現應用于許多領域，包括像StyleGAN[18]和StyleGAN2[19]這樣的生成模型，它被用來將 "風格 "注入以對抗性方式訓練的生成網絡中。由于AdaConv是AdaIN的擴展，我們通過將其與我們的內核預測器一起納入一個類似StyleGAN2的網絡來證明其對生成網絡的適用性。

在StyleGAN2發生器的每個刻度上，由MLP預測的每個通道的平均值和標準差（A）被用來用AdaIN調制卷積層的權重（圖8，左）。然而，請注意，內核權重是在訓練中學習的，只有在測試時才會調整其比例。相比之下，我們的AdaConv塊在測試時從輸入的風格參數中預測全深度卷積核。因此，我們將StyleGAN2中的每個權重解調塊替換為AdaConv塊，對上一層的上采樣輸入進行 "基于風格 "的深度分離卷積（圖8，右）。噪聲向量也通過MLP轉換為每個Ada-Conv塊中的內核預測器的輸入 "樣式 "W。由于深度卷積比標準卷積的直徑小，我們在同一塊中用標準的二維卷積進行適應性卷積。然后加入每個通道的偏置和高斯噪聲，輸出被送入下一個AdaConv塊。

圖8：StyleGAN2[19]中的解調塊和我們帶有AdaConv塊的替代網絡。

我們在FFHQ、CelebHQ、AFHQ-wild和AFHQ-dog數據集上以（256×256）的分辨率訓練了這個改良的StyleGAN2生成器。我們修改后的生成器和StyleGAN2的判別器是用與[19]相同的超參數和損失函數訓練的。我們在單個Nvidia2080Ti GPU上訓練了我們的生成網絡，進行了 300K 迭代（~1.2m 真實圖像），批次大小為4。我們在圖 9 中展示了一些合成面孔和野生動物的示例。這些結果是在風格描述符大小sd=128和內核大小3×3的情況下產生的。在生成環境中使用AdaConv的其他結果見我們的補充材料。

圖9：AdaConv也可以應用于生成性架構，如StyleGAN2[19]，用于現實的圖像合成。

5. 結論

在這項工作中，我們提出了自適應卷積（Ada-Conv）用于結構感知的風格操作。作為自適應實例歸一化（AdaIN）的延伸，AdaConv預測卷積核和來自給定風格嵌入的偏差，這可以被編織到圖像解碼器的層中，以便在測試時更好地調整其行為。在神經風格轉移的文本中，AdaConv不僅可以將全局統計數據，而且可以將風格圖像的空間結構轉移到內容圖像上。此外，AdaConv還可以應用于基于風格的圖像生成（如StyleGAN），我們已經證明了這一點，而且幾乎所有AdaIN都被采用。它提供了一個新的、通用的構建模塊，用于將條件輸入數據納入基于CNN的圖像生成和風格操作。

總結

以上是生活随笔為你收集整理的【翻译】Adaptive Convolutions for Structure-Aware Style Transfer的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： [能力提升][费曼学习法]学习方法
下一篇： array专题5