风格迁移篇--CCPL:Contrastive Coherence Preserving Loss for Versatile Style Transfer多功能风格转换的对比连贯保持损失
文章目錄
- Abstract
- 1 Introduction
- 2 Related Works
- 3 Methods
- 3.1 Contrastive Coherence Preserving Loss
- 3.2 Simple Covariance Transformation
- 3.3 Loss Function
- 4 Experiments
- 4.1 Experimental settings
- 4.2 Comparison with Former Methods
- 4.3 Ablation Studies
- 4.4 Applications
- 5 Conclusions
- References
Abstract
在本文中,我們旨在設計一種通用的風格轉換方法,能夠聯(lián)合執(zhí)行藝術風格、照片真實感和視頻風格轉換,而無需在訓練期間觀看視頻。以前的單幀方法假設對整個圖像具有很強的約束以保持時間一致性,這在許多情況下可能會違反。相反,我們提出了一個溫和合理的假設,即全局不一致性由局部不一致性主導,并設計了一種適用于局部補丁的通用對比一致性保持損失(CCPL)。CCPL可以在風格轉換過程中保持內(nèi)容源的連貫性,而不會降低風格化。此外,它具有鄰域調(diào)節(jié)機制,大大減少了局部失真,顯著提高了視覺質(zhì)量。除了在多功能風格轉換方面表現(xiàn)出色外,它還可以輕松擴展到其他任務,例如圖像到圖像的翻譯。此外,為了更好地融合內(nèi)容和風格特征,我們提出了簡單協(xié)方差變換(SCT)來有效地將內(nèi)容特征的二階統(tǒng)計量和風格特征對齊。實驗證明,當配備CCPL時,生成的模型對于多功能風格轉換的有效性。
關鍵詞: image style transfer, video style transfer, temporal consis-
tency, contrastive learning, image-to-image translation.
1 Introduction
在過去的幾年里,在風格轉換方面取得了很大的進展,使結果格外令人愉快,具有藝術價值。在這項工作中,我們對多功能風格轉換感興趣。除了藝術風格轉移和照片級真實感風格轉移外,我們推導的方法在執(zhí)行視頻風格轉移方面具有通用性,無需使用視頻進行明確訓練。代碼位于:https://github.com/JarrentWu1031/CCPL.
[圖1。我們的算法可以進行多種風格的轉換。從左到右是藝術圖像/視頻風格轉換、照片逼真圖像/視頻風格轉換的示例。建議使用Adobe Acrobat Reader查看動畫。]
生成風格化視頻的一個簡單解決方案是使用相同的樣式參考獨立傳輸連續(xù)幀的樣式。由于沒有強制時間一致性約束,生成的視頻通常具有明顯的兩個連續(xù)幀之間的閃爍偽影和非相干。為了解決這個問題,以前的方法[4,20,23,28,52,53]使用光流作為引導來恢復原始視頻的估計運動。然而,估計光流需要大量計算,估計運動的準確性嚴格限制了風格化視頻的質(zhì)量。最近,一些算法[17,40,45]試圖通過單幀正則化來提高視頻輸出的時間一致性。他們試圖確保從內(nèi)容特征到融合特征的線性轉換。其基本思想是鼓勵在內(nèi)容源中保持密集的成對關系。然而,如果沒有明確的指導,線性度在很大程度上受到全局式優(yōu)化的影響。因此,他們的視頻結果在時間上仍然不一致。我們注意到,大多數(shù)視頻結果對其內(nèi)容視頻輸入顯示出良好的結構剛性,但局部噪聲加劇了不一致的印象。因此,我們不考慮容易違反的全局約束,而是從考慮在局部面片上定義的更寬松的約束開始。
如圖2所示,我們的想法很簡單:由樣式化圖像中相同位置的R′A和R′B表示的面片之間的變化應該類似于兩個相鄰內(nèi)容幀的面片RA和RB。如果在短時間內(nèi)拍攝兩個連續(xù)的內(nèi)容幀,則很可能會在相鄰區(qū)域中找到與RB類似的補丁,該補丁由RC(在藍色框中)表示。換句話說,我們可以將同一圖像中相鄰的兩個面片視為連續(xù)幀中相同位置的面片。因此,即使只有單幀圖像,我們也可以應用約束。然而,強制這些補丁差異相同是不可靠的,因為這將鼓勵輸出與內(nèi)容圖像相同。然后,結果中不會出現(xiàn)樣式轉換效果。受對比學習[10,47,49]最新進展的啟發(fā),我們使用信息損失[47]最大化面片差異的正對(來自同一區(qū)域)與其他負對(來自不同區(qū)域)之間的互信息。通過采樣足夠數(shù)量的負對,損失鼓勵正對靠近,同時遠離負樣本。我們將導出的損失稱為對比相干保持損失(CCPL)。
在應用CCPL后,我們注意到視頻輸出的時間一致性大大提高,而風格化仍然令人滿意(見圖5)和選項卡。1). 此外,由于CCPL的鄰域調(diào)節(jié)策略,生成圖像的局部面片受到其鄰域面片的約束,從而顯著減少了局部失真,從而獲得更好的視覺質(zhì)量。我們提出的CCPL不需要視頻輸入,也不受特定網(wǎng)絡架構的約束。因此,我們可以在訓練期間將其應用于任何現(xiàn)有的圖像樣式傳輸網(wǎng)絡,以提高其在圖像和視頻上的性能(見圖9和表1)。視覺質(zhì)量的顯著改善及其靈活性使CCPL能夠進行輕微修改,實現(xiàn)照片逼真風格的轉換,這標志著它是實現(xiàn)多功能風格轉換的重要工具(見圖1)。
有了CCPL,我們現(xiàn)在渴望高效地融合內(nèi)容和風格特征。為了實現(xiàn)這一點,我們提出了一種用于多種風格傳輸?shù)母咝ЬW(wǎng)絡,稱為SCTNet。SCTNet的關鍵元素是簡單協(xié)方差變換(SCT)模塊,用于融合樣式特征和內(nèi)容特征。它計算樣式特征的協(xié)方差,并將特征協(xié)方差與歸一化內(nèi)容特征直接相乘。與AdaIN[29]和Linear[40]中的融合操作相比,我們的SCT簡單,可以同時捕獲精確的樣式信息。
[圖2。對比連貫保留損失的直覺。第一幀(RA或R′A)中用紅色框表示的區(qū)域與第二幀中用棕色框(RB或R′B)包裹的相應面片具有相同的位置。RC和R′C(在藍色框中)是從第一幀裁剪而來的,但它們的語義與RB和R′B對齊。兩個面片之間的差異表示為D(例如,D(RA,RB))。鼓勵最大化D(RA,RC)和D(R′A,R′C)(D(RA,RB)和D(R′A,R′B))之間的互信息,以保持內(nèi)容源的一致性。]
總之,我們的貢獻有三個方面:
- 我們提出了對比連貫保持損失(CCPL)用于多語體轉換。根據(jù)圖像塊與其相鄰塊的差異,它鼓勵內(nèi)容圖像和生成圖像之間的一致性。它是有效的,可以推廣到其他風格轉換方法。
- 我們提出了簡單協(xié)方差變換(SCT)來有效地對齊內(nèi)容和樣式特征的二階統(tǒng)計量。所得到的SCTNet結構簡單,效率高(在512×512的尺度下約為每秒25幀),具有很大的實用潛力。
- 我們將CCPL應用于其他任務,如圖像到圖像的翻譯,并在不進行進一步修改的情況下提高結果的時間一致性和視覺質(zhì)量,證明了CCPL的靈活性。
2 Related Works
圖像樣式傳輸。這些算法旨在生成具有一個圖像結構和另一個圖像樣式的圖像。Gatys等人首先開創(chuàng)了神經(jīng)風格轉移(NST)[21]。對于加速,一些算法[32,58]將迭代優(yōu)化過程近似為前饋網(wǎng)絡,并通過快進傳遞實現(xiàn)樣式轉換。為了更廣泛的應用,有幾種算法試圖在單個模型中傳遞多種樣式[5,18]。然而,這些模型在學習風格的數(shù)量上有局限性。從那時起,人們設計了各種方法來傳遞隨機圖像的風格。
樣式交換方法[9,55]在重建圖像之前,將每個內(nèi)容補丁與其最近的樣式補丁進行交換。WCT[41]利用奇異值分解對圖像進行白化,然后重新著色。AdaIN[29]將特征均值和標準差替換為來自樣式源的均值和標準差。最近,出現(xiàn)了許多基于注意力的算法。例如,李等人[40]設計了一種線性變換,以對齊融合特征和樣式特征之間的二階統(tǒng)計量。鄧等人[17]利用多通道相關對其進行了改進。SANet[48]利用與內(nèi)容特征的空間相關性重新安排了風格特征。AdaAttN[45]將AdaIN[29]和SANet[48]結合起來,以平衡全局和局部風格的影響。程等人[13]提出了風格感知歸一化損失來平衡風格化。另一個分支旨在將寫實風格轉移到圖像上。Luan等人[46]受Matting-Laplacian[39]的啟發(fā),設計了一個顏色轉換網(wǎng)絡。李等人[42]用非冷卻層取代了WCT[41]的上采樣層,并添加了最大池掩碼以減輕細節(jié)損失。Yoo等人[68]引入了小波變換來保存結構信息。An等人[2]使用神經(jīng)架構搜索算法尋找合適的解碼器設計,以獲得更好的性能。
視頻風格傳輸。根據(jù)是否使用光流,現(xiàn)有的視頻風格傳輸算法可以大致分為兩類。
一條工作線在產(chǎn)生視頻輸出時利用光流。這些算法試圖估計原始視頻的運動并將其恢復到生成的視頻中。Ruder等人[52]提出了一種時間損耗,用扭曲的前一幀調(diào)整當前幀,以將圖像樣式傳輸算法[21]擴展到視頻。Chen等人[4]設計了RNN結構基線,并在特征域中執(zhí)行了翹曲操作。Gupta等人[23]在渲染之前將前一個樣式化框架與當前內(nèi)容框架連接在一起,并形成流損耗作為約束。黃等人[28]試圖通過混合損失將時間連貫性整合到風格化網(wǎng)絡中。Ruder等人[53]通過新的初始化和損失函數(shù)擴展了他們以前的工作[52],以提高對大運動和強遮擋的魯棒性。利用這些光流約束可以提高時間一致性。然而,光流估計并不完全準確,導致視頻結果中出現(xiàn)偽影。此外,它的計算成本很高,尤其是當圖像大小增大時。考慮到這些,另一條工作線試圖在不使用光流的情況下保持內(nèi)容輸入的一致性。
李等人[40]和鄧等人[17]設計了內(nèi)容特征的線性變換,以保持結構親和力。劉等人[45]使用L1歸一化來代替SANet[48]的softmax操作,以獲得更平坦的注意力分數(shù)分配。王等人[63]提出了復合時間正則化,以增強網(wǎng)絡對運動和照明變化的魯棒性。與這些方法相比,我們提出的CCPL對網(wǎng)絡架構沒有任何要求,使其特別適合其他網(wǎng)絡。使用我們的SCTNet,視頻輸出的時間一致性超過了SOTA,同時風格化仍然令人滿意。我們還將CCPL應用于其他網(wǎng)絡。結果表明,視頻穩(wěn)定性也有類似的改善(見表1)。
[圖3。擬議CCPL的示意圖。Cf和Gf表示編碼器E特定層的編碼特征。? 表示矢量減法,SCE表示softmax交叉熵。黃色虛線說明了正對是如何產(chǎn)生的。]
對比學習。對比學習算法的最初目的是在自監(jiān)督場景中學習良好的特征表示。一系列豐富的方法試圖通過最大化正特征對的互信息,同時最小化負特征對的互信息來實現(xiàn)這一點[10,11,12,22,25,47]。最近的研究將對比學習擴展到了意象翻譯[49]和意象風格轉換[7]領域。我們的工作與CUT[49]在使用基于補丁的信息丟失[47]方面最相關。但是CUT[49]利用了圖像到圖像(Im2Im)翻譯任務中相同位置的面片對應關系。然而,我們的CCPL結合了鄰居調(diào)節(jié)方案,以保持相鄰面片之間的相關性,使其適合于圖像和視頻生成。此外,我們的實驗說明了在Im2Im翻譯任務中,在CUT[49]上使用CCPL的有效性,如第5.2節(jié)所述。4.4.
3 Methods
3.1 Contrastive Coherence Preserving Loss
給定兩幀Ct和Ct+?t其中?t是兩者之間的時間間隔,我們假設相應生成的圖像Gt和Gt之間的差異+?t與Ct和Ct之間的差值線性相關+?t、 何時?t小:
其中D(a,b)表示a和b之間的差異。該約束可能過于嚴格,無法適用于整個圖像,但從技術上講,適用于局部面片,其中通常只能發(fā)生簡單的圖像變換,例如平移或旋轉。在這種假設下,我們提出了一種通用的對比一致性保持損失(CCPL)應用于局部面片以強制執(zhí)行該約束。我們以秒顯示。1假設我們應用于相鄰面片的損失與兩幀對應面片的損失相等?t很小。在單個幀上操作使我們不必處理視頻源的多個幀,節(jié)省了計算預算。
為了應用CCPL,首先,我們將生成的圖像G及其內(nèi)容輸入C發(fā)送到固定圖像編碼器E,以獲得特定層的特征圖,表示為Gf和Cf(如圖3所示)。第二,我們從Gf(圖3中的紅點)隨機采樣N個向量4,表示為Gxa,其中x=1,··,N。第三,我們采樣每個Gxa的八個最近相鄰向量(圖3中的藍點),表示為Gx,yn,其中y=1,··,8是相鄰索引。然后,我們相應地從相同位置的Cf中采樣,分別得到Cxa和Cx,yn。向量與其相鄰向量之間的差異通過以下方式測量:
? 表示矢量減法。為了實現(xiàn)等式1,一個簡單的想法是強制dg等于dc。但在這種情況下,網(wǎng)絡的一個簡單解決方法是鼓勵類似于C的G,這意味著這種約束將與風格轉換的目的相矛盾。受對比學習[10,25,47]最新進展的啟發(fā),我們轉而嘗試最大化“正”差分向量對之間的互信息。配對僅在Cf和Gf的差分向量之間定義。即,相同位置的差分向量被定義為分布式發(fā)電和直流之間的正對,否則為負。潛在的直覺也很簡單:與其他隨機對相比,同一位置的差分向量在潛在空間中應該最相關。
我們按照[10]的設計構建了一個兩層MLP(多層感知器)來映射差分向量,并在計算信息損失之前將其歸一化到一個單位球體上[47]。數(shù)學上:
其中τ表示默認設置為0.07的溫度超參數(shù)。通過此設置,視頻輸出的時間一致性顯著提高(見圖5和表1),而風格化仍然令人滿意,甚至更好(見圖6、圖9,臟紋理隨著我們的CCPL消失)。
這種損失避免了與用于確保生成的圖像和樣式圖像之間的樣式一致性的樣式損失直接矛盾。同時,即使不利用來自輸入視頻其他幀的信息,它也可以提高生成視頻的時間一致性。CCPL的復雜度為O(8×N)2,其中8×N表示采樣差分向量的數(shù)量。在訓練期間,它在計算上是可承受的,并且對推理速度沒有影響(如圖8a所示)。CCPL甚至可以作為一個簡單的插件來擴展其他圖像生成任務的方法,以生成具有更好時間一致性的視頻,如第5.2.1節(jié)所示。4.4.
[圖4。提出的SCT模塊的詳細信息及其與類似算法的比較(AdaIN[29],Linear[40])。這里,conv表示卷積層,cnet和snet中的黃線表示relu層。此外,std范數(shù)通過通道的均值和標準差表示歸一化特征,而均值范數(shù)通過其通道對特征進行歸一化]
3.2 Simple Covariance Transformation
在CCPL保證時間一致性的情況下,我們的下一個目標是設計一個簡單有效的模塊,用于融合內(nèi)容和風格特征,以實現(xiàn)豐富的風格化。黃等人[29]提出AdaIN可以直接對齊內(nèi)容和風格特征的通道均值和方差。雖然很簡單,但忽略了通道間相關性,后者的文獻[17,40]證明了這一點。李等人[40]設計了一種通道注意機制,將風格特征的二階統(tǒng)計量轉移到相應的內(nèi)容特征上。但我們實證發(fā)現(xiàn),線性[40]的結構可以簡化。
為了結合AdaIN[29]和Linear[40]的優(yōu)點,我們設計了一個簡單的協(xié)方差變換(SCT)模塊來融合風格和內(nèi)容特征。如圖4所示,首先,我們通過其通道[29]的平均值和偏差對內(nèi)容特征fc進行歸一化,并通過其通道[40]對樣式特征fs進行歸一化,以獲得“fc”和“fs”。為了降低計算成本,我們向cnet和snet發(fā)送“fc”和“fs”(cnet和snet都包含三個卷積層,中間有兩個relu層),以逐漸降低通道的維數(shù)(512→ 32),得到f′c和f′。然后將f′s展平并計算其協(xié)方差矩陣COV,以找出信道相關。然后,我們通過在COV和f′c之間執(zhí)行矩陣乘法來簡單地融合特征,以獲得fg。最后,我們使用單個卷積層(在圖4中表示為conv)將fg的通道維度恢復到正常(32)→ 512),并在將其發(fā)送到解碼器之前添加原始樣式特征的通道方式。
結合對稱編譯碼模塊,我們將整個網(wǎng)絡命名為SCTNet。編碼器是在ImageNet[16]上預先訓練的VGG-19網(wǎng)絡[56],用于從內(nèi)容和樣式圖像中提取特征,而對稱解碼器需要將融合的特征轉換回圖像。實驗表明,我們的SCTNet在風格化效果方面與線性[40]相當(見圖6和表1),同時更輕更快(見表3)。
3.3 Loss Function
除擬議的CCPL外,我們采用兩種常用損耗[1,17,29,45]進行樣式轉換。整體訓練損失是這三種損失的加權總和:
內(nèi)容損失Lc(樣式損失Ls)通過生成的特征和內(nèi)容(樣式)特征之間(平均值μ(·)和標準偏差σ(·))的差異的Frobenius范數(shù)測量:
其中,νl(·)表示編碼器第l層的特征圖。對于藝術風格轉移,我們使用來自{relu4 1}、{relu1 1、relu2 1、relu3 1、relu4 1}、{relu2 1、relu3 1、relu4 1}的特征分別計算內(nèi)容損失、風格損失和CCPL。對于寫實風格轉換,我們將損耗層設置為{relu3 1},{relu1 1,relu2 1,relu3 1},{relu1 1,relu2 1,relu3 1}。默認情況下,損耗權重設置為λc=1.0,λs=10.0,λccp=5.0。請檢查第二節(jié)。4.3了解我們?nèi)绾握业竭@些配置的詳細信息。
4 Experiments
4.1 Experimental settings
實施細節(jié)。我們采用MS-COCO[44]數(shù)據(jù)集的內(nèi)容圖像和Wikiart[51]數(shù)據(jù)集的樣式圖像來訓練我們的網(wǎng)絡。這兩個數(shù)據(jù)集包含大約80000幅圖像。默認情況下,我們使用學習率為1e-4、批量大小為8的Adam優(yōu)化器[34]來訓練模型進行160k次迭代。在訓練期間,我們首先將圖像的較小維度調(diào)整為512。然后,我們從圖像中隨機裁剪256×256個面片作為最終輸入。對于CCPL,我們僅將同一內(nèi)容圖像中的差分向量視為負樣本。補充文件中提供了更多詳細信息。
[表1。視頻與藝術風格轉換的定量比較。這里我代表幀的間隔,和Pre。代表人類偏好分數(shù)。我們在表中顯示了藝術圖像風格轉換(Art)和視頻風格轉換(Vid)的人類偏好分數(shù)。時間損失的結果放大了100倍。我們用粗體顯示第一名分數(shù),用下劃線顯示第二名分數(shù)。]
[表2。照片真實感風格轉換的定量比較。]
度量;為了全面評估不同算法的性能并使比較公平,我們采用了幾種指標來評估結果的風格化效果和時間一致性。為了評估風格化效果,我們計算生成的圖像與其風格輸入之間的SIFID[54],以測量其風格分布距離。較低的SIFID表示更緊密的樣式分布一對的。為了評估視覺質(zhì)量和時間一致性,我們選擇LPIPS[70],它最初用于測量生成圖像的多樣性[15,30,38]。在我們的例子中,小LPIP表示照片真實感結果的局部失真或兩個風格化視頻幀之間的微小變化。然而,LPIPS只考慮了風格化視頻幀之間的相關性,而忽略了原始幀之間的變化。作為補充,我們還采用[63]中定義的時間損失來衡量時間一致性。它是通過利用兩幀之間的光流來扭曲一個程式化結果,并計算與另一個的Frobenius差。我們評估了視頻風格傳輸?shù)亩唐?#xff08;兩個相鄰幀)和長期(中間9幀)一致性。為了短期一致性,我們直接使用來自MPI Sintel數(shù)據(jù)集的地面真實光流[3]。否則,我們使用PWC網(wǎng)絡[57]來估計兩幀之間的光流。較低的時間損耗表示更好地保持兩幀之間的一致性。
為了進行圖像風格傳遞比較,我們隨機選擇10幅內(nèi)容圖像和10幅風格圖像,為每種方法合成100幅風格化圖像,并計算其平均SIFID作為風格化度量。此外,我們計算平均LPIP來衡量照片真實感結果的視覺質(zhì)量。至于時間一致性方面,我們從MPI Sintel數(shù)據(jù)集[3]中隨機選擇10個視頻片段(50幀,每幀12幀),并分別使用10種風格的圖像傳輸這些視頻。然后,我們計算平均LPIP和時間損失作為時間一致性度量。我們還包括人類評估,這在圖像生成任務中更具代表性。為此,考慮到視覺質(zhì)量、風格化效果和時間一致性,我們邀請50名參與者從每個圖像/視頻樣式對中選擇他們最喜歡的風格化圖像/視頻。這些參與者來自不同的背景,使得評估不那么偏向于某一群體。總的來說,我們分別獲得了500張圖片和視頻的投票。然后我們計算投票百分比作為人類偏好分數(shù)。所有評估都顯示在選項卡中。1和選項卡。2.
4.2 Comparison with Former Methods
對于視頻和藝術圖像風格傳輸,我們將我們的方法與九種算法進行了比較:AdaIN[29]、SANet[48]、DSTN[27]、ReReVST[63]、Linear[40]、MCCNet[17]、AdaAttN[45]、IE[7]、Lnor[13],它們是藝術圖像風格傳輸?shù)腟OTA。在這些方法中,[7,17,40,45]也是最先進的基于單幀的視頻樣式傳輸方法,而ReReVST[63]是基于SOTA多幀的方法。對于照片真實感圖像樣式轉換,我們將我們的方法與四種SOTA進行了比較:線性[40]、WCT2[68]、StyleNAS[2]、DSTN[27]。注意,在所有提到的算法中,線性[40]和DSTN[27]與我們的方法最相關,因為它們都能夠將藝術風格和照片寫實風格轉移到圖像上。我們從這些方法提供的官方代碼中獲得所有測試結果。
視頻風格傳輸。如選項卡所示。1.我們的原始SCTNet在SIFID中得分最高,表明其在獲得正確風格方面的優(yōu)勢。此外,我們可以看到,當損失應用于不同方法時,所提出的CCPL大大提高了時間一致性,同時SIFID分數(shù)略有降低。我們的全模型(帶CCPL)超過了所有單幀方法[7,17,27,40,45,48]在短期和長期時間一致性方面,由LPIP[70]和時間損耗測量,與SOTA多幀方法相當:ReReVST[63]。然而,我們的SIFID分數(shù)顯著超過ReReVST[63],這與定性比較中顯示的結果一致(見圖6)。定性比較還顯示了我們的CCPL在保持原始視頻的短期(圖5)時間一致性方面的優(yōu)勢,因為我們的熱圖差異大多與地面實況相似。我們在補充文件中有另一個圖來顯示長期時間一致性的比較。在人類偏好評分方面,我們的完整模型也排名最佳,進一步驗證了我們的CCPL的有效性。
藝術風格轉換。如圖6所示,AdaIN[29]生成的結果具有嚴重的形狀失真(例如,第一排的房子和第三排的橋)和雜亂的紋理圖案(第四、第五排)。SANet[48]也存在形狀失真,在其結果中遺漏了一些結構細節(jié)(第1頁)→ 第3行)。線性[40]和MCCNet[17]具有相對干凈的輸出。然而,Linear[40]丟失了一些內(nèi)容細節(jié)(第1行、第3行),而MCCNet[17]的一些結果在局部區(qū)域(第2行衣領周圍和第4行嘴角周圍)存在棋盤偽影。ReReVST[63]顯示出明顯的顏色失真(第二→ 第5行)。AdaAttN[45]可以有效減少雜亂的紋理,但在某些情況下,風格化效果似乎會退化(第1行)。DSTN[27]的結果有嚴重的明顯失真(第3、4行)。IE[7]的結果與原始樣式(第1、3、5行)不太相似。我們最初的SCTNet捕捉到了準確的樣式(第2、3行),但在生成的圖像中也有一些雜亂的區(qū)域(第4、5行)。當添加Lnor時,一些結果更混亂(第4行、第5行)。然而,使用CCPL,我們的完整模型生成的結果以生動和吸引人的色彩很好地保持了其內(nèi)容源的結構。此外,其多級方案增強了這種效果。因此,不規(guī)則紋理和局部顏色失真顯著減少。它甚至有助于改進樣式化,更好地保存內(nèi)容源的語義信息(如圖9所示)。
照片寫實風格轉移。由于CCPL可以保留內(nèi)容源的語義信息,并顯著減少局部失真,因此它非常適合于照片真實感風格轉換的任務。我們對SCTNet進行了一些細微的更改,以使其能夠用于此任務:通過在relu3 1之外丟棄層來構建較淺的編碼器,然后使用所有三個層的特征映射來計算CCPL。如圖7所示,線性[40]和DSTN[27]生成具有細節(jié)損失的結果(第3行中消失的窗口)。對于WCT2[68]和StyleNAS[2],其中一些結果顯示顏色分布不合理(第二行為紅色道路)。相比之下,我們的完整模型生成的結果與SOTA相當,甚至更好,具有較高的視覺質(zhì)量和適當?shù)娘L格,這與表中所示的定量比較一致。2.
[圖5。短期時間一致性的定性比較。我們將我們的方法與七種算法進行了比較:SANet[48]、Linear[40]、IE[7]、ReReVST[63]、MCCNet[17]、AdaAttN[45]、DSTN[27]。奇數(shù)行顯示之前的幀。偶數(shù)行顯示連續(xù)幀之間差異的熱圖。]
效率分析。由于網(wǎng)絡的簡單前饋結構和高效的特征融合模塊SCT,我們的模型相當有效。我們使用一個12GB的Titan XP GPU,沒有其他正在運行的程序來比較它與其他算法的運行速度。選項卡。3顯示了在三個輸入圖像比例上不同方法的平均運行速度(超過100次獨立運行)。結果表明,SCTNet在不同尺度下的效率優(yōu)于SOTA(補充文件中提供了照片逼真風格傳輸方法的比較),表明了我們的算法實時使用的可行性。
[圖6。藝術風格轉換的定性比較。我們將我們的方法與九種算法進行了比較:AdaIN[29]、SANet[48]、Linear[40]、ReReVST[63]、MCCNet[17]、AdaAttN[45]、DSTN[27]、IE[7]、Lnor[13]。]
[圖7。照片寫實風格轉換的定性比較。我們將我們的方法與四種算法進行了比較:線性[40]、WCT2[68]、StyleNAS[2]和DSTN[27]。]
4.3 Ablation Studies
與CCPL引起的性能相關的因素有幾個:1)施加損耗的層;2) 每層采樣的差分向量數(shù);3) 重量損失率與款式損失。因此,我們通過從0到4(從最深的層開始)枚舉CCPL層的數(shù)量,并從[16、32、64、128]中選擇作為采樣組合的數(shù)量來進行幾個實驗,以顯示前兩個因素的影響。然后,我們調(diào)整CCPL和風格損失之間的損失權重比,以表明哪個比例在風格效應和時間連貫性之間給出了最佳權衡。需要注意的是,這里的風格化分數(shù)代表SIFID分數(shù),時間一致性通過以下方式測量:(20)? 10×LPIP? 時間損失),以顯示不斷升級的趨勢。
從子圖中,我們可以看到,隨著CCPL層數(shù)量的增加,短期(圖8d)和長期(圖8e)時間一致性隨著風格化分數(shù)的減少(圖8b)和計算量的增加(圖8a)而增加。當CCPL層的數(shù)量從3增加到4時時間一致性的變化很小。相比之下,計算成本顯著增加,樣式化效果要弱得多。因此,我們選擇3作為CCPL層數(shù)的默認設置。
[表3。執(zhí)行速度比較(單位:FPS)。我們使用單個12GB Titan XP GPU進行所有執(zhí)行時間測試。OOM表示內(nèi)存不足錯誤。]
至于采樣差分向量的數(shù)量(每層),圖8d和e中的藍線(64個采樣向量)接近黃線(128個采樣向量),這意味著這兩種設置的性能在改善時間一致性方面接近。然而,每層采樣128個差分向量會帶來更大的計算負擔和風格退化。因此,默認情況下,我們每層采樣64個差分向量。
[圖8。關于CCPL三個因素的燒蝕研究:1)應用損耗的層;2) 每層采樣的向量數(shù);3) 減重率與款式損失。]
減重率也可以被視為調(diào)整時間一致性和風格的手柄。圖8c和f顯示了當失重率變化時,時間一致性和風格化之間的權衡。我們發(fā)現(xiàn),權重比為0.5是一個很好的選擇,因為它在時間一致性改進和風格化分數(shù)降低之間進行了很好的權衡。我們在補充文件和更多分析中顯示了CCPL消融研究的定性結果,例如CCPL中的不同采樣策略。
[圖9。CCPL可以很容易地應用于其他方法,如AdaIN[29]、SANet[48]和Linear[40],以提高視覺質(zhì)量。]
[圖10。在CUT[49]上應用CCPL與其原始模型的比較。]
4.4 Applications
現(xiàn)有方法的CCPL。CCPL非常靈活,只需稍作修改即可插入其他方法。我們將提出的CCPL應用于三種典型的前一種方法:AdaIN[29]、SANet[48]、Linear[40]。所有這些方法都在時間一致性方面取得了一致的改進,只需要一個SIFID分數(shù)略有下降(見表1和圖9)。結果表明了CCPL的有效性和靈活性。
圖像到圖像的翻譯。CCPL可以很容易地添加到其他生成任務中,如圖像到圖像的翻譯。我們將我們的CCPL應用于最近的圖像到圖像轉換方法CUT[49],然后使用相同的horse2zebra數(shù)據(jù)集訓練模型。圖10中的結果表明,我們的CCPL提高了視覺質(zhì)量和時間一致性。更多申請請參閱補充文件。
5 Conclusions
在這項工作中,我們提出了CCPL來保持風格轉換過程中的內(nèi)容連貫性。通過對比圖像斑塊的特征差異,損失促使內(nèi)容中相同位置的斑塊的差異與生成的圖像相似。使用CCPL訓練的模型在時間一致性和風格效果之間實現(xiàn)了良好的權衡。我們還提出了一個簡單有效的模塊,用于將內(nèi)容特征的二階統(tǒng)計量與樣式特征對齊。將這兩種技術結合在一起,我們的完整模型輕快,同時生成滿意的圖像和視頻結果。此外,我們還證明了所提出的損耗對其他模型和任務的有效性,例如圖像到圖像樣式的傳輸,這表明了我們的損耗在更廣泛的應用中的巨大潛力。致謝本研究得到了國家自然科學基金62192784的資助。
References
18 Wu et al.
56. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale
image recognition. arXiv preprint arXiv:1409.1556 (2014)
57. Sun, D., Yang, X., Liu, M.Y., Kautz, J.: Pwc-net: Cnns for optical flow using
pyramid, warping, and cost volume. In: Proceedings of the IEEE conference on
computer vision and pattern recognition. pp. 8934–8943 (2018)
58. Ulyanov, D., Lebedev, V., Vedaldi, A., Lempitsky, V.S.: Texture networks: Feed-
forward synthesis of textures and stylized images. In: ICML. vol. 1, p. 4 (2016)
59. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser,
L., Polosukhin, I.: Attention is all you need. In: Advances in neural information
processing systems. pp. 5998–6008 (2017)
60. Wang, F., Liu, H.: Understanding the behaviour of contrastive loss. In: Proceedings
of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp.
2495–2504 (2021)
61. Wang, H., Li, Y., Wang, Y., Hu, H., Yang, M.H.: Collaborative distillation for ultra-
resolution universal style transfer. In: Proceedings of the IEEE/CVF Conference
on Computer Vision and Pattern Recognition. pp. 1860–1869 (2020)
62. Wang, P., Li, Y., Vasconcelos, N.: Rethinking and improving the robustness of
image style transfer. In: Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. pp. 124–133 (2021)
63. Wang, W., Yang, S., Xu, J., Liu, J.: Consistent video style transfer via relaxation
and regularization. IEEE Transactions on Image Processing 29, 9125–9139 (2020)
64. Wu, X., Hu, Z., Sheng, L., Xu, D.: Styleformer: Real-time arbitrary style transfer
via parametric style composition. In: Proceedings of the IEEE/CVF International
Conference on Computer Vision. pp. 14618–14627 (2021)
65. Xu, K., Wen, L., Li, G., Qi, H., Bo, L., Huang, Q.: Learning self-supervised space-
time cnn for fast video style transfer. IEEE Transactions on Image Processing 30,
2501–2512 (2021)
66. Yao, Y., Ren, J., Xie, X., Liu, W., Liu, Y.J., Wang, J.: Attention-aware multi-
stroke style transfer. In: Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. pp. 1467–1475 (2019)
67. Yin, K., Gao, J., Shugrina, M., Khamis, S., Fidler, S.: 3dstylenet: Creating
3d shapes with geometric and texture style variations. In: Proceedings of the
IEEE/CVF International Conference on Computer Vision. pp. 12456–12465 (2021)
68. Yoo, J., Uh, Y., Chun, S., Kang, B., Ha, J.W.: Photorealistic style transfer via
wavelet transforms. In: Proceedings of the IEEE/CVF International Conference
on Computer Vision. pp. 9036–9045 (2019)
69. Zhang, H., Goodfellow, I., Metaxas, D., Odena, A.: Self-attention generative adver-
sarial networks. In: International conference on machine learning. pp. 7354–7363.
PMLR (2019)
70. Zhang, R., Isola, P., Efros, A.A., Shechtman, E., Wang, O.: The unreasonable
effectiveness of deep features as a perceptual metric. In: Proceedings of the IEEE
conference on computer vision and pattern recognition. pp. 586–595 (2018)
age style transfer via reversible neural flows. In: Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. pp. 862–871 (2021)
architecture search to uncover surprisingly fast end-to-end universal style transfer
networks. arXiv preprint arXiv:1906.02470 (2019)
for optical flow evaluation. In: European conference on computer vision. pp. 611–
In: Proceedings of the IEEE International Conference on Computer Vision. pp.
1105–1114 (2017)
for neural image style transfer. In: Proceedings of the IEEE conference on computer
vision and pattern recognition. pp. 1897–1906 (2017)
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.
pp. 6654–6663 (2018)
style transfer with internal-external learning and contrastive learning. Advances in
Neural Information Processing Systems 34 (2021)
alast: Dual style-learning networks for artistic style transfer. In: Proceedings of the
IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 872–881
(2021)
preprint arXiv:1612.04337 (2016)
trastive learning of visual representations. In: International conference on machine
learning. pp. 1597–1607. PMLR (2020)
trastive learning. arXiv preprint arXiv:2003.04297 (2020)
of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp.
15750–15758 (2021)
ized loss for improving arbitrary style transfer. In: Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. pp. 134–143 (2021)
versal style transfer. In: European Conference on Computer Vision. pp. 169–184.
Springer (2020)
tiple domains. In: Proceedings of the IEEE/CVF Conference on Computer Vision
and Pattern Recognition. pp. 8188–8197 (2020)
scale hierarchical image database. In: 2009 IEEE conference on computer vision
and pattern recognition. pp. 248–255. Ieee (2009)
transfer via multi-channel correlation. arXiv preprint arXiv:2009.08003 (2020)
arXiv preprint arXiv:1610.07629 (2016)
16 Wu et al.
synthesis. In: Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition. pp. 12873–12883 (2021)
network. In: Asian Conference on Computer Vision. pp. 637–653. Springer (2018)
neural networks. In: Proceedings of the IEEE conference on computer vision and
pattern recognition. pp. 2414–2423 (2016)
Doersch, C., Pires, B.A., Guo, Z.D., Azar, M.G., et al.: Bootstrap your own latent:
A new approach to self-supervised learning. arXiv preprint arXiv:2006.07733 (2020)
ity in neural style transfer. In: Proceedings of the IEEE International Conference
on Computer Vision. pp. 4067–4076 (2017)
ciple for unnormalized statistical models. In: Proceedings of the thirteenth inter-
national conference on artificial intelligence and statistics. pp. 297–304. JMLR
Workshop and Conference Proceedings (2010)
visual representation learning. In: Proceedings of the IEEE/CVF Conference on
Computer Vision and Pattern Recognition. pp. 9729–9738 (2020)
by a two time-scale update rule converge to a local nash equilibrium. Advances in
neural information processing systems 30 (2017)
fer. In: Proceedings of the IEEE/CVF International Conference on Computer Vi-
sion. pp. 14609–14617 (2021)
time neural style transfer for videos. In: Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition. pp. 783–791 (2017)
normalization. In: Proceedings of the IEEE International Conference on Computer
Vision. pp. 1501–1510 (2017)
image translation. In: Proceedings of the European conference on computer vision
(ECCV). pp. 172–189 (2018)
instance normalization for arbitrary style transfer. In: Proceedings of the AAAI
Conference on Artificial Intelligence. vol. 34, pp. 4369–4376 (2020)
and super-resolution. In: European conference on computer vision. pp. 694–711.
Springer (2016)
adversarial networks. In: Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. pp. 4401–4410 (2019)
arXiv:1412.6980 (2014)
glement for artistic style transfer. In: Proceedings of the IEEE/CVF International
Conference on Computer Vision. pp. 4422–4431 (2019)
From pixels to parameterized brushstrokes. In: Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. pp. 12196–12205 (2021)
CCPL: Contrastive Coherence Preserving Loss for Versatile Style Transfer 17
translation (2021)
image translation via disentangled representations. In: Proceedings of the Euro-
pean conference on computer vision (ECCV). pp. 35–51 (2018)
ting. IEEE transactions on pattern analysis and machine intelligence 30(2), 228–
242 (2007)
image and video style transfer. In: Proceedings of the IEEE/CVF Conference on
Computer Vision and Pattern Recognition. pp. 3809–3817 (2019)
via feature transforms. arXiv preprint arXiv:1705.08086 (2017)
alistic image stylization. In: Proceedings of the European Conference on Computer
Vision (ECCV). pp. 453–468 (2018)
and revision: Laplacian pyramid network for fast high-quality artistic style transfer.
In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition. pp. 5141–5150 (2021)
Zitnick, C.L.: Microsoft coco: Common objects in context. In: European conference
on computer vision. pp. 740–755. Springer (2014)
Revisit attention mechanism in arbitrary neural style transfer. In: Proceedings
of the IEEE/CVF International Conference on Computer Vision. pp. 6649–6658
(2021)
ceedings of the IEEE conference on computer vision and pattern recognition. pp.
4990–4998 (2017)
tive coding. arXiv preprint arXiv:1807.03748 (2018)
In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition. pp. 5880–5888 (2019)
image-to-image translation. In: European Conference on Computer Vision. pp.
319–345. Springer (2020)
ping autoencoder for deep image manipulation. arXiv preprint arXiv:2007.00653
(2020)
Issues in Accounting Education 26(3), 593–608 (2011)
conference on pattern recognition. pp. 26–36. Springer (2016)
images. International Journal of Computer Vision 126(11), 1199–1219 (2018)
single natural image. In: Proceedings of the IEEE/CVF International Conference
on Computer Vision. pp. 4570–4580 (2019)
fer by feature decoration. In: Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition. pp. 8242–8250 (2018)
image recognition. arXiv preprint arXiv:1409.1556 (2014)
pyramid, warping, and cost volume. In: Proceedings of the IEEE conference on
computer vision and pattern recognition. pp. 8934–8943 (2018)
forward synthesis of textures and stylized images. In: ICML. vol. 1, p. 4 (2016)
L., Polosukhin, I.: Attention is all you need. In: Advances in neural information
processing systems. pp. 5998–6008 (2017)
of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp.
2495–2504 (2021)
resolution universal style transfer. In: Proceedings of the IEEE/CVF Conference
on Computer Vision and Pattern Recognition. pp. 1860–1869 (2020)
image style transfer. In: Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. pp. 124–133 (2021)
and regularization. IEEE Transactions on Image Processing 29, 9125–9139 (2020)
via parametric style composition. In: Proceedings of the IEEE/CVF International
Conference on Computer Vision. pp. 14618–14627 (2021)
time cnn for fast video style transfer. IEEE Transactions on Image Processing 30,
2501–2512 (2021)
stroke style transfer. In: Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. pp. 1467–1475 (2019)
3d shapes with geometric and texture style variations. In: Proceedings of the
IEEE/CVF International Conference on Computer Vision. pp. 12456–12465 (2021)
wavelet transforms. In: Proceedings of the IEEE/CVF International Conference
on Computer Vision. pp. 9036–9045 (2019)
sarial networks. In: International conference on machine learning. pp. 7354–7363.
PMLR (2019)
effectiveness of deep features as a perceptual metric. In: Proceedings of the IEEE
conference on computer vision and pattern recognition. pp. 586–595 (2018)
總結
以上是生活随笔為你收集整理的风格迁移篇--CCPL:Contrastive Coherence Preserving Loss for Versatile Style Transfer多功能风格转换的对比连贯保持损失的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [hackinglab][CTF][上传
- 下一篇: “高考”机器人横空出世 2017年居然要