當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

【深度学习】CVPR 2022 | 百变发型！中科大/微软/港城大提出HairCLIP：基于文本和参考图像的头发编辑方法...

發(fā)布時(shí)間：2025/3/12 pytorch 22 豆豆

生活随笔收集整理的這篇文章主要介紹了【深度学习】CVPR 2022 | 百变发型！中科大/微软/港城大提出HairCLIP：基于文本和参考图像的头发编辑方法... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

圖1 本方法單獨(dú)地或聯(lián)立地支持來自圖像和文本域的條件輸入以完成頭發(fā)編輯

本文介紹我們在CVPR 2022關(guān)于基于文本和參考圖像完成頭發(fā)編輯的工作。該工作將文本和參考圖像條件統(tǒng)一在了一個(gè)框架內(nèi)，在單個(gè)模型內(nèi)支持廣泛的圖像和文本作為輸入條件從而完成相應(yīng)的頭發(fā)編輯任務(wù)。代碼正在逐步開源，歡迎大家試用。

論文標(biāo)題: HairCLIP: Design Your Hair by Text and Reference Image

作者單位: 中國科學(xué)技術(shù)大學(xué)，微軟云AI，香港城市大學(xué)

錄用信息: CVPR 2022

代碼:?https://github.com/wty-ustc/HairCLIP

論文:?https://arxiv.org/abs/2112.05142

一、針對問題

1. 當(dāng)前頭發(fā)編輯交互方式不夠友好

頭發(fā)作為人臉至關(guān)重要的組成部分，一直以來得到了學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注。近年來，隨著深度學(xué)習(xí)的發(fā)展，許多基于條件生成對抗網(wǎng)絡(luò)（GAN）的頭發(fā)編輯方法可以產(chǎn)生不錯(cuò)的編輯效果。但是，這些方法大多使用精心繪制的草圖或遮罩作為圖像到圖像翻譯網(wǎng)絡(luò)的輸入從而得到編輯后的結(jié)果。然而這種交互方式并不直接也不夠友好。因此，這樣的交互方式極大地限制了這些方法的大規(guī)模自動(dòng)化使用。

2. StyleCLIP為文本驅(qū)動(dòng)的圖像編輯提供了前車之鑒，但其存在諸多不適于高強(qiáng)度“做頭發(fā)”的缺點(diǎn)

得益于跨模態(tài)視覺和語言表征的發(fā)展，基于文本指導(dǎo)的圖像篡改方法已經(jīng)開始不斷出現(xiàn)。最近，StyleCLIP通過結(jié)合StyleGAN強(qiáng)大的圖像合成能力和CLIP驚人的圖像文本表征能力展現(xiàn)了很好的圖像篡改效果。盡管StyleCLIP內(nèi)在地支持基于文本描述的頭發(fā)編輯，但是它存在如下缺點(diǎn)：

對于每個(gè)特定的頭發(fā)編輯描述，它都需要分別訓(xùn)練一個(gè)映射器，這種方式在實(shí)際應(yīng)用中是非常不靈活的；

由于缺少定制的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練損失函數(shù)設(shè)計(jì)使得該方法對于發(fā)型、發(fā)色和其他無關(guān)屬性的解耦性比較差；

在實(shí)際應(yīng)用中，一些發(fā)型發(fā)色是很難用文本描述的。這時(shí)，用戶更傾向于使用參考圖像，但是StyleCLIP不支持基于參考圖像的頭發(fā)編輯。

二、方法框架

本文利用在大規(guī)模人臉數(shù)據(jù)集上預(yù)訓(xùn)練的StyleGAN作為我們的生成器，整個(gè)頭發(fā)編輯框架如圖2所示。給定待編輯的真實(shí)圖像，我們首先使用StyleGAN inversion方法得到其隱編碼，然后我們的頭發(fā)映射器根據(jù)隱編碼和條件輸入（發(fā)型條件、發(fā)色條件）預(yù)測隱編碼相應(yīng)的變化，最后修改后的隱編碼將被送入StyleGAN產(chǎn)生對應(yīng)的頭發(fā)編輯后的圖像。因此，最核心的問題就是學(xué)習(xí)一個(gè)映射器網(wǎng)絡(luò)來將輸入的條件解耦地映射到隱編碼的相應(yīng)變化。我們從網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)兩個(gè)方面來解決這個(gè)問題。

圖2 本文提出的跨模態(tài)頭發(fā)編輯框架的概述圖

1. 網(wǎng)絡(luò)結(jié)構(gòu)

共享的條件嵌入。為了將文本和圖像條件統(tǒng)一在同一個(gè)域內(nèi)，本文利用CLIP的文本編碼器和圖像編碼器來分別提取它們各自的嵌入，用以作為本文映射器網(wǎng)絡(luò)的條件輸入。因?yàn)镃LIP是在大規(guī)模圖像-文本對上訓(xùn)練過的，所以不管是文本嵌入還是參考圖像嵌入都在同一個(gè)共享的隱空間中，因此它們可以被不加區(qū)分地送入映射器網(wǎng)絡(luò)并且任意切換。
解耦的信息注射。因?yàn)镾tyleGAN存在語義分層現(xiàn)象，即StyleGAN中不同的層對應(yīng)的語義級別不同。我們注意到了這點(diǎn)，在頭發(fā)映射器內(nèi)細(xì)分了三個(gè)子頭發(fā)映射器，對應(yīng)預(yù)測高、中、低語義級別的隱編碼變化。同時(shí)，我們顯式地分離了發(fā)型信息和發(fā)色信息，并根據(jù)它們在StyleGAN中對應(yīng)的語義級別將它們分別喂入不同的子頭發(fā)映射器中，這種做法提升了網(wǎng)絡(luò)對于發(fā)型、發(fā)色編輯的解耦能力。
調(diào)制模塊。本文設(shè)計(jì)了一個(gè)條件調(diào)制模塊來完成輸入條件對隱編碼的直接控制。整個(gè)調(diào)制模塊結(jié)構(gòu)（見圖2）非常簡單，設(shè)計(jì)思想借鑒于一些經(jīng)典的條件圖像翻譯工作，這種做法提高了本文的頭發(fā)篡改能力。

2. 損失函數(shù)

文本篡改損失，用于約束編輯后的結(jié)果與給定文本描述之間的相似性。不管是發(fā)型還是發(fā)色我們都是在CLIP的隱空間中度量文本與編輯后結(jié)果的余弦相似度。這也是目前CLIP被使用最多的方式，平平無奇。
圖像篡改損失，用于指導(dǎo)從參考圖像到目標(biāo)圖像的發(fā)型或發(fā)色轉(zhuǎn)移。對于發(fā)型轉(zhuǎn)移，我們面臨一個(gè)挑戰(zhàn)：如何比較好的度量發(fā)型之間的相似度？這兒，我們再次發(fā)揮了CLIP的強(qiáng)大本領(lǐng)，將編輯后的圖像與參考圖像的頭發(fā)區(qū)域均經(jīng)過CLIP的圖像編碼器嵌入到CLIP的隱空間中進(jìn)而度量它們間的余弦相似性。得益于我們提出的該訓(xùn)練損失，我們的方法對待編輯圖像與參考圖像存在嚴(yán)重不對齊的情況，也可產(chǎn)生合理的編輯結(jié)果。對于發(fā)色轉(zhuǎn)移，我們度量編輯后的圖像與參考圖像頭發(fā)區(qū)域的平均顏色差異。
屬性保持損失，用于保持無關(guān)屬性（如：身份、背景等）在編輯前后不變。

三、實(shí)驗(yàn)結(jié)果

與相關(guān)工作的定性對比見圖3、圖4。我們的方法高質(zhì)量地完成了相應(yīng)的頭發(fā)編輯任務(wù)。

圖3 與StyleCLIP、TediGAN就基于文本描述的頭發(fā)篡改的定性對比

圖4 與LOHO、MichiGAN就基于參考圖像的頭發(fā)篡改的定性對比

四、應(yīng)用展示

1. 頭發(fā)內(nèi)插

在獲得兩個(gè)完成頭發(fā)編輯的隱編碼后，我們可以通過將兩個(gè)隱編碼進(jìn)行線性加權(quán)的方式完成細(xì)粒度的頭發(fā)編輯。

圖5 頭發(fā)內(nèi)插結(jié)果展示

2.?泛化能力

得益于我們提出的共享?xiàng)l件嵌入策略，我們的網(wǎng)絡(luò)在有限的文本訓(xùn)練后擁有了一定的外推能力，它可以對訓(xùn)練過程中未出現(xiàn)過的一些文本產(chǎn)生合理的編輯結(jié)果。

圖6 對未見過的文本描述的泛化性

3. 支持跨模態(tài)的條件輸入

我們的模型支持來自圖像域和參考圖像域的條件以單獨(dú)地或聯(lián)合地形式作為網(wǎng)絡(luò)的輸入，這是目前其他頭發(fā)編輯方法無法做到的。

圖7 跨模態(tài)條件輸入結(jié)果展示

五、總結(jié)

本工作第一次證明了CLIP在頭發(fā)編輯領(lǐng)域的巨大潛力：不是單一地利用CLIP衡量圖像文本相似度，本工作利用CLIP的強(qiáng)大的共享隱空間完成了對圖像域和文本域的統(tǒng)一與協(xié)作促進(jìn)，探索了CLIP的圖像編碼器對難以表征的事物提供一種相似性度量的手段。雖然本工作聚焦于頭發(fā)編輯，但希望它可以對其他相關(guān)領(lǐng)域給予一些啟發(fā)與思考。

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載中國大學(xué)慕課《機(jī)器學(xué)習(xí)》（黃海廣主講）機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)交流qq群955171419，加入微信群請掃碼：

總結(jié)

以上是生活随笔為你收集整理的【深度学习】CVPR 2022 | 百变发型！中科大/微软/港城大提出HairCLIP：基于文本和参考图像的头发编辑方法...的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：暴露的全局方法_期末考试快到了，这4种错
下一篇： vue-cli安装和使用

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

pytorch

【深度学习】CVPR 2022 | 百变发型！中科大/微软/港城大提出HairCLIP：基于文本和参考图像的头发编辑方法...

總結(jié)