【深度学习】CVPR 2022 | 百变发型!中科大/微软/港城大提出HairCLIP:基于文本和参考图像的头发编辑方法...
圖1 本方法單獨(dú)地或聯(lián)立地支持來自圖像和文本域的條件輸入以完成頭發(fā)編輯
本文介紹我們在CVPR 2022關(guān)于基于文本和參考圖像完成頭發(fā)編輯的工作。該工作將文本和參考圖像條件統(tǒng)一在了一個(gè)框架內(nèi),在單個(gè)模型內(nèi)支持廣泛的圖像和文本作為輸入條件從而完成相應(yīng)的頭發(fā)編輯任務(wù)。代碼正在逐步開源,歡迎大家試用。
論文標(biāo)題: HairCLIP: Design Your Hair by Text and Reference Image
作者單位: 中國科學(xué)技術(shù)大學(xué),微軟云AI,香港城市大學(xué)
錄用信息: CVPR 2022
代碼:?https://github.com/wty-ustc/HairCLIP
論文:?https://arxiv.org/abs/2112.05142
一、針對問題
1. 當(dāng)前頭發(fā)編輯交互方式不夠友好
頭發(fā)作為人臉至關(guān)重要的組成部分,一直以來得到了學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注。近年來,隨著深度學(xué)習(xí)的發(fā)展,許多基于條件生成對抗網(wǎng)絡(luò)(GAN)的頭發(fā)編輯方法可以產(chǎn)生不錯(cuò)的編輯效果。但是,這些方法大多使用精心繪制的草圖或遮罩作為圖像到圖像翻譯網(wǎng)絡(luò)的輸入從而得到編輯后的結(jié)果。然而這種交互方式并不直接也不夠友好。因此,這樣的交互方式極大地限制了這些方法的大規(guī)模自動(dòng)化使用。
2. StyleCLIP為文本驅(qū)動(dòng)的圖像編輯提供了前車之鑒,但其存在諸多不適于高強(qiáng)度“做頭發(fā)”的缺點(diǎn)
得益于跨模態(tài)視覺和語言表征的發(fā)展,基于文本指導(dǎo)的圖像篡改方法已經(jīng)開始不斷出現(xiàn)。最近,StyleCLIP通過結(jié)合StyleGAN強(qiáng)大的圖像合成能力和CLIP驚人的圖像文本表征能力展現(xiàn)了很好的圖像篡改效果。盡管StyleCLIP內(nèi)在地支持基于文本描述的頭發(fā)編輯,但是它存在如下缺點(diǎn):
對于每個(gè)特定的頭發(fā)編輯描述,它都需要分別訓(xùn)練一個(gè)映射器,這種方式在實(shí)際應(yīng)用中是非常不靈活的;
由于缺少定制的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練損失函數(shù)設(shè)計(jì)使得該方法對于發(fā)型、發(fā)色和其他無關(guān)屬性的解耦性比較差;
在實(shí)際應(yīng)用中,一些發(fā)型發(fā)色是很難用文本描述的。這時(shí),用戶更傾向于使用參考圖像,但是StyleCLIP不支持基于參考圖像的頭發(fā)編輯。
二、方法框架
本文利用在大規(guī)模人臉數(shù)據(jù)集上預(yù)訓(xùn)練的StyleGAN作為我們的生成器,整個(gè)頭發(fā)編輯框架如圖2所示。給定待編輯的真實(shí)圖像,我們首先使用StyleGAN inversion方法得到其隱編碼,然后我們的頭發(fā)映射器根據(jù)隱編碼和條件輸入(發(fā)型條件、發(fā)色條件)預(yù)測隱編碼相應(yīng)的變化,最后修改后的隱編碼將被送入StyleGAN產(chǎn)生對應(yīng)的頭發(fā)編輯后的圖像。因此,最核心的問題就是學(xué)習(xí)一個(gè)映射器網(wǎng)絡(luò)來將輸入的條件解耦地映射到隱編碼的相應(yīng)變化。我們從網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)兩個(gè)方面來解決這個(gè)問題。
圖2 本文提出的跨模態(tài)頭發(fā)編輯框架的概述圖
1. 網(wǎng)絡(luò)結(jié)構(gòu)
共享的條件嵌入。為了將文本和圖像條件統(tǒng)一在同一個(gè)域內(nèi),本文利用CLIP的文本編碼器和圖像編碼器來分別提取它們各自的嵌入,用以作為本文映射器網(wǎng)絡(luò)的條件輸入。因?yàn)镃LIP是在大規(guī)模圖像-文本對上訓(xùn)練過的,所以不管是文本嵌入還是參考圖像嵌入都在同一個(gè)共享的隱空間中,因此它們可以被不加區(qū)分地送入映射器網(wǎng)絡(luò)并且任意切換。
解耦的信息注射。因?yàn)镾tyleGAN存在語義分層現(xiàn)象,即StyleGAN中不同的層對應(yīng)的語義級別不同。我們注意到了這點(diǎn),在頭發(fā)映射器內(nèi)細(xì)分了三個(gè)子頭發(fā)映射器,對應(yīng)預(yù)測高、中、低語義級別的隱編碼變化。同時(shí),我們顯式地分離了發(fā)型信息和發(fā)色信息,并根據(jù)它們在StyleGAN中對應(yīng)的語義級別將它們分別喂入不同的子頭發(fā)映射器中,這種做法提升了網(wǎng)絡(luò)對于發(fā)型、發(fā)色編輯的解耦能力。
調(diào)制模塊。本文設(shè)計(jì)了一個(gè)條件調(diào)制模塊來完成輸入條件對隱編碼的直接控制。整個(gè)調(diào)制模塊結(jié)構(gòu)(見圖2)非常簡單,設(shè)計(jì)思想借鑒于一些經(jīng)典的條件圖像翻譯工作,這種做法提高了本文的頭發(fā)篡改能力。
2. 損失函數(shù)
文本篡改損失,用于約束編輯后的結(jié)果與給定文本描述之間的相似性。不管是發(fā)型還是發(fā)色我們都是在CLIP的隱空間中度量文本與編輯后結(jié)果的余弦相似度。這也是目前CLIP被使用最多的方式,平平無奇。
圖像篡改損失,用于指導(dǎo)從參考圖像到目標(biāo)圖像的發(fā)型或發(fā)色轉(zhuǎn)移。對于發(fā)型轉(zhuǎn)移,我們面臨一個(gè)挑戰(zhàn):如何比較好的度量發(fā)型之間的相似度?這兒, 我們再次發(fā)揮了CLIP的強(qiáng)大本領(lǐng),將編輯后的圖像與參考圖像的頭發(fā)區(qū)域均經(jīng)過CLIP的圖像編碼器嵌入到CLIP的隱空間中進(jìn)而度量它們間的余弦相似性。得益于我們提出的該訓(xùn)練損失,我們的方法對待編輯圖像與參考圖像存在嚴(yán)重不對齊的情況,也可產(chǎn)生合理的編輯結(jié)果。對于發(fā)色轉(zhuǎn)移,我們度量編輯后的圖像與參考圖像頭發(fā)區(qū)域的平均顏色差異。
屬性保持損失,用于保持無關(guān)屬性(如:身份、背景等)在編輯前后不變。
三、實(shí)驗(yàn)結(jié)果
與相關(guān)工作的定性對比見圖3、圖4。我們的方法高質(zhì)量地完成了相應(yīng)的頭發(fā)編輯任務(wù)。
圖3 與StyleCLIP、TediGAN就基于文本描述的頭發(fā)篡改的定性對比
圖4 與LOHO、MichiGAN就基于參考圖像的頭發(fā)篡改的定性對比
四、應(yīng)用展示
1. 頭發(fā)內(nèi)插
在獲得兩個(gè)完成頭發(fā)編輯的隱編碼后,我們可以通過將兩個(gè)隱編碼進(jìn)行線性加權(quán)的方式完成細(xì)粒度的頭發(fā)編輯。
圖5 頭發(fā)內(nèi)插結(jié)果展示
2.?泛化能力
得益于我們提出的共享?xiàng)l件嵌入策略,我們的網(wǎng)絡(luò)在有限的文本訓(xùn)練后擁有了一定的外推能力,它可以對訓(xùn)練過程中未出現(xiàn)過的一些文本產(chǎn)生合理的編輯結(jié)果。
圖6 對未見過的文本描述的泛化性
3. 支持跨模態(tài)的條件輸入
我們的模型支持來自圖像域和參考圖像域的條件以單獨(dú)地或聯(lián)合地形式作為網(wǎng)絡(luò)的輸入,這是目前其他頭發(fā)編輯方法無法做到的。
圖7 跨模態(tài)條件輸入結(jié)果展示
五、總結(jié)
本工作第一次證明了CLIP在頭發(fā)編輯領(lǐng)域的巨大潛力:不是單一地利用CLIP衡量圖像文本相似度,本工作利用CLIP的強(qiáng)大的共享隱空間完成了對圖像域和文本域的統(tǒng)一與協(xié)作促進(jìn),探索了CLIP的圖像編碼器對難以表征的事物提供一種相似性度量的手段。雖然本工作聚焦于頭發(fā)編輯,但希望它可以對其他相關(guān)領(lǐng)域給予一些啟發(fā)與思考。
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載中國大學(xué)慕課《機(jī)器學(xué)習(xí)》(黃海廣主講)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)交流qq群955171419,加入微信群請掃碼:總結(jié)
以上是生活随笔為你收集整理的【深度学习】CVPR 2022 | 百变发型!中科大/微软/港城大提出HairCLIP:基于文本和参考图像的头发编辑方法...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 暴露的全局方法_期末考试快到了,这4种错
- 下一篇: vue-cli安装和使用