cvpr 深度估计_CVPR再现黑科技!你还在相信“眼见为实”?
經(jīng)常聽(tīng)到有人說(shuō),我除了自己的眼睛,什么也不信。
自從09年阿凡達(dá)(Avatar)電影上映以來(lái),3D渲染、虛擬現(xiàn)實(shí)的逼真度總是讓人嘆為觀止。
而今,10年過(guò)去,最近計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)會(huì)議CVPR上一組研究人員提出一款神經(jīng)阿凡達(dá)模型(Neural Avatars),充分向我們證明:
當(dāng)魔幻現(xiàn)實(shí)照進(jìn)生活日常,AI黑科技讓你不再相信“眼見(jiàn)為實(shí)”。
圖片來(lái)源:《Avatar》劇照
本屆CVPR黑科技之一:造動(dòng)態(tài)表情包
上周的CVPR會(huì)議上,來(lái)自三星AI中心和莫斯科Skolkovo研究所的研發(fā)團(tuán)隊(duì)就用實(shí)驗(yàn)結(jié)果告訴我們:你眼所見(jiàn),未必都是真的。
該團(tuán)隊(duì)先是提出了一個(gè)能讓JPG變動(dòng)圖的AI系統(tǒng),研究人員稱其為“Few-shot”模型。
“Few-shot”模型
通過(guò)該模型,你只需要少量甚至一張靜態(tài)圖片,就可以生成表情豐富的動(dòng)態(tài)表情包。讓歷史人物“活”起來(lái),甚至變得像話癆一樣絮絮叨叨,都是so easy~
跟你講相對(duì)論原理的愛(ài)因斯坦、除了微笑還能朝你眨眼的蒙娜麗莎,甚至還有媚眼如絲的瑪麗蓮夢(mèng)露。
這些都將不再只是存在于霍格沃茨魔法學(xué)院的魔幻場(chǎng)景。
盡管這項(xiàng)技術(shù)對(duì)于高分辨率的圖片還是有一些處理瑕疵,但在低分辨率動(dòng)圖上,幾乎可以以假亂真。
就在這篇論文發(fā)布的第二天,該團(tuán)隊(duì)成員又緊接著發(fā)布了第二項(xiàng)黑科技,這下不僅你的表情包,就連你的整個(gè)身體都可能是“假”的。
本屆CVPR黑科技之二:不止可以造臉,全身也行
比方說(shuō),給你一張全身照,通常的技術(shù)方案生成的人體渲染可能只是固定的攝像角度和有限的身體姿勢(shì)。這樣造出來(lái)的人像,就很假。
然而三星提出的這個(gè)新的神經(jīng)渲染模型,可以在有限的攝像頭視角和數(shù)據(jù)集基礎(chǔ)上,泛化出多角度的圖像視角和豐富的人體姿態(tài)。
團(tuán)隊(duì)成員通過(guò)建立人體姿態(tài)神經(jīng)網(wǎng)絡(luò)渲染模型來(lái)訓(xùn)練單個(gè)人的身體姿態(tài)數(shù)據(jù),從而獲得原輸入姿勢(shì)的新視角和新姿態(tài)。
通過(guò)將經(jīng)典的計(jì)算機(jī)圖形(Computer Graphics)方法與深度神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合,從而估計(jì)模型表面的2D紋理映射。其研究結(jié)果表明,與直接從圖像到圖像的轉(zhuǎn)化(Image-to-Image translation)方法相比,保留個(gè)性化的紋理映射可以實(shí)現(xiàn)更好的泛化。
“Textured Neural Avatars”模型基于對(duì)關(guān)節(jié)點(diǎn)的位置提取從而實(shí)現(xiàn)姿態(tài)估計(jì)
對(duì)于圖像到圖像的風(fēng)格轉(zhuǎn)換問(wèn)題,一般都是先通過(guò)訓(xùn)練來(lái)學(xué)習(xí)輸入圖片的風(fēng)格,然后將其“學(xué)”來(lái)的特征映射到輸出圖片中,讓輸出圖片和輸入圖片盡可能保證風(fēng)格一致。
但由于風(fēng)格一致的可配對(duì)訓(xùn)練圖片實(shí)在是少見(jiàn),很多研究人員不得不另辟蹊徑。包括模型的泛化問(wèn)題也必須給予考慮。
事實(shí)上,目前很多Image-to-Image translation模型在圖片的紋理、顏色的圖片風(fēng)格轉(zhuǎn)換任務(wù)中的表現(xiàn)已經(jīng)相當(dāng)優(yōu)秀,比如把馬變成斑馬,或者把橘子變成蘋果,但要是想把貓變成狗就有點(diǎn)困難了。
這也是為什么咱們要反復(fù)強(qiáng)調(diào)泛化能力的原因所在。一個(gè)模型真正強(qiáng)大的地方在于其可以通用,也就是我們常說(shuō)的良好的泛化能力。
學(xué)習(xí)圖像紋理特征的重要性:顯著增強(qiáng)圖像細(xì)節(jié)(左:未經(jīng)紋理特征學(xué)習(xí);右:經(jīng)過(guò)紋理特征學(xué)習(xí)后)
目前的一些模型雖然可以改變?nèi)说拿娌勘砬榛蚴切揎椚说纳眢w姿態(tài),但真實(shí)性和模型的變化量都非常有限。本文中的該模型不僅可以通過(guò)視頻進(jìn)行訓(xùn)練,還可以從表面幾何或是運(yùn)動(dòng)建模中分離紋理,因此可以處理更復(fù)雜的任務(wù)(比如多視角的全身視圖)以及生成更逼真的圖像渲染。
咱們具體來(lái)看看這個(gè)被稱為神經(jīng)阿凡達(dá)的“Textured Neural Avatars”模型
“Textured Neural Avatars”模型
不難看出,模型輸入的是一組身體關(guān)節(jié)的位置點(diǎn),通過(guò)一個(gè)全卷積網(wǎng)絡(luò)(圖中的Generator)來(lái)生成身體部位坐標(biāo)和身體部位分配的映射堆棧。然后使用這些堆棧在坐標(biāo)堆棧指定的位置處對(duì)身體紋理進(jìn)行采樣映射,并使用身體部位分配的堆棧所指定的權(quán)重來(lái)生成RGB圖像。
在學(xué)習(xí)過(guò)程中,將圖像掩膜和RGB圖像與真實(shí)圖像(Ground truth)進(jìn)行比較,并通過(guò)采樣操作將產(chǎn)生的損失反向傳播到全卷積網(wǎng)絡(luò)及紋理上來(lái)更新權(quán)重。
對(duì)Youtube上的一段視頻的人體渲染效果
簡(jiǎn)單來(lái)說(shuō),就是只要給系統(tǒng)輸入一個(gè)姿態(tài)骨架(Bone)圖片,你就可以生成真人JPG彩圖,還是帶動(dòng)作的全身360度無(wú)死角圖。
科幻大片里抬起手腕就能彈出真人影像的場(chǎng)景,指日可待。
黑科技背后:須警惕,但不必恐慌
事實(shí)上,除了三星,目前全世界各地有多家公司和研究中心都在研發(fā)此類黑科技,其中不乏有來(lái)自德國(guó)慕尼黑工業(yè)大學(xué)、斯坦福大學(xué)的團(tuán)隊(duì)研發(fā)的曾一度飽受爭(zhēng)議的“換頭”AI:HeadOn。
“換頭”黑科技:HeadOn
還有德國(guó)紐倫堡大學(xué)實(shí)驗(yàn)室研發(fā)的讓普京跟你對(duì)口型的臉部追蹤AI:Face2Face。
“對(duì)口型”AI:Face2Face
也包括日本用來(lái)自動(dòng)生成身體和動(dòng)作的服裝廣告界新寵:AI Model。
日本服裝廣告界新寵:AI模特
甚至還有英偉達(dá)公司用來(lái)一鍵改變時(shí)間和天氣的換景AI。
英偉達(dá)換景AI(左:真實(shí)白天場(chǎng)景;右:處理后秒變夜景)
擁有了這些黑科技,未來(lái)通過(guò)動(dòng)圖or視頻去判斷事件真?zhèn)蔚目尚哦纫矊⒋蟠蛘劭?#xff0c;尤其對(duì)于公眾人物來(lái)說(shuō),可能不僅僅是被“換臉”,連各種囧事和花邊新聞都可以被生造了。
對(duì)于普通人來(lái)說(shuō),萬(wàn)一不小心得罪了誰(shuí),被捏造一些不雅的動(dòng)圖or視頻上傳到社交平臺(tái),甚至是被某些不法分子用來(lái)要挾勒索家人,那就很恐怖了。
技術(shù)本身無(wú)分善惡,但是技術(shù)的使用者有好有壞。
未來(lái)技術(shù)能夠發(fā)展到什么程度我們無(wú)法想象,我們必須對(duì)技術(shù)可能會(huì)產(chǎn)生的惡果予以警惕。
圖片來(lái)源:pixabay
但事實(shí)上,就目前而言大可不必過(guò)于擔(dān)憂。誠(chéng)如三星AI中心所言,其模型的泛化能力可能相較于其他方法來(lái)說(shuō)表現(xiàn)略佳,但還是存在諸多限制。
比如,當(dāng)一個(gè)身材比例與訓(xùn)練數(shù)據(jù)集有顯著差別的人出現(xiàn)時(shí),模型就表現(xiàn)堪憂了。當(dāng)光照顯著影響表面顏色時(shí),渲染效果也會(huì)大打折扣。
另外,在手和面部姿態(tài)估計(jì)錯(cuò)誤的情況下,渲染出的人像就會(huì)顯得極其不自然。
就算未來(lái)人像渲染會(huì)更加逼真,但總歸來(lái)說(shuō),人的個(gè)性和特質(zhì)是很難被模仿和復(fù)制的。
想象一下,你平時(shí)笑的時(shí)候都習(xí)慣了露十八顆牙,動(dòng)圖里的你笑起來(lái)只露八顆是不是一秒就露餡了?
(手動(dòng)滑稽)
圖片來(lái)源:SOOGIF網(wǎng)站
留言 點(diǎn)贊 關(guān)注
我們一起分享AI學(xué)習(xí)與發(fā)展的干貨
歡迎關(guān)注全平臺(tái)AI垂類自媒體 “讀芯術(shù)”
總結(jié)
以上是生活随笔為你收集整理的cvpr 深度估计_CVPR再现黑科技!你还在相信“眼见为实”?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 什么是 css,关于css是什么
- 下一篇: arduino智能浇花系统_创新成果 |