你今天怎么这么好看——基于深度学习的大型现场实时美颜
Photo from BoredPanda
美顏是當(dāng)下直播甚至是所有形式對外展示的一個必備條件。手機(jī)端的美顏就像私人化妝師,能夠幫助我們實(shí)現(xiàn)各種心儀的效果。
而大型娛樂節(jié)目一般都是提前進(jìn)行錄制,然后進(jìn)行后期制作,在視頻質(zhì)量和美顏方向也會在后期也會進(jìn)行諸多的處理。但對于實(shí)時(shí)直播的節(jié)目和晚會,沒有后期制作的存在。這種大型娛樂現(xiàn)場(和手機(jī)端前的直播相比)的場景非常復(fù)雜,燈光、背景、機(jī)位、多人等都對傳統(tǒng)的基于人臉檢測和跟蹤的美顏提出了巨大挑戰(zhàn)。
上圖是美顏后
陌陌的“陌陌巡樂會”、“陌陌運(yùn)動會”、“陌陌年終盛典”等直播活動就是融線上直播和線下明星于一體的大型現(xiàn)場娛樂直播。
一個典型的美顏流程是這樣的:模型檢測跟蹤人臉、獲取人臉的信息、根據(jù)信息對人臉進(jìn)行精準(zhǔn)美顏。而在大型娛樂現(xiàn)場,多人隨意運(yùn)動、機(jī)位拉近拉遠(yuǎn),很容易導(dǎo)致上述流程失靈,并造成一些明顯的負(fù)面效果。
與此同時(shí),類似這樣的大型現(xiàn)場沒有美顏效果,也是藝人和主辦方難以承受的。舉個例子,演出者在舞臺上表演時(shí),很容易就會滿頭大汗或者出現(xiàn)脫妝等情況,一些主播因?yàn)槭ッ李伒募映?#xff0c;和手機(jī)端直播產(chǎn)生了一些觀感差異,不僅不利于主播個人形象的維持,也導(dǎo)致用戶的觀感大打折扣。
因此,大型現(xiàn)場直播沒有美顏的問題是非常突出的。只是因?yàn)橄啾仁謾C(jī)端的直播來說,其頻次較低、不是主流的展現(xiàn)形式,所以在較長一段時(shí)間內(nèi),相關(guān)技術(shù)的進(jìn)展也比較小。?
針對上述問題,我們結(jié)合轉(zhuǎn)碼和美顏,推出了基于深度學(xué)習(xí)的大型現(xiàn)場實(shí)時(shí)美顏。?
基于服務(wù)端的轉(zhuǎn)碼系統(tǒng)
大型現(xiàn)場是一個典型的只有一個“主播”的系統(tǒng),所有的觀眾觀看的都是同一個視頻源。
我們在服務(wù)端對直播流進(jìn)行一個實(shí)時(shí)的美顏和轉(zhuǎn)碼,利用很少的資源和成本解決了無美顏的問題。同時(shí),相對客戶端來說,服務(wù)端視頻處理的資源是非常充裕的,可以允許一些較復(fù)雜和較大的算法運(yùn)行。
比如我們在服務(wù)端搭建了一套完整的基于GPU的轉(zhuǎn)碼處理系統(tǒng)。對于秀場直播能夠?qū)崿F(xiàn)碼率降低40%,畫質(zhì)MOS分仍比原畫要好。還有目前的AI換臉,例如“ZAO”,基本也都是運(yùn)行在服務(wù)端上面。
我們所說的美顏
寬泛來講,美顏涵蓋了相當(dāng)大的范圍。包括我們經(jīng)常用到的拍照時(shí)的美白、祛痘、大眼、瘦臉等以及各種濾鏡(一般所述美顏),以及最近很火的各種換妝、換臉。后者是新興區(qū)域,大家有時(shí)也以AI智能美顏來泛指。
美顏核心都是以人為本。在手機(jī)端常見的美顏流程,需要檢測人臉、跟蹤人臉、獲取人臉關(guān)鍵點(diǎn)以及進(jìn)行各種變形處理。人臉的檢測和跟蹤,基本以深度學(xué)習(xí)為主,變形處理還是以傳統(tǒng)算法為主。換妝和換臉也是運(yùn)行在人臉檢測和跟蹤的基礎(chǔ)上,以深度學(xué)習(xí)實(shí)現(xiàn)換妝和換臉。
我們所述的大型現(xiàn)場美顏,和一般所述美顏效果相對應(yīng),主要是場景的不一致、以及場景的復(fù)雜性導(dǎo)致原來的美顏流程和算法不能夠適配。
關(guān)于大型現(xiàn)場美顏
關(guān)注度越高的直播對于負(fù)面效果的要求越高,也就是說,對于大型現(xiàn)場,美顏系統(tǒng)不能帶來負(fù)面效果。
基于人臉檢測和跟蹤的美顏,其優(yōu)點(diǎn)集中在能夠非常精準(zhǔn),從五官到眼皮、嘴唇等細(xì)節(jié)的調(diào)整和美化。
在舞臺中各種位姿都可能的情況下,要做到和手機(jī)面前的主播一樣的跟蹤,是十分困難的。另一方面,在直播現(xiàn)場,對于觀感具有主要作用的,我們認(rèn)為是在一些基礎(chǔ)的美化,例如祛痘、磨皮、去汗、美白等。
我們嘗試了基于傳統(tǒng)算法的美顏,這也是目前業(yè)界解決這個問題比較通用的方法。但對于傳統(tǒng)算法來說,有一個比較嚴(yán)重的問題,如果我們無法跟蹤人臉,那么只能針對整圖來進(jìn)行美化。
美化的度非常難以把握。拿美白舉例,對于近景,人臉比較大,輕微的美白不足以給觀眾一個階越的觀感改變,調(diào)大度之后對于整體的色調(diào)都會有一定的影響,負(fù)面效果逐漸展現(xiàn)。所以一般的做法是,多輪調(diào)優(yōu),選擇一個負(fù)面效果可接受的美顏算法。
? ? ? ? ?
傳統(tǒng)算法美顏效果,左圖為美顏后
整體來說,調(diào)整后的傳統(tǒng)算法,有一定程度的美化作用,但是因?yàn)槎群茌p,上線后我們進(jìn)行了一輪評測,表明負(fù)面效果是沒有的,但是有一定比例看不出美顏效果。
美顏效果的評測
視頻質(zhì)量評測一直是一個在持續(xù)研究的方向。美顏效果和視頻質(zhì)量不能直接畫等號。應(yīng)該說視頻質(zhì)量寬泛一點(diǎn)可以包括美顏效果,反之則不行。基于主觀評測的方法仍然是視頻質(zhì)量評測的基準(zhǔn)。我們針對視頻質(zhì)量也開發(fā)了一套打分系統(tǒng)來配合主觀評測。目前,復(fù)雜現(xiàn)場的美顏效果,仍然是以主觀評測為主。
基于深度學(xué)習(xí)的美顏系統(tǒng)
傳統(tǒng)算法基礎(chǔ)上,我們加入了深度學(xué)習(xí)模型來學(xué)習(xí)上述美顏效果。經(jīng)過反復(fù)的迭代和實(shí)驗(yàn)驗(yàn)證,我們的深度學(xué)習(xí)算法大幅超過美顏算法表現(xiàn)。具體體現(xiàn)在深度學(xué)習(xí)模型能夠明顯區(qū)分美化區(qū)域和背景區(qū)域,美化區(qū)域效果對比顯著,背景區(qū)域基本無改變。在經(jīng)過幾輪灰度測試和主觀評測后,我們的系統(tǒng)目前全部覆蓋了陌陌的大型現(xiàn)場活動。
上圖是美顏后
復(fù)雜現(xiàn)場的美顏是一個較小的應(yīng)用領(lǐng)域,隨著發(fā)展,我們相信實(shí)時(shí)的云演出也會越來越多。美好的效果會進(jìn)一步提升用戶感受,實(shí)時(shí)和觀眾進(jìn)行互動,節(jié)省了后期的滯后流程和費(fèi)用。出于演出效果和經(jīng)濟(jì)效應(yīng)的考慮,給觀眾從美觀上一個提升是非常有必要的。
更廣闊的講,追求美是人的天性,我們相信上述的各種美顏形式都會跟隨通信、介質(zhì)、媒體形式等的發(fā)展而快速發(fā)展。
? ? ? ? ? ? ? ?? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 編輯:Coco Liang
總結(jié)
以上是生活随笔為你收集整理的你今天怎么这么好看——基于深度学习的大型现场实时美颜的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 音视频技术开发周刊 | 137
- 下一篇: 金山“云”上音乐节 —— 一文带你看懂如