眼界大开 声临其境丨胡宜峰:视频深度伪造检测技术在内容安全领域的探索与实践
導(dǎo)讀:「眼界大開 聲臨其境」技術(shù)系列課第三期。網(wǎng)易易盾資深計算機(jī)視覺算法工程師胡宜峰帶來了主題為《視頻深度偽造檢測技術(shù)在內(nèi)容安全領(lǐng)域的探索與實踐》技術(shù)分享。
講師簡介:胡宜峰,網(wǎng)易易盾資深計算機(jī)視覺算法工程師,主要負(fù)責(zé)圖像和視頻 AI 算法在內(nèi)容安全領(lǐng)域的研發(fā)、落地和優(yōu)化。在違禁、涉政、暴恐內(nèi)容識別、logo 識別、圖像檢索、視頻深度鑒偽等多個領(lǐng)域有豐富的研發(fā)和項目落地經(jīng)驗。
AI 技術(shù)應(yīng)用的「雙刃劍」效應(yīng)?
AI 是近些年熱度頗高的詞匯,并實實在在地滲入了生活的方方面面,如:AI+安全、AI+交通、AI+醫(yī)療、AI+零售等。在諸多 AI 技術(shù)的成熟應(yīng)用中,人臉技術(shù)又是其中最為廣泛應(yīng)用的技術(shù)之一,常見于智能安防、金融交易、公共交通等領(lǐng)域,相信許多人都有過刷臉支付、刷臉入園的經(jīng)歷。
隨著 AI 技術(shù)的蓬勃發(fā)展,AI 自動生成內(nèi)容的水平取得了顯著的提高。依托文本、語音、圖像、視頻等載體,AI 自動生成技術(shù)被廣泛地用于模仿和偽造人類的想法、行為和特征。這在一定程度上降低了人力等成本的消耗,為我們的生活帶來了便利和精神享受,AI 自動生成技術(shù)所帶來的仿真數(shù)據(jù)和虛擬化內(nèi)容一定程度上可以為一些垂直領(lǐng)域帶來新的應(yīng)用場景或者直接推動該領(lǐng)域的技術(shù)進(jìn)步。
然而事物具有兩面性,科技發(fā)展也存在著“雙刃劍”效應(yīng)。人們在享受人臉技術(shù)帶來便利體驗的同時,也不可避免地受到人臉技術(shù)濫用所帶來的風(fēng)險和隱患。隨著 AI 換臉、自動美顏、智能 P 圖等技術(shù)和應(yīng)用的流行,由 AI 自動生成技術(shù)引發(fā)的安全風(fēng)險和“黑灰產(chǎn)”問題也與日俱增,尤其是人臉相關(guān)技術(shù),作為 AI 技術(shù)落地最為廣泛的場景之一,所面臨的安全、倫理和道德的挑戰(zhàn)愈發(fā)嚴(yán)重。AI 自動生成技術(shù)和人臉技術(shù)在視頻載體上的結(jié)合,也就是我們熟知的“視頻深度偽造”,已經(jīng)成為 AI 技術(shù)被濫用的“重災(zāi)區(qū)”。
視頻深度偽造技術(shù)?
視頻深度偽造技術(shù),從技術(shù)方向上看,偽造方法主要分為 4 種。其一是全人臉的生成,這種一般是用 GAN 相關(guān)的算法生成現(xiàn)實生活中本不存在的虛擬人臉,常見于游戲等一些虛擬場景。其二是 AI 換臉,將生活中實際存在的人臉進(jìn)行互相替換,這類應(yīng)用由于針對性強(qiáng)、娛樂效果好,常常能廣泛破圈傳播,因此在學(xué)術(shù)界和工業(yè)界都是重點的核心研究對象。換臉是目前應(yīng)用最廣泛,也是潛在的隱患最大的視頻深度偽造方法。其三是人臉屬性的編程,主要包含發(fā)型、發(fā)色、眼睛、膚色等重要屬性的編輯,常存在于一些自拍美顏美膚的 App 中。其四是表情改變,賦予人臉喜怒哀樂等不同表情,或是將 A 的表情體現(xiàn)在 B 臉上。
從具體算法上看,主要是通過 GAN、自編碼器、風(fēng)格遷移等方法來完成的,這里面也會涉及一些比如關(guān)鍵點定位、對齊、分割、融合等操作。
除了技術(shù)方向多、算法多,現(xiàn)在人臉偽造公開的數(shù)據(jù)集也比較多。這在一定程度上為視頻深度鑒偽算法的創(chuàng)新和迭代提供了數(shù)據(jù)支撐,促進(jìn)了視頻深度鑒偽算法的發(fā)展。然而,視頻深度鑒偽是一個持續(xù)對抗的開集問題,僅通過公開數(shù)據(jù)上訓(xùn)練的模型,想要很好地解決這個問題其實不太現(xiàn)實。為了更好地解決此問題,需要更加系統(tǒng)和全面的方案設(shè)計,這也是深度偽造檢測這項業(yè)務(wù)的重點和難點。
視頻深度偽造識別方法與難點?
作為對視頻深度偽造的對抗,視頻深度鑒偽的方法主要有以下幾種:人工特征、CNN、CNN+人工特征、CRNN、transformer 等等,這些方法囊括了人臉偽造識別最主要的方向,也描述了人臉偽造識別的整體歷程。
首先是人工特征,比如 eye blinking、head pose 等等,與真實人臉相比,人臉偽造或換臉必然會存在一定的不一致,也就是我們說的“偽造的痕跡”。基于這些統(tǒng)計層面上的痕跡去發(fā)掘人工特征,是比較傳統(tǒng)和有效的方法。傳統(tǒng)特征往往針對性比較強(qiáng),但是泛化能力不足,尤其是在攻擊的視頻做過比較多后處理之后,傳統(tǒng)特征的效果會大打折扣。所以現(xiàn)在一些研究工作從傳統(tǒng)特征+CNN 特征入手,圍繞特征和分類器層面的融合角度開展,把人工特征作為 deep learning 特征的補(bǔ)充。當(dāng)然這里所說的人工特征,是指通過統(tǒng)計層面的觀察加入先驗知識,非端到端學(xué)習(xí)的方式。
當(dāng)然,隨著 deep learning 的發(fā)展,直接用 deep learning 進(jìn)行端到端的人臉偽造識別也是現(xiàn)在研究的熱點。基于 deep learning 的方法大多數(shù)是把人臉偽造識別轉(zhuǎn)換成一個“人臉檢測+分類”的問題,通過人臉檢測先檢測到人臉的位置,做適當(dāng)?shù)?expand 再進(jìn)行 crop,送到后續(xù)進(jìn)行是否為人臉的二分類。這種方式比較直接,流程相對簡單,同時因為人臉檢測現(xiàn)在比較成熟,一般不會是這個任務(wù)的難點所在,所以整個任務(wù)就轉(zhuǎn)換成了一個人臉 patch 的分類問題。轉(zhuǎn)換為分類問題后就可以更直接地銜接一些成熟方法來解決人臉偽造識別的問題,比如半監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)等等。
隨著 deepfake 的流行以及現(xiàn)在短視頻的日益火爆,人臉偽造和換臉的主戰(zhàn)場已經(jīng)遷移到了視頻領(lǐng)域,所以對人臉偽造的研究很自然地會加入視頻序列信息,利用 RNN、LSTM 對序列特征進(jìn)行編碼,從而解決識別問題。這部分工作也是現(xiàn)在研究的熱點。
通過對偽造和鑒偽的介紹,不難發(fā)現(xiàn),偽造和鑒偽是一個對抗的過程,很多鑒偽方法也是針對某些偽造方法而定制設(shè)計的。這個對抗過程也反映了現(xiàn)在學(xué)術(shù)界的一個難點,鑒偽方法沒有很好的泛化性。相同的鑒偽方法在不同的數(shù)據(jù)上,可能會出現(xiàn)巨大的表現(xiàn)差異。而且,這個學(xué)術(shù)界難題,遷移到工業(yè)界會被進(jìn)一步放大,因為我們面對的并不是一種或者幾種方法,也不是數(shù)據(jù)集,而是一個開集問題,面對的是海量的偽造方法和未知的互聯(lián)網(wǎng)數(shù)據(jù)。所以說,未知方法多、對抗多等特點,給視頻深度鑒偽的實踐落地,帶來了巨大困難。
當(dāng)然,偽造方法多不僅僅體現(xiàn)在具體的偽造算法上。我們發(fā)現(xiàn),其實偽造后處理也是對識別效果的巨大挑戰(zhàn)之一。很多偽造方法,為了掩蓋偽造痕跡,會做很強(qiáng)的后處理來進(jìn)行對抗。現(xiàn)在比較流行的一些美白、美膚等工具,也客觀起到了后處理的作用。這些后處理極大程度上會掩蓋偽造的痕跡,給識別帶來巨大難度。
除此之外,數(shù)據(jù)分布廣泛是個更普遍的問題,在人臉識別里也會遇到。
網(wǎng)易易盾視頻深度偽造檢測解決方案?
針對以上的難點,我們整體的解決方案如下圖所示,采取了“人臉檢測+分類”的整體思路。分類就是“是否為偽造人臉”的二分類。之所以選擇這個主體方案,是因為這是目前在學(xué)術(shù)界效果最好、應(yīng)用最廣泛的方法,同時人臉檢測也已經(jīng)是業(yè)界非常成熟的技術(shù),可以讓我們的精力聚焦到后置的分類問題上,將識別問題轉(zhuǎn)換為分類問題,這也更方便我們緊密結(jié)合業(yè)界的先進(jìn)技術(shù),達(dá)到事半功倍的效果。
那么針對上述偽造方法多、后處理方式多、數(shù)據(jù)分布廣泛的問題。從數(shù)據(jù)層面,我們緊密結(jié)合了當(dāng)前火熱的半監(jiān)督技術(shù),挖掘難例樣本、提高挖掘數(shù)據(jù)的精確度、降低標(biāo)注開銷、提升帶噪學(xué)習(xí)的能力。同時,我們也會直接從偽造和后處理的角度,為識別提供對抗的素材。這兩種方式,其實是數(shù)據(jù)層面的融合。算法層面,常見有效的方法和特征我們的方案都會涉及到,并進(jìn)行特征層面選擇及融合。當(dāng)然,最終決策層面的融合也是非常重要的方式。
半監(jiān)督的方法大家可能都比較熟悉,這里需要指出的是,半監(jiān)督方法和視頻深度鑒偽問題存在比較好的契合性。所謂契合性,可以從半監(jiān)督的方法和我們之前討論難點的直接關(guān)系來看。以下列舉了主要的半監(jiān)督的方法:generative methods、consistency regulation、Plabel、hybrid methods。
首先是生成式的方法,前面也有提到,deepfake 的數(shù)據(jù),很多是 GAN 生成的,這里可以和 generative 的半監(jiān)督方法做一個比較自然的銜接,對應(yīng)的是我們提到的生成方式多樣的難點。其次是 consistency regulation 的方法,我們知道 consistency regulation 的方法核心思想是輸入做了不同變換的 pair 對,輸出應(yīng)該保持一致。這其實是為了提升模型的泛化能力以及提升模型的變換魯棒性。這個點可以對應(yīng)于前面提到的后處理方法多樣的難點,通過利用無標(biāo)簽數(shù)據(jù),提升模型變換的魯棒性。基于 Plabel 的方法,核心是通過偽標(biāo)簽的方式,擴(kuò)充訓(xùn)練數(shù)據(jù)的分布,從而提升模型的性能。這對應(yīng)于我們前面說的偽造方法多、數(shù)據(jù)分布廣泛的問題。
所以,在 deepfake detection 這個問題上應(yīng)用半監(jiān)督方法,能較好地對應(yīng)解決相關(guān)難點。
除了半監(jiān)督,因為 deepfake 是一個攻守對抗問題,生成訓(xùn)練數(shù)據(jù)并有監(jiān)督地訓(xùn)練初始模型,也是最直接有效的方法。當(dāng)然,這里也要考慮生成方法多樣、后處理方法多等問題。
現(xiàn)在學(xué)術(shù)界對 deepfake detection 的研究很多。前面也有提到,這些研究大多數(shù)是從特征網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計、loss設(shè)計等層面,發(fā)掘和融合出更具魯棒的特征進(jìn)行識別,包括常規(guī)的 embedding 特征、頻域特征、序列特征、人工定義特征、偽造痕跡特征等。這些方法的融合,一部分是特征層面的融合,一部分是決策層面的融合。需要指出的一點是,從訓(xùn)練數(shù)據(jù)到算法,deepfake detection 都是一個針對性很強(qiáng)的任務(wù),要想在開集問題上取得較好的泛化效果,除了在單個算法上尋求突破外,多種方法的融合和選擇,也是最核心、最有效的方法之一。
所以,在決策層面的融合是必不可少的內(nèi)容。模型融合,是最直接有效能提升模型效果和泛化性的方法。這個思路在其他 AI 問題上是通用的,但是有個特殊的點需要指出,一般模型融合的共識是在測試集上表現(xiàn)有差異但指標(biāo)相似的模型,融合會有效果提升,而 deepfake detection 由于跨偽造方法的泛化能力不強(qiáng),往往會出現(xiàn)兩個模型在同一批數(shù)據(jù)上表現(xiàn)差異很大的情況。針對這個問題,需要更加細(xì)致地考慮融合的策略,增加更多選擇的策略。
當(dāng)然,多個模型速度會受到一定的限制,在非離線的速度要求較高的場景,會進(jìn)一步進(jìn)行模型的蒸餾,讓小模型集成多個大模型的能力。
?網(wǎng)易易盾視頻深度偽造檢測的成果?
正如其它的涉政、暴恐、違禁相關(guān)的業(yè)務(wù)一樣,視頻深度偽造檢測也被定位為一個開集的不斷迭代優(yōu)化的問題。網(wǎng)易易盾從解決思路、數(shù)據(jù)、模型等角度,設(shè)計了完整的解決方案。成果方面,在第二屆中國人工智能大賽視頻深度偽造檢測賽道,網(wǎng)易易盾從188家企業(yè)、高校、研究單位中脫穎而出,以TOP1的成績獲得了最高級A級別證書。
今天的分享從背景、偽造、識別、技術(shù)方案的角度,給大家介紹了偽造和識別相關(guān)的內(nèi)容。希望對 AI、偽造識別相關(guān)領(lǐng)域感興趣的同學(xué)能從本文獲得一些幫助。
掃碼關(guān)注公眾號,了解更多~~
?
總結(jié)
以上是生活随笔為你收集整理的眼界大开 声临其境丨胡宜峰:视频深度伪造检测技术在内容安全领域的探索与实践的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 极致流畅体验的密码:网易云信 QoS 策
- 下一篇: 技术干货 | 视频最佳体验之自适应调节系