人脸静默活体检测最新综述
?PaperWeekly 原創 ·?作者|燕皖
單位|淵亭科技
研究方向|計算機視覺、CNN
活體檢測在人臉識別中的重要環節。以前的大多數方法都將面部防欺騙人臉活體檢測作為監督學習問題來檢測各種預定義的演示攻擊,這種方法需要大規模的訓練數據才能涵蓋盡可能多的攻擊。
但是,訓練好的模型很容易過度擬合幾種常見的攻擊,仍然容易受到看不見的攻擊。為了克服這些問題,活體檢測算法應該:1)學習 discriminative features,可以從預定義的攻擊樣本中泛化出沒有見到的攻擊樣本;2)快速適應新的攻擊類型。
本文總結了在靜默活體檢測領域中提出的最新方法,并將它們分為六大類。如下,并對每一類中經典的算法進行了介紹。當然,除了靜默活體檢測,還有炫光、動作等,其他方法不再本文的討論范圍。
Auxiliary supervision?
rPPG?
Depth?
Temporal?
fft?
De-spoofing?
Domain Generalization?
Meta learning?
NAS
Auxiliary supervision
僅僅使用 binary classification 監督不夠合理,因為也不能說明模型是否學習到真正的活體與攻擊之間差異。因此,出現了 rPPG、Depth、Temporal、fft 等等監督。
論文標題:Learning Deep Models for Face Anti-Spoofing Binary or Auxiliary Supervision
論文來源:CVPR 2018
論文鏈接:https://arxiv.org/abs/1803.11097
本文探討了輔助監督(auxiliary supervision)的重要性。這些輔助信息是基于我們關于真實人臉和欺詐面部之間關鍵差異的知識獲得的,其中包括兩個視角:空間和時間。其中空間就是圖像的深度(face-depth),而時間就是使用時序 rPPG 信號作為輔助監督。
本文的三個主要貢獻:
建議利用新穎的輔助信息(即深度圖和 rPPG)來監督 CNN 學習以改進泛化。
提出了一種新穎的 CNN-RNN 架構,用于端到端學習深度圖和 rPPG 信號。
發布了一個新的數據庫:Spoof in the Wild Database(SiW)。
What is rPPG?
簡單說就是發射光強度不一樣。當一定波長的光束照射到指端皮膚表面時,光束將通過透射或反射方式傳送到光電接收器,在此過程中由于受到指端皮膚肌肉和血液的吸收衰減作用,檢測器檢測到的光強度將減弱。
如下圖所示,如果是 live face,會有部分周圍光穿過皮層到達血管,然后反射出來,故相機是能從人體皮膚檢測到心跳;而對于 spoof face,由于材料不同,吸收及反射到相機的信息就很不同。
論文標題:Exploiting temporal and depth information for multi-frame face anti-spoofing
論文來源:CVPR 2018
論文鏈接:https://arxiv.org/abs/1811.05118
以往關于活體的深度學習研究都提取了單幀的深度信息作為輔助監督。不同于這些方法,這篇文章提出了一種通過結合時序運動和單幀面部深度的時序深度度信息。具體的,光流引導特征模塊(OFFB)和時序卷積單元(ConvGRU)分別用于提取短時和長時運動信息。
如圖所示,輸入是固定間隔內的連續幀。單幀框架部是為了提取不同層次的特征,輸出單幀估計的面部深度。OFFB 使用連續兩幀作為輸入,計算短期運動特征。然后將最終的 OFFB 特性輸入 ConvGRUs 以獲得長期運動信息,輸出單幀面部深度的殘差。最后,整個網絡由估計多幀深度的深度損失和二元損失進行監督。
論文標題:Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2003.08061
代碼鏈接:https://github.com/clks-wzz/FAS-SGTD
本文提出了一種新的深度監督體系結構,利用殘差空間梯度塊(RSGB)捕獲區分性細節,并通過時空傳播模塊(STPM)從單目幀序列有效地編碼時空信息。具體細節參考原文。
此外,本文還提出對比深度損失(CDL)。Euclidean Distance Loss(EDL)只是協助網絡學習攝像機上的物體,只是對像素的逐一進行深度判斷監督,而忽略相鄰像素之間的深度差異。
然而,物體的深度關系也很重要。因此,對比深度損失(CDL)以提供額外的強有力的監督。如下圖,CDL 共有 8 個對比卷積核,其中紫色、黃色和白色片段分別表示 1、-1 和 0。
De-spoofing
論文標題:Face De-Spoofing Anti-Spoofing via Noise Modeling
論文來源:ECCV 2018
論文鏈接:https://arxiv.org/abs/1807.09968
代碼鏈接:https://github.com/yaojieliu/ECCV2018-FaceDeSpoofing
本文把欺詐檢測問題定義為了新問題,將一張欺詐圖片分為兩部分,一部分是真圖片,一部分是欺詐噪聲,所以原問題就轉化為了 de-X 問題。因為這個方向比較小眾,就不做詳細的介紹了。
Domain Generalization
一般的,在深度學習算法中, 通常假設訓練樣本和測試樣本來自同一概率分布, 然后設計相應的模型和判別準則對待測試的樣例的輸出進行預測。
但是實際上當前很多學習場景下訓練樣本的概率分布和測試樣本的概率分布是不同的,而活體檢測也正是如此,由于目標域和源域是具有不同的概率分布的,如果在訓練過程中我們無法獲得目標域的任何信息就代表著訓練出的分類器可能無法在目標域上取得良好的表現。
而且在現實應用中,目標域往往出現一些不可知的 case,在這種背景下,domain generalization 應運而生。
論文標題:Multi-adversarial Discriminative Deep Domain Generalization for Face Presentation Attack Detection
論文來源:CVPR 2019
論文鏈接:https://openaccess.thecvf.com/content_CVPR_2019/papers/Shao_Multi-Adversarial_Discriminative_Deep_Domain_Generalization_for_Face_Presentation_Attack_Detection_CVPR_2019_paper.pdf
代碼鏈接:https://github.com/rshaojimmy/CVPR2019-MADDoG
本文重點研究如何提高人臉反欺騙方法的泛化能力。主要流程如下:
1. Multi-adversarial:先在不同 domain 數據集下訓練得到各自 domain 的模型,然后通過各個 domain 訓練好網絡來提特征,用于訓練特征生成器和 domain 的判別器,直到生成器輸出的特征能成功騙過各個 domian 的判別器,就算學到了 generalized feature space 的表達了。
2. Dual-force Triplet Mining:除了同一個 domain 下的 triplet loss,還設計了 domain 間的 triplet loss,即對于每個 subject 希望其 cross-domain 的 postive 距離要小于 cross-domian 的 negative
3. Auxiliary Face Depth:還增加了預測 depth 的 task,以增強可判別性。
論文標題:Deep Transfer Across Domains for Face Anti-spoofing
論文鏈接:https://arxiv.org/abs/1901.05633
文中指出目前方法通用性差的主要原因是欺騙設備中材料的多樣性,新環境的背景/光照條件會使真實人臉和欺騙攻擊有所不同、以及有限的數據集。在本文中提出了一個網絡結構,利用目標域中的稀疏標記數據來學習跨域不變的特征,從而實現人臉反欺騙。
如上圖所示,其中每個 batch 包含一半源圖像和一半目標圖像,最后一個池層輸出的兩個域的特征用于計算分布距離,計算使用 kernel based MMD,最后的損失函數是分類損失和 domain 損失組成組成。
Meta learning
當遇到新的應用場景,面對中訓練樣本分布外的攻擊類型時,數據驅動的模型往往會產生不可預測的結果。如果要調整活體檢測模型以適應新的攻擊,就需要收集足夠的樣本進行訓練,然而收集有標簽的數據的成本是昂貴的。因此,對于 anti spoofing 這類問題,data-driven 這條路很被動,而且很難看到頭。
論文標題:Regularized Fine-grained Meta Face Anti-spoofing
論文來源:AAAI 2020
論文鏈接:https://arxiv.org/abs/1911.10771
代碼鏈接:https://github.com/rshaojimmy/AAAI2020-RFMetaFAS
如果我們將現有的元學習算法直接應用于人臉反欺騙任務,會由于以下兩個問題而降低性能:
1. 人臉反欺騙模型僅具有二進制類監督,會出現泛化效果差。如下圖(a)所示,如果僅在二元類別標簽的監督下,將常見的元學習算法應用于面部反欺騙,則 meta train 和 meta test 的學習方向將是有偏見的,這使得 meta learning 難以訓練并最終找到廣義的學習方向。
2. 對于 domain generalization 方法的 meta learning,其在每次元學習迭代中將多個源域粗略地劃分為兩組 meta train 和 meta test。因此,在每次迭代中僅模擬了單個 domain shift,這對于人臉反欺騙任務是效果較差的。
為了解決上述兩個問題,如下圖所示,本文提出了一種新穎的正則化細粒度元學習框架。
對于第一個問題,與二元類別標簽相比,特定于面部反欺騙任務的領域知識可以提供更通用的區分信息。因此,將人臉反欺騙領域知識作為正則化方法納入特征學習過程中,這樣,這種正則化元學習可以針對臉部反欺騙任務,在元訓練和元測試中專注于更協調,更通用的學習方向。
對于第二個問題,提出的框架采用了如上圖(b)所示的細粒度學習策略。該策略將源域劃分為多個元訓練域和元測試域,并在每次迭代中在它們之間的每對之間共同進行元學習。這樣,可以同時模擬多 domain shift,因此可以在元學習中利用更豐富的域移位信息來訓練廣義的面部反欺騙模型。
這篇文章的網絡由特征抽取器、元學習器和深度估計器組成。在 Meta-Train 過程中,我們從 N 個訓練集中隨機選擇 N-1 個,使用 binary loss 進行訓練,使用了深度監督加強對模型的監督。剩余的一個訓練集用于 Meta-Test,Meta-Optimization 過程就是對上述 meta-train and meta-test 中的 model 進行更新。
論文標題:Learning Meta Model for Zero-Shot and Few-shot Face Anti-spoofing
論文來源:AAAI 2020
論文鏈接:https://arxiv.org/abs/1904.12490
這篇文章將 FAS 做為一個 Zero-shot 和 Few-shot 的學習問題。本文的主要貢獻有:
1. 首先將 FAS 定義為一個 zero- and few-shot 的問題。
2. 為了解決 zero- and few-shot FAS 問題,提出一種新的基于元學習的方法:自適應內更新元面孔反欺騙(AIM-FAS)
3. 我們提出了三個新穎的 zero- and few-shot FAS 基準點,以驗證 AIM-FAS 的有效性。
4. 進行了全面的實驗,以表明 AIM-FAS 在零和幾乎沒有反欺騙基準。
Zero-shot learning 旨在學習一般的區別特征,這些特征對可以從已知的假臉中檢測未知的新假臉。Few-shot learning 旨在快速適應反欺騙模式,通過學習預先定義的假臉和收集到的少量新攻擊的樣本。
具體來說,在 zero- or few-shot FAS 任務,meta-learner 的一次訓練迭代包括兩個階段。元學習者使用 supper set 更新其權重,然后在 query set 上測試更新后的元學習者,得到元學習者的學習成績和損失。最后,我們用元學習優化元學習者損失。
NAS
論文標題:Searching Central Difference Convolutional Networks for Face Anti-Spoofifing
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2003.04092
首先,這篇文章提出了一部新穎的卷積算子——Central Difference Convolution(CDC,中心差分)卷積,其擅長描述細粒度信息。如下圖所示,CDC 更可能提取 intrinsic spoofing patterns(例如,偽影)。
Vanilla Convolution 可以表示為:
Central Difference Convolution 表示為:
其實,使用了 NAS 方法搜索出了 CDCN++,以及設計了多尺度注意融合模塊(MAFM),以有效地聚集了多層次 CDC 特征。
如下所示,搜索空間包括了各種參數形式的 CDC,skip-connet 和 none,采用的是 Differentiable NAS 方法,也就是一個“雙層”優化的問題。
其中, 是 alpha 架構的參數,w 是 alpha對應的模型權重。alpha 利用 validation data 來進行更新,w 利用 training data 來進行更新。
在一個特定的 CDC 搜索空間內,利用神經網絡結構搜索(NAS)來發現用于深度監督人臉防欺騙任務的框架級網絡。
總結與展望
大多數研究都將活體檢測作為一個有監督的學習問題,這樣就需要大規模的訓練數據來覆蓋盡可能多的攻擊,然而訓練后的模型很容易出現對幾種常見的攻擊過度擬合,所以,靜默活體檢測的方法仍有待解決模型的泛化性不足的問題。同時,在研究先進的人臉反欺騙算法的過程中,新的類型的欺騙攻擊也被創造出來,并對所有現有算法的造成威脅。
從人類學習識別物體的過程來看,人類認識新的物體并不需要很多的樣本作為支撐。這就從某些角度說明,相比機器學習模型,人類在學習一個新任務的時候,學會的不僅僅是先驗知識,不妨認為是學會了一個“如何去學習一個新知識"的方法。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的人脸静默活体检测最新综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 联发科新一代天玑旗舰芯片针对谷歌 Gem
- 下一篇: 预训练生成模型:结合VAE与BERT/G