人脸识别(Unseen Domains)
Learning Meta Face Recognition in Unseen Domains
Abstract
人臉識(shí)別系統(tǒng)在實(shí)際應(yīng)用中往往面臨未知領(lǐng)域,由于其泛化能力較差,導(dǎo)致性能不理想。例如,一個(gè)訓(xùn)練良好的webface數(shù)據(jù)模型不能處理監(jiān)視場(chǎng)景中的ID vs. Spot任務(wù)。在本文中,我們的目的是學(xué)習(xí)一個(gè)可以直接處理新的未知域的泛化模型,而不需要任何模型更新。為此,我們提出了一種基于元學(xué)習(xí)的人臉識(shí)別方法,命名為Meta Face Recognition (MFR)。MFR用一個(gè)元優(yōu)化目標(biāo)函數(shù)來合成源/目標(biāo)域偏移,這要求模型不僅學(xué)習(xí)合成源域上的有效表征,而且學(xué)習(xí)合成目標(biāo)域上的有效表征。具體來說,我們通過域級(jí)采樣策略構(gòu)建domain-shift batches,通過優(yōu)化多域分布得到合成源/目標(biāo)域的反向梯度/元梯度。在此基礎(chǔ)上,進(jìn)一步結(jié)合元梯度對(duì)模型進(jìn)行了更新,提高了模型的泛化能力。此外,我們還提出了兩種用于泛化人臉識(shí)別評(píng)價(jià)的基準(zhǔn)。通過與一些基線和其他最先進(jìn)技術(shù)比較,在我們的基準(zhǔn)上的實(shí)驗(yàn)驗(yàn)證了我們的方法的泛化能力。代碼可見https://github.com/cleardusk/MFR
1. Introduction
人臉識(shí)別是研究領(lǐng)域的一個(gè)長(zhǎng)期課題。最近的研究[1,2,3,4,5,6,7,8]在一些常見的基準(zhǔn)上,如LFW [9], YTF[10]和megface[11],將性能推到了一個(gè)非常高的水平。這些方法是基于CASIA-Webface[12]、MS-Celeb[13]等訓(xùn)練集和測(cè)試集具有相似的分布的假設(shè)的。然而,在人臉識(shí)別的實(shí)際應(yīng)用中,在源域上訓(xùn)練的模型通常部署在具有不同分布的另一個(gè)域中。有兩種場(chǎng)景:(i)目標(biāo)域已知,數(shù)據(jù)可訪問。(二)目標(biāo)域沒見過。第一種場(chǎng)景的方法被分類為域自適應(yīng)人臉識(shí)別(domain adaptation for face recognition),其中常見的設(shè)置是源域包含有標(biāo)簽的人臉域,目標(biāo)域包含有或沒有標(biāo)簽的人臉。域自適應(yīng)方法試圖將從中學(xué)習(xí)到的知識(shí)應(yīng)用到中,使模型在中具有較好的通用性。第二種場(chǎng)景可以看作是人臉識(shí)別的域泛化,我們稱之為泛化人臉識(shí)別,因?yàn)橛?xùn)練的模型通常部署在未知的場(chǎng)景中,面對(duì)沒見過的數(shù)據(jù)。如圖1所示,部署的模型應(yīng)該能夠推廣到未知的領(lǐng)域,而不需要任何更新或微調(diào)。
與域自適應(yīng)方法相比,泛化人臉識(shí)別研究較少,且具有較大的挑戰(zhàn)性,因?yàn)樗粚?duì)目標(biāo)域進(jìn)行假設(shè)。據(jù)我們所知,目前還沒有關(guān)于泛化人臉識(shí)別問題的相關(guān)研究。一個(gè)相關(guān)的任務(wù)是視覺識(shí)別的域泛化,它假設(shè)源域和目標(biāo)域共享相同的標(biāo)簽空間,并且是一個(gè)小的集合,如7個(gè)類別[14]。然而,泛化人臉識(shí)別是一個(gè)open-set問題,具有更大的類別規(guī)模,現(xiàn)有的方法對(duì)其不適用。
在這篇文章中,我們的目的是學(xué)習(xí)一個(gè)模型的泛化人臉識(shí)別問題。一旦在一組源域上進(jìn)行了訓(xùn)練,模型就可以直接部署到一個(gè)未知域上,而不需要任何模型更新。受[14,15]的啟發(fā),我們提出了一種新的元學(xué)習(xí)人臉識(shí)別框架,命名為Meta face recognition (MFR)。MFR通過一個(gè)元優(yōu)化目標(biāo)函數(shù)來模擬源/目標(biāo)域的移動(dòng),優(yōu)化模型不僅在合成源域上學(xué)習(xí)有效的人臉表征,而且在合成目標(biāo)域上學(xué)習(xí)有效的人臉表征。采用域級(jí)采樣策略模擬域轉(zhuǎn)移,將源域劃分為元訓(xùn)練域/元測(cè)試域。為了優(yōu)化多域分布,我們提出了三種方法:1)hard-pair注意損失優(yōu)化了hard pairs的局部分布;2)soft分類損失考慮了batch中的全局關(guān)系;3)域?qū)R損失學(xué)習(xí)通過對(duì)齊域中心來減少元訓(xùn)練域差異。將這三種損失結(jié)合起來學(xué)習(xí)域不變且具有區(qū)分度的人臉表征。通過元優(yōu)化,將來自元訓(xùn)練域和元測(cè)試域的元梯度進(jìn)行聚合,并用于更新網(wǎng)絡(luò)以提高模型泛化能力。與傳統(tǒng)的元學(xué)習(xí)方法相比,我們的MFR不需要對(duì)目標(biāo)域進(jìn)行模型更新,可以直接處理未知域。
我們的主要貢獻(xiàn)包括:(i)我們首次強(qiáng)調(diào)了泛化人臉識(shí)別問題,這需要一個(gè)訓(xùn)練有素的模型在未知域上很好地泛化,而不需要任何更新。(ii)提出了一種新的Meta Face Recognition(MFR)框架來解決泛化人臉識(shí)別問題,該框架通過跨域元學(xué)習(xí)可遷移的知識(shí)來改善模型的泛化能力。(iii)設(shè)計(jì)了兩個(gè)通用的人臉識(shí)別基準(zhǔn)進(jìn)行評(píng)價(jià)。在提出的基準(zhǔn)上的大量實(shí)驗(yàn)驗(yàn)證了我們方法的有效性。
2. Related work
Domain Generalization. 域泛化可以追溯到[16,17]。DICA[17]采用基于內(nèi)核的優(yōu)化方法去學(xué)習(xí)域不變特征。CCSA[18]可以通過將源域分布對(duì)齊到目標(biāo)域分布來處理域自適應(yīng)和域泛化問題。MLDG[14]首先采用元學(xué)習(xí)方法MAML[15]進(jìn)行域泛化。與域自適應(yīng)相比,域泛化是一個(gè)研究較少的問題。此外,上述域泛化工作主要集中在源域和目標(biāo)域共享相同標(biāo)簽空間的closed-set類別級(jí)識(shí)別問題。相比之下,我們的泛化人臉識(shí)別問題更具挑戰(zhàn)性,因?yàn)槟繕?biāo)類與源類是不相交的。這意味著泛化人臉識(shí)別是一個(gè)open-set問題,而不是像MLDG[14]那樣的closed-set問題,我們必須同時(shí)處理域間隙和不相交的標(biāo)簽空間。一個(gè)相關(guān)的工作是DIMN[19],但是它在任務(wù)和方法上都與我們不同。
Meta Learning. 最近的元學(xué)習(xí)研究主要集中在:(1)學(xué)習(xí)一個(gè)好的權(quán)值初始化以快速適應(yīng)新任務(wù),如基礎(chǔ)MAML[15]及其變體Reptile[20]、meta-transfer learning[21]、iMAML[22]等。(ii)使用設(shè)計(jì)良好的分類器學(xué)習(xí)嵌入空間,該分類器可以直接對(duì)新任務(wù)中的樣本進(jìn)行分類,無需快速適應(yīng)[23,24,25]。(iii)在整個(gè)訓(xùn)練集上預(yù)訓(xùn)練一個(gè)好的特征提取器后,學(xué)習(xí)預(yù)測(cè)分類器參數(shù)[26,27]。這些工作集中于few-shot學(xué)習(xí),通常設(shè)置是目標(biāo)任務(wù)有很少的數(shù)據(jù)點(diǎn)(1/5/20 shots per class)。相比之下,泛化人臉識(shí)別應(yīng)該處理數(shù)千個(gè)類別,這使其更具挑戰(zhàn)性和普遍適用性。我們的方法與MAML[15]最為相關(guān),它試圖學(xué)習(xí)一個(gè)可轉(zhuǎn)移的權(quán)值初始化。然而,MAML需要快速適應(yīng)目標(biāo)任務(wù),而我們的MFR不需要任何模型更新,因?yàn)槟繕?biāo)域是未知的。
3. Methology
本節(jié)描述提出的MFR方法是如何解決泛化人臉識(shí)別問題。MFR由三部分組成:(i)域級(jí)采樣策略。(ii)用于優(yōu)化多域分布以學(xué)習(xí)域不變且具有區(qū)分度的人臉表征的三個(gè)損失。(三)改進(jìn)模型泛化能力的元優(yōu)化流程如圖3所示。概述如圖2和算法1所示。
3.1. Overview
在訓(xùn)練階段,我們?cè)L問了N個(gè)源域,每個(gè)域都有自己的標(biāo)簽集。在測(cè)試階段,訓(xùn)練好的模型在一個(gè)或幾個(gè)未知目標(biāo)域上評(píng)估,且不需任何模型更新。除此之外,目標(biāo)域的標(biāo)簽集和源域的標(biāo)簽集無關(guān),使得該問題是open-set的。在訓(xùn)練中,我們定義了一個(gè)使用參數(shù)為的參數(shù)化函數(shù)表示的單一模型。我們提出的MFR的目的是在源域上訓(xùn)練,這樣它能夠在目標(biāo)未知域上很好地實(shí)現(xiàn)泛化,如圖1所示
3.2. Domain-level Sampling
為了實(shí)現(xiàn)域泛化,在每個(gè)訓(xùn)練迭代中,我們將源域分割成元訓(xùn)練(meta-train)和元測(cè)試(meta-test)域。具體說來,即我們將N個(gè)源域分割成N-1個(gè)meta-train域和一個(gè)meta-test目標(biāo)域,用來模擬現(xiàn)實(shí)場(chǎng)景中存在的域轉(zhuǎn)變問題。這樣,模型就被鼓勵(lì)學(xué)習(xí)可轉(zhuǎn)移的知識(shí),這些知識(shí)有關(guān)如何在有著不同分布的未知域上很好地進(jìn)行泛化。我們進(jìn)一步構(gòu)建一個(gè)由多個(gè)batches組成的meta-batch,如下:(i)在N個(gè)源域上迭代;(ii)在第i個(gè)迭代中,被選中為meta-test域;(iii)剩下的作為meta-train域;(iv)隨機(jī)選擇meta-train域中的B個(gè)身份和meta-test域中的B個(gè)身份,每個(gè)身份選取兩個(gè)人臉圖像,一張圖作為gallery,另一張圖作為probe。至此,一個(gè)N個(gè)batches的meta-batch就構(gòu)建好了。然后,我們的模型通過每個(gè)meta-batch的累積梯度進(jìn)行更新。具體方法見算法1。與MAML[15]不同的是,我們的采樣是域級(jí)的,適用于open-set人臉識(shí)別。MLDG[14]也進(jìn)行了類似的采樣,但是它們的域在每次訓(xùn)練迭代中是隨機(jī)劃分的,并且沒有建立meta-batch。
3.3. Optimizing Multi-domain Distributions
為了聚合每個(gè)batch的反向傳播梯度,我們優(yōu)化了多域分布,使相同身份映射成相近的表征,不同的身份則映射為互相遠(yuǎn)離的表征。傳統(tǒng)的度量損失,如contrastive[28,29]和triplet[3],采用隨機(jī)抽樣的對(duì)或triplets來構(gòu)建訓(xùn)練batches。這些batches由許多簡(jiǎn)單對(duì)或triplets組成,導(dǎo)致訓(xùn)練收斂緩慢。為了解決這個(gè)問題,我們建議使用三個(gè)組件(即三個(gè)損失)去優(yōu)化和學(xué)習(xí)域不變且有區(qū)分度的表征。hard-pair注意損失優(yōu)化了hard對(duì)的局部分布,soft分類損失考慮了batch的全局分布,域?qū)R損失學(xué)習(xí)去對(duì)齊域中心。
Hard-pair Attention Loss. hard-pair注意損失專注于優(yōu)化hard正對(duì)和負(fù)對(duì)。采樣B個(gè)身份的batch,每個(gè)身份包含一個(gè)gallery人臉和一個(gè)probe人臉。我們表示輸入為,抽取的gallery和probe嵌入為:,C表示維度長(zhǎng)度。對(duì)和L2歸一化后,我們可以通過計(jì)算來高效地構(gòu)建一個(gè)相似度矩陣。然后我們使用正對(duì)閾值和負(fù)對(duì)閾值去過濾hard正對(duì)和負(fù)對(duì):和。該操作復(fù)雜度只有,且定義如下:
其中為由閾值過濾后的hard正對(duì)集,為由閾值過濾后的hard負(fù)對(duì)集
Soft-classification Loss. hard-pair注意力損失只集中在hard對(duì)上,并趨向于收斂到局部最優(yōu)。為了解決這個(gè)問題,我們引入了一個(gè)特定的soft分類損失來進(jìn)行batch內(nèi)的分類。損失公式為:
其中yi=i表示第i個(gè)身份,或是第i個(gè)身份的對(duì)數(shù),s是一個(gè)常量尺寸因子。初始化為,且每一行進(jìn)行L2歸一化
Domain Alignment Loss. 我們發(fā)現(xiàn)在meta-train域之間的負(fù)對(duì)比在域內(nèi)的負(fù)對(duì)更容易(即更容易區(qū)分他們是負(fù)對(duì))。通過加入域?qū)R正則化使嵌入具有域不變性,可以減小不同meta-train域的域間隙。這樣,跨meta-train域的負(fù)對(duì)變得更難區(qū)分,這樣有利于學(xué)習(xí)更具區(qū)分度的表征。為了實(shí)現(xiàn)域?qū)R,我們讓多個(gè)meta-train域的平均嵌入接近彼此。具體來說,我們首先計(jì)算meta-train域的所有平均嵌入的嵌入中心,然后優(yōu)化所有平均嵌入與該嵌入中心的差異。由于meta-test只有一個(gè)域,所以域?qū)R損失只適用于meta-train域。損失公式為:
其中,是歸一化后的嵌入,是從域中采樣的batch的平均嵌入,是meta-train域中所有平均嵌入的嵌入中心,n是meta-train域的個(gè)數(shù),s是尺寸因子。在meta-optimization中,我們將會(huì)使用來自這三個(gè)損失的后向傳播信號(hào)去優(yōu)化模型泛化能力。
(所以一個(gè)meta-batch迭代n次,因?yàn)橛衝個(gè)域,因此一個(gè)meta-batch中有n個(gè)batches。這里的meta-batch和batch是這個(gè)意思。然后對(duì)一個(gè)meta-batch中n個(gè)batches的梯度進(jìn)行累積,一個(gè)meta-batch進(jìn)行一個(gè)參數(shù)更新)
3.4. Meta-optimization
本節(jié)介紹如何優(yōu)化模型以提高模型泛化能力。整個(gè)元優(yōu)化過程總結(jié)在算法1中,如圖3所示。
Meta-train. 基于域級(jí)采樣,在一個(gè)meta-batch的每個(gè)batch中,我們采樣N-1個(gè)源域,然后從中采樣B個(gè)圖像對(duì)。然后在每個(gè)batch中計(jì)算損失,如下所示:
其中表示模型參數(shù)。模型接下來使用梯度進(jìn)行更新:。該更新步驟和傳統(tǒng)的度量學(xué)習(xí)是相似的。
Meta-test. 在每個(gè)batch中,模型還在meta-test域上進(jìn)行測(cè)試。該測(cè)試過程模擬了在有著不同分布的未知域上進(jìn)行評(píng)估,來讓模型學(xué)習(xí)跨域泛化。我們還從meta-test域上采樣了B個(gè)圖像對(duì)。然后在更新后的參數(shù)上計(jì)算損失,如下:
Summary. 為了同時(shí)優(yōu)化meta-train和meta-test,最終的MFR目標(biāo)函數(shù)為:
其中是α是meta-train的步長(zhǎng)大小,γ用于平衡meta-train和meta-test。該目標(biāo)函數(shù)的意義為:優(yōu)化模型參數(shù),這樣在meta-train域中更新后,模型在meta-test域中也能表現(xiàn)得很好。從另一個(gè)角度來看,等式(6)的第二項(xiàng)作為額外的正則化去更新具有高階梯度的模型,我們稱其為meta-gradients。比如,給定三個(gè)源域,一個(gè)meta-batch有三種meta-train/meta-test分法:和。對(duì)于每種劃分或batch,一個(gè)梯度和meta-gradient分別在meta-train和meta-test中后向傳播。通過累積meta-batch中的所有梯度和meta-gradients,模型最終優(yōu)化為能夠在meta-train和meta-test上實(shí)現(xiàn)良好的模型。圖3說明了梯度和meta-gradients在計(jì)算圖上是怎么流動(dòng)的。
4. Experiments
為了評(píng)估我們提出的用于泛化人臉識(shí)別問題的MFR方法,我們?cè)趦蓚€(gè)我們提出的基準(zhǔn)上進(jìn)行了幾個(gè)實(shí)驗(yàn)。
4.1. GFR Benchmark and Protocols
泛化人臉識(shí)別一直沒有引起人們的重視,我們也沒有一個(gè)通用的評(píng)估協(xié)議,因此我們引入了兩個(gè)設(shè)計(jì)良好的基準(zhǔn)來評(píng)估模型的泛化能力。其中一個(gè)基準(zhǔn)是跨種族評(píng)估(crossing race evaluation),命名為GFR-R,另一個(gè)基準(zhǔn)是跨人臉多樣性(crossing facial variety),命名為GFR-V。我們?cè)谶@里使用多樣性來強(qiáng)調(diào)在GFR-V的源域和目標(biāo)未知域之間有很大的差距。
在現(xiàn)實(shí)世界的場(chǎng)景中,像MS-Celeb[13]這樣的大型基礎(chǔ)數(shù)據(jù)集通常用于預(yù)訓(xùn)練,但是模型在具有不同分布的新領(lǐng)域上可能泛化較差。為了模擬它,我們使用MS-Celeb作為基礎(chǔ)數(shù)據(jù)集。RFW[35]最初被提出來研究人臉識(shí)別中的種族偏見,它標(biāo)記了MS-Celeb的四個(gè)人種數(shù)據(jù)集(高加索人、亞洲人、非洲人、印度人)。我們選擇這四個(gè)數(shù)據(jù)集作為我們的四個(gè)種族域。注意,由于RFW[35]與MS-Celeb[13]重疊,我們根據(jù)身份關(guān)鍵字將所有重疊的身份從MS-Celeb中刪除,從而構(gòu)建了名為MS-Celeb-NR的基礎(chǔ)數(shù)據(jù)集,即不包含RFW的MS-Celeb。MS-Celeb-NR可以看作是4個(gè)種族的獨(dú)立基數(shù)據(jù)集。
GFR-R. 每個(gè)種族都有大約2K到3K的身份。我們隨機(jī)選擇1K個(gè)身份進(jìn)行測(cè)試,剩余的1K個(gè)~ 2K個(gè)身份進(jìn)行訓(xùn)練。數(shù)據(jù)集詳細(xì)信息如表1所示。在我們的實(shí)驗(yàn)設(shè)置中,每個(gè)種族被視為一個(gè)域。我們?cè)谒膫€(gè)域中隨機(jī)選取三個(gè)域作為源域,其余的一個(gè)域作為測(cè)試域,測(cè)試域在訓(xùn)練中是不可訪問的。因此,我們?yōu)镚FR-R構(gòu)建了四個(gè)子協(xié)議,如表2所示。
GFR-V. GFR-V基準(zhǔn)用于跨人臉多樣性評(píng)估,設(shè)置較困難,能更好地反映模型的泛化能力。如表2所示,將4個(gè)種族數(shù)據(jù)集(高加索、亞洲、非洲、印度)作為源域,第5個(gè)數(shù)據(jù)集作為目標(biāo)域。具體來說,目標(biāo)數(shù)據(jù)集包括CACD-VS[30]、CASIA NIR-VIS 2.0[31]、MultiPIE[32]、MeGlass[33]、Public-IvS[34]。對(duì)于CASIA NIR-VIS 2.0,我們遵循view2評(píng)估[31]中的標(biāo)準(zhǔn)方案,并報(bào)告10折的平均值。對(duì)于MeGlass和Public-IvS,我們遵循標(biāo)準(zhǔn)的檢測(cè)方案[34,33]。對(duì)于CACD-VS,除了標(biāo)準(zhǔn)的[30]協(xié)議外,我們使用提供的2000個(gè)跨年齡圖像正對(duì),并將它們分成gallery和probe,以進(jìn)行ROC/Rank-1評(píng)價(jià)。對(duì)于Multi-PIE,我們選擇337個(gè)身份,每個(gè)身份包含大約3~ 4個(gè)正面gallery圖和3~ 4個(gè)45?視圖的probe圖。
Benchmark Protocols.對(duì)于每幅圖像,提取原始圖像和翻轉(zhuǎn)圖像的特征,然后串聯(lián)作為最終表征。分?jǐn)?shù)是通過兩個(gè)表征的余弦距離來測(cè)量的。對(duì)于性能評(píng)估,我們使用receiver operating characteristic (ROC) curve和Rank-1 accuracy。對(duì)于ROC,我們報(bào)告在低誤接受率(FAR)如1%,0.1%和0.01%下的驗(yàn)證率(VR)。在Rank-1評(píng)價(jià)中,將每個(gè)probe圖像與所有g(shù)allery圖像進(jìn)行匹配,如果top-1的結(jié)果是相同的,則為正確。
4.2. Implementation Details
我們的實(shí)驗(yàn)是基于PyTorch[37]的。在對(duì)比實(shí)驗(yàn)中將隨機(jī)種子設(shè)置為固定值2019,以便進(jìn)行公平比較。我們使用一個(gè)28層的ResNet作為我們的backbone,但是通道數(shù)乘數(shù)(channel-number multiplier)為0.5。我們的backbone只有1.287億次FLOPs和464萬參數(shù),這是相對(duì)輕量的。輸出嵌入的維數(shù)是256。在MS-Celeb-NR上使用CosFace[38]對(duì)模型進(jìn)行預(yù)訓(xùn)練。在訓(xùn)練期間,所有的臉都被裁剪和調(diào)整到120×120。然后通過減去127.5并除以128對(duì)輸入進(jìn)行標(biāo)準(zhǔn)化。分別將meta-train步長(zhǎng)α、meta optimization步長(zhǎng)β、和用來平衡meta-train和meta-test 損失權(quán)重γ初始化為0.0004、0.0004和0.5。batch size B設(shè)為128,soft-classification 損失和domain alignment 損失的尺寸因子s設(shè)為64。步長(zhǎng)α和β每1K步衰減一次,衰減率為0.5。正閾值和負(fù)閾值的分別初始化為0.3、0.04,并更新為 = 0.3 + 0.1n和 = 0.04/0.5n,其中n為衰減數(shù)。對(duì)于meta-optimization,我們使用SGD來優(yōu)化網(wǎng)絡(luò),權(quán)重衰減為0.0005,動(dòng)量為0.9。
4.3. GFR-R Comparisons
Settings. 我們將我們的模型與幾個(gè)基線進(jìn)行比較,包括基本模型和幾個(gè)域聚合基線。為了進(jìn)一步將我們的方法與其他域泛化方法進(jìn)行比較,我們將MLDG[14]引入open-set設(shè)置,使其能夠應(yīng)用于我們的協(xié)議中。結(jié)果如表3所示。對(duì)于GFR-R中的四種協(xié)議,我們報(bào)告了在1%、0.1%、0.01%的低FAR 下的VRs和Rank-1準(zhǔn)確度。具體來說,我們的比較包括:(i) Base:僅使用CosFace[38]在MS-Celeb-NR上預(yù)訓(xùn)練的模型。注意MS-Celeb-NR與四個(gè)種族數(shù)據(jù)集(高加索、亞洲、非洲和印度)沒有重疊的身份,可以認(rèn)為是一個(gè)獨(dú)立的數(shù)據(jù)集。(ii) Base-Agg:用CosFace[38]在MS-Celeb-NR和聚合的源域上(即上面MS-Celeb-NR去掉的那部分?jǐn)?shù)據(jù))訓(xùn)練模型。以GFR-R-I為例,Base-Agg在MS-Celeb-NR和高加索、亞洲、非洲三個(gè)源域上共同訓(xùn)練。這是為了與我們的MFR進(jìn)行公平比較,其中涉及到相同的訓(xùn)練數(shù)據(jù)集。 (iii)Base-FT rnd:Base模型在聚合的源域上進(jìn)行了進(jìn)一步的微調(diào)。最后一個(gè)全連接層的分類模板被隨機(jī)初始化。(iv) Base-FT imp: Base模型在聚合的源域上進(jìn)一步微調(diào),但分類模板初始化為對(duì)應(yīng)身份的嵌入均值。其使用weight-imprinted[36]進(jìn)一步精煉而成。(v) MLDG:適用于泛化人臉識(shí)別問題的MLDG[14]。
Results. 從表3的結(jié)果可以看出:(i)總的來說,在所有比較的設(shè)置和方法中,我們的方法在四種GFR-R協(xié)議上取得了最好的結(jié)果。(2)在MS-Celeb-NR上訓(xùn)練的Base模型較強(qiáng),但對(duì)目標(biāo)域的泛化效果不佳,尤其是印度、非洲、亞洲。原因可能是MS-Celeb-NR大多數(shù)是高加索人。(iii) MS-Celeb-NR和源域聯(lián)合訓(xùn)練的效果略好于Base模型,但仍不能與我們的MFR方法相比較。(iv) Base-FT rnd的性能急劇下降,我們將其歸因于源域上的過度擬合。weight-imprinted(Base-FT imp)可以在一定程度上減少這種過擬合,但其性能仍低于Base模型。(v) MLDG[14]最初是為closed-set和類別級(jí)識(shí)別問題設(shè)計(jì)的,在open-set泛化人臉識(shí)別問題上無法與我們的方法競(jìng)爭(zhēng)。
4.4. GFR-V Comparisons
GFR-V基準(zhǔn)用于跨人臉多樣性評(píng)價(jià),能更好地反映模型泛化能力。
Settings. 我們將我們的模型與兩個(gè)強(qiáng)基線Base, Base-Agg,an adapted MLDG[14]和其他競(jìng)爭(zhēng)對(duì)手(如果存在的話)相比較。由于5個(gè)目標(biāo)域的標(biāo)準(zhǔn)協(xié)議不同,我們分別在表4、5、6、7、8中顯示它們的結(jié)果。
CACD-VS. CACD-VS[30]用于跨年齡評(píng)估,每對(duì)圖像包含一張年輕的臉和一張年老的臉。我們報(bào)告ROC/Rank-1以及提供的標(biāo)準(zhǔn)方案的結(jié)果。其他競(jìng)爭(zhēng)對(duì)手只根據(jù)標(biāo)準(zhǔn)協(xié)議進(jìn)行評(píng)估。表4中的結(jié)果表明,我們的MFR不僅擊敗了基線,而且擊敗了使用跨年齡數(shù)據(jù)集進(jìn)行訓(xùn)練的競(jìng)爭(zhēng)對(duì)手。
CASIA NIR-VIS 2.0. CASIA NIR-VIS 2.0[31]中g(shù)allery圖像是在可見光下采集的,而probe圖像是在近紅外光下采集的,因此模態(tài)差距很大。表5顯示:(i)當(dāng)FAR=0.1%(0.01%)時(shí),我們的性能從89.89%(69.27%)的Base提高到95.97%(81.92%)。(ii)即使存在如此巨大的模態(tài)差異,我們的性能仍可與幾種基于CNN的方法相比較[43,44],這些方法使用MS-Celeb進(jìn)行預(yù)訓(xùn)練,使用目標(biāo)域NIR-VIS數(shù)據(jù)集進(jìn)行微調(diào)。相比之下,我們的模型在訓(xùn)練過程中沒有看到任何近紅外樣本。
Multi-PIE. 使用Multi-PIE,在跨姿態(tài)評(píng)估中將我們的模型與兩個(gè)基線和MLDG進(jìn)行比較。表6驗(yàn)證了我們的MFR相對(duì)于基線和MLDG的改進(jìn)。
MeGlass. MeGlass[33]著重研究了眼鏡遮擋對(duì)人臉識(shí)別的影響。我們選擇最困難的IV協(xié)議進(jìn)行評(píng)估。如表7所示,我們的方法在0.001%的low FAR時(shí),從Base模型的71.96%(53.5%)提高到80.86%(66.15%),甚至略好于[33],該方法合成了整個(gè)MS-Celeb佩戴眼鏡后的圖像進(jìn)行訓(xùn)練。
Public-IvS. Public-IvS[34]是一個(gè)用于ID vs. Spot (IvS)驗(yàn)證的測(cè)試平臺(tái)。與Base和Base-Agg相比,我們的方法大大提高了泛化性能。另外兩名選手都是在MS-Celeb上接受過預(yù)訓(xùn)練,并在CASIA-IvS上微調(diào)過。CASIA-IvS擁有200多萬個(gè)身份,每個(gè)身份都有一個(gè)ID和Spot face。即使如此,我們的方法仍然比Contrastive[29]稍微好一些。
LFW. 我們對(duì)LFW[9]進(jìn)行了廣泛的評(píng)估,如表9所示。實(shí)驗(yàn)結(jié)果表明,在相似的目標(biāo)域上,我們方法的泛化效果優(yōu)于基準(zhǔn)算法。
以上結(jié)果表明,我們的方法比基準(zhǔn)方法有了很大的改進(jìn),性能優(yōu)于最好的監(jiān)督/非泛化方法。對(duì)于真實(shí)世界的人臉識(shí)別應(yīng)用,我們的方法是第一選擇,因?yàn)樗谒心繕?biāo)領(lǐng)域上都能很好地泛化,有著具有競(jìng)爭(zhēng)力的性能。
4.5. Ablation Study and Analysis
Contribution of Different Components. 為了評(píng)估不同組件的貢獻(xiàn),我們將我們的完整MFR與四個(gè)降級(jí)版本進(jìn)行比較。前三個(gè)組件是hard-pair attention損失, soft-classification損失和domain alignment損失,用于學(xué)習(xí)域不變且具有區(qū)分度的表征。第四個(gè)組件是meta-gradient。如果在等式(6)中α被設(shè)為0,則目標(biāo)函數(shù)被降級(jí)為meta-train和meta-test的總和,沒有了meta-gradient計(jì)算。表10顯示了每個(gè)組件對(duì)性能的貢獻(xiàn)。在三者中,meta-gradient是最重要的。例如,在沒有meta-gradient的情況下,當(dāng)FAR=0.01%時(shí),GFR-R I的性能從71.4%下降到68.35%。
First Order Approximation. meta-gradient需要高階導(dǎo)數(shù),計(jì)算成本很高。因此,我們將其與一階近似進(jìn)行比較。為了得到一階近似,我們僅將算法(1)中梯度聚合步驟中的更改為。從表10可以看出,一階近似的性能接近于高階。考慮到一階近似只需要高階82%的GPU內(nèi)存和63%的時(shí)間(在我們的設(shè)置中),因此一階近似可作為實(shí)現(xiàn)中高階的替代品。
Impact of γ. 在等式(6)中,γ是一個(gè)加權(quán)meta-train和meta-test損失的超參數(shù)。消融結(jié)果如圖4所示。值0.5給出了最好的結(jié)果,這表明meta-train域和meta-test域應(yīng)該被同等地學(xué)習(xí)。
Domains-level Sampling.由于在meta-train中只有一個(gè)域時(shí)不能應(yīng)用域?qū)R損失,為了進(jìn)行公平比較,我們?nèi)サ袅擞驅(qū)R損失。對(duì)于每個(gè)batch,SmTn (m,n∈{(1,1),(1,2),(2,1)})表示采樣m個(gè)域作為meta-train,其他n個(gè)域作為meta-test。rand.表示隨機(jī)選取m個(gè)域作為meta-train(m為隨機(jī)數(shù)),剩下的1個(gè)域作為meta-test。從圖4可以看出,設(shè)置m = 2和n = 1效果最好。
5. Conclusion
在本文中,我們強(qiáng)調(diào)了泛化人臉識(shí)別問題,并提出了一種Meta Face Recognition(MFR)方法來解決這一問題。一旦在一組源域上進(jìn)行了訓(xùn)練,模型就可以直接部署到目標(biāo)域上,而不需要任何模型更新。在兩個(gè)新定義的泛化人臉識(shí)別基準(zhǔn)上進(jìn)行了大量的實(shí)驗(yàn),驗(yàn)證了我們提出的泛化人臉識(shí)別基準(zhǔn)的有效性。我們認(rèn)為泛化人臉識(shí)別問題在實(shí)際應(yīng)用中具有重要意義,我們的工作是未來工作的重要途徑。
總結(jié)
以上是生活随笔為你收集整理的人脸识别(Unseen Domains)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微软发布 Win10 Build 190
- 下一篇: 妙手回春:收藏家成功修复被苹果“销毁”的