face recognition[翻译][深度学习理解人脸]
本文譯自《Deep learning for understanding faces: Machines may be just as good, or better, than humans》。為了方便,文中論文索引位置保持不變,方便直接去原文中找參考文獻(xiàn)。
近些年深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展將各種目標(biāo)檢測和識(shí)別問題大大的向前推進(jìn)了不少。這同時(shí)也得益于大量的標(biāo)注數(shù)據(jù)集和GPU的使用,這些方面的發(fā)展使得在無限制的圖片和視頻中理解人臉,自動(dòng)執(zhí)行諸如人臉檢測,姿態(tài)估計(jì),關(guān)鍵點(diǎn)定位和人臉識(shí)別成為了可能。本文中,主要介紹人臉識(shí)別上應(yīng)用的一些深度學(xué)習(xí)方法。討論了一個(gè)自動(dòng)人臉識(shí)別系統(tǒng)中的各個(gè)不同模塊以及深度學(xué)習(xí)在其中扮演的角色。然后討論了下在人臉識(shí)別上深度卷積神經(jīng)網(wǎng)絡(luò)尚未解決的一些問題。
1.我們能從人臉上學(xué)到什么?
人臉分析是CV中一個(gè)有挑戰(zhàn)的事情,也一直被研究了20多年[1]。其目標(biāo)在于從人臉上提取盡可能多的信息,如位置,姿態(tài),性別,ID,年齡,表情等等。這些技術(shù)可以應(yīng)用在如視頻監(jiān)控,手機(jī)的主動(dòng)認(rèn)證,支付驗(yàn)證等等。
本文主要介紹了近些年基于深度學(xué)習(xí)的自動(dòng)人臉驗(yàn)證和識(shí)別系統(tǒng)。其中主要包含了三個(gè)模塊:
- 人臉檢測,用來在圖像或者視頻中進(jìn)行人臉的定位。對于一個(gè)足夠魯棒的系統(tǒng)來說,人臉檢測需要在可變姿態(tài),光照,尺度下進(jìn)行檢測。同時(shí)人臉的定位和人臉框的大小應(yīng)該盡可能精確,不要框到背景部分
- 關(guān)鍵點(diǎn)檢測,用來定位重要的人臉關(guān)鍵點(diǎn),如眼睛中點(diǎn),鼻尖,嘴巴兩個(gè)嘴角。這些點(diǎn)可以用來做人臉對齊,將人臉歸一化到規(guī)范的坐標(biāo)系上,以此減輕人臉內(nèi)在的旋轉(zhuǎn)和縮放帶來的影響
- 特征描述,用于從對齊的人臉上提取足夠辨識(shí)的信息。
在給定人臉表征基礎(chǔ)上,可以通過一個(gè)度量方式去計(jì)算人臉之間的相似性得分,如果該得分低于閾值,則證明這2個(gè)人臉來自同一個(gè)人。從1990年代開始,就有很多已經(jīng)很好工作的人臉驗(yàn)證和識(shí)別的方法,不過他們都基于約束條件下。然而這些方法一旦在姿態(tài),光照,分辨率,表情,年齡,背景干擾和遮擋等情況下,準(zhǔn)確度就急速下降。而且,視頻監(jiān)控等場景下,目標(biāo)需要從上百個(gè)低分辨率的視頻中驗(yàn)證,這就對算法的魯棒性和實(shí)時(shí)性提出更嚴(yán)格的要求。
為了解決這些問題,研究者將深度學(xué)習(xí)引入進(jìn)來,用來做所需要的特征提取。DCNN已經(jīng)被證明在圖像分析[3]任務(wù)上十分強(qiáng)大。在這近5年,DCNN已經(jīng)用來解決許多CV的問題,如目標(biāo)識(shí)別[3]-[5]和目標(biāo)檢測[6]-[8]。一個(gè)典型的DCNN就是多個(gè)卷積層和RELU激活函數(shù)不斷層級重復(fù)的網(wǎng)絡(luò)結(jié)構(gòu),其能夠?qū)W到豐富而且具有判別性的表征,DCNN近期已經(jīng)成功用在如人臉檢測[2,9,10],關(guān)鍵點(diǎn)定位[2,10,11],人臉識(shí)別和驗(yàn)證[12]。其中一個(gè)關(guān)鍵的成功因素仍歸功于大量標(biāo)記的數(shù)據(jù)如:
- 用于人臉識(shí)別的數(shù)據(jù)集CASIA-WebFace[13],MegaFace[14,15],NS-Celeb-1M[16],VGGFace[17]
- 用于人臉檢測的數(shù)據(jù)集WIDER FACE[18]
這些數(shù)據(jù)集就包含了豐富的可變性,如姿態(tài),光照,表情,遮擋等等。這些都能讓DCNN更魯棒的去學(xué)習(xí)這些變化并提取其中有價(jià)值的特征。
2.在無約束圖像中的人臉檢測
人臉檢測是人臉識(shí)別流程中關(guān)鍵的一環(huán),給定一個(gè)圖片,人臉檢測需要提取圖片中所有的人臉位置,并且返回每個(gè)人臉的框坐標(biāo)。之前在無約束人類檢測中,使用的特征如Haar 小波和HOG特征等都無法在不同分辨率,視角,光照,表情,皮膚顏色,遮擋,化妝等情況下抓取顯著的人臉信息。相對于分類器而言,特征提取不好導(dǎo)致的影響會(huì)更大。不過隨著近些年的深度學(xué)習(xí)技術(shù)和GPU的使用,DCNN可以更好的特征提取。如[3]中所述,在一個(gè)大型數(shù)據(jù)集上預(yù)訓(xùn)練的DCNN可以成為一個(gè)比較有意義的特征提取器。然后這些深度特征可以用來廣泛的作為通常目標(biāo)和人臉的檢測?;贒CNN的人臉檢測方法可以分成兩個(gè)大類: 基于區(qū)域的和基于劃框的。
基于區(qū)域的
基于區(qū)域的方法是生成一堆候選框(一張圖片大概2k個(gè)),然后DCNN用來分類那個(gè)是還不是包含人臉的候選框。其中大多數(shù)提取候選框的方式是基于[2,10,19]。比如采用slective search[20]先進(jìn)行候選框生成,然后用DCNN進(jìn)行特征提取,并用分類器去分類這些候選框是否是人臉。HyperFace[10]和All in one face[2]就是基于區(qū)域的方法的。
Faster rcnn
最近主流的特征提取器就是faster rcnn[19]了,其可以同時(shí)回歸每個(gè)人臉候選框的邊界坐標(biāo)。Li[21]等人基于faster rcnn的框架提出了一個(gè)多任務(wù)人臉檢測,其將一個(gè)DCNN和一個(gè)三維平均臉模型進(jìn)行整合,這個(gè)三維平均臉模型可以用來提升基于RPN的人臉檢測性能,這極大的增強(qiáng)了人臉歸一化后的候選框修剪和細(xì)化。同樣的,chen[22]通過訓(xùn)練一個(gè)多任務(wù)RPN去進(jìn)行人臉和關(guān)鍵點(diǎn)檢測,在減少冗余人臉候選框基礎(chǔ)上生成了高質(zhì)量候選框,盡可能保持高召回率和準(zhǔn)確率之間的平衡,這些候選框隨后通過檢測到的關(guān)鍵點(diǎn)進(jìn)行歸一化,然后使用一個(gè)DCNN人臉分類器去改善性能。
基于劃框的
基于劃框的方法是在給定尺度基礎(chǔ)上,在feature map的每個(gè)位置上計(jì)算對應(yīng)的人臉檢測得分和候選框坐標(biāo)。該方法比區(qū)域方法要快,而且可以只適用卷積操作就能實(shí)現(xiàn)。不同尺度上進(jìn)行檢測通常是通過構(gòu)建一個(gè)圖像金字塔來完成。使用該方式的有DP2MFD[9]和DDFD[25],Faceness[26]在全人臉響應(yīng)基礎(chǔ)上加上半臉響應(yīng),并基于空間配置將它們結(jié)合起來,最后去決定人臉得分,Li[27]提出了一個(gè)在多分辨率級聯(lián)結(jié)構(gòu),可以快速的在低分辨率階段上拒絕背景目標(biāo),然后在高分辨率階段就只剩下少量高難度的候選框了
single shot 檢測器
Liu[8]提出了ssd結(jié)構(gòu),該ssd結(jié)構(gòu)是基于劃框的一種檢測器,它不通過生產(chǎn)圖像金字塔形式,而是利用了網(wǎng)絡(luò)結(jié)構(gòu)本身內(nèi)在的金字塔結(jié)構(gòu),通過在不同網(wǎng)絡(luò)層進(jìn)行池化,將其輸送到最后一層來完成人臉分類和候選框回歸。因?yàn)闄z測是一次前向傳輸,所以SSD總的計(jì)算時(shí)間要低于faster rcnn。也有一些基于SSD這種想法的網(wǎng)絡(luò)結(jié)構(gòu),如Yang提出ScaleFace[28]從網(wǎng)絡(luò)的不同層提取尺度信息,然后將它們?nèi)诤系阶詈笠粚右酝瓿扇四槞z測。Zhang提出S3FD[29],其使用一個(gè)尺度均衡的框架和尺度補(bǔ)償?shù)腻^點(diǎn)匹配策略來提升對小臉的檢測效果。圖1就是該方法的架構(gòu)。
因有大量可以訓(xùn)練的無約束人臉檢測數(shù)據(jù)集的存在,如FDDB[30]數(shù)據(jù)集是主流的無約束人臉檢測數(shù)據(jù)集,它包含了2,845張圖片,一共5,171張人臉,都來自yahoo.com的新聞報(bào)道。MALF[31]數(shù)據(jù)集包含了5,250張高分辨率圖像,其中包含了11,931張人臉,這些圖片來自Flickr和baidu搜索引擎。這些數(shù)據(jù)集都在遮擋,姿態(tài),光照下有不少的變化。
WIDER[18]人臉數(shù)據(jù)集包含32,203張圖片,其中50%用于訓(xùn)練,10%用于驗(yàn)證。該數(shù)據(jù)集中的人臉在姿態(tài),光照,遮擋,尺度上也有不少變化。基于該數(shù)據(jù)集訓(xùn)練的人臉檢測去獲得了更好的性能[19,23,28,29,32,33].該數(shù)據(jù)集評估的結(jié)果揭示了,在擁擠的環(huán)境下尋找小臉仍然是一個(gè)挑戰(zhàn)。近期有Hu[33]等人提出的方法顯示上下文信息有助于檢測小臉。它可以從更低層級特征中抓取語義信息并且從更高層級特征中抓取上下文信息,從而去檢測小臉。如圖2.
因本文篇幅所限,這里就不討論傳統(tǒng)的人臉檢測方法了,可以參考[34],其中介紹了更多傳統(tǒng)的級聯(lián)方法和可變形部件模型(deformable part-based model,DPM)。另外,對于有多個(gè)臉的視頻,可以通過人臉關(guān)聯(lián)方式去對每個(gè)對象進(jìn)行人臉追蹤??梢詤⒖糩12],其中有關(guān)于基于視頻的人臉識(shí)別。圖3(a)提供了基于FDDB數(shù)據(jù)集上不同人臉檢測方法的性能對比
?
3.關(guān)鍵點(diǎn)檢測和頭部角度檢測
人臉關(guān)鍵點(diǎn)檢測同樣也是人臉識(shí)別和驗(yàn)證中一個(gè)重要的預(yù)處理部分。人臉關(guān)鍵點(diǎn)如眼睛中心,鼻尖,嘴角等,可以用來將人臉對齊到規(guī)范化坐標(biāo)中,這樣的人臉歸一化有助于人臉識(shí)別[35]和屬性檢測。頭部姿態(tài)評估同樣也是基于姿態(tài)的人臉分析所需要的過程。這兩個(gè)問題近些年也有不少研究成果,大多數(shù)現(xiàn)有的人臉關(guān)鍵點(diǎn)定位方法用的無非是:
- 基于模型的方法:
- 基于級聯(lián)回歸的方法
wang[36]有個(gè)基于傳統(tǒng)方法的綜述,包含了主動(dòng)外觀模型(active appearance model, AAM),主動(dòng)形狀模型(active shape model, ASM),受限局部模型(constrained local model, CLM),和一些回歸方法如有監(jiān)督下降方法(supervised descent method,SDM
)。Chrysos[37]同樣總結(jié)了在視頻下使用傳統(tǒng)人臉檢測方法進(jìn)行人臉關(guān)鍵點(diǎn)追蹤的工作。這里我們只是總結(jié)近些年基于DCNN進(jìn)行人流檢測的方法。
基于模型的
基于模型的方法,如AAM,ASM,CLM等,是在訓(xùn)練過程中學(xué)習(xí)一個(gè)形狀模型,然后用它去擬合測試過程中新的人臉。如Antonakos [43]提出了一種方法,先從區(qū)域中提取多個(gè)塊,然后在塊之間使用多個(gè)基于圖的成對正態(tài)分布(高斯馬爾可夫隨機(jī)場)方式,對人臉的形狀進(jìn)行建模。然而所學(xué)到的模型還是無法很好適應(yīng)復(fù)雜的姿態(tài),表情,光照下變化,同樣的,其對梯度下降優(yōu)化中的初始化也十分敏感。所以,大家也考慮如何基于3維空間進(jìn)行人臉對齊。Jourabloo提出PIFA[44],使用三維空間中進(jìn)行級聯(lián)回歸的方式去預(yù)測三維到二維投影矩陣的系數(shù)和基準(zhǔn)形狀系數(shù)。另一個(gè)來自Jourabloo[45]的工作是將人臉對其問題看成一個(gè)密度三維模型擬合問題,其中照相機(jī)映射居住和三維形狀參數(shù)都通過一個(gè)基于DCNN回歸器級聯(lián)的方式去評估。Zhu提出的3DDFA[46],采用一個(gè)密度三維人臉模型去擬合圖像,其中的深度數(shù)據(jù)采用Z-buffer方式去建模。
基于級聯(lián)回歸的方法
因?yàn)槿四槍R是一個(gè)回歸問題,所以近些年就提出了不少基于回歸的方法。通常而言,這些方法學(xué)習(xí)一個(gè)模型去直接將圖像外觀映射到目標(biāo)輸出上。然而,這些方法依賴于局部描述子的魯棒性。Sun[47]提出一個(gè)基于精心設(shè)計(jì)的DCNN的級聯(lián)方法,在每一個(gè)階段,多個(gè)網(wǎng)絡(luò)的輸出被融合,從而進(jìn)行關(guān)鍵點(diǎn)的評估,從而獲得不錯(cuò)的效果。Zhang[48]提出一個(gè)從粗粒度到細(xì)粒度的自動(dòng)編碼器網(wǎng)絡(luò),其通過級聯(lián)幾個(gè)序列堆疊的自動(dòng)編碼器網(wǎng)絡(luò)(SAN),前面的SAN用于預(yù)測每個(gè)人臉關(guān)鍵點(diǎn)的粗略位置,然后后續(xù)的SAN通過在更高分辨率基礎(chǔ)上基于當(dāng)前檢測的結(jié)果提取局部特征,并將該特征作為網(wǎng)絡(luò)的輸入,從而進(jìn)行關(guān)鍵點(diǎn)的修正。Kumar[11]通過精心設(shè)計(jì)一個(gè)單一的DCNN結(jié)構(gòu)去預(yù)測關(guān)鍵點(diǎn),并獲得了更好的效果,如圖4。
Xiong[49]提出了領(lǐng)域依賴下降映射(domain-dependent descent map)。Zhu[38]觀察到優(yōu)化基本形狀系數(shù)和投影之間并不是直接因果關(guān)系,因?yàn)檩^小的參數(shù)誤差不一定等于較小的對準(zhǔn)誤差。因此他們提出了CCL[38],即基于頭姿態(tài)和領(lǐng)域選擇的回歸器(head-pose-based and domain selective regressors),首先基于頭部姿態(tài)將優(yōu)化領(lǐng)域劃分到多個(gè)方向上,并將多個(gè)領(lǐng)域回歸器的結(jié)果通過組成評估函數(shù)(composition estimator function)結(jié)合起來。Trigeorigis[50]提出基于卷積遞歸神經(jīng)網(wǎng)絡(luò)對回歸器進(jìn)行端到端的學(xué)習(xí),并將其用在級聯(lián)回歸框架中。他避免了獨(dú)立訓(xùn)練每個(gè)回歸器的問題。Bulat[51]提出了一個(gè)DCNN結(jié)構(gòu),首先進(jìn)行人臉的部分檢測,即使用DCNN的前面幾層的特征生成的得分map進(jìn)行粗略的定位每個(gè)人臉關(guān)鍵點(diǎn),然后通過一個(gè)回歸分支去對關(guān)鍵點(diǎn)進(jìn)行修正。因此該算法對檢測到的人臉框質(zhì)量不敏感,而且系統(tǒng)可以端到端的訓(xùn)練。Kumar[52]同樣提出了一個(gè)在無約束條件下高效的去做關(guān)鍵點(diǎn)估計(jì)和姿態(tài)預(yù)測,其主要通過學(xué)習(xí)一個(gè)熱力圖的方式去解決人臉對齊問題,這里熱力圖中的值表示概率值,意在表示在具體位置上某個(gè)點(diǎn)存在的概率。
?
另一邊,不同的數(shù)據(jù)集也提供了不同的關(guān)鍵點(diǎn)標(biāo)注,300 Faces in the Wild database(300 W) [53] 已經(jīng)成為一個(gè)benchmark,用于衡量不同的關(guān)鍵點(diǎn)方法的性能,它包含了超過12000張帶有68個(gè)關(guān)鍵點(diǎn)的圖片,包括Labeled Face Parts in the Wild[36], Helen [36], AFW [36], Ibug [36], and 600 test images.(i.e., 300 indoor and 300 outdoor.)
除了使用二維變換進(jìn)行面部對齊之外,Hassner等 [54]提出了一種在通用三維人臉模型的幫助下使面部正面化的有效方法。 然而,該方法的有效性也高度依賴于檢測到的面部關(guān)鍵點(diǎn)質(zhì)量(即,當(dāng)面部關(guān)鍵點(diǎn)質(zhì)量差時(shí),該方法通常會(huì)引入錯(cuò)誤信息)。另外,也有不少方法是基于多任務(wù)(multitask learning,MTL)角度去做人臉檢測,它們都是同時(shí)訓(xùn)練一個(gè)人臉檢測和對應(yīng)的人臉關(guān)鍵點(diǎn)估計(jì)。MTL有助于網(wǎng)絡(luò)訓(xùn)練更魯棒的特征,因?yàn)榫W(wǎng)絡(luò)得到了額外的監(jiān)督。例如從關(guān)鍵點(diǎn)獲取的眼睛中心和鼻尖有助于網(wǎng)絡(luò)判別人臉的結(jié)構(gòu)。Zhang[32],Chen[22],Li[21]和HyperFace[10]都采用這樣的思路,All in one face[2]基于MTL,將任務(wù)擴(kuò)展到人臉驗(yàn)證,性別,笑容和年齡的估計(jì)上,圖3(b)展現(xiàn)了基于AFW[55]數(shù)據(jù)集下不同算法對關(guān)鍵點(diǎn)估計(jì)的性能對比。
4.人臉識(shí)別和驗(yàn)證
這部分介紹關(guān)于人臉驗(yàn)證和識(shí)別的工作,圖5中,介紹了使用DCNN進(jìn)行人臉驗(yàn)證和識(shí)別的訓(xùn)練及測試流程。
在其中有2個(gè)重要的組成部分:
?
- 魯棒的人臉表征;
- 一個(gè)判別分類模型(人臉識(shí)別)或者相似性度量(人臉驗(yàn)證)。
因?yàn)楸疚闹粚W⑸疃葘W(xué)習(xí)的方法,而[56]綜述中介紹了基于傳統(tǒng)方法,特征上如LBP,Fisher向量等,度量學(xué)習(xí)上如one-shot similarity(oss),Mahalanobis度量學(xué)習(xí),cosine度量學(xué)習(xí),large-margin最近鄰,基于屬性的分類器和聯(lián)合貝葉斯(joint bayesian,JB)等。
4.1 使用深度學(xué)習(xí)對人臉進(jìn)行魯棒的特征學(xué)習(xí)
在人臉識(shí)別系統(tǒng)中,學(xué)習(xí)具有不變性和判別性的特征表征是很關(guān)鍵的一步。深度學(xué)習(xí)方法已經(jīng)展示出可以在非常大的數(shù)據(jù)集上學(xué)到緊湊而具有判別性的表征。這里先總結(jié)下一些使用深度學(xué)習(xí)做特征表征學(xué)習(xí)的方法。
Huang[57]等人拋棄了傳統(tǒng)的手動(dòng)設(shè)計(jì)特征的方法如LBP等,而是提出基于局部卷積受限玻爾茲曼機(jī)上采用卷積深度置信網(wǎng)去學(xué)習(xí)人臉表征。他們首先基于自然場景下未標(biāo)記的圖片數(shù)據(jù)集,在無監(jiān)督基礎(chǔ)上學(xué)習(xí)有用的表征,然后通過分類器(SVM)和度量學(xué)習(xí)方法(OSS)將這些學(xué)到的表征用在人臉驗(yàn)證和識(shí)別上。該方法在未使用大規(guī)模標(biāo)記人臉數(shù)據(jù)集訓(xùn)練的情況下,在LFW數(shù)據(jù)集上的結(jié)果也十分滿意。
在早期基于三維空間的DCNN人臉識(shí)別的應(yīng)用是由Taigman提出的DeepFace[58]。在該方法中,使用一個(gè)九層的DNN去學(xué)習(xí)人臉表征,其中包含了超過120百萬個(gè)參數(shù),且使用了未權(quán)重共享的局部連接層,而不是標(biāo)準(zhǔn)的卷積層。采用的訓(xùn)練集是包含4百萬張人臉,其中超過4000個(gè)ID的數(shù)據(jù)集。
因?yàn)槭占笠?guī)模標(biāo)注數(shù)據(jù)集十分耗時(shí),Sun提出了DeepID結(jié)構(gòu)[59-61],采用聯(lián)合貝葉斯方式(JB)去做人臉驗(yàn)證,其中利用了集成學(xué)習(xí)的方法,里面都是相對DeepFace而言,更淺且更小的深度卷積網(wǎng)絡(luò)(每個(gè)DCNN包含四個(gè)卷積層,輸入大小為39×31×1),其使用的數(shù)據(jù)集是10177個(gè)目標(biāo)的202599張圖片。基于大量不同ID的數(shù)據(jù)集和DCNN基于不同局部和全局人臉塊的訓(xùn)練,是的DeepID學(xué)到了具有判別性和信息性的人臉表征。該方法也是首次在LFW數(shù)據(jù)集上超過人類的方法。
Schroff提出一個(gè)基于CNN的人臉識(shí)別方法叫做FaceNet[62],其直接優(yōu)化人臉向量本身而不是如深度學(xué)習(xí)中那些bottleneck layer。他們基于大致對齊的匹配/非匹配面部塊的三元組,使用在線三元組挖掘(online triplet )方法。他們的數(shù)據(jù)集是一個(gè)大型的專有人臉數(shù)據(jù)集,由1億到2億個(gè)面部縮略圖組成,包含大約800萬個(gè)不同的ID。
Yang[13]收集了一個(gè)公開的大規(guī)模標(biāo)注人臉數(shù)據(jù)集,CASIA-WebFace,從IMDB上收集的包含494414個(gè)人臉圖片10575個(gè)ID的數(shù)據(jù)集,網(wǎng)絡(luò)參數(shù)超過5百萬個(gè)。該模型也使用聯(lián)合貝葉斯方法,在LFW上獲得了滿意的結(jié)果。CASIA-WebFace也是一個(gè)主流數(shù)據(jù)集了。
Parkhi[17]同樣有一個(gè)公開的大規(guī)模人臉數(shù)據(jù)集,VGGFace,包含了2.6百萬個(gè)人臉,2600個(gè)ID。如同大名鼎鼎的VGGNet[24]可以用于做目標(biāo)識(shí)別,他使用了triplet embedding來做人臉驗(yàn)證。使用VGGFace訓(xùn)練的DCNN模型在靜態(tài)人臉(LFW)和視頻人臉(youtube face, YTF)上都獲得了不錯(cuò)的結(jié)果,且只適用單一的網(wǎng)絡(luò)結(jié)構(gòu),并且都已經(jīng)開源。VGGFace數(shù)據(jù)集也是一個(gè)主流數(shù)據(jù)集。
在近些年的工作中,AdbAlmageed[63]通過基于DCNN,訓(xùn)練正面,半輪廓和全輪廓姿態(tài),以提高無約束環(huán)境下人臉識(shí)別性能,解決姿態(tài)變化的問題。Masi[64]利用一個(gè)3-D可變形模型去增強(qiáng)CASIA-WebFace數(shù)據(jù)集,通過大量合成的人臉去代替眾包注釋任務(wù)收集數(shù)據(jù)的過程。DIng[65]采用一個(gè)新的triplet loss,從不同網(wǎng)絡(luò)特征層基于人臉關(guān)鍵點(diǎn)周圍進(jìn)行深度特征融合的方式達(dá)到了當(dāng)時(shí)視頻上的人臉識(shí)別最好。Wen[66]提出了一個(gè)新的loss函數(shù),其考慮了每個(gè)類別的中心點(diǎn),并用它作為softmax loss的一個(gè)正則約束,基于殘差神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)更具有判別性的人臉表征。Liu[67]基于修改的softmax loss,提出一個(gè)新穎的angular loss。它生成的判別性angular 特征表征是基于常見的相似的度量和cos距離進(jìn)行優(yōu)化的,該模型在基于更小的訓(xùn)練集上訓(xùn)練的結(jié)果獲得了可媲美最好模型的結(jié)果。Ranjan等 [68]也在最近發(fā)布的MS-Celeb-1M人臉數(shù)據(jù)集的子集上使用縮放的L2范數(shù)正則對softmax loss進(jìn)行訓(xùn)練,作者的工作顯示正則后的loss優(yōu)化了類別之間的angular margin。該方法在IARPA benchmark A(IJB-A)數(shù)據(jù)集[69]上獲得了最好結(jié)果。除了常用的每幀視頻人臉表征的平均聚合,Yang提出一個(gè)神經(jīng)聚合網(wǎng)絡(luò)[70]基于多個(gè)人臉圖像或者人臉視頻中人臉幀去執(zhí)行動(dòng)態(tài)權(quán)重聚合,獲得了 視頻人臉表征上簡潔而強(qiáng)大的表征。該方法在多個(gè)圖像集和視頻人臉集合上獲得了最好結(jié)果。Bodla[71]提出一個(gè)融合網(wǎng)絡(luò),基于兩個(gè)不同的DCNN模型去組合人臉表征,提升識(shí)別性能。
4.2 人臉的判別性度量學(xué)習(xí)
從數(shù)據(jù)中學(xué)習(xí)一個(gè)分類器或者相似性度量是另一個(gè)提升人臉識(shí)別系統(tǒng)的關(guān)鍵部件。許多文獻(xiàn)中提出的方法本質(zhì)上是使用人臉圖片或者人臉對中的標(biāo)簽信息。Hu[72]用DNN結(jié)構(gòu)去學(xué)習(xí)一個(gè)判別性度量。Schroff[62]和Parkhi[17]基于triplet loss優(yōu)化了DCNN的參數(shù),可以直接將DCNN特征嵌入到一個(gè)判別性子空間,從而提升了人臉驗(yàn)證的結(jié)果。在[73]中,通過一個(gè)概率模型去學(xué)習(xí)判別性的低秩向量用于人臉驗(yàn)證和聚類。宋 [74]提出了一種通過考慮樣本之間的逐對距離來批量充分的利用訓(xùn)練數(shù)據(jù)的方法。
不同于基于DCNN的有監(jiān)督人臉識(shí)別,Yang[75]提出在循環(huán)結(jié)構(gòu)中聯(lián)合深度表征和圖像聚類。每個(gè)圖像在開始時(shí)被視為單獨(dú)的簇,并且使用該初始分組訓(xùn)練深度網(wǎng)絡(luò)。深度表征和類別成員隨后通過迭代方式不斷修改,知道聚類個(gè)數(shù)達(dá)到了預(yù)定的值。該無監(jiān)督方法學(xué)到的表征被證明可以用在各種任務(wù)上,如人臉識(shí)別,數(shù)據(jù)分類等等。Zhang[76]提出通過在深度表示自適應(yīng)和聚類之間交替來聚類視頻中的人臉圖像。Trigeorgis[77]提出一個(gè)深度半監(jiān)督的非負(fù)矩陣分解方式去學(xué)習(xí)隱藏的表征,這些表征允許他們自身根據(jù)給定人臉數(shù)據(jù)集不同的未知屬性(例如姿勢,情緒和身份)來解釋聚類。他們的方法同樣給予了困難人臉數(shù)據(jù)集上的解決希望。另一方面,Lin[78]提出了一種無監(jiān)督聚類算法,該算法利用樣本之間的鄰域結(jié)構(gòu),隱式執(zhí)行域自適應(yīng),以改進(jìn)聚類性能。他們同樣用該方法制作了一個(gè)大規(guī)模噪音人臉數(shù)據(jù)集,如MS-Celeb-1M[79]。
4.3 實(shí)現(xiàn)
人臉識(shí)別可以劃分成2個(gè)任務(wù):
- 人臉驗(yàn)證;
- 人臉識(shí)別
對于人臉驗(yàn)證來說,就是給定2張人臉圖片,系統(tǒng)去驗(yàn)證這兩個(gè)人臉是不是來自同一個(gè)人。對于人臉識(shí)別,就是給定一個(gè)未知ID的人臉圖片,然后系統(tǒng)通過特征匹配的方式?jīng)Q定該圖片的ID是數(shù)據(jù)庫中的哪一個(gè)。
對于這兩個(gè)任務(wù),獲得判別性和魯棒性的特征是十分重要的。對于人臉驗(yàn)證,人臉首先需要通過人臉檢測檢測出來,然后通過檢測到的人臉關(guān)鍵點(diǎn),采用相似性變換歸一化到規(guī)范的坐標(biāo)上。然后每個(gè)人臉圖片再通過DCNN去獲取它的人臉表征,一旦該特征生產(chǎn),就可以通過相似性度量去計(jì)算度量的得分。大多數(shù)使用的相似性度量有:
- 人臉特征之間的L2距離;
- cosine相似性,可以表示在angular 空間中特征之間相隔的距離。
同樣可以使用多個(gè)DCNN去融合網(wǎng)絡(luò)特征或者相似性得分,如DeepID架構(gòu)[59-61]或者融合網(wǎng)絡(luò)[71]。對于人臉識(shí)別任務(wù),訓(xùn)練集中的人臉圖像會(huì)通過DCNN,然后每個(gè)ID的特征會(huì)存在數(shù)據(jù)庫中。當(dāng)一個(gè)新的人臉圖片過來,先計(jì)算它的特征表征,然后計(jì)算與數(shù)據(jù)庫中每個(gè)特征的相似性得分。
4.4 人臉識(shí)別的訓(xùn)練數(shù)據(jù)集
在表1中,我們總結(jié)了用來測試算法性能和訓(xùn)練DCNN模型的公開數(shù)據(jù)集
?
- MS-Celeb-1M[79]是當(dāng)前最大的的公開人臉識(shí)別數(shù)據(jù)集,包含超過10百萬個(gè)標(biāo)記的人臉圖像,這1百萬個(gè)名人列表的前100000個(gè)ID有明顯的姿態(tài),光照,遮擋和其他變化。因?yàn)樵摂?shù)據(jù)集同樣包含大量的標(biāo)簽噪音,感興趣的讀者可以閱讀[78]。
- 對于其他數(shù)據(jù)集,如CelebA數(shù)據(jù)集[80],是包含了40個(gè)人臉屬性和5個(gè)關(guān)鍵點(diǎn)的數(shù)據(jù)集,其是通過專業(yè)的標(biāo)注公司對202599個(gè)人臉圖片和10000個(gè)ID進(jìn)標(biāo)注的。
- CASIA-WebFace[13]同樣是一個(gè)主流的公開數(shù)據(jù)集,其包含484414張人臉圖片和10575個(gè)ID,都是來自IMDB網(wǎng)站。
- VGGFace[17]包含2.6百萬張人臉和2600個(gè)ID。
- MegaFace[14,15]可以用來測試人臉識(shí)別算法的魯棒性,其包含了1百萬個(gè)干擾在。該數(shù)據(jù)集包含了2個(gè)部分,第一個(gè)允許使用外部的訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)充,另一個(gè)提供了4.7百萬張人臉圖片和672000個(gè)ID。
- LFW[81]數(shù)據(jù)包含13233個(gè)人臉圖片和5749個(gè)ID,都來自網(wǎng)絡(luò),其中1680個(gè)ID有兩個(gè)甚至更多的圖片。該數(shù)據(jù)集主要用來評估靜態(tài)人臉識(shí)別算法性能,大多數(shù)都是正臉。
- IJB-A[69]數(shù)據(jù)集包含500個(gè)ID和5397個(gè)圖片,其中2042個(gè)視頻劃分成了20412幀。該數(shù)據(jù)集設(shè)計(jì)用來測試基于較大姿態(tài),光照和圖像視頻質(zhì)量變化的基礎(chǔ)上的魯棒性。
- YTF[82]數(shù)據(jù)集包含3425個(gè)視頻,涉及1595個(gè)iD,是用來測試視頻人臉識(shí)別算法的標(biāo)準(zhǔn)數(shù)據(jù)集。
- PaSC[83]數(shù)據(jù)集包含2802個(gè)視頻,涉及293個(gè)ID,被用來測試基于大的姿態(tài),光照和模糊變化下視頻人臉?biāo)惴ǖ男阅?#xff0c;這些視頻都來自受控情況下抓取的。
- Celebrities in Frontal-Profile(CFP)[84]數(shù)據(jù)集包含7000個(gè)圖像和500個(gè)ID,用來測試極端姿態(tài)變化下的人臉驗(yàn)證算法。
- UMDFaces[85]和UMDFace Video[35]數(shù)據(jù)集包含367888個(gè)靜態(tài)圖片和82777個(gè)ID,以及22075個(gè)視頻和3107個(gè)ID。這些數(shù)據(jù)集可以用來訓(xùn)練靜態(tài)和視頻的人臉數(shù)據(jù)集,UMDFace Video中的ID也出現(xiàn)在UMDFaces中,這有助于讓模型從靜態(tài)人臉識(shí)別遷移到視頻領(lǐng)域。
最近,Bansal[35]研究了一個(gè)好的大規(guī)模數(shù)據(jù)集上不同特征,其中涉及到以下問題:
- 我們可以只在靜態(tài)圖片上訓(xùn)練,然后將其擴(kuò)展到視頻上嗎?
- 更深的數(shù)據(jù)集是否好于更廣的數(shù)據(jù)集,這里更深表示每個(gè)ID的圖片增多,更廣表示ID的數(shù)量很多?
- 增加標(biāo)簽噪音是否總是能提升深度網(wǎng)絡(luò)性能?
- 人臉對齊對于人臉識(shí)別是否是必須的?
作者調(diào)研了CASIA-WebFace[13],UMDFaces[85]和他的視頻擴(kuò)展[35],Youtube face[82]和IJB-A數(shù)據(jù)集[69]。他發(fā)現(xiàn)DCNN同時(shí)在靜態(tài)圖片和視頻幀上訓(xùn)練可以獲得只在其一上訓(xùn)練有更好的結(jié)果?;谶@個(gè)實(shí)驗(yàn),他發(fā)現(xiàn)在更小的模型上,在更廣的數(shù)據(jù)集上訓(xùn)練的結(jié)果要好于更深的數(shù)據(jù)集;而對于更深的模型,更廣的數(shù)據(jù)集效果往往更好。[35]的作者工作顯示標(biāo)簽噪音通常損害人臉識(shí)別的性能,同時(shí)發(fā)現(xiàn)人臉對齊有助于人臉識(shí)別的性能提升。
4.5 性能總結(jié)
本文總結(jié)了在LFW和IJB-A數(shù)據(jù)集上人臉識(shí)別和驗(yàn)證算法的性能結(jié)果
LFW 數(shù)據(jù)集
這里采用的人臉驗(yàn)證算法是標(biāo)準(zhǔn)協(xié)議,定義3000正對和3000負(fù)對,將它們劃分到10個(gè)不重疊子集中。每個(gè)子集包含300個(gè)正對和300個(gè)負(fù)對。他包含7701個(gè)圖片和4281個(gè)ID。如表2,涉及的有DeepFace[58], DeepID2[61], DeepID3[86], FaceNet[62], Yi[13], Wang[87], Ding[88], parkhi[17], Wen[66], Liu[67], Ranjan[68], 和人類的結(jié)果
?
IJB-A benchmark
該數(shù)據(jù)集中即包含圖片也包含視頻,視頻幀如圖6
通過ROC曲線去衡量人臉驗(yàn)證算法的好壞;用累積匹配特征(cumulative match characteristic,CMC)分?jǐn)?shù)測量封閉集合下人臉識(shí)別算法的準(zhǔn)確度。另外,IJB-A在十個(gè)分片集合上做人臉驗(yàn)證(1:1匹配),每個(gè)集合包含大概11748對(1756個(gè)正對和9992個(gè)負(fù)對);類似的,在人臉識(shí)別上(1:N搜索)也包含了十個(gè)分片集合。在每個(gè)集合中,大約有112個(gè)訓(xùn)練模板和1,763個(gè)預(yù)測模板(1,187個(gè)真正的預(yù)測模板和576個(gè)冒名頂替的預(yù)測模板)。訓(xùn)練集包含333個(gè)ID,測試集包含167個(gè)沒有重復(fù)的ID。不同于LFW和YTF數(shù)據(jù)集,他們只是用一個(gè)負(fù)對稀疏集去做人臉驗(yàn)證算法的評估,IJB-A數(shù)據(jù)集將圖像/視頻幀劃分成訓(xùn)練和測試集和,所以所有可用的正和負(fù)對都能用來做評估,同樣的,每個(gè)訓(xùn)練和預(yù)測集合都包含多個(gè)模板。每個(gè)模板(ID)包含來自多個(gè)圖像和視頻的樣本集合。而LFW和YTF數(shù)據(jù)集只包含由Viola Jones 人臉檢測器檢測的人臉,而IJB-A數(shù)據(jù)集包含極端姿態(tài),光照,表情等變化。這些因素使得IJB-A變成一個(gè)具有挑戰(zhàn)的數(shù)據(jù)集。
?
CMC算法和ROC曲線可以用來做不同算法在人臉識(shí)別和驗(yàn)證下的性能評估,如表3.
除了使用平均特征表征之外,我們還使用媒體平均,即首先平均來自同一個(gè)媒體(圖像或視頻)的特征,然后進(jìn)一步平均,媒體平均特征,以生成最終特征表征,然后用triplet概率向量[73]。
表3總結(jié)了不同算法的得分,其中對比的算法有:
?
- DCNNcasiaDCNNcasia[87]
- DCNNbl(bilinearCNN)DCNNbl(bilinearCNN)[92]
- DCNNpose(multiposeDCNN模型[63])DCNNpose(multiposeDCNN模型[63])[70]
- DCNN3dDCNN3d[64]
- template adaptation(TP)[93]
- DCNNtpeDCNNtpe[73]
- DCNNallDCNNall?[2][all in one face]
- DCNNL2+tpeDCNNL2+tpe[68]
- [91]
每個(gè)算法詳細(xì)的對比在表4
5.人臉屬性
對于一個(gè)單一人臉,我們能夠驗(yàn)證人臉的屬性如:性別,表情,年齡,皮膚顏色等等。這些屬性對于圖像檢索,表情檢測和手機(jī)安全都有幫助,在生物文獻(xiàn)中,人臉屬性被稱為soft-生物性[95].Kumar[56]將屬性概念引入到圖像描述子中,以此用來做人臉驗(yàn)證。他們使用65個(gè)二值屬性來描述每個(gè)人臉圖像。Berg[56]對每個(gè)人臉對訓(xùn)練分類器,然后用這些分類器去生成人臉分類器的特征。這里每個(gè)人都被描述為與他人的相似性。這是一種自動(dòng)創(chuàng)建屬性集的方法,而不需要依賴很大的手工標(biāo)注屬性數(shù)據(jù)集。近些年DCNN也用來做屬性分類,如深度屬性的姿態(tài)對齊網(wǎng)絡(luò)(pose aligned networks for deep attributes,panda)通過將part-based模型與pose-normalized DCNN來做屬性分類[96]。[97]在adience數(shù)據(jù)集上使用DCNN去關(guān)注年齡和性別,Liu使用兩個(gè)DCNN,一個(gè)用來做人臉檢測,另一個(gè)做屬性識(shí)別,其在Celeba和LFWA數(shù)據(jù)集上在許多屬性上效果要好于PANDA[80]。
[99]中不將每個(gè)屬性獨(dú)立看待,而是利用屬性之間的關(guān)聯(lián)性去提升圖像的排序和檢索,通過先在獨(dú)立訓(xùn)練屬性分類器,然后學(xué)習(xí)這些分類器輸出對之間的相關(guān)性。Hand[100]訓(xùn)練一個(gè)單一屬性網(wǎng)絡(luò)用來分類40個(gè)屬性,通過學(xué)習(xí)這40個(gè)屬性之間關(guān)系去共享網(wǎng)絡(luò)之間的信息,而不只是屬性對。Ranjan[2]用MTL去訓(xùn)練一個(gè)單一網(wǎng)絡(luò),其可以同時(shí)做人臉檢測,人臉關(guān)鍵點(diǎn)標(biāo)注,人臉識(shí)別,三維頭部姿態(tài)估計(jì),性別分類和年齡評估,笑容檢測。最近Gunther提出無需對齊的人臉屬性分類器技術(shù)(alignment-free facial attribute classifcation technique,affact)[101]算法去執(zhí)行無需對齊的屬性分類,它使用了一個(gè)數(shù)據(jù)增強(qiáng)技術(shù),以此允許網(wǎng)絡(luò)在不需要對齊的基礎(chǔ)上做人臉屬性分類,蓋蘇阿凡在CelebA數(shù)據(jù)集上以三個(gè)網(wǎng)絡(luò)的集成學(xué)習(xí)方式達(dá)到了最好的效果。
另外,一些人臉屬性可以用來加速手機(jī)認(rèn)證性能[17]。近期提出的屬性連續(xù)認(rèn)證[102,103]方法顯示了在大陸屬性的基礎(chǔ)上可以在手機(jī)上獲得很好的認(rèn)證效果。同樣的,如果只學(xué)習(xí)人臉的一部分,那么就變得更容易了。通過使用這兩個(gè)優(yōu)勢,Samangouei[98]設(shè)計(jì)了高效的DCNN網(wǎng)絡(luò)結(jié)構(gòu),其可以部署在手機(jī)設(shè)備上,圖7介紹了如何將人臉屬性用在手機(jī)認(rèn)證上.
?
6.人臉分析的多任務(wù)學(xué)習(xí)
在這部分,介紹了幾種不同的用于人臉分析的MTL方法。Caruana[104]首先分析了MTL框架在機(jī)器學(xué)習(xí)中的應(yīng)用,然后,MTL被用來解決CV中的多種問題?;贛TL的一個(gè)早期的人臉分析工作是由Zhu[55]提出的。該算法用來解決人臉檢測,關(guān)鍵點(diǎn)定位,頭部姿態(tài)評估。另一個(gè)方法叫JointCascade[105],通過結(jié)合訓(xùn)練關(guān)鍵點(diǎn)標(biāo)注任務(wù)來提升人臉檢測效果。這些算法都是基于手工設(shè)計(jì)的特征,使得難以將MTL方法擴(kuò)展到更多的任務(wù)上。
在深度學(xué)習(xí)出來之前,MTL受限于部分?jǐn)?shù)據(jù)集,因?yàn)椴煌蝿?wù)解決的特征表征問題是不同的。例如人臉檢測通常使用HOG,而人臉識(shí)別使用LBP。類似的,關(guān)鍵點(diǎn)表征,練級和性別估計(jì),屬性分類,不同任務(wù)自然需要不同特征。然而,隨著深度學(xué)習(xí)的出現(xiàn),手工設(shè)計(jì)的特征可以拋棄了,從而訓(xùn)練一個(gè)單一的網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn)人臉檢測,關(guān)鍵點(diǎn)定位,人臉屬性預(yù)測和人臉識(shí)別成為可能。
通常而言,當(dāng)人類看圖片中的人臉時(shí),他會(huì)檢測人臉在哪,然后判別其性別,大致姿態(tài),年齡,標(biāo)簽等等。而當(dāng)機(jī)器執(zhí)行這些任務(wù)時(shí),通常需要設(shè)計(jì)獨(dú)立的算法去解決不同的任務(wù)。然而我們可以設(shè)計(jì)一個(gè)深度網(wǎng)絡(luò)去同時(shí)完成這些所有的任務(wù),并利用任務(wù)之間的關(guān)系。Goodfellow[106]將MTL解釋為一個(gè)關(guān)于DCNN的正則。在采用MTL方法時(shí),學(xué)到的參數(shù)可以即刻用在所有的任務(wù)上,這減少了過擬合,冰潔收斂于一個(gè)魯棒的解決方法。
HyperFace[10]和任務(wù)受限深度卷積網(wǎng)絡(luò)(Tasks-Constrained deep convolutional network, tcdcn)[107]. HyperFace被提出來解決人臉檢測,關(guān)鍵點(diǎn)定位,頭部姿態(tài)評估,和性別分類。他融合一個(gè)DCNN的中間層使得任務(wù)能夠利用豐富的語義特征。所以MTL可以提升獨(dú)立任務(wù)的性能。Zhang[107]提出TCDCN算法也能同時(shí)實(shí)現(xiàn)性別識(shí)別,笑容預(yù)測,眼睛檢測等等。在他們的算法中所有任務(wù)的預(yù)測都來自相同的特征空間。他們的工作顯示使用輔助任務(wù)例如眼睛檢測和笑容預(yù)測可以提升人臉關(guān)鍵點(diǎn)定位。
ranjan最近提出的all in one face[2]是使用單一的DCNN來同時(shí)完成人臉檢測,關(guān)鍵點(diǎn)標(biāo)注,人臉識(shí)別,三維頭部姿態(tài)估計(jì),笑容檢測,人臉年齡檢測和性別分類。該結(jié)構(gòu)(圖8(a))
以一個(gè)預(yù)訓(xùn)練的人臉識(shí)別網(wǎng)絡(luò)開始[73]。該網(wǎng)絡(luò)有7層卷積層和三層全連接層組成,他用來做基底網(wǎng)絡(luò)來訓(xùn)練人臉識(shí)別任務(wù),且其前6層卷積層的參數(shù)用來共享給其他人臉相關(guān)的任務(wù)。中心原則是在人臉識(shí)別任務(wù)上預(yù)訓(xùn)練的CNN為通用人臉分析任務(wù)提供了更好的初始化,因?yàn)槊恳粚拥倪^濾器保留了有辨別力的人臉信息。
?
為了利用多個(gè)數(shù)據(jù)集上所有的信息,如人臉框,人臉關(guān)鍵點(diǎn),姿態(tài),性別,年齡,笑容,和ID信息,多個(gè)子網(wǎng)絡(luò)可以關(guān)于任務(wù)相關(guān)的數(shù)據(jù)集進(jìn)行訓(xùn)練,然后將參數(shù)進(jìn)行共享,因?yàn)闆]有一個(gè)單一的數(shù)據(jù)集包含所有人臉分析任務(wù)所需的標(biāo)注信息。通過這種方法,我們可以用參數(shù)共享的方式來自適應(yīng)整個(gè)領(lǐng)域,而不是去擬合具體任務(wù)領(lǐng)域。在測試的時(shí)候,這些子網(wǎng)絡(luò)融合到一個(gè)單一的all in one face中。表5列出了基于不同數(shù)據(jù)集下訓(xùn)練all in one face。
具體的loss函數(shù)用來端到端的訓(xùn)練該網(wǎng)絡(luò)。all in one face網(wǎng)絡(luò)輸出結(jié)果在圖9。
基于MTL的DCNN同樣可以用來決定多個(gè)人臉屬性。Depghan提出深度年齡,性別和表情識(shí)別(deep age, gender, and emotion recognition,dager)[111],基于DCNN網(wǎng)絡(luò)去識(shí)別年齡,性別,表情。類似all in one face[2],它基于不同的任務(wù)采用不同的數(shù)據(jù)集去訓(xùn)練該DCNN。He[112]通過訓(xùn)練一個(gè)網(wǎng)絡(luò)去聯(lián)合的做人臉檢測和人臉屬性分析。不同于其他MTL方法,他們使用整個(gè)圖片作為網(wǎng)絡(luò)的輸入,而不只是人臉本身的區(qū)域。一個(gè)基于faster rcnn的方法可以用來一起檢測人臉,表6總結(jié)了一些近期基于MTL方法的人臉分析任務(wù)
?
7.開放問題
我們簡短的討論了對于一個(gè)自動(dòng)人臉驗(yàn)證和失敗系統(tǒng)的每個(gè)組件上的設(shè)計(jì)思路。包括:
- 人臉檢測:相對通用目標(biāo)檢測,人臉檢測是一個(gè)更具有挑戰(zhàn)的任務(wù),因?yàn)樯婕暗饺四樀亩喾N變化,這些變化包含光照的,人臉表情的,人臉角度的,遮擋等等。其他因素如模糊和低分辨率一樣增大了該任務(wù)的難度;
- 關(guān)鍵點(diǎn)檢測:大多數(shù)數(shù)據(jù)集包含幾千張圖片,一個(gè)很大的標(biāo)注和無約束數(shù)據(jù)集會(huì)使得人臉對齊系統(tǒng)具有更強(qiáng)的魯棒性來應(yīng)對其中的挑戰(zhàn),如極端的姿態(tài),低光照和小的,模糊的人臉圖像。研究者們假設(shè)更深的CNN能夠抓取更魯棒的信息;然而目前為止,仍然未研究出哪些層能夠準(zhǔn)確的提取局部特征來做人臉關(guān)鍵點(diǎn)檢測。
- 人臉驗(yàn)證/識(shí)別:對于人臉識(shí)別和驗(yàn)證而言,性能可以通過學(xué)習(xí)一個(gè)判別性距離度量來提升。由于受顯卡的內(nèi)存限制,如何選擇信息對或三元組并使用大規(guī)模數(shù)據(jù)集上的在線方法(例如,隨機(jī)梯度下降)端到端地訓(xùn)練網(wǎng)絡(luò)仍然是一個(gè)懸而未決的問題。要解決的另一個(gè)具有挑戰(zhàn)性的問題是在深度網(wǎng)絡(luò)中加入全動(dòng)態(tài)視頻處理,以實(shí)現(xiàn)基于視頻的人臉分析。
8.總結(jié)
可以參考文獻(xiàn)[12]
參考文獻(xiàn):
- R. Ranjan, S. Sankaranarayanan, A. Bansal, N. Bodla, J. C. Chen, V. M. Patel, C. D. Castillo, and R. Chellappa.?Deep learning for understanding faces: Machines may be just as good, or better, than humans?[J]. IEEE Signal Processing Magazine, 35(1):66–83, 2018
- Yiming Lin, Jie Shen, Shiyang Cheng, Maja Pantic.?Mobile Face Tracking: A Survey and Benchmark[J] arXiv Preprint, arXiv:1805.09749, 2018.
- Yuqian Zhou, Ding Liu, Thomas Huang.?Survey of Face Detection on Low-quality Images[J] arXiv Preprint, arXiv:1804.07362, 2018.
- Xin Jin, Xiaoyang Tan?Face Alignment In-the-Wild: A Survey[J] arXiv Preprint, arXiv:1608.04188, 2018.
[1] W. Y. Zhao, R. Chellappa, P. J. Phillips, and A. Rosenfeld, “Face recognition: aliterature survey,” ACM Comput. Surveys, vol. 35, no. 4, pp. 399–458, 2003.
[2] R. Ranjan, S. Sankaranarayanan, C. D. Castillo, and R. Chellappa, “An all-inone convolutional neural network for face analysis,” in Proc. IEEE Int. Conf.Automatic Face Gesture Recognition, 2017, pp. 17–24.
[3] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in Proc. Advances Neural Information Processing Systems Conf., 2012, pp. 1097–1105.
[4] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” arXiv Preprint, arXiv:1409.4842, 2014.
[5] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 770–778.
[6] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2014, pp. 580–587.
[7] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards real-time object detection with region proposal networks,” in Proc. Advances Neural Information Processing Systems Conf., 2015, pp. 91–99.
[8] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A. C. Berg, “SSD: Single shot multibox detector,” in Proc. European Conf. Computer Vision, 2016, pp. 21–37.
[9] R. Ranjan, V. M. Patel, and R. Chellappa, “A deep pyramid deformable part model for face detection,” in Proc. IEEE 7th Int. Conf. Biometrics Theory, Applications and Systems, 2015, pp. 1–8.
[10] R. Ranjan, V. Patel, and R. Chellappa, “Hyperface: a deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition,” arXiv Preprint, arXiv:1603.01249, 2016.
[11] A. Kumar, R. Ranjan, V. Patel, and R. Chellappa, “Face alignment by local deep descriptor regression,” arXiv Preprint, arXiv:1601.07950, 2016.
[12] J. Chen, R. Ranjan, S. Sankaranarayanan, A. Kumar, C. Chen, V. M. Patel, C. D. Castillo, and R. Chellappa, “Unconstrained still/video-based face verification with deep convolutional neural networks,” Int. J. Comput. Vis., pp. 1–20. 2017.
[13] D. Yi, Z. Lei, S. Liao, and S. Z. Li, “Learning face representation from scratch,” arXiv Preprint, arXiv:1411.7923, 2014.
[14] I. Kemelmacher-Shlizerman, S. M. Seitz, D. Miller, and E. Brossard, “The megaface benchmark: 1 million faces for recognition at scale,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 4873–4882.
[15] A. Nech and I. Kemelmacher-Shlizerman, “Level playing field for million scale face recognition,” in Proc. IEEE Int. Conf. Computer Vision Pattern Recognition, 2017, pp. 873–4882.
[16] Y. Guo, L. Zhang, Y. Hu, X. He, and J. Gao, “Ms-celeb-1m: A data set and benchmark for large-scale face recognition,” in Proc. European Conf. Computer Vision, 2016, pp. 87–102.
[17] O. M. Parkhi, A. Vedaldi, and A. Zisserman, “Deep face recognition,” in Proc. British Machine Vision Conf., vol. 1, no. 3, 2015, p. 6.
[18] S. Yang, P. Luo, C.-C. Loy, and X. Tang, “Wider face: A face detection benchmark,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 5525–5533.
[19] H. Jiang and E. Learned-Miller, “Face detection with the faster R-CNN,” arXiv Preprint, arXiv:1606.03473, 2016.
[20] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders, “Selective search for object recognition,” Int. J. Comput. Vis., vol. 104, no. 2, pp. 154–171, 2013.
[21] Y. Li, B. Sun, T. Wu, and Y. Wang, “Face detection with end-to-end integration of a convnet and a 3D model,” in Proc. European Conf. Computer Vision, 2016, pp. 420–436.
[22] D. Chen, G. Hua, F. Wen, and J. Sun, “Supervised transformer network for efficient face detection,” in Proc. European Conf. Computer Vision, 2016, pp. 122–138.
[23] M. Najibi, P. Samangouei, R. Chellappa, and L. Davis, “SSH: Single stage headless face detector,” arXiv Preprint, arXiv:1708.03979, 2017.
[24] K. Simonyan and A. Zisserman, “Very deep convolutional networks for largescale image recognition,” arXiv Preprint, arXiv:1409.1556, 2014.
[25] S. S. Farfade, M. J. Saberian, and L.-J. Li, “Multi-view face detection using deep convolutional neural networks,” in Proc. ACM Int. Conf. Multimedia Retrievals, 2015, pp. 643–650.
[26] S. Yang, P. Luo, C.-C. Loy, and X. Tang, “From facial parts responses to face detection: A deep learning approach,” in Proc. IEEE Int. Conf. Computer Vision, 2015, pp. 3676–3684.
[27] H. Li, Z. Lin, X. Shen, J. Brandt, and G. Hua, “A convolutional neural network cascade for face detection,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2015, pp. 5325–5334.
[28] S. Yang, Y. Xiong, C. C. Loy, and X. Tang, “Face detection through scalefriendly deep convolutional networks,” arXiv Preprint, arXiv:1706.02863,2017.
[29] S. Zhang, X. Zhu, Z. Lei, H. Shi, X. Wang, and S. Z. Li, “S3 FD: Single shot scale-invariant face detector,” arXiv Preprint, arXiv:1708.05237, 2017.
[30] V. Jain and E. Learned-Miller, “FDDB: A benchmark for face detection in unconstrained settings,” Tech. Rep. vol. 88, Univ. Massachusetts, Amherst, UM-CS-2010-009, 2010.
[31] B. Yang, J. Yan, Z. Lei, and, S. Z. Li, “Fine-grained evaluation on face detection in the wild,” in, Proc. 11th IEEE Int. Conf. WorkshopsAutomatic Face and Gesture Recognition, vol. 1, 2015, pp. 1–7.
[32] K. Zhang, Z. Zhang, Z. Li, and Y. Qiao, “Joint face detection and alignment using multitask cascaded convolutional networks,” IEEE Signal Processing Lett.,vol. 23, no. 10, pp. 1499–1503, 2016.
[33] P. Hu and D. Ramanan, “Finding tiny faces,” arXiv Prepr int, arXiv:1612.04402, 2016.
[34] S. Zafeiriou, C. Zhang, and Z. Zhang, “A survey on face detection in the wild:Past, present and future,” Comput. Vis. Image Understand., vol. 138, pp. 1–24,Sept. 2015.
[35] A. Bansal, C. D. Castillo, R. Ranjan, and R. Chellappa, “The do’s and don’ts for CNN-based face verification,” arXiv Preprint, arXiv:1705.07426, 2017.
[36] N. Wang, X. Gao, D. Tao, H. Yang, and X. Li, “Facial feature point detection: A comprehensive survey,” Neurocomputing, June 2017.
[37] G. G. Chrysos, E. Antonakos, P. Snape, A. Asthana, and S. Zafeiriou, “A comprehensive performance evaluation of deformable face tracking in-the-wild,” Int. J. Comput. Vis., pp. 1–35, 2016.
[38] S. Zhu, C. Li, C.-C. Loy, and X. Tang, “Unconstrained face alignment via cascaded compositional learning,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 3409–3417.
[39] S. Ren, X. Cao, Y. Wei, and J. Sun, “Face alignment at 3000 fps via regressing local binary features,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, June 2014, pp. 1685–1692.
[40] X. Xiong and F. D. la Torre, “Supervised descent method and its applications to face alignment,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2013,pp. 532–539.
[41] V. Kazemi and J. Sullivan, “One millisecond face alignment with an ensemble of regression trees,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2014, pp. 1867–1874.
[42] X. Burgos-Artizzu, P. Perona, and P. Dollár, “Robust face landmark estimation under occlusion,” in Proc. IEEE Int. Conf. Computer Vision, 2013, pp. 1513–1520.
[43] E. Antonakos, J. Alabort-i Medina, and S. Zafeiriou, “Active pictorial structures,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2015, pp. 5435–5444.
[44] A. Jourabloo and X. Liu, “Pose-invariant 3D face alignment,” in Proc. IEEE Int. Conf. Computer Vision, 2015, pp. 3694–3702.
[45] A.Jourabloo and X. Liu, “Large-pose face alignment via CNN-based dense 3D model fitting,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016,pp. 4188–4196.
[46] X. Zhu, Z. Lei, X. Liu, H. Shi, and S. Z. Li, “Face alignment across large poses: A 3D solution,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 146–155.
[47] Y. Sun, X. Wang, and X. Tang, “Deep convolutional network cascade for facial point detection,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2013, pp. 3476–3483.
[48] J. Zhang, S. Shan, M. Kan, and X. Chen, “Coarse-to-fine auto-encoder networks for real-time face alignment,” in Proc. European Conf. Computer Vision, 2014, pp. 1–16.
[49] X. Xiong and F. D. la Torre, “Global supervised descent method,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2015, pp. 2664–2673.
[50] G. Trigeorgis, P. Snape, M. A. Nicolaou, E. Antonakos, and S. Zafeiriou, “Mnemonic descent method: A recurrent process applied for end-to-end face alignment,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 4177–4187.
[51] A. Bulat and G. Tzimiropoulos, “Convolutional aggregation of local evidence for large pose face alignment,” in Proc. British Machine Vision Conference (BMVC), Sept. 2016, pp. 86.1–86.12.
[52] A. Kumar, A. Alavi, and R. Chellappa, “Kepler: Keypoint and pose estimation of unconstrained faces by learning efficient H-CNN regressors,” in Proc. IEEE Int. Conf. Automatic Face Gesture Recognition, 2017. doi: 10.1109/FG.2017.149
[53] C. Sagonas, E. Antonakos, G. Tzimiropoulos, S. Zafeiriou, and M. Pantic, “300 Faces in-the-wild challenge: database and results,” Image Vis. Comput., vol.47, pp. 3–18, Mar. 2016.
[54] T. Hassner, S. Harel, E. Paz, and R. Enbar, “Effective face frontalization in unconstrained images,” in Proc. IEEE Int. Conf. Computer Vision Pattern Recognition, 2015, pp. 4295–4304.
[55] X. Zhu and D. Ramanan, “Face detection, pose estimation, and landmark localization in the wild,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, June 2012, pp. 2879–2886.
[56] E. Learned-Miller, G. B. Huang, A. RoyChowdhury, H. Li, and G. Hua, “Labeled faces in the wild: A survey,” in Proc. Advances Face Detection Facial Image Analysis Conf., 2016, pp. 189–248.
[57] G. B. Huang, H. Lee, and E. Learned-Miller, “Learning hierarchical representations for face verification with convolutional deep belief networks,” in Proc. IEEE Int. Conf. Computer Vision Pattern Recognition, 2012, pp. 2518–2525.
[58] Y. Taigman, M. Yang, M. A. Ranzato, and L. Wolf, “Deepface: Closing the gap to human-level performance in face verification,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2014, pp. 1701–1708.
[59] Y. Sun, X. Wang, and X. Tang, “Deep learning face representation from predicting 10000 classes,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2014, pp. 1891–1898.
[60] Y. Sun, Y. Chen, X. Wang, and X. Tang, “Deep learning face representation by joint identification-verification,” in Proc. Advances Neural Information Processing Systems Conf., 2014, pp. 1988–1996.
[61] Y. Sun, X. Wang, and X. Tang, “Deeply learned face representations are sparse, selective, and robust,” arXiv Preprint, arXiv:1412.1265, 2014.
[62] F. Schroff, D. Kalenichenko, and J. Philbin, “Facenet: A unified embedding for face recognition and clustering,” arXiv Preprint, arXiv:1503.03832, 2015.
[63] W. AbdAlmageed, Y. Wu, S. Rawls, S. Harel, T. Hassne, I. Masi, J. Choi, J. Lekust, J. Kim, P. Natarajana, R. Nevatia, and G. Medioni, “Face recognition using deep multi-pose representations,” in Proc. IEEE Winter Conf. Applications Computer Vision, 2016, pp. 1–9.
[64] I. Masi, A. T. Tran, J. T. Leksut, T. Hassner, and G. Medioni, “Do we really need to collect millions of faces for effective face recognition?” arXiv Preprint, arXiv:1603.07057, 2016.
[65] C. Ding and D. Tao, “Trunk-branch ensemble convolutional neural networks for video-based face recognition,” arXiv Preprint, arXiv:1607.05427, 2016.
[66] Y. Wen, K. Zhang, Z. Li, and Y. Qiao, “A discriminative feature learning approach for deep face recognition,” in Proc. European Conf. Computer Vision, 2016, pp. 499–515.
[67] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song, “Sphereface: Deep hypersphere embedding for face recognition,” in Proc. IEEE Int. Conf. Computer Vision Pattern Recognition, 2017, pp. 212–220.
[68] R. Ranjan, C. D. Castillo, and R. Chellappa, “L2-constrained softmax loss for discriminative face verification,” arXiv Preprint, arXiv:1703.09507, 2017.
[69] B. F. Klare, B. Klein, E. Taborsky, A. Blanton, J. Cheney, K. Allen, P. Grother, A. Mah, M. Burge, and A. K. Jain, “Pushing the frontiers of unconstrained face detection and recognition: IARPA Janus Benchmark A,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2015, pp. 1931–1939.
[70] J. Yang, P. Ren, D. Chen, F. Wen, H. Li, and G. Hua, “Neural aggregation network for video face recognition,” arXiv Preprint, arXiv:1603.05474, 2016.
[71] N. Bodla, J. Zheng, H. Xu, J.-C. Chen, C. Castillo, and R. Chellappa, “Deep heterogeneous feature fusion for template-based face recognition,” in Proc. IEEE Winter Conf. Applications Computer Vision, 2017, pp. 586–595.
[72] J. Hu, J. Lu, and Y.-P. Tan, “Discriminative deep metric learning for face verification in the wild,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2014, pp. 1875–1882.
[73] S. Sankaranarayanan, A. Alavi, C. Castillo, and R. Chellappa, “Triplet probabilistic embedding for face verification and clustering,” arXiv Preprint, arXiv:1604.05417, 2016.
[74] H. O. Song, Y. Xiang, S. Jegelka, and S. Savarese, “Deep metric learning via lifted structured feature embedding,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 4004–4012.
[75] J. Yang, D. Parikh, and D. Batra, “Joint unsupervised learning of deep representations and image clusters,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 5147–5156.
[76] Z. Zhang, P. Luo, C. C. Loy, and X. Tang, “Joint face representation adaptation and clustering in videos,” in Proc. European Conf. Computer Vision, 2016, pp. 236–251.
[77] G. Trigeorgis, K. Bousmalis, S. Zafeiriou, and B. W. Schuller, “A deep matrix factorization method for learning attribute representations,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 3, pp. 417–429, 2017.
[78] W.-A. Lin, J.-C. Chen, and R. Chellappa, “A proximity-aware hierarchical clustering of faces,” in Proc. IEEE Conf. Automatic Face Gesture Recognition, 2017. doi: 10.1109/FG.2017.134
[79] Y. Guo, L. Zhang, Y. Hu, X. He, and J. Gao, “MS-celeb-1m: A data set and benchmark for large scale face recognition,” in Proc. European Conf. Computer Vision, 2016, pp. 87–102.
[80] Z. Liu, P. Luo, X. Wang, and X. Tang, “Deep learning face attributes in the wild,” in Proc. IEEE Int. Conf. Computer Vision, 2015, pp. 3730–3738.
[81] G. B. Huang, M. Mattar, T. Berg, and E. Learned-Miller, “Labeled faces in the wild: A database for studying face recognition in unconstrained environments,” vol.1, no. 2, p. 3, Tech. Rep. 07-49, Univ. Massachusetts, Amherst, 2007.
[82] L. Wolf, T. Hassner, and, I. Maoz, “Face recognition in unconstrained videos with matched background similarity,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2011, pp. 529–534.
[83] J. R. Beveridge, P. J. Phillips, D. S. Bolme, B. A. Draper, G. H. Givens, Y. M. Lui, M. N. Teli, H. Zhang, W. T. Scruggs, K. W. Bowyer, and P. J. Flynn, “The challenge of face recognition from digital point-and-shoot cameras,” in Proc. IEEE
Int. Conf. Biometrics: Theory, Applications and Systems, 2013, pp. 1–8. [84] S. Sengupta, J.-C. Chen, C. Castillo, V. M. Patel, R. Chellappa, and D. W. Jacobs, “Frontal to profile face verification in the wild,” in Proc. IEEE Winter Conf. Applications of Computer Vision, 2016, pp. 1–9.
[85] A. Bansal, A. Nanduri, C. Castillo, R. Ranjan, and R. Chellappa, “Umdfaces: An annotated face data set for training deep networks,” arXiv Preprint, arXiv:1611.01484, 2016.
[86] Y. Sun, D. Liang, X. Wang, and X. Tang, “Deepid3: Face recognition with very deep neural networks,” arXiv Preprint, arXiv:1502.00873, 2015.
[87] D. Wang, C. Otto, and A. K. Jain, “Face search at scale: 80 million gallery,” arXiv Preprint, arXiv:1507.07242, 2015.
[88] C. Ding and D. Tao, “Robust face recognition via multimodal deep face representation,” arXiv Preprint, arXiv:1509.00244, 2015.
[89] L. Wolf, T. Hassner, and I. Maoz, “Face recognition in unconstrained videos with matched background similarity,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2011, pp. 529–534.
[90] P. Viola and M. J. Jones, “Robust real-time face detection,” Int. J. Comput. Vis., vol. 57, no. 2, pp. 137–154, 2004.
[91] “IARPA Janus benchmark: A performance report,” National Institute of Standards and Technology (NIST), 2016.
[92] A. RoyChowdhury, T.-Y. Lin, S. Maji, and E. Learned-Miller, “One-to-many face recognition with bilinear CNNs,” in Proc. IEEE Winter Conf. Applications of Computer Vision, 2016, pp. 1–9.
[93] N. Crosswhite, J. Byrne, O. M. Parkhi, C. Stauffer, Q. Cao, and A. Zisserman, “Template adaptation for face verification and identification,” Proc. IEEE Int. Conf. Automatic Face Gesture Recognition, 2017, pp. 1–8.
[94] S. Xie, R. Girshick, P. Dollár, Z. Tu, and K. He, “Aggregated residual transformations for deep neural networks,” arXiv Preprint, arXiv:1611.05431, 2016.
[95] A. K. Jain, S. C. Dass, and K. Nandakumar, “Can soft biometric traits assist user recognition?” in Defense and Security. Orlando, FL: Int. Society Optics and Photonics, 2004, pp. 561–572.
[96] N. Zhang, M. Paluri, M. Ranzato, T. Darrell, and L. Bourdev, “Panda: Pose aligned networks for deep attribute modeling,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2014, pp. 1637–1644.
[97] G. Levi and T. Hassner, “Age and gender classification using convolutional neural networks,” in Proc. IEEE Conf. Computer Vision Pattern Recognition Workshops, 2015, pp. 34–42.
[98] P. Samangouei and R. Chellappa, “Convolutional neural networks for attributebased active authentication on mobile devices,” in Proc. IEEE Int. Conf. Biometrics Theory Applications Systems, 2016, pp. 1–8.
[99] B. Siddiquie, R. S. Feris, and L. S. Davis, “Image ranking and retrieval based on multi-attribute queries,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2011, pp. 801–808.
[100] E. M. Hand and R. Chellappa, “Attributes for improved attributes: A multitask network utilizing implicit and explicit relationships for facial attribute classification,” in Proc. AAAI Conf. Artificial Intelligence, 2017, pp. 4068–4074.
[101] M. Günther, A. Rozsa, and T. E. Boult, “Affact-alignment free facial attribute classification technique,” arXiv Preprint, arXiv:1611.06158, 2016.
[102] P. Samangouei, V. M. Patel, and R. Chellappa, “Attribute-based continuous user authentication on mobile devices,” in Proc. IEEE Int. Conf. Biometrics Theory Applications Systems, 2015, pp. 1–8.
[103] P. Samangouei, V. Patel, and R. Chellappa, “Facial attributes for active authentication on mobile devices,” Image Vis. Computing, vol. 58, pp. 181–192, Feb. 2017.
[104] R. Caruana, “Multitask learning,” in Learning to Learn. New York: Springer, 1998, pp. 95–133.
[105] Y. W. X. C. D. Chen, S. Ren, and J. Sun, “Joint cascade face detection and alignment,” in Proc. European Conf. Computer Vision, 2014, vol. 8694, pp. 109–122.
[106] I. Goodfellow, Y. Bengio, and A. Courville. (2016). Deep Learning. Cambridge, MA: MIT Press. [Online]. Available:?http://www.deeplearningbook?.org
[107] Z. Zhang, P. Luo, C. Loy, and X. Tang, “Facial landmark detection by deep multi-task learning,” in Proc. European Conf. Computer Vision, 2014, pp. 94–108.
[108] K. Ricanek and T. Tesafaye, “Morph: A longitudinal image database of normal adult age-progression,” in Proc. Int. Conf. Automatic Face Gesture Recognition, Apr. 2006, pp. 341–345.
[109] R. Rothe, R. Timofte, and L. V. Gool, “DEX: Deep expectation of apparent age from a single image,” in Proc. IEEE Int. Conf. Computer Vision Workshop ChaLearn Looking at People, 2015, pp. 10–15.
[110] M. Koestinger, P. Wohlhart, P. M. Roth, and H. Bischof, “Annotated facial landmarks in the wild: A large-scale, real-world database for facial landmark localization,”
in Proc. IEEE 1st Int. Workshop Benchmarking Facial Image Analysis Technologies, 2011, pp. 2144–2151.
[111] A. Dehghan, E. G. Ortiz, G. Shu, and S. Z. Masood, “DAGER: Deep age, gender and emotion recognition using convolutional neural network,” arXiv Preprint, arXiv:1702.04280, 2017.
[112] K. He, Y. Fu, and X. Xue, “A jointly learned deep architecture for facial attribute analysis and face detection in the wild,” arXiv Preprint, arXiv:1707.08705, 2017.
總結(jié)
以上是生活随笔為你收集整理的face recognition[翻译][深度学习理解人脸]的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: face recognition[翻译]
- 下一篇: Redis 数据类型介绍