DeeoID:Deep learning face representation from predicting 10,000 classes
參考文獻(xiàn):《DeeoID:Deep learning face representation from predicting 10,000 classes》
1 Effective way to learn high-level over-complete features with deep ConvNets.
圖1 箭頭指示傳播的方向。每一層神經(jīng)元的數(shù)量的標(biāo)記在multiple deep ConvNets的旁邊。DeepID提取自每一個ConvNet的最后一個隱層,and predict a large number of identity classes。沿著特征提取特征數(shù)量繼續(xù)減少級聯(lián)到DeepID層。 特征的數(shù)量沿著特征提取的級聯(lián)方向逐漸減少,直到DeepID層.
The ConvNets are learned to classify all the?faces available for training by their identities, with the last?hidden layer neuron activations as features (referred to as Deep hidden IDentity features or DeepID).每一個 ConvNet 的輸入為一個face patch,在最下面的層提取局部的低級特征. 沿著特征提取的級聯(lián)方向提取的特征的數(shù)量會逐漸減少,但是更多全局的和高級的特征會在上面的層提取出來。最后得到的是一個160維的DeepID特征,包行rich identity?information,并且可以直接用來預(yù)測大數(shù)據(jù)量的身份類別分類(比如,1000類).
同時分類所有的身份類別,而不是訓(xùn)練二元分類器是基于兩方面的考慮。首先, it is?much more difficult to predict a training sample into one?of many classes than to perform binary classification。這個具有挑戰(zhàn)性的任務(wù)可以充分利用神經(jīng)網(wǎng)絡(luò)的超級學(xué)習(xí)能力的提取人臉識別的有效特征。第二,它隱式地對ConvNets添加了一個強(qiáng)正規(guī)化, 這有助于形成共享的隱藏表示, 可以很好的分類所有的身份類別。所以,這樣學(xué)習(xí)到的高級特征具有很好的凡或能力并且用小數(shù)據(jù)集做人臉訓(xùn)練不會導(dǎo)致過擬合。我們限制DeepID的維數(shù)要顯著少于分類的類別,這是學(xué)習(xí)得到具有高度緊湊和區(qū)分性的特征的關(guān)鍵。我們進(jìn)一步連接提取自不同人臉區(qū)域的DeepID來形成復(fù)雜完備的表示。測試中發(fā)現(xiàn),學(xué)習(xí)得到的特征可以很好的一般化到新(訓(xùn)練中沒有用到, which are not seen in training)的身份類別測試,并且可以和任何人臉驗證的分類器(例如,Joint Bayesian)集成。
2 網(wǎng)絡(luò)結(jié)構(gòu)(Deep ConvNets)
圖2 網(wǎng)絡(luò)中有4個卷積層的網(wǎng)絡(luò),除了第4個卷積層,前3個卷積層后面都連接一個max-pooling層。DeepID層和第4個卷積層以及第3個max-pooling層全連接(這樣做的是因為第4層卷積層含有的神經(jīng)元個數(shù)太少,成為信息傳遞的瓶頸),這做是作者所謂的Multi-scaleConvNets。?第4個卷積層提取到的特征是比第3個max-pooling層更加具有全局性的特征。最后,DeepID接一個softmax進(jìn)行分類。這樣提取到的特征是對類間具有很好的判別性的,相當(dāng)于增加了類間的距離。(從作者的另外一篇文章DeepID2的得出)。
? ?如圖所示的Deep ConvNet輸入是39x31xk的長方形面片或者是31x31xk的正方形面片,k=3是RGB三通道彩色面片,k=1是灰度圖面片。如果輸入圖的尺寸發(fā)生變化,則后面的卷積層的尺寸也要相應(yīng)發(fā)生變化。預(yù)測的類別數(shù)目發(fā)生變化,相應(yīng)的softmax層輸出尺寸也發(fā)生變化。DeepID層是固定的160維,不發(fā)生改變。卷積過程跟普通的卷積神經(jīng)網(wǎng)絡(luò)一樣,每個卷積后面的相應(yīng)函數(shù)式ReLU, 被實驗證明(在這篇文章中提到)比sigmoid函數(shù)的有更好的擬合能力。
3 特征提取
圖3, 上半部分:中度尺度的10個人臉區(qū)域。上半部分左側(cè)的5個是弱對齊的人臉,右側(cè)的5個,是分別以5個標(biāo)記點為中心的局部區(qū)域。
下半部分:其中2個面片的3中尺度表示。
對人臉圖片檢測5個標(biāo)記(包括兩個眼睛的中心,鼻尖,和兩個嘴角),基于兩個眼睛的中心點和兩個嘴角的中點對人臉進(jìn)行全局對齊。特征提取出自60個人臉面片,這60個面片,包含10個不同的區(qū)域,3種尺度,RGB或灰度通道。圖3是一組示例。
論文中訓(xùn)練了60個ConvNets, 每一個提取2個160維的特征(即一個face patch和該face patch水平翻轉(zhuǎn)后的相對應(yīng)的face patch). A special case is patches around the ?two eye centers and the two mouth corners, which are not?flipped themselves, but the patches symmetric with them?(for example, the flipped counterpart of the patch centered?on the left eye is derived by flipping the patch centered?on the right eye). The total length of DeepID is 19, 200?(160 × 2 × 60), which is ready for the final face verification.
4 人臉驗證
圖 4,用于人臉驗證的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。已經(jīng)標(biāo)注了層的類型和維數(shù)。
We use the Joint Bayesian technique for face verification based on the DeepID.
該部分的神經(jīng)網(wǎng)絡(luò)的輸入是60組(前面60個ConvNets的輸出),每一組640維,(人臉驗證,需要輸入兩張人臉圖片,來判定這兩張人臉圖片是不是來自同一個人),每一張face patch包括做側(cè)面和右側(cè)面,320維,故每一組共640維。
從face patch學(xué)習(xí)到的是局部特征,將這些face patch組合起來再訓(xùn)練一個神經(jīng)網(wǎng)絡(luò),這樣從局部特征中可以學(xué)到一種全局性的特征。
第一個隱藏層和這60組是局部連接的,目的使該隱藏層能夠?qū)W習(xí)到該局部face patch壓縮的特征表示,然后這個隱藏層和跟它節(jié)點數(shù)目相同的隱藏層進(jìn)行全連接,以求學(xué)到全局特征。
最后連接一個二分類器,來判定是否來自同一個人。(The hidden neurons are ReLUs and?the output neuron is sigmoid)隱藏層的相應(yīng)也是用的ReLU,并且同時對所有隱藏層節(jié)點使用了dropout方式。使用dropout對于使用梯度法來訓(xùn)練網(wǎng)絡(luò)是必須的,因為不用dropout而學(xué)習(xí)高維特征會帶來梯度擴(kuò)散(gradientdiffusion)問題。
5 配置和實驗數(shù)據(jù)
總結(jié)
以上是生活随笔為你收集整理的DeeoID:Deep learning face representation from predicting 10,000 classes的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人脸识别技术大总结——Face Dete
- 下一篇: DeepID2:Deep Learnin