Face Alignment at 3000 FPS via Regressing Local Binary Features(CVPR2014)读后感(first pass)
生活随笔
收集整理的這篇文章主要介紹了
Face Alignment at 3000 FPS via Regressing Local Binary Features(CVPR2014)读后感(first pass)
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
Face Alignment at 3000 FPS via Regressing Local Binary Features(CVPR2014)讀后感(first pass)
這篇文章還是通過訓練形狀誤差與特征的回歸模型來做人臉配準(face alignment)。重點在于它用回歸樹學習一個局部二值特征(LBF,注意不是LBP),用線性回歸來訓練回歸模型。
由于提取和回歸局部二值特征計算量很低,我們這個系統(tǒng)的方法比之前方法快很多。它在筆記本上定位一組人臉標記點獲得了3000幀每秒的處理速度,或者在智能手機上(主要是ARM低功耗,計算能力差)300幀每秒。
形狀回歸方法以級聯(lián)的方式預(yù)測臉部形狀 S 。從一個初始的形狀
,S
通過一級一級估計形狀增量
進階式改善的。在一個通用形式下,一個形狀增量
在
t 級回歸為
(1)
其中 I 是輸入圖像,
是來自于上一級的形狀,
是特征映射函數(shù),
是線性回歸矩陣。應(yīng)當注意的是
依賴于
I 和
。 在這種方式下學到的特征是指的是作為一個“形狀編碼”特征。通過將
加入到
,將回歸帶入到下一級。
這個特征映射函數(shù)
在形狀回歸中是必須的(意在說明LBF特征的重要性)。在前人的工作中,它不是由人工設(shè)定,就是通過學習得到。文獻32的過程簡單的使用了SIFT特征作為特征映射并通過線性回歸訓練
(本文的方法與這片文章相比是只是特征更好,比如速度更快,局部性的優(yōu)勢?)。相比于這種簡單方法的優(yōu)良工作特性,手工設(shè)置的通用目標特征并不是特定人臉配準問題的最優(yōu)特征。相反,文獻[5,3]方法以基于樹的回歸結(jié)合
和
,并且是整個人臉區(qū)域的數(shù)據(jù)驅(qū)動的方法。
從原理上講,后面的基于學習的方法應(yīng)該更好,因為它學習的特征是有針對性的。但是在已有文獻的報告中,它的效果只是與使用手工設(shè)的SIFT特征的方法持平(on par 怎么翻譯好?),我們認為這主要由于過高自由度的
導(dǎo)致的兩個問題。第一個是實際操作的問題。使用整個人臉區(qū)域作為訓練輸入結(jié)果導(dǎo)致了極大的特征池,如果我們想要學習最具判別性的特征組合,這個問題轉(zhuǎn)換為了無法負擔的訓練消耗。第二個是泛化問題,這個問題更為顯著。這個巨大的特征池具有太多的噪聲特征。這將很容易導(dǎo)致過擬合并有損測試集上的表現(xiàn)。
在我們的工作中,我們提出了一個更好地基于學習的方法。它通過一個“局部”原理使學習有規(guī)則的進行。這個原則主要是由于兩方面的見解:在一級中對于定位一個確定的地標點,1)最具判別性的紋理信息分布在上一級估計出的地標店的周圍,2)形狀的信息內(nèi)容和這個地標點的局部紋理提供了充足的信息。這些見解表明我們或許應(yīng)該首先獨立的為每一個地標點學習最具直覺型的特征來編碼局部紋理特征,然后再執(zhí)行聯(lián)合的回歸去融合形狀的信息內(nèi)容。
為學習
,我們提出了兩種正則化方法:
被分解為一組獨立的特征特征映射函數(shù),例如
(L
是地標點的數(shù)量)。每一個
通過獨立的在第L個地標點的周圍的區(qū)域回歸學習到的。
這個提出的正則化方法可以有效的篩選出主要的噪聲和判別性較弱的特征,降低學習的復(fù)雜度,從而導(dǎo)致更好地泛化性能。(我想這句話最重要)
為學習每一個
,我們使用基于回歸的集成樹去歸納二值特征。為預(yù)測地標點,這個二值特征編碼了一個區(qū)域內(nèi)的直覺性的結(jié)構(gòu)信息。在集成了所有的局部二值特征去組成特征映射
之后,我們?yōu)槿珗D的形狀估計判別性的學習了
。我們發(fā)現(xiàn)我們的二步學習處理方法(局部二值特征和全局線性特征)比通過基于樹的回歸[5,3]的一步聯(lián)合的學習
和
要好很多。
除了具有更好地準確性,我們的方法還更高效。因為局部二值特征是基于樹的,并且高度稀疏,處理提取和回歸這樣的特征是十分迅速的。我們展出了一個快速的版本在一個單核筆記本上跑出了3000+fps,獲得了與最杰出的方法相媲美的結(jié)果。我們的正常情況下的版本跑出了300+fps的結(jié)果,并且在各種benchmark的精準度的比較上都比之前最杰出的方法更勝一籌。我們方法的高速性能在一些計算性能有限和計算負擔被主要擔心的場景和設(shè)備中顯得極為重要。比如說,我們的快速版本仍然可以現(xiàn)代手機上跑出300fts的成績。據(jù)我們所知,在移動終端上這是速度幾倍于實時方法的第一種方法。這將為一些在線人臉應(yīng)用開辟新的機遇。
1st pass 小結(jié)
這篇文章有很高的應(yīng)用價值。它與之前的face alignment by explicit shape regression都屬于判別性形狀回歸的方法。這片文章主要用的方法是線性回歸和回歸樹。這片文章的主要貢獻是使用限制使用了局部特征和回歸樹,將特征空間映射到線性空間,再使用線性回歸學習。文章對于如何提取一個landmark周圍的像素點沒有說明。應(yīng)該是先求得當前形狀和平均形狀之間的旋轉(zhuǎn)和尺寸變換后,在用變換后的offset去像素點(在One
Millisecond Face Alignment with an Ensemble of Regression Trees中有詳細說明)。
1 整體思路是這樣的
Step 1 對圖片初始化 1 個shape(這個shape 就是一組點,目標是將它們移動到相應(yīng)的眼睛鼻子嘴巴上)
Step 2 基于這個Shape 計算其每個點的周圍像素,或者兩shape兩個點中間像素的值(為了對光照魯棒,一般是兩個點像素的差值),這個特征記做Features。
Step 3 計算當前Shape 和 人工標記好Shape 的差異Delta_Shape , 然后訓練一個函數(shù)y = f(x) , 使 Delta_Shape = f(Features)。
Step 4 將這個Delta_Shape 加上初始的Shape 就是最終要求的人臉形狀。
這個過程就是該方法的Face Alignmeng 核心過程。所謂配準就是計算這個增量。訓練就是學習特征與這個增量的關(guān)系。本文的方法是對這個過程進行了級聯(lián),從而降低了每次配準的難度。將上文Step 4 中的結(jié)果代入Step1 循環(huán)10次。就是整體的過程。
這個圖比較宏觀,可以看出的是第二列的特征是通過學習得到的,第四列的回歸關(guān)系是線性的,也是通過學習得到的(這個過程本人還不是很懂,懂了之后對這一部分要豐富一下,但我知道可以用liblinear來做,過幾天做出來再講講里面的細節(jié)和問題 ,對于內(nèi)存不夠的問題可以用稀疏矩陣, 可以看出第三列里特征矩陣式稀疏的)。
我現(xiàn)在還在研究上一幅圖第三列之前的過程是如何計算的, 主要先說這一部分吧。當然如果計算出了這個局部二值特征,本文的工作也完成一大半。因為后面的工作是交給liblinear庫去做的。
對于局部二值特征的學習現(xiàn)在是傷透了腦筋,對于連續(xù)的變量,不知道如何使用回歸樹,更確切的講,離散的值可以算一個信息增益來選擇特征,那么連續(xù)的變量如何選擇特征呢,使用哪些指標?
對于這個問題,現(xiàn)在找到了兩種辦法,第一個辦法是使用特征與屬性的相關(guān)性來選擇特征,然后在隨機給出閾值。另一個方法是選擇一個特征和閾值,這個特征和閾值可以讓將樣本分為兩部分,每一部分求一個平均,然后兩部分的樣本各自減去平均值再求平方和。
FAQ
1. 對連續(xù)的X和Y 如何學習回歸樹
這個可以參考face alignment by explicit shape regression這片文章和CART算法。
有些問題大家一起思考一下,盡可能寫下您的見解。
1 深度為 5 和 7 的樹分別多少個splite node 和 leaf node。
2 什么是回歸?
3 回歸樹的X 和 Y 分別是什么 ?
4 對于樹中的一個split node ,它分到這個節(jié)點的樣本繼續(xù)分成兩部分,怎樣的兩部分才是最好的?
5 什么是SSE?
6 信息增益是什么?(學習回歸樹之前必看)
7 什么叫做model combination ?
8 隨機森林和Boosted Tree 有什么區(qū)別,本文的方法是那種?
參考資料
龍星課程2012lesson7 model combination.
X. P. Burgos-Artizzu, P. Perona, and P. Dollar. Robust face
landmark estimation under occlusion. 2013. (有源碼)
X. Cao, Y. Wei, F. Wen, and J. Sun. Face alignment by
explicit shape regression. In Computer Vision and Pattern
Recognition (CVPR), 2012 IEEE Conference on. IEEE,
2012.
這篇文章還是通過訓練形狀誤差與特征的回歸模型來做人臉配準(face alignment)。重點在于它用回歸樹學習一個局部二值特征(LBF,注意不是LBP),用線性回歸來訓練回歸模型。
摘要翻譯
這篇文章展示了對人臉配準問題的一個高效,非常準確的回歸方法。我們的方法有兩個新穎的部分: 一組 局部二值特征, 和學習這些特征的局部性準則。這個局部性準則指導(dǎo)我們獨立的為每個人臉標記學習一組高判別性的局部二值特征。這個得到的局部二值特征會用于為最終輸出聯(lián)合的學習一個線性回歸模型(就是將這些局部而知特征連起來作為一個特征向量)。我們的方法在目前很具有挑戰(zhàn)性的測試目標上獲得了超好的效果。進一步,由于提取和回歸局部二值特征計算量很低,我們這個系統(tǒng)的方法比之前方法快很多。它在筆記本上定位一組人臉標記點獲得了3000幀每秒的處理速度,或者在智能手機上(主要是ARM低功耗,計算能力差)300幀每秒。
介紹翻譯
判別性形狀回歸方法以解決準確和魯邦的人臉配準的主流方法先后涌現(xiàn)出來。這主要是因為這些方法有一些顯著的特征:1)它們是純判別性的(這有什么理論基礎(chǔ)么?);2) 它們可以迭代的執(zhí)行形狀約束(意思是,迭代的將形狀收斂到最好。);3)它們有能力有效平衡訓練數(shù)據(jù)的具體體型(主要是由于線性回歸有一個正則化項)。形狀回歸方法以級聯(lián)的方式預(yù)測臉部形狀 S 。從一個初始的形狀
,S
通過一級一級估計形狀增量
進階式改善的。在一個通用形式下,一個形狀增量
在
t 級回歸為
(1)
其中 I 是輸入圖像,
是來自于上一級的形狀,
是特征映射函數(shù),
是線性回歸矩陣。應(yīng)當注意的是
依賴于
I 和
。 在這種方式下學到的特征是指的是作為一個“形狀編碼”特征。通過將
加入到
,將回歸帶入到下一級。
這個特征映射函數(shù)
在形狀回歸中是必須的(意在說明LBF特征的重要性)。在前人的工作中,它不是由人工設(shè)定,就是通過學習得到。文獻32的過程簡單的使用了SIFT特征作為特征映射并通過線性回歸訓練
(本文的方法與這片文章相比是只是特征更好,比如速度更快,局部性的優(yōu)勢?)。相比于這種簡單方法的優(yōu)良工作特性,手工設(shè)置的通用目標特征并不是特定人臉配準問題的最優(yōu)特征。相反,文獻[5,3]方法以基于樹的回歸結(jié)合
和
,并且是整個人臉區(qū)域的數(shù)據(jù)驅(qū)動的方法。
從原理上講,后面的基于學習的方法應(yīng)該更好,因為它學習的特征是有針對性的。但是在已有文獻的報告中,它的效果只是與使用手工設(shè)的SIFT特征的方法持平(on par 怎么翻譯好?),我們認為這主要由于過高自由度的
導(dǎo)致的兩個問題。第一個是實際操作的問題。使用整個人臉區(qū)域作為訓練輸入結(jié)果導(dǎo)致了極大的特征池,如果我們想要學習最具判別性的特征組合,這個問題轉(zhuǎn)換為了無法負擔的訓練消耗。第二個是泛化問題,這個問題更為顯著。這個巨大的特征池具有太多的噪聲特征。這將很容易導(dǎo)致過擬合并有損測試集上的表現(xiàn)。
在我們的工作中,我們提出了一個更好地基于學習的方法。它通過一個“局部”原理使學習有規(guī)則的進行。這個原則主要是由于兩方面的見解:在一級中對于定位一個確定的地標點,1)最具判別性的紋理信息分布在上一級估計出的地標店的周圍,2)形狀的信息內(nèi)容和這個地標點的局部紋理提供了充足的信息。這些見解表明我們或許應(yīng)該首先獨立的為每一個地標點學習最具直覺型的特征來編碼局部紋理特征,然后再執(zhí)行聯(lián)合的回歸去融合形狀的信息內(nèi)容。
為學習
,我們提出了兩種正則化方法:
被分解為一組獨立的特征特征映射函數(shù),例如
(L
是地標點的數(shù)量)。每一個
通過獨立的在第L個地標點的周圍的區(qū)域回歸學習到的。
這個提出的正則化方法可以有效的篩選出主要的噪聲和判別性較弱的特征,降低學習的復(fù)雜度,從而導(dǎo)致更好地泛化性能。(我想這句話最重要)
為學習每一個
,我們使用基于回歸的集成樹去歸納二值特征。為預(yù)測地標點,這個二值特征編碼了一個區(qū)域內(nèi)的直覺性的結(jié)構(gòu)信息。在集成了所有的局部二值特征去組成特征映射
之后,我們?yōu)槿珗D的形狀估計判別性的學習了
。我們發(fā)現(xiàn)我們的二步學習處理方法(局部二值特征和全局線性特征)比通過基于樹的回歸[5,3]的一步聯(lián)合的學習
和
要好很多。
除了具有更好地準確性,我們的方法還更高效。因為局部二值特征是基于樹的,并且高度稀疏,處理提取和回歸這樣的特征是十分迅速的。我們展出了一個快速的版本在一個單核筆記本上跑出了3000+fps,獲得了與最杰出的方法相媲美的結(jié)果。我們的正常情況下的版本跑出了300+fps的結(jié)果,并且在各種benchmark的精準度的比較上都比之前最杰出的方法更勝一籌。我們方法的高速性能在一些計算性能有限和計算負擔被主要擔心的場景和設(shè)備中顯得極為重要。比如說,我們的快速版本仍然可以現(xiàn)代手機上跑出300fts的成績。據(jù)我們所知,在移動終端上這是速度幾倍于實時方法的第一種方法。這將為一些在線人臉應(yīng)用開辟新的機遇。
1st pass 小結(jié)
這篇文章有很高的應(yīng)用價值。它與之前的face alignment by explicit shape regression都屬于判別性形狀回歸的方法。這片文章主要用的方法是線性回歸和回歸樹。這片文章的主要貢獻是使用限制使用了局部特征和回歸樹,將特征空間映射到線性空間,再使用線性回歸學習。文章對于如何提取一個landmark周圍的像素點沒有說明。應(yīng)該是先求得當前形狀和平均形狀之間的旋轉(zhuǎn)和尺寸變換后,在用變換后的offset去像素點(在One
Millisecond Face Alignment with an Ensemble of Regression Trees中有詳細說明)。
整體思路
先說下整體的思路,再說這篇文章的特點,最后再說下問題(主要是我有疑問沒弄懂和弄懂的地方)。1 整體思路是這樣的
Step 1 對圖片初始化 1 個shape(這個shape 就是一組點,目標是將它們移動到相應(yīng)的眼睛鼻子嘴巴上)
Step 2 基于這個Shape 計算其每個點的周圍像素,或者兩shape兩個點中間像素的值(為了對光照魯棒,一般是兩個點像素的差值),這個特征記做Features。
Step 3 計算當前Shape 和 人工標記好Shape 的差異Delta_Shape , 然后訓練一個函數(shù)y = f(x) , 使 Delta_Shape = f(Features)。
Step 4 將這個Delta_Shape 加上初始的Shape 就是最終要求的人臉形狀。
這個過程就是該方法的Face Alignmeng 核心過程。所謂配準就是計算這個增量。訓練就是學習特征與這個增量的關(guān)系。本文的方法是對這個過程進行了級聯(lián),從而降低了每次配準的難度。將上文Step 4 中的結(jié)果代入Step1 循環(huán)10次。就是整體的過程。
本文特點
首先是特征的學習。和之前的方法不同,這篇文章使用 Random Forest 學習的結(jié)果作為特征。而不是直接向之前一樣用像素差值作為特征,上個圖吧這個圖比較宏觀,可以看出的是第二列的特征是通過學習得到的,第四列的回歸關(guān)系是線性的,也是通過學習得到的(這個過程本人還不是很懂,懂了之后對這一部分要豐富一下,但我知道可以用liblinear來做,過幾天做出來再講講里面的細節(jié)和問題 ,對于內(nèi)存不夠的問題可以用稀疏矩陣, 可以看出第三列里特征矩陣式稀疏的)。
我現(xiàn)在還在研究上一幅圖第三列之前的過程是如何計算的, 主要先說這一部分吧。當然如果計算出了這個局部二值特征,本文的工作也完成一大半。因為后面的工作是交給liblinear庫去做的。
對于局部二值特征的學習現(xiàn)在是傷透了腦筋,對于連續(xù)的變量,不知道如何使用回歸樹,更確切的講,離散的值可以算一個信息增益來選擇特征,那么連續(xù)的變量如何選擇特征呢,使用哪些指標?
對于這個問題,現(xiàn)在找到了兩種辦法,第一個辦法是使用特征與屬性的相關(guān)性來選擇特征,然后在隨機給出閾值。另一個方法是選擇一個特征和閾值,這個特征和閾值可以讓將樣本分為兩部分,每一部分求一個平均,然后兩部分的樣本各自減去平均值再求平方和。
FAQ
1. 對連續(xù)的X和Y 如何學習回歸樹
這個可以參考face alignment by explicit shape regression這片文章和CART算法。
有些問題大家一起思考一下,盡可能寫下您的見解。
1 深度為 5 和 7 的樹分別多少個splite node 和 leaf node。
2 什么是回歸?
3 回歸樹的X 和 Y 分別是什么 ?
4 對于樹中的一個split node ,它分到這個節(jié)點的樣本繼續(xù)分成兩部分,怎樣的兩部分才是最好的?
5 什么是SSE?
6 信息增益是什么?(學習回歸樹之前必看)
7 什么叫做model combination ?
8 隨機森林和Boosted Tree 有什么區(qū)別,本文的方法是那種?
參考資料
龍星課程2012lesson7 model combination.
X. P. Burgos-Artizzu, P. Perona, and P. Dollar. Robust face
landmark estimation under occlusion. 2013. (有源碼)
X. Cao, Y. Wei, F. Wen, and J. Sun. Face alignment by
explicit shape regression. In Computer Vision and Pattern
Recognition (CVPR), 2012 IEEE Conference on. IEEE,
2012.
總結(jié)
以上是生活随笔為你收集整理的Face Alignment at 3000 FPS via Regressing Local Binary Features(CVPR2014)读后感(first pass)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【CCAI大咖秀】AlphaGo/Mob
- 下一篇: 深度解析容器化技术在广发证券交易系统的应