AU R-CNN:利用专家先验知识进行表情运动单元检测的R-CNN模型
?PaperWeekly 原創(chuàng) ·?作者|Chen?Ma
學(xué)校|清華大學(xué)
研究方向|人臉識別和物體檢測
這篇論文率先利用先驗知識和物體檢測技術(shù)做 Action Unit 人臉表情識別,在 BP4D 和 DISFA 兩個數(shù)據(jù)庫達(dá)到了 SOTA 的實驗結(jié)果:BP4D 數(shù)據(jù)庫的 F1 score 63%。
論文標(biāo)題:AU R-CNN: Encoding Expert Prior Knowledge into R-CNN for action unit detection
論文鏈接:https://arxiv.org/abs/1812.05788
代碼鏈接:https://github.com/sharpstill/AU_R-CNN
介紹
FACS (Facial Action Coding System) 是人臉國際標(biāo)準(zhǔn)組織定義的 44 種人臉運動單元(AU),這些運動單元可以組合表示人臉表情所有可能的表情(包含皺眉,抿嘴等),AU 是組成人臉表情的基石。
本論文中所謂的人臉 AU 檢測的任務(wù)是指:識別一段視頻中每一幀圖像的人臉上出現(xiàn)哪些 AU。因為 AU 只是面部肌肉的細(xì)微運動,而且不同的面部肌肉運動幅度大小不同,所以 AU 檢測任務(wù)具有挑戰(zhàn)性。AU 檢測在測謊儀、汽車駕駛輔助系統(tǒng)(探測是否駕駛員瞌睡)等有重要應(yīng)用。
▲ 圖1. Action Unit 的例子
?
圖 1 是 Action Unit的例子,關(guān)于 Action Unit 的表情到底定義了怎樣的細(xì)微的面部表情。以下鏈接提供了動畫演示,讀者可以自行觀看。
https://imotions.com/blog/facial-action-coding-system/
總結(jié)一下已有方法的缺點:
?
1. 已有的方法雖然提出了 AU center 的概念作為 AU 發(fā)生的重要區(qū)域,并被定義為人臉關(guān)鍵點的附近,這種定義粗糙而位置不精確。AU 發(fā)生在人臉肌肉運動的特定區(qū)域,但不一定是某個 landmark 附近。
?
2. 已有的研究使用 CNN 去識別整張臉的圖像,而非局部區(qū)域的 AU。
?
3. 人臉 AU 識別是一個多 label 的分類問題,這種多 label 的約束可以被限制在更細(xì)的粒度上:人臉的局部區(qū)域上,從而達(dá)到更高的精度。
方法
AU R-CNN 的方法框架如圖 2 所示,AU 檢測最困難之處在于人臉的五官大小不定,每個人長相不同,而且發(fā)出的表情的位置也不相同,這種難題之下如何檢測呢?
?
本文站在前人的肩膀上,利用人臉關(guān)鍵點!人臉關(guān)鍵點提供了豐富的人臉位置信息,若能充分利用,則消除了五官的差異,更能細(xì)微精確地檢測 AU。所以該框架首先將人臉劃分成不同的區(qū)域,每個區(qū)域獨立地進行檢測,如圖 2 所示:
▲ 圖2. AU R-CNN方法的整體概覽框架
?
首先用 landmark 將人臉的 68 個關(guān)鍵點定位,再依照不同區(qū)域 ROI 獨立檢測,最后將每個 ROI 的檢測匯總,便得到了全臉的檢測結(jié)果!
▲?圖3. 關(guān)鍵點和面部分割圖
?
為了利用這些關(guān)鍵點的信息和 AU 的定義,本文引入了專家先驗知識的概念,AU R-CNN 方法將 AU 與其相關(guān)的人臉區(qū)域的劃分定義為專家知識,提出了 AU partition rule 的規(guī)則。該規(guī)則如表 1 所示:
▲?表1. AU partition rule(也即專家先驗知識)
AU partition rule 將不同的 AU 分組,同一個位置區(qū)域發(fā)生的 AU 被分為一組,比如都是眼睛部位的 AU,所以誕生了 AU group 的概念。(表 1 左),由此全臉被劃分成九個區(qū)域,每個區(qū)域是一組 ROI 表示,最后本文使用該 ROI 的最小外包矩形來表示該 AU group 區(qū)域,如圖 4 所示。
圖4. AU group和其外包矩形,之后這些矩形被送入R-CNN的檢測頭
?
另外一個難題在于即使同一個區(qū)域也可能發(fā)生多個 AU 的表情出現(xiàn),因此本文使用了 sigmoid cross entropy 的損失函數(shù)來計算損失并反向傳播優(yōu)化網(wǎng)絡(luò)參數(shù):
圖5. AU R-CNN 整體網(wǎng)絡(luò)結(jié)構(gòu)圖,左側(cè)由先驗知識截取出不同區(qū)域的 bounding box,右側(cè)是檢測頭去分別檢測,與此同時,ground-truth label 也被按照不同區(qū)域分割了,最后計算 sigmoid cross entropy 損失
AU R-CNN擴展
AU R-CNN 可以被作為一個基礎(chǔ)框架產(chǎn)生出來很多擴展和變種,這是由于視頻的先后幀之間有時間順序關(guān)系,所以可以使用 ConvLSTM 建模先后幀之間的關(guān)系。如下圖所示,每個部位的小 box 被單獨的時間軸建模,用一個獨立的 ConvLSTM 去建模并學(xué)習(xí)。
但是在具體實驗中,作者發(fā)現(xiàn)這種利用上下幀的建模方法效果不是很好,甚至總體的平均 F1 score 不如單幀檢測。作者在實驗部分也分析了其中的原因。
?
另外除了 ConvLSTM 這種時空卷積,還可以使用雙流法等其他方法進行擴展,總體如下表:
實驗
實驗在 BP4D 和 DISFA 兩個數(shù)據(jù)庫上進行,該文的實驗部分值得稱道的一點是,作者采用了標(biāo)準(zhǔn)的 AU R-CNN,并在 ResNet-101 和 VGG-16、VGG-19 幾個網(wǎng)絡(luò)上進行測試:
實驗結(jié)果如下,可以看到 AU R-CNN 結(jié)合 ResNet-101 的 backbone 取得最佳的實驗結(jié)果:
剝離實驗中,主要探究這種局部檢測到底比標(biāo)準(zhǔn)的 CNN 那種全臉檢測效果好多少,所以在不同分辨率下與標(biāo)準(zhǔn) CNN 也進行了比較:
DISFA 數(shù)據(jù)庫都是連續(xù)的表情視頻,實驗結(jié)果如下:
?
?
最后,作者總結(jié)了不同的 AU R-CNN 擴展及其適用范圍:
?
總結(jié)
在本文中,作者研究了如何將先驗知識融合進 R-CNN 這種物體檢測框架,并使用 RoI pooling 層在每個位置分別檢測,豐富的實驗證明了該做法的有效性,也取得了 State-of-the-art 的實驗結(jié)果。
點擊以下標(biāo)題查看更多往期內(nèi)容:?
變分推斷(Variational Inference)最新進展簡述
變分自編碼器VAE:原來是這么一回事
圖神經(jīng)網(wǎng)絡(luò)三劍客:GCN、GAT與GraphSAGE
如何快速理解馬爾科夫鏈蒙特卡洛法?
深度學(xué)習(xí)預(yù)訓(xùn)練模型可解釋性概覽
ICLR 2020:從去噪自編碼器到生成模型
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的AU R-CNN:利用专家先验知识进行表情运动单元检测的R-CNN模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 苹果 iOS 18.0.1 更新发布:修
- 下一篇: 陆军现役战机首次参展