「技术综述」人脸表情识别研究
https://www.toutiao.com/i6709336196419420676/
?
作者 | 李振東/言有三
編輯 | 言有三
隨著機器學習和深度神經網絡兩個領域的迅速發(fā)展以及智能設備的普及,人臉識別技術正在經歷前所未有的發(fā)展,關于人臉識別技術討論從未停歇。目前,人臉識別精度已經超過人眼,同時大規(guī)模普及的軟硬件基礎條件也已具備,應用市場和領域需求很大,基于這項技術的市場發(fā)展和具體應用正呈現蓬勃發(fā)展態(tài)勢。人臉表情識別(facial expression recognition, FER)作為人臉識別技術中的一個重要組成部分,近年來在人機交互、安全、機器人制造、自動化、醫(yī)療、通信和駕駛領域得到了廣泛的關注,成為學術界和工業(yè)界的研究熱點。本文將對人臉識別中的表情識別的相關內容做一個較為詳細的綜述。
1 表情相關概述
1.1 表情定義與分類
“表情”是我們日常生活中提到很多的一個詞語,在人際溝通中,人們通過控制自己的面部表情,可以加強溝通效果。人臉表情是傳播人類情感信息與協(xié)調人際關系的重要方式,據心理學家A.Mehrabia的研究表明,在人類的日常交流中,通過語言傳遞的信息僅占信息總量的7%,而通過人臉表情傳遞的信息卻達到信息總量的55%,可以這么說,我們每天都在對外展示自己的表情也在接收別人的表情,那么表情是什么呢?
面部表情是面部肌肉的一個或多個動作或狀態(tài)的結果。這些運動表達了個體對觀察者的情緒狀態(tài)。面部表情是非語言交際的一種形式。它是表達人類之間的社會信息的主要手段,不過也發(fā)生在大多數其他哺乳動物和其他一些動物物種中。
人類的面部表情至少有21種,除了常見的高興、吃驚、悲傷、憤怒、厭惡和恐懼6種,還有驚喜(高興+吃驚)、悲憤(悲傷+憤怒)等15種可被區(qū)分的復合表情。
表情是人類及其他動物從身體外觀投射出的情緒指標,多數指面部肌肉及五官形成的狀態(tài),如笑容、怒目等。也包括身體整體表達出的身體語言。一些表情可以準確解釋,甚至在不同物種成員之間,憤怒和極端滿足是主要的例子。然而,一些表情則難以解釋,甚至在熟悉的個體之間,厭惡和恐懼是主要的例子。一般來說,面部各個器官是一個有機整體,協(xié)調一致地表達出同一種情感。面部表情是人體(形體)語言的一部分,是一種生理及心理的反應,通常用于傳遞情感。
1.2 表情的研究
面部表情的研究始于19世紀,1872年,達爾文在他著名的論著《人類和動物的表情(The Expression of the Emotions in Animals and Man,1872)》中就闡述了人的面部表情和動物的面部表情之間的聯系和區(qū)別。
1971年,Ekman和Friesen對現代人臉表情識別做了開創(chuàng)性的工作,他們研究了人類的6種基本表情(即高興、悲傷、驚訝、恐懼、憤怒、厭惡),確定識別對象的類別,并系統(tǒng)地建立了有上千幅不同表情的人臉表情圖像數據庫,細致的描述了每一種表情所對應的面部變化,包括眉毛、眼睛、眼瞼、嘴唇等等是如何變化的。
1978年,Suwa等人對一段人臉視頻動畫進行了人臉表情識別的最初嘗試,提出了在圖像序列中進行面部表情自動分析。
20世紀90年代開始,由K.Mase和A.Pentland使用光流來判斷肌肉運動的主要方向,使用提出的光流法進行面部表情識別之后,自動面部表情識別進入了新的時期。
1.3 微表情
隨著對表情研究的深入,學者們將目光聚焦到一種更加細微的表情的研究,即微表情的研究,那么什么是微表情呢?
微表情是心理學名詞,是一種人類在試圖隱藏某種情感時無意識做出的、短暫的面部表情。他們對應著七種世界通用的情感:厭惡、憤怒、恐懼、悲傷、快樂、驚訝和輕蔑。微表情的持續(xù)時間僅為1/25秒至1/5秒,表達的是一個人試圖壓抑與隱藏的真正情感。雖然一個下意識的表情可能只持續(xù)一瞬間,但有時表達相反的情緒。
微表情具有巨大的商業(yè)價值和社會意義。
在美國,針對微表情的研究已經應用到國家安全、司法系統(tǒng)、醫(yī)學臨床和政治選舉等領域。在國家安全領域,有些訓練有素的恐怖分子等危險人物可能輕易就通過測謊儀的檢測,但是通過微表情,一般就可以發(fā)現他們虛假表面下的真實表情,并且因為微表情的這種特點,它在司法系統(tǒng)和醫(yī)學臨床上也有著較好的應用。電影制片人導演或者廣告制作人等也可以通過人群抽樣采集的方法對他們觀看宣傳片或者廣告時候的微表情來預測宣傳片或者廣告的收益如何。
總之,隨著科技的進步和心理學的不斷發(fā)展,對面部表情的研究將會越來越深入,內容也會越來越豐富,應用也將越來越廣泛。
2 表情識別的應用
2.1 在線API
(1) Microsoft Azure
該API包括人臉驗證、面部檢測、以及表情識別等幾部分。對于人臉API已集成的表情識別功能,可針對圖像上所有面部的一系列表情(如氣憤、蔑視、厭惡、恐懼、高興、沒有情緒、悲傷和驚訝)返回置信度,通過JSON返回識別結果。可以認為這些情感跨越了文化界限,通常由特定的面部表情傳達。
鏈接:https://azure.microsoft.com/zh-cn/services/cognitive-services/face/圖2.1為人臉API識別結果。
圖2.1 Microsoft Azure人臉API表情識別實際操作示意圖
(2) Baidu AI開放平臺(配備微信小程序)
該API可以檢測圖中的人臉,并為人臉標記出邊框。檢測出人臉后,可對人臉進行分析,獲得眼、口、鼻輪廓等72個關鍵點定位準確識別多種人臉屬性,如性別,年齡,表情等信息。該技術可適應大角度側臉,遮擋,模糊,表情變化等各種實際環(huán)境。
鏈接:https://ai.baidu.com/tech/face/detect圖2.2為該API的功能演示。
?
圖2.2 Baidu AI開放平臺人臉API的功能演示
(3) 騰訊優(yōu)圖AI開放平臺(配備微信小程序)
該API對于任意一幅給定的圖像,采用智能策略對其進行搜索以確定其中是否含有人臉,如果是則返回人臉的位置、大小和屬性分析結果。當前支持的人臉屬性有:性別、表情(中性、微笑、大笑)、年齡(誤差估計小于5歲)、是否佩戴眼鏡(普通眼鏡、墨鏡)、是否佩戴帽子、是否佩戴口罩。目前優(yōu)圖人臉檢測和分析不僅成熟應用于圖片內的人臉顏值分析,檢測到人臉時啟動相機等娛樂場景,還可通過對圖像或視頻中的人臉進行檢測和計數,能夠輕松了解區(qū)域內的人流量,并且可以通過對廣告受眾群體的人臉檢測和分析,了解人群的性別、年齡等屬性和分布,據此進行更精準匹配的廣告投放。
鏈接:http://youtu.qq.com/#/face-detect圖2.3為該API的功能演示。
?
圖2.3 騰訊優(yōu)圖AI開放平臺人臉API的功能演示
2.2 APP
(1) Polygram
微信已經成為了我們生活中必不可少的一部分,社交、轉賬、支付、購物均可以其為載體,刷微信、刷朋友圈、發(fā)段子、斗圖成為了我們空閑時間的日常,各種微信表情包成為一大主流。Polygram與以往的社交軟件的方式不同,是一款基于人臉識別的表情包為主要特色的社交軟件,加持人臉識別與神經網絡技術,它可以使用用戶的臉部表情來生成一個emoji。在這里,用戶可以通過人臉識別技術,搜索發(fā)送相應表情。Polygram是一個人工智能動力社會網絡,可以理解人臉表情。它以基于人臉識別的表情包為主要特色,即能夠利用人臉識別技術,對面部的真實表情進行檢測,從而搜索到相應的表情,并發(fā)送該表情。當用戶在Polygram上發(fā)布圖片或視頻時,它非常聰明的是可以使用面部識別技術和手機攝像頭,自動捕獲用戶在社交平臺上瀏覽朋友分享的照片、文字、視頻等信息時,臉部出現的真實表情,您將了解您的好友對他們的感受。這是通過模仿面部表情的現場表情符號來完成的,并允許用戶對自己的臉部做出反應。
圖2.4 用戶在使用Polygram
(2) 落網emo
emo,是一款可以識別情緒的音樂APP,我們總是在掏出手機打開音樂播放器之后,不停的在播放列表中找歌,卻難以在存了幾百首歌的播放列表中找到此刻想聽的,這并非出于執(zhí)念,只是因為心情。快樂的時候,想聽跳躍的歌;悲傷的時候,要放低沉的曲兒;激動的時候,需要激昂的調……每個人都有心情不同的時候,每個人都需要不同的音樂解藥。emo因此而生,解決聽歌煩惱,在最適合的時候播放最適合的歌。
在emo面前的你,會是最誠實的你,不必掩藏你的心情,愉快便是愉快,悲傷即是悲傷。emo會通過前置攝像頭掃描你的臉,推算出你當下的心情狀態(tài),你會驚訝于它的準確度之高,而且,不僅是愉快悲傷,它還能“看”出來其它心情如:平靜、困惑、驚訝、憤怒等等。
推算心情不是唯一讓人驚嘆的地方,在推算出你的心情狀態(tài)之后,emo還會貼心地為你推送音樂。emo擁有龐大優(yōu)質的音樂后臺曲庫,推送的每一首歌都由人工打上心情標簽,每一首歌都是我們?yōu)槟憔奶暨x的,符合你現時心情的。簡單來說emo是一個音樂播放器,而臉部識別技術的嵌入讓這個播放器又沒那么簡單——emo可以通過掃描用戶的臉部表情,判斷用戶的情緒,推薦給用戶相應的音樂。產品的立意是希望用戶在每一刻都能聽到想聽的符合心情的歌曲。總體而言,該App也跳出了一般意義上的播放器,是一款十分有意思的產品,期待優(yōu)化的更好一些。其他三大主流音樂播放器或許未來也可以借鑒一下。
2.3 分析總結
目前,各家大廠的API都已經非常成熟,同時由于微信小程序的興起,很多APP的功能都可以遷移至小程序完成,通過廣泛的調研,可以發(fā)現目前做人臉識別的產品較多,而聚焦于表情識別的并不多,或者僅僅是簡單的給出是否微笑等簡單的表情提示,大部分并沒有將其與產品進行一個有機的結合。在調研過程中,個人覺得emo是一個很好的點子,不過很可惜并沒有得到很好的推廣。
目前,僅針對人臉識別的技術相對成熟,表情識別還有很大的市場,接下來需要做的是將表情識別運用到實際場景中,將其與現實需求進行良好結合。例如在游戲的制作上面,可以根據人類情感做出實時反映,增強玩家沉浸感;在遠程教育方面,可以根據學生表情調整授課進度、授課方法等;在安全駕駛方面,可以根據司機表情,判斷司機駕駛狀態(tài),避免事故發(fā)生。在公共安全監(jiān)控方面,可以根據表情判斷是否有異常情緒,預防犯罪;在制作廣告片的時候,制作者往往都會頭疼一個問題:該在什么時候插入商標logo、該在什么時候跳出產品圖片才能讓觀眾對這個品牌、這個產品有更深的印象?表情識別就可以幫助廣告制作者解決這一令人頭疼的問題。制作者只需要在廣告片完成后,邀請一部分人來試看這個廣告片,并在試看過程中使用表情識別系統(tǒng)測試觀看者的情緒變化,找到他們情緒波動最大的段落,這就是最佳的logo插入段落。與其類似的,可以幫助廣告制作者找出最佳的logo植入點,還可以幫助電影制作方尋找出一部電影中最吸引人的部分來制作電影的預告片,以確保預告片足夠吸引人,保證有更多的人在看完預告片后愿意走進電影院觀看“正片”。表情識別是一個很有發(fā)展前景的方向,將其與日常所需緊密聯系是這類產品需要考量的重要因素,而不單單只是給一個檢測結果而已,或許這個未來的發(fā)展方向之一。
3 表情常用開源數據庫
(1) KDEF與AKDEF(karolinska directed emotional faces)數據集
鏈接:http://www.emotionlab.se/kdef/這個數據集最初是被開發(fā)用于心理和醫(yī)學研究目的。它主要用于知覺,注意,情緒,記憶等實驗。在創(chuàng)建數據集的過程中,特意使用比較均勻,柔和的光照,被采集者身穿統(tǒng)一的T恤顏色。這個數據集,包含70個人,35個男性,35個女性,年齡在20至30歲之間。沒有胡須,耳環(huán)或眼鏡,且沒有明顯的化妝。7種不同的表情,每個表情有5個角度。總共4900張彩色圖。尺寸為562*762像素。圖3.1是該數據集中一個微笑的示例。
圖3.1 KDEF與AKDEF Dataset中微笑示例
(2) RaFD數據集
鏈接:http://www.socsci.ru.nl:8180/RaFD2/RaFD?p=main該數據集是Radboud大學Nijmegen行為科學研究所整理的,這是一個高質量的臉部數據庫,總共包含67個模特:20名白人男性成年人,19名白人女性成年人,4個白人男孩,6個白人女孩,18名摩洛哥男性成年人。總共8040張圖,包含8種表情,即憤怒,厭惡,恐懼,快樂,悲傷,驚奇,蔑視和中立。每一個表情,包含3個不同的注視方向,且使用5個相機從不同的角度同時拍攝的,圖3.2是該數據集中5個方向的一個示例,圖3.3是該數據集中一個表情的示例。
圖3.2 RaFD Dataset中5個方向的一個示例
?
圖3.3 RaFD Dataset中一個表情示例
(3) Fer2013數據集
該數據集,包含共26190張48*48灰度圖,圖片的分辨率比較低,共6種表情。分別為0 anger生氣、1 disgust 厭惡、2 fear 恐懼、3 happy 開心、4 sad 傷心、5 surprised 驚訝、6 normal 中性。圖3.4為Fer2013數據集的部分數據。
圖3.4 Fer2013 Database的部分數據
(4) CelebFaces Attributes Dataset (CelebA)數據集
鏈接:http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
CelebA是商湯科技的一個用于研究人臉屬性的數據集,一個包含超過200K名人圖像的大型人臉屬性數據集,每個數據集都有40個屬性注釋。該數據集中的圖像涵蓋了大型姿態(tài)變化和復雜背景。CelebA的多樣非常好,有約10萬張帶微笑屬性的數據,圖3.5是該數據集中一些微笑的示例。
圖3.5 CelebA Dataset中一些微笑示例
(5) Surveillance Cameras Face Database(SCface)
鏈接:http://www.scface.org/SCface是人臉靜態(tài)圖像的數據庫。圖像是在不受控制的室內環(huán)境中使用五種不同品質的視頻監(jiān)控攝像機拍攝的。數據庫包含130個主題的4160靜態(tài)圖像(在可見和紅外光譜中)。圖3.6是該數據集中不同姿勢的一些示例。
圖3.6 SCface Database中不同姿勢的一些示例
(6) Japanese Female Facial Expression (JAFFE) Database
該數據庫包含由10名日本女性模特組成的7幅面部表情(6個基本面部表情+1個中性)的213幅圖像。每個圖像被60個日語科目評為6個情感形容詞。圖3.7是該數據集中的部分數據。
圖3.7 JAFFE中的部分數據
除上述介紹到的開源數據集外還有許多關于表情的開源數據集,總之需要多去搜索總結,使用這些開源數據集,我們可以省去很多構造數據的時間,也便于我們訓練出一個魯棒性比較好的模型。
4 人臉表情識別研究方法
4.1 表情識別系統(tǒng)
人臉表情識別系統(tǒng)如圖4.1所示,主要由人臉圖像的獲取、人臉檢測、特征提取、特征分類四部分組成。
圖4.1 人臉表情識別系統(tǒng)
由于開源表情數據庫目前已經比較多,圖像獲取難度不大,人臉檢測算法也比較成熟,已經發(fā)展成為一個獨立的研究方向,因此人臉表情識別的研究主要體現在系統(tǒng)的后面兩個步驟:特征提取和特征分類上,下面將從傳統(tǒng)研究方法和深度學習研究方法對以上兩個步驟進行闡述。
4.2 傳統(tǒng)研究方法
4.2.1 特征提取
表情特征提取主要采用數學方法,依靠計算機技術對人臉表情的數字圖像進行數據的組織和處理,提取表情特征,去除非表情噪聲的方法。在某些情況下,特征提取算法提取了圖像的主要特征,客觀上降低了圖像的維數,因此這些特征提取算法也具有降維的作用。
人臉表情的產生是一個很復雜的過程,如果不考慮心理和環(huán)境因素,呈現在觀察者面前的就是單純的肌肉運動,以及由此帶來的面部形體和紋理的變化。靜態(tài)圖像呈現的是表情發(fā)生時單幅圖像的表情狀態(tài),動態(tài)圖像呈現的是表情在多幅圖像之間的運動過程。因此根據表情發(fā)生時的狀態(tài)和處理對象來區(qū)分,表情特征提取算法大體分為基于靜態(tài)圖像的特征提取方法和基于動態(tài)圖像的特征提取方法。其中基于靜態(tài)圖像的特征提取算法可分為整體法和局部法,基于動態(tài)圖像的特征提取算法又分為光流法、模型法和幾何法。
基于靜態(tài)圖像的特征提取方法:
(1)整體法
人臉表情依靠肌肉的運動來體現。人臉表情靜態(tài)圖像直觀地顯示了表情發(fā)生時人臉肌肉運動所產生的面部形體和紋理的變化。從整體上看,這種變化造成了面部器官的明顯形變,會對人臉圖像的全局信息帶來影響,因此出現了從整體角度考慮表情特征的人臉表情識別算法。
整體法中的經典算法包括主元分析法(PCA)、獨立分量分析法(ICA)和線性判別分析法(LDA)。研究者針對于此也做了大量的工作,文獻【1-3】采用FastICA算法提取表情特征,該方法不但繼承了ICA算法能夠提取像素間隱藏信息的特點,而且可以通過迭代,快速地完成對表情特征的分離。文獻【4】提出了支持向量鑒別分析(SVDA)算法,該算法以Fisher線性判別分析和支持向量機基礎,能夠在小樣本數據情況下,使表情數據具有最大的類間分離性,而且不需要構建SVM算法所需要的決策函數。實驗證明了該算法的識別率高于PCA和LDA。文獻【5】依靠二維離散余弦變換,通過頻域空間對人臉圖像進行映射,結合神經網絡實現對表情特征的分類。
(2)局部法
靜態(tài)圖像上的人臉表情不僅有整體的變化,也存在局部的變化。面部肌肉的紋理、皺褶等局部形變所蘊含的信息,有助于精確地判斷表情的屬性。局部法的經典方法是Gabor小波法和LBP算子法。文獻【6】以Gabor小波等多種特征提取算法為手段,結合新的分類器對靜態(tài)圖像展開實驗。文獻【7】首先人工標記了34個人臉特征點,然后將特征點的Gabor小波系數表示成標記圖向量,最后計算標記圖向量和表情語義向量之間的KCCA系數,以此實現對表情的分類。文獻【8】提出了CBP算子法,通過比較環(huán)形鄰域的近鄰點對,降低了直方圖的維數。針對符號函數的修改,又增強了算法的抗噪性,使CBP算子法取得了較高的識別率。
基于動態(tài)圖像的特征提取方法:
動態(tài)圖像與靜態(tài)圖像的不同之處在于:動態(tài)圖像反映了人臉表情發(fā)生的過程。因此動態(tài)圖像的表情特征主要表現在人臉的持續(xù)形變和面部不同區(qū)域的肌肉運動上。目前基于動態(tài)圖像的特征提取方法主要分為光流法、模型法和幾何法。
(1)光流法
光流法是反映動態(tài)圖像中不同幀之間相應物體灰度變化的方法。早期的人臉表情識別算法多采用光流法提取動態(tài)圖像的表情特征,這主要在于光流法具有突出人臉形變、反映人臉運動趨勢的優(yōu)點。因此該算法依舊是傳統(tǒng)方法中來研究動態(tài)圖像表情識別的重要方法。文獻【9】首先采用連續(xù)幀之間的光流場和梯度場,分別表示圖像的時空變化,實現每幀人臉圖像的表情區(qū)域跟蹤;然后通過特征區(qū)域運動方向的變化,表示人臉肌肉的運動,進而對應不同的表情。
(2)模型法
人臉表情識別中的模型法是指對動態(tài)圖像的表情信息進行參數化描述的統(tǒng)計方法。常用算法主要包括主動形狀模型法(ASM)和主動外觀模型法(AAM),兩種算法都可分為形狀模型和主觀模型兩部分。就表觀模型而言,ASM反映的是圖像的局部紋理信息,而AAM反映的是圖像的全局紋理信息。文獻【10】提出了基于ASM的三維人臉特征跟蹤方法,該方法對人臉81個特征點進行跟蹤建模,實現了對部分復合動作單元的識別。文獻【11】借助圖像的地形特征模型來識別人臉動作和表情;利用AAM和人工標記的方法跟蹤人臉特征點,并按照特征點取得人臉表情區(qū)域;通過計算人臉表情區(qū)域的地形直方圖來獲得地形特征,從而實現表情識別。文獻【12】提出了基于二維表觀特征和三維形狀特征的AAM算法,在人臉位置發(fā)生偏移的環(huán)境下,實現了對表情特征的提取。
(3)幾何法
在表情特征提取方法中,研究者考慮到表情的產生與表達在很大程度上是依靠面部器官的變化來反映的。人臉的主要器官及其褶皺部分都會成為表情特征集中的區(qū)域。因此在面部器官區(qū)域標記特征點,計算特征點之間的距離和特征點所在曲線的曲率,就成為了采用幾何形式提取人臉表情的方法。文獻【13】使用形變網格對不同表情的人臉進行網格化表示,將第一幀與該序列表情最大幀之間的網格節(jié)點坐標變化作為幾何特征,實現對表情的識別。
4.2.2 特征分類
特征分類的目的是判斷特征所對應的表情類別。在人臉表情識別中,表情的類別分為兩部分:基本表情和動作單元。前者一般適用于所有的處理對象,后者主要適用于動態(tài)圖像,可以將主要的特征分類方法分為基于貝葉斯網絡的分類方法和基于距離度量的分類方法。
(1)基于貝葉斯網絡的分類方法
貝葉斯網絡是以貝葉斯公式為基礎、基于概率推理的圖形化網絡。從人臉表情識別的角度出發(fā),概率推理的作用就是從已知表情信息中推斷出未知表情的概率信息的過程。基于貝葉斯網絡的方法包括各種貝葉斯網絡分類算法和隱馬爾科夫模型(HMM)算法。文獻【14】研究者 分別采用了樸素貝葉斯(NB)分類器、樹增強器(TAN)和HMM實現表情特征分類。
(2)基于距離度量的分類方法
基于距離度量的分類方法是通過計算樣本之間的距離來實現表情分類的。代表算法有近鄰法和SVM算法。近鄰法是比較未知樣本x與所有已知類別的樣本之間的歐式距離,通過距離的遠近來決策x與已知樣本是否同類;SVM算法則是通過優(yōu)化目標函數,尋找到使不同類別樣本之間距離最大的分類超平面。文獻【8】采用了最近鄰法對表情特征進行分類,并指出最近鄰法的不足之處在于分類正確率的大小依賴于待分類樣本的數量。【15,16】分別從各自角度提出了對SVM的改進,前者將k近鄰法與SVM結合起來,把近鄰信息集成到SVM的構建中,提出了局部SVM分類器;后者提出的CSVMT模型將SVM和樹型模塊結合起來,以較低的算法復雜度解決了分類子問題。
4.3 深度學習方法
上述均為傳統(tǒng)研究方法的一些介紹,下文主要講述如何將深度學習應用到表情識別里,并將以幾篇文章為例來詳細介紹一下現在深度學習方法的研究方法和思路。
與傳統(tǒng)方法特征提取不同,之所以采用深度學習的方法,是因為深度學習中的網絡(尤其是CNN)對圖像具有較好的提取特征的能力,從而避免了人工提取特征的繁瑣,人臉的人工特征包括常用的68個Facial landmarks等其他的特征,而深度學習除了預測外,往往還扮演著特征工程的角色,從而省去了人工提取特征的步驟。下文首先介紹深度學習中常用的網絡類型,然后介紹通過預訓練的網絡對圖像進行特征提取,以及對預訓練的網絡采用自己的數據進行微調的Fine-Tunning。
如果將深度學習中常用的網絡層CNN,RNN,Fully-Connect等層組合成網絡,將會產生多種選擇,然而這些網絡性能的好與壞需要更多地探討,經過很多研究者的一系列實踐,很多網絡模型已經具備很多的性能,如ImgeNet比賽中提出模型:AlexNet,GoogleNet(Inception), VGG,ResNet等。這些網絡已經經過了ImageNet這個強大數據集的考驗,因此在圖像分類問題中也常被采用。
對于網絡的結構,往往是先通過若干層CNN進行圖像特征的提取,然后通過全連接層進行非線性分類,這時的全連接層就類似與MLP,只是還加入了dropout等機制防止過擬合等,最后一層有幾個分類就連接幾個神經元,并且通過softmax變換得到樣本屬于各個分類的概率分布。
關于人臉表情識別的討論一直在繼續(xù),很多學者團隊都聚焦于此。文獻【17】提出了用于注釋自然情緒面部表情的一百萬個圖像的大型數據庫(即,從因特網下載的面部圖像)。首先,證明這個新提出的算法可以跨數據庫可靠地識別AU及其強度。根據調研,這是第一個在多個數據庫中識別AU及其強度的高精度結果的已發(fā)布算法。算法可以實時運行(>?30張圖像/秒),允許它處理大量圖像和視頻序列。其次,使用WordNet從互聯網下載1,000,000張面部表情圖像以及相關的情感關鍵詞。然后通過我們的算法用AU,AU強度和情感類別自動注釋這些圖像。可以得到一個非常有用的數據庫,可以使用語義描述輕松查詢計算機視覺,情感計算,社會和認知心理學和神經科學中的應用程序。
?
文獻【18】提出了一種深度神經體系結構,它通過在初始階段結合學習的局部和全局特征來解決這兩個問題,并在類之間復制消息傳遞算法,類似于后期階段的圖形模型推理方法。結果表明,通過增加對端到端訓練模型的監(jiān)督,在現有水平的基礎上我們分別在BP4D和DISFA數據集上提高了5.3%和8.2%的技術水平。
?
還有很多討論都基于此研究,感興趣的可去搜索整理。
5 總結
FER目前的關注點轉移到具有挑戰(zhàn)性的真實場景條件下,利用深度學習技術來解決如光照變化、遮擋、非正面頭部姿勢等問題。
需要考慮的另一個主要問題是,盡管目前表情識別技術已經被廣泛研究,但是我們所定義的表情只涵蓋了特定種類的一小部分,主要是面部表情,而實際上人類還有很多其他的表情。
表情的研究相對于顏值年齡等要難得多,應用也要廣泛的多,相信這幾年會不斷出現有意思的應用。
?
總結
以上是生活随笔為你收集整理的「技术综述」人脸表情识别研究的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: processing动态代码大全_做一张
 - 下一篇: python画两条曲线图_python绘