當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文研读：Automatic Temporal Segment Detection and Affect Recognition From Face and Body Display

發(fā)布時間：2025/5/22 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了论文研读：Automatic Temporal Segment Detection and Affect Recognition From Face and Body Display 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

摘要：情感的呈現(xiàn)包含一系列的時域分割：開啟（onset）、峰值（apex）、結(jié)束（offset）。在過去15年中（論文發(fā)表于2009年），計算機界對情感識別進行了大量的研究，但是大多數(shù)方法都有兩點局限：1.從單一的模式進行表情識別。2.即便少數(shù)多模態(tài)的方法中，對于動態(tài)模式關(guān)注過少。本文主要研究基于臉部表情和肢體呈現(xiàn)的情感識別方法。提出了一種自動識別時域分割的方法，并基于時域分割的片段進行情感識別。實驗結(jié)果表明：1）基于情感的臉部特征和肢體呈現(xiàn)具有關(guān)聯(lián)性但并非完全同步。2）明確的檢測時域分割片段可以提升情感識別的準確率。3）通過表情和肢體呈現(xiàn)結(jié)合來識別情感的正確率高于單一模式。4）同步特征融合（feature-level）的性能優(yōu)于決策融合（decision-level）

1.introduction

在情感識別領(lǐng)域，過去15年的研究局限于單一模式，少數(shù)研究著眼于多模態(tài)情感識別。由此衍生出一個新的研究領(lǐng)域：運用哪些模態(tài)來進行情感識別以及如何把它們結(jié)合起來（what modalities to use and how to combine them）。最初的方法是基于視覺和音頻數(shù)據(jù)，實驗結(jié)果也比較樂觀：多模態(tài)情感識別提升了準確率，使得系統(tǒng)更加有效和可靠。盡管學(xué)者Ambady和Rosenthal作的基礎(chǔ)研究表明：對人的行為的判別的重要線索大多來自于臉部表情和肢體動作。但是，只有在最近幾年計算機界才開始關(guān)注通過肢體語言來進行情感識別。

研究表明時序動態(tài)（temporal dynamics）對于情感識別至關(guān)重要。但是在為數(shù)不多的多模態(tài)情感識別系統(tǒng)中，尚無將面部表情和肢體語言結(jié)合的模型。本文主要創(chuàng)新在于：1）表情和肢體動作的時間分隔是完全自動的。2）設(shè)計了phase-synchronization scheme來應(yīng)對表情和肢體動作相關(guān)但不完全同步的問題。
本文主要貢獻有6點：
1）雙模態(tài)方法
2）use of the first publicly available database to date to
combine affective face and body displays in a bimodal
manner
3）在基礎(chǔ)表情（生氣、失望、害怕、幸福、悲傷）的基礎(chǔ)上分析非基礎(chǔ)表情（anxiety,
boredom, uncertainty, puzzlement, and neutral/negative/
positive surpris）
4）檢測情感呈現(xiàn)的時間分隔，從空間擴大中分離時間動態(tài)，對數(shù)據(jù)。
5）對無用的時間分隔段進行了大量的全局實驗。
6）通過對比試驗，找到最佳融合。

2.背景及相關(guān)工作

A.背景

Ekman and Frisen的研究指出，人類的面部表情有六種基本形態(tài)：生氣、失望、害怕、幸福、悲傷、驚奇。但是情緒研究領(lǐng)域?qū)@一說法持保留態(tài)度，關(guān)于這一點，心理學(xué)家并沒有統(tǒng)一的定論。許多學(xué)者基于六種基本形態(tài)的表情進行研究。

Russell認為每一種基本表情都是雙極性實體，極性包括arousal和valence。

通過肢體語言手勢來識別人類情感，這一方向目前在心理學(xué)和非語言溝通領(lǐng)域仍舊是有所保留。Coulson通過試驗總結(jié)出，通過姿勢識別情感和進過聲音來識別具有可比性。總體而言，肢體語言比表情更加豐富。尚有許多工作和研究需要做。Ambady and Rosenthal的研究表明通過結(jié)合表情加肢體語言來識別情感的準確率優(yōu)于單一模式近35%。面部動作按照時間分割為四個階段：平靜（neutral）、開啟（onset）、apex（峰值）、offset（結(jié)束）。neutral是指沒有任何肌肉信號，面部放松。

onset是指面部肌肉被喚起，逐漸緊張并呈現(xiàn)出面部的改變。apex是面部表情的峰值。offset是面部肌肉又逐步放松。自然的面部表情呈現(xiàn)過程是：neutral ?→
onset ?→ apex ?→ offset → neutral 。同理，肢體語言的呈現(xiàn)也分為五個階段：preparation ?→ (prestroke) hold ?→
stroke ?→ (poststroke) hold ?→ retraction。目前在面部/肢體語言的onset-apex-offset的標記上是非常耗時的。

B.相關(guān)工作

這一部分總結(jié)了現(xiàn)有的多模態(tài)情感識別的方法，包括時域分割和結(jié)合臉部表情即肢體語言進行情感識別的方法。 1）單模態(tài)情感識別系統(tǒng)：目前為止，現(xiàn)有的大多數(shù)單模態(tài)的情感識別系統(tǒng)建立在識別基礎(chǔ)表情（例如happiness 和 anger）的照片識別系統(tǒng)。同樣也存在一些通過面部視頻來識別非基礎(chǔ)表情的系統(tǒng)，例如attentiveness、fatigue、pain。大多數(shù)面部識別系統(tǒng)都是依賴于posed data（posed：擺姿勢），只有最近出現(xiàn)了一些基于spontaneous facial expression data（自發(fā)性面部表情）的自動識別。研究顯示，在識別過程中temporal dynamics是至關(guān)重要的一步。據(jù)此，最近在情感識別領(lǐng)域的研究更加關(guān)注面部特征中的時空成分（spatio-temporal properties of

facial features ）和對通過隱式的合并動態(tài)特性（by implicitly incorporating the
dynamics）來對動態(tài)面部表情建模或動作單元（modeling dynamic facial expressions or AUs（action unit））。傳統(tǒng)的對AU的分析是基于獨立的對某一個AU或者AU的組合進行統(tǒng)計和分類，最近的研究則表明，探索AU的動態(tài)特征和語義關(guān)聯(lián)（semantic
relationships）有助于提升識別的性能。
有一部分研究著眼于用馬爾科夫鏈來探究時域分割或者面部表情，也有一些研究用支持向量機或者AdaBoost這樣的分類方法來研究面部AUs。處理時域分割有兩種方式，一種是將每一幀獨立的進行分類，還有一種方法是把一連串的幀看作是一個時間序列。基于此，本文分別參考了frame-based和sequence-based兩種分類方式。
對于情感狀態(tài)的識別，常用的技術(shù)是利用HMM及其變換。這一類模型同樣可以用于對時域分割的研究，鑒于我們可以證明情感狀態(tài)的HMM和情感的時域分割之間的HMM具有相關(guān)性。在臉部呈現(xiàn)的情景中，HMM的emissions（which are also known as observations
or measurements）主要是由一組基于臉部特征計算后的特征來表達。

2）單模態(tài)分析肢體語言：相較于面部表情方面的文獻，通過肢體語言識別情感的資料比較少。現(xiàn)有文獻的主要關(guān)注點是在基于posed肢體語言數(shù)據(jù)庫的分析。
Meservy的團隊關(guān)注在國家安全領(lǐng)域，通過一連串的肢體線索，識別行為是可信的（innocent）還是故意的（guilty）。在這個二類問題上，他們達到了71%的識別率。

3）多模態(tài)系統(tǒng)識別面部和肢體表達：這方面研究比較新。Balomenos et al采用了結(jié)合面部表情和手勢來識別六類基礎(chǔ)情感。他們在判別時，將兩個子系統(tǒng)的權(quán)重進行融合。他們的系統(tǒng)中，通過面部表情單模來識別情感的識別率達到了85%。通過手勢識別的正確率達到了94.3%。然而他們并沒有給出兩者結(jié)合之后的識別率也沒有對臉部和手勢的時域分割給出解決方案。Kapoor and Picard就兒童solving a puzzle中的興趣高，興趣低，和恢復(fù)精神三種狀態(tài)進行識別。他們結(jié)合了視頻、姿式傳感器（椅子上的傳感器）等多種信息傳感器以及游戲的概率框架。由高斯過程獲取的每個模式各自的分類結(jié)果從高到低為posture channel（82%）、upper face（67%）、game（57%）、lower face（53%）。融合后的最好識別率為87%。然而，Kapoor and Picard并不關(guān)注姿勢手勢這些肢體語言，也沒有給出時域分割的方法。
Karpouzis et al.試圖融合面部、肢體、和語音線索來識別情感。他們的報告給出了4類問題的精確度：67% (visual), 73% (prosody), and 82% (with all modalities
combined)。融合方法是基于幀的，這意味著視覺數(shù)據(jù)對于音頻信息重復(fù)出現(xiàn)。他們同樣沒有給出時域分割方法。
Hartmann et al.給出了產(chǎn)生手勢及面部表達的一些參數(shù)（generation of expressive gesturing for virtual agents）。實驗證明只有一部分參數(shù)和表達能夠被用戶識別。還需要更深入的研究這些參數(shù)。

與以上工作相比，本文：1）采用了手勢和肢體姿勢的更高維數(shù)據(jù)（use
a higher number of hand gestures and body postures）。2）除了六種基本情緒外，我們還分析了正向負向驚訝、焦慮、無聊、不確定和疑惑等這些情緒。3）詳細分析了情感/情緒狀態(tài)的時域分割（temporal segments），以及這項工作對整個識別的意義。4）我們創(chuàng)新的提出了同步性的概念以及一種通過選擇融合方法來獲取更高識別率的方法。

方法

在多模態(tài)識別系統(tǒng)中，特征和融合策略的選取取決于融合的自然模態(tài)。在待融合的模式之間或許存在某種固有的異步性。對于情感感知和識別，多模態(tài)融合旨在盡可能的整合所有的輸入成為用戶的一個單一的表情呈現(xiàn)。多模態(tài)數(shù)據(jù)的時域分析是建立在多模態(tài)特征之間的時域接近（time proximity）上的。由此，根據(jù)多模態(tài)之間實時切合程度的不同（how closely coupled the modalities are in time）對于情感數(shù)據(jù)有兩種整合方式：特征層intermediate level (also known as feature-level fusion or early fusion) and 決策層 high level(also known as decision-level fusion or late fusion).
特征層融合用于模態(tài)之間具有聯(lián)系和同步性的情況。需要模態(tài)之間有著嚴格的時域同步性。（例如語音和唇部動作）如果不具備這種同步性的模態(tài)采用特征層融合，效果將大打折扣（例如語音和手勢）。由圖一可知，面部表情和肢體語言之間存在相關(guān)性但是并不同步。（As can be seen in the figure, face movement
starts earlier compared to body movement and has longer
onset stage and longer apex stage (20 frames) compared to
body movement (17 frames).）對于這類問題該如何處理？
在處理特征層融合時，多個模態(tài)下的特征必須是可比的（compatible），我們需要探究不同模態(tài)下特征的關(guān)聯(lián)，基于這個目標，有許多技術(shù)。常用的有DTW（dynamic time warping），用于找到兩個時間序列的最優(yōu)排序，我們會對其中一個序列沿著時間軸，進行壓縮或者拉伸的非線性變換。此外HMM的變換也是常用的方法。我們?yōu)閮蓚€非同步的訓(xùn)練序列建立一對HMM模型。Coupled HMMs and fused HMMs常用基于音頻加視頻特征的語言識別。

我們認為，對于面部和肢體的多模信息，可以通過相位同步來獲取同步。相位存在于面部和肢體的特征向量中，這一點歸因于他們的語義和結(jié)構(gòu)約束（semantics and anatomical constraints）。我們采用的是自然的數(shù)據(jù)，具有先天的有限個相位，且相位具有特定的順序：neutral–onset–apex–offset–
neutral. Pikovsky指出，傳統(tǒng)的技術(shù)忽視了通過信號的相位來探究系統(tǒng)的關(guān)聯(lián)性。因此，我們關(guān)注相位也就是所謂的時域分割，以此來關(guān)聯(lián)面部個肢體模態(tài)。在特征融合的時候，我們探究每一幀的相位，并且將兩個屬于同一相位的雙模態(tài)信息融合。接下來的問題就是，不同相位的幀對于情感識別是否具有相同的貢獻。在后文中，我們會論證，應(yīng)當首選“apex”相位的幀，因為這類幀具有最大的空間展開特征，情感識別的效果也最好。另外，在“apex”和“neutral”相位之間，肌肉的動作達到峰值。我們的方法基于以上的假設(shè)，并且將以實驗來驗證。
方法的具體流程見圖二，方法分為三個步驟：
1）對于面部和肢體的多模態(tài)信息，每一幀先進行相位分類。
2）對apex相位的信息進行特征向量的提取，面部和肢體兩個模態(tài)同時進行。
3）a.如果選擇特征層融合，將兩個模態(tài)的特征向量融合成一個特征。
b.如果選擇決策層融合，先分別給出兩個模態(tài)下的判別，然后結(jié)合決策層融合的準則給出融合之后的判別。
在分類階段，基于幀和基于序列的分類器均被采用。在基于序列的分類器里，我們采用了HMM，基于幀的分類器里，我們采用了SVM，Adaboost，C4.5等這些Weka工具。若采用基于幀的分類器，第2，3步中，只采用apex幀。如果采用基于序列的分類，數(shù)據(jù)是采用整個序列的數(shù)據(jù)。

數(shù)據(jù)和特征集合
A. FABO數(shù)據(jù)集
以往的數(shù)據(jù)集并沒有適合的雙模態(tài)信息，因此，實驗的第一步是收集FABO系統(tǒng)可用的雙模態(tài)情感數(shù)據(jù)。通過兩架攝像機，在自然情景下，分別采集面部和肢體的信息。
最近，在情感識別領(lǐng)域，關(guān)于數(shù)據(jù)源存在一些討論。情感數(shù)據(jù)源自三個渠道：自發(fā)性的（在真實環(huán)境下產(chǎn)生，源自人與人之間交流的場景，例如面試）、被誘導(dǎo)的（例如看電影時，表現(xiàn)出的情緒）、擺拍的。FABO系統(tǒng)采用的是擺拍的雙模態(tài)數(shù)據(jù)。Banziger and
Scherer曾指出，擺拍數(shù)據(jù)有它的優(yōu)勢，可以提供高質(zhì)量的標準的基于個人的豐富多變的表情。自發(fā)性的數(shù)據(jù)有時只能記錄有限的情感反應(yīng)，減少了情緒反應(yīng)間的可比性。FABO數(shù)據(jù)集可以視為一個“半自發(fā)性”的數(shù)據(jù)集。采用人工的方式來對雙模態(tài)情感信息進行標注。

B.面部特征提取

現(xiàn)有的面部識別方法分為基于呈現(xiàn)（appearance-based）和基于面部幾何特征（geometric feature-based）兩種。基于幾何特征的例子有輔助粒子濾波（auxiliary particle
filtering）。基于呈現(xiàn)的例子有Gabor-wavelet-based methods。也有將兩種方法結(jié)合的。本文就采用兩種方式融合的方法。
本文采用的方法概括如下：對臉部建模、逐幀進行臉部探測，臉部特征提取（提取包括眼睛、眉毛、鼻子、嘴巴等臉部區(qū)域），情緒分析，將持續(xù)不斷的幀流與參考幀比較（neutral expression frame作為參考幀）。

*1）*face model： FABO系統(tǒng)采用正面臉部模型，對感興趣的區(qū)域采用特征邊界矩形（feature bounding
rectangles）。系統(tǒng)首先自動標定八個面部特征區(qū)域，隨后，計算出每個特征的邊界矩形。固定區(qū)域的定義如下：the forehead, upper and lower eyebrows, upper and
lower eyes, nose, upper right lip, lower right lip, upper left lip,
lower left lip, and chin regions。另外有五個邊界矩形定義固定區(qū)域間的過度區(qū)域。the region(s) between the eyes and the eyebrows,
corner of right eye, corner of left eye, right cheek, and left
cheek.

*2）*Face Detection: FABO系統(tǒng)采用現(xiàn)有的fast and robust stump-based
20 × 20 Gentle AdaBoost (GAB) frontal face detector來進行面部區(qū)域探測。以及一個類似的方法來進行面部區(qū)域特征分類。

總結(jié)

以上是生活随笔為你收集整理的论文研读：Automatic Temporal Segment Detection and Affect Recognition From Face and Body Display的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： PostgreSQL和Kingbase中
下一篇：中国如何买美股

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

论文研读：Automatic Temporal Segment Detection and Affect Recognition From Face and Body Display

總結(jié)