情绪识别的多模态特征,分类器和融合方法研究
Investigation of Multimodal Features, Classifiers and Fusion Methods for Emotion Recognition(情緒識別的多模態特征,分類器和融合方法研究)
摘要
自動情緒識別是一項具有挑戰性的任在本文中,我們展示了我們為基于音頻視頻的野外情感識別(EmotiW)2018挑戰的子挑戰所付出的努力,該挑戰要求參與者從六種普遍情感中為視頻剪輯分配單個情感標簽(Anger ,厭惡,恐懼,幸福,悲傷和驚喜)和中立。所提出的多模態情感識別系統考慮了音頻,視頻和文本信息。除了手工功能外,我們還通過傳遞學習從深度神經網絡(DNN)中提取瓶頸特征。評估時間分類器和非時間分類器以獲得最佳單峰情緒分類結果。然后通過Beam Search Fusion(BS-Fusion)計算并融合情緒可能性。我們在EmotiW 2018挑戰中測試了我們的方法,我們獲得了有希望的結果:測試數據集的60.34%。與基線系統相比,有顯著的改善。更重要的是,我們的結果僅比獲勝者低1.5%。
1.介紹
隨著人工智能的發展,人們對實現更自然的人機交互(HMI)系統產生了濃厚的興趣。情感作為人機界面的一個重要方面,也越來越受到人們的關注。由于情感識別的復雜性和應用情景的多樣性,單一形態很難滿足需求。考慮音頻,視頻,文本和生物信息的多模態識別方法可以提高識別性能。
基于音頻視頻的野外情緒識別(EmotiW)挑戰的子挑戰在情緒識別中起著重要作用。 Acted Facial Expressions in the wide(AFEW)數據集是EmotiW挑戰的數據集。組織者為參與者提供了一個評估其識別系統的開放平臺。第一次EmotiW挑戰是在2013年舉辦的。今年是第6次挑戰。七種情緒的識別準確率每年都在增加:41.03%[2],50.37%[3],53.80%[4],59.02%[5],60.34%[6]。
在情緒分類中提取更多的辨別特征是很重要的。在深度神經網絡(DNN)普及之前,幀級手工特征被廣泛研究和利用,包括方向梯度直方圖(HOG),局部二值模式(LBP) ,局部相位量化(LPQ)和尺度不變特征變換(SIFT)。三個正交平面(TOP),總結功能(FUN),費舍爾矢量編碼(FV),空間金字塔匹配(SPM)和詞袋(BOW)也被用來捕捉時間信息。現在,基于DNN的方法在許多領域產生了最先進的性能。然而,由于AFEW數據庫中的訓練樣本有限,復雜的DNN難以訓練。為了解決這個問題,采用了遷移學習。然后從微調模型中提取瓶頸特征。
分類器在情緒識別中也很重要。劉等人利用在向量空間中運行的偏最小二乘(PLS),Logistic回歸(LR)和核支持向量機(KSVM)對黎曼流形上的數據點進行分類以進行情感識別。 Kaya等選擇極限學習機(ELM)和內核極限學習機(KELM)來建模模態特殊功能,這些功能比SVM更快,更準確。最近,還測試了許多時間模型,例如長期短期記憶(LSTM),門控遞歸單位(GRU)和3D卷積網絡(C3D)。
為了獲得更好的性能,融合不同模態的融合方法至關重要。融合方法可分為特征級融合(或稱為早期融合),決策級融合(或稱為后期融合)和模型級融合。大多數團隊在過去的挑戰中選擇了后期融合。 Vielzeuf等討論了五種融合方法:多數投票,均值,ModDrop,得分樹和加權均值。他們發現加權平均值是最有效的融合方法,具有較小的過度擬合風險。歐陽等人利用強化學習策略找到最佳融合權重。
在EmotiW 2018 中,我們參與了基于音頻視頻的子挑戰。任務是為視頻剪輯分配單個情感標簽,分類準確度是比較度量。在本文中,我們提出了我們的多模態情感識別系統,如圖1所示。不同模態的特征是基于多個分類器單獨訓練的。情感可能性由BS-Fusion融合。與EmotiW挑戰中的先前解決方案相比,我們的創新主要集中在三個部分:1.多模式功能:據我們所知,它是第一次考慮文本,身份和背景信息。 2.分類器:研究了不同類型的聚合模型,包括NetFV,NetVLAD,NetRVLAD和SoftDBoW。 3.融合方法:he Beam Search Fusion (BS-Fusion)被提出用于模態選擇和權重確定。
其余論文的結構如下。多模態特征和各種分類器分別在第2節和第3節中說明。在第4節中,我們關注我們提出的BS-Fusion。數據集和實驗結果分別在第5節和第6節中說明。第7節總結了整篇論文。
圖1:所提出的多模態情緒識別系統的概述。 來自不同模態的特征基于多個分類器被單獨訓練。 情感可能性由BS-Fusion融合。
2.多模式功能
在我們的方法中,會考慮音頻,視頻和文本功能以提高識別性能。 除了手工功能外,還考慮了從微調模型中提取的瓶頸特征。
2.1音頻功能
在本節中,將討論多種音頻功能。 除了手工功能集外,還評估了自動語音識別(ASR)聲學模型,SoundNet和VGGish的瓶頸特征。
2.1.1基于OpenSMILE的音頻功能。
OpenSMILE工具包用于提取音頻特征集,包括eGemaps(eGeMAPSv-01.conf)[34],IS09(IS09_emotion.conf),IS10(IS10_paraling.conf),IS11(IS11_speaker_state.conf),IS13( IS13_ComParE.conf)和MFCC(MFCC12_0_D_A.conf)。 為了提取這些特征集,首先在25ms幀內提取聲學低級描述符(LLD),覆蓋頻譜,倒譜,韻律和語音質量信息,窗口移位為10ms。 然后,通過LLD計算平均值和最大值等統計函數,以獲得段級特征。 我們在論文中測試了兩個段長度:100ms和整個話語的長度。
2.1.2 ASR瓶頸特征。 我們從ASR聲學模型中提取瓶頸特征。 首先,我們培訓具有500小時自發和重音普通話語音庫的中國ASR系統。 ASR聲學模型有六個隱藏層。 前五層有1024個節點,最后一層有60個節點。 由于大多數發言者在AFEW數據集中使用英語,我們使用300小時的英語語料庫對中國ASR系統進行微調,因為英語語料庫有限。 然后,我們從兩個聲學模型中提取瓶頸特征:英語ASR聲學模型和中國ASR聲學模型。
圖2:ASR聲學模型的架構。 從波形中提取的FBank特征用作輸入。 ASR聲學模型的最后一層被視為瓶頸層。
2.1.3 SoundNet瓶頸功能。
我們從SoundNet網絡中提取瓶頸功能,通過利用在野外收集的大量未標記的聲音數據來學習豐富的自然聲音表現。 SoundNet網絡是一個1維卷積網絡,由完整的卷積層和池層組成。 在本文中,我們將原始波形分成多個1段。 然后將這些段視為網絡的輸入,我們從圖3中的conv7層提取SoundNet瓶頸特征。
圖3:SoundNet網絡的架構。 使用未標記的視頻作為橋梁將視覺知識轉換為聲音模態。
2.1.4 VGGish瓶頸功能。
VGGish網絡接受了AudioSet 的培訓,其中包含超過200萬個帶有超過600個音頻事件類別的人類標記的10s YouTube視頻音軌。在本文中,VGGish網絡用作特征提取器。 我們將原始波形分成多個1段。 從段中提取的對數譜圖被視為輸入。 VGGish從fc2中提取具有語義意義的高級128D嵌入功能。 然后利用主成分分析(PCA)提取歸一化特征。
圖4:VGGish網絡的結構。 輸入對數譜圖為96×64。 黃色框,綠色框和灰色框分別表示2D卷積層,最大池化層和完全連接層。 黃色框內的數字是過濾器的數量,灰色框內的數字是神經元的數量
2.2視頻功能
在本文中,我們提取了多個視頻功能。除了手工制作功能,如三個正交平面的局部二值模式(LBPTOP),HOG和密集SIFT(DSIFT),還考慮了從VGG,DenseNet和C3D中提取的瓶頸特征。此外,我們還考慮了幾何特征,背景特征和身份特征。
2.2.1手工視頻功能。
通常,面部特征由兩部分組成:外觀特征和幾何特征。至于外觀特征,LBPTOP功能在以前的EmotiW挑戰中被廣泛使用。基本LBP功能在使用統一代碼時具有59個功能。 LBPTOP功能將LBP從二維擴展到三維,它們獨立地在XY,XT和YT平面上應用相關描述符,并將直方圖連接在一起。除LBPTOP功能外,還測試了LBP,HOG,HOGLBP和DSIFT功能。 HOGLBP功能在XY平面上應用HOG描述符,在XT和YT平面上應用LBP描述符,然后將它們連接在一起。至于DSIFT功能,它相當于在固定比例和方向的圖像上的密集網格上執行SIFT描述符。至于幾何特征,考慮頭部姿勢和地標。情感與地標和頭部姿勢有關。當人們感到中立時,地標的移動相對較小。當人們感到悲傷時,他們往往會低下頭。因此,我們會考慮這些標記為地理要素的功能。
2.2.2 CNN瓶頸特征。
為了從圖像中提取瓶頸特征,選擇VGG(配置“D”)和DenseNet-BC結構。 在本文中,VGG和DenseNet-BC網絡在ImageNet上進行了預訓練,并在(面部表情識別+)FER + 和野外靜態面部表情(SFEW)2.0數據庫中進行了微調。 灰度圖像被視為輸入。 對于VGG網絡,我們從圖5中的conv5-b,conv5-c,fc1和fc2中提取瓶頸特征。 至于DenseNetBC結構,我們從最后一個平均池層中提取瓶頸特征,標記為pool3。
圖5:VGG網絡的結構。 輸入圖像為64×64像素。 其他組件的含義與圖4中的定義相同。
圖6:DenseNet-BC [43]網絡的結構。 輸入圖像為64×64像素。 有三個密集塊。 黃色框和綠色框分別表示卷積層和平均合并層。
2.2.3 C3D功能。
C3D網絡是2D卷積過程的擴展,其捕獲視頻的時空特征。 C3D網絡在之前的EmotiW挑戰中顯示了其性能。 C3D的體系結構如圖7所示。在本文中,C3D網絡在sports1M 上進行了預訓練,并在AFEW數據庫上進行了微調。 它需要連續16幀作為輸入,具有8個重疊幀。 fc6的輸出被用作瓶頸功能。
圖7:C3D網絡的結構。 它需要連續16張圖像作為輸入。 每張圖像裁剪為112×112像素。 黃色框表示3D卷積層。 其他組件的含義與圖4中的定義相同。
2.2.4背景功能。
背景信息有助于判斷情緒狀態。恐懼往往伴隨著昏暗的環境。快樂往往伴隨著明亮的環境。為了考慮背景信息,我們將Inception網絡作為特征提取器,在ImageNet上進行了預訓練。從視頻中提取的原始幀將傳遞到網絡中。最后一個平均池層被視為瓶頸層。然后利用PCA提取標準化特征并減少特征尺寸。
2.2.5身份特征。
身份信息也很重要。由于AFEW數據庫中的一些樣本是連續的,他們的情緒也很可能是連續的。在實驗中,SeetaFace1用于提取身份特征。 SeetaFace識別基于深度卷積神經網絡(DCNN)。具體來說,它是VIPLFaceNet的一個實現,它由7個卷積層和2個完全連接的層組成,輸入大小為256x256x3。在SeetaFace開源人臉識別工具包中,VIPLFaceNet中FC2層的2048個節點的輸出被用作輸入面的特征。
2.3文本功能
音頻內容反映了情感。 例如,當人們生氣時,諸如“他媽的”和“狗屎”這樣的臟詞很常見。 “抱歉”總是被用來表達一個人對別人的內疚感。 人們經常用’哦,我的上帝’來表達他們的驚喜。 為了考慮文本信息,術語頻率 - 逆文檔頻率(TF-IDF)和字向量(WV)用于從原始文本中提取可計算特征。
2.3.1 TF-IDF。
TF-IDF是一種數字統計,旨在反映單詞對文檔的重要程度。 TF表示術語頻率,而IDF表示逆文檔頻率。 TFIDF值與單詞出現在文檔中的次數成比例增加,并且被語料庫中單詞的頻率所抵消。
其中TF(t,d)表示單詞t出現在文檔d中的次數。 nd是文檔的總數,df(d,t)是包含單詞t的文檔的數量。
2.3.2 WV.單詞向量是單詞的高級表示,通過大型語料庫來學習單詞之間的語法關系。 在本文中,我們使用預先訓練的FastText字向量。 它在維基百科2017,UMBC webbase語料庫和statmt.org新聞數據集上訓練了100萬個單詞向量。 每個單詞可以映射到300-D可計算向量。
3 分類
除了SVM,隨機森林(RF)和LR等經典分類器,我們還測試時間模型,包括均值池LSTM,時間LSTM和CNN-LSTM模型。 此外,還研究了幾種類型的聚合模型:NetVLAD,NetRVLAD,SoftDBoW和NetFV。
3.1平均合并LSTM
對于平均合并LSTM,我們使用單層LSTM并將時間步長輸出平均為編碼器中的視頻表示和解碼器中的完全連接層。 softmax層被視為分類器。 Mean Pooling LSTM的結構如圖8所示。
圖8:Mean Pooling LSTM的結構。 紅框表示不同時間步長的功能。
3.2時間LSTM
為了考慮更多的上下文信息,我們提出了Temporal LSTM。 Temporal LSTM和Mean Pooling LSTM之間的區別主要集中在輸入上。 而不是處理一個時間步長的特征,同一窗口中的特征在Temporal LSTM中作為輸入連接在一起。 可以調整重疊大小。 如果重疊大小設置為0,則獨立處理相鄰窗口。 時態LSTM可以考慮更多的上下文信息。 時間LSTM的結構如圖9所示。
圖9:時間LSTM的結構。 紅框表示不同時間步長的功能。
3.3 CNN-LSTM
CNN-LSTM是端到端分類器。 平均合并LSTM和時間LSTM都是多步驟過程,其中首先提取特征然后將特征輸入分類器。 但是,多步驟過程的目標并不一致。 此外,沒有就情緒分類的適當特征達成一致。 為了解決這些問題,我們引入了端到端分類器–CNN-LSTM,其結構如圖10所示.CNN-LSTM將原始圖像作為輸入。 CNN網絡被視為特征提取器,它提取高級別輸入的表示。 然后利用LSTM捕獲時間信息。 整個結構以端到端的方式進行訓練。
圖10:CNN-LSTM的結構。
3.4聚合模型
聚合模型已經在Youtube 8M大規模視頻理解挑戰中展示了它們的表現。 這是記住所有相關視覺線索的有效方式。 我們研究了幾種類型的可訓練聚合模型,包括NetVLAD,NetRVLAD,SoftDBoW和NetFV。 由于VLAD編碼在DNN中不可訓練,因此建議NetVLAD架構以可訓練的方式再現VLAD編碼。 因此,可以通過反向傳播而不是使用k均值聚類來優化參數。 NetVLAD描述符可以寫成:
ak(xi)是描述符xi到簇k的軟分配。 NetVLAD描述符從簇k中的可學習錨點ck計算描述符xi的殘差(xi-ck)的加權和。
SoftDBoW和NetFV描述符在NetVLAD描述符中利用相同的思想來模仿FV和BOW。 與NetVLAD描述符相比,NetRVLAD描述符平均實際描述符而不是殘差。
4融合方法
加權平均值是先前EmotiW挑戰中有效的晚期融合方法。 但是,如何有效地計算模型子集的權重并忽略無用的模型仍然存在爭議。 在本文中,我們提出了BS-Fusion,它從bream搜索方法中學習。 由于可行子集的數量存在組合爆炸(N個模型的2N子集),我們采用抽樣程序,目的是過濾掉不太可能產生良好結果的子集。 我們使用大小為K的波束搜索并在每個回合中選擇topK子集。 選擇方法基于子集的分類準確性
5數據集
AFEW數據庫(版本2018)包含使用中定義的半自動方法標記的視頻剪輯。 共有1809個視頻剪輯:773個用于培訓,383個用于驗證,653個用于測試。 還為Training數據集和Validation數據集提供了LBPTOP功能和元數據。 AFEW數據集的類別分布如表1所示。
6實驗結果
在本節中,我們將研究音頻,視頻和文本功能的性能。此外,我們證明了BS-Fusion的有效性。
6.1音頻特征分析
由于已經考慮了統計函數,因此話語級特征的特征維度是固定的。我們只評估它們在SVM,RF和LR中的性能。由于可變長度波形,段級特征和幀級特征的特征尺寸是可變的。由于分類器采用固定長度的特征作為輸入,我們測試兩個將可變長度特征壓縮為固定長度特征的方法。至于統計函數,平均值,最大值和FV用于提取固定長度的特征。然后我們將它們傳遞給分類器,例如SVM,RF和LR。對于聚合模型和時間模型,可變長度特征被填充到固定長度的特征中。然后測試聚合模型(例如NetFV,NetVLAD,NetRVLAD和SoftDBoW)和時間模型(例如Mean Pooling LSTM,Temporal LSTM和CNN-LSTM)。通過實驗分析,我們發現FV在統計函數中表現最差。盡管與均值池LSTM和時間LSTM相比,CNN-LSTM在訓練數據集上獲得最高準確度,但它在驗證數據集中具有過度擬合問題。與Mean Pooling LSTM相比,時間LSTM獲得了類似的結果。因此,在以下實驗中忽略FV并且LSTM指平均合并LSTM。
6.1.1時間模型和聚合模型的結果。
在本節中,我們比較了LSTM,NetVLAD,NetRVLAD,SoftDBoW和NetFV的性能。實驗結果列于表2.在實驗中,我們選擇分段級音頻功能,包括SoundNet Bottleneck功能,MFCC,IS10和eGemaps。 SoundNet Bottleneck功能的段長度設置為1000毫秒,其他功能的段長度設置為100毫秒。 LSTM層中的神經元數量和完全連接層中的神經元數量固定為128. NetVLAD,NetRVLAD,SoftDBoW和NetFV的簇大小設置為64。
通過表2中的實驗結果,我們發現LSTM在大多數情況下具有更好的性能。 因此,我們在以下實驗中僅考慮LSTM并忽略聚合模型。
6.1.2音頻功能的性能。
在本節中,我們將比較多個音頻功能的性能。 實驗結果列于表3中
表3中的1~7選擇段級音頻功能。進出口。 表3中的8~11測試多個話語級音頻功能。 對于段級功能,我們列出功能名稱前面的段長度。 由于LSTM不需要統計函數,因此將它們設置為None。 通過表3中的實驗結果,我們發現不同的音頻特征需要不同的統計函數和分類器。 中國ASR瓶頸功能獲得最高精度,36.03%。 由于中國ASR系統訓練的語音語料庫大于英語ASR系統,因此中國ASR瓶頸功能具有更好的性能。 它顯示了從多語言系統中提取的特征的效率。
6.2視頻特征分析
在本節中,我們將展示我們的人臉檢測方法和視頻功能的性能。
6.2.1人臉檢測方法。 在提供的面部中,訓練數據集中的17個視頻和驗證數據集中的12個視頻被錯誤地檢測到。 對于錯誤檢測到的視頻,我們手動初始化第一個面部的位置,然后使用對象跟蹤方法提取以下面部。 最后,我們將人臉轉換為灰度圖像并應用直方圖均衡來減輕燈光的影響。
6.2.2視頻功能的性能。 我們從SFEW微調模型和FER +微調模型中提取瓶頸功能。 我們發現,與FER +微調模型相比,SFEW微調模型的性能更差。 因此,僅考慮FER +微調模型。
表4中的1~9選擇幀級特征或分段級特征。進出口。 表4中的10~14評估了多個視頻級別的特征。 通過實驗結果,我們發現不同的視頻特征需要不同的統計功能和分類器。 VGG_conv5-c功能獲得最高精度,43.34%,優于音頻模式的最佳效果。 HOGLBP功能是最好的手工功能,準確率提高40.73%。 通過Exp。 在表4中的7~9中,我們發現我們新提出的特征與其他視覺特征相比具有更差的性能。 然而,通過進一步的實驗,我們發現這些特征(特別是身份特征)在融合階段是有用的。 如果我們考慮這些功能,我們可以獲得更高的準確性。
6.3文本特征分析
我們利用開源百度API1識別音頻內容。 為了減小詞匯量的大小,我們刪除頻率小于3的單詞。 此外,我們將這個詞改為原型。 例如,‘go’,‘going’和’gone’都被轉換為’go’。 然后提取TF-IDF和WV特征。
通過表5中的實驗結果,我們發現WV特征更適合于有限的數據集。 WV功能獲得最高精度,36.94%,優于音頻模式中的最佳功能。 它顯示了文本特征的有效性。
6.4融合結果
通過BS-Fusion,根據驗證數據集的分類性能選擇情感可能性的子集。在測試數據集中,我們達到了60.34%的準確率。
圖11:測試數據集中的混淆矩陣。
通過圖11,我們可以看出我們的方法在憤怒,快樂和中立時具有很好的識別性能。但是,厭惡和驚訝很容易與其他人混淆。驚喜很容易與恐懼和中立相混淆。它與驚訝的模糊定義有關。驚喜包含令人愉快的驚喜和恐懼。愉快的驚喜很容易與快樂相混淆。恐懼很容易與恐懼相混淆。厭惡比模糊更加模糊。厭惡與視頻內容有關。如果我們添加視頻描述信息,則可以增加厭惡的識別準確度。
7 結論
在本文中,我們提出了基于音頻視頻文本的情感識別系統提交給EmotiW 2018.不同形式的特征是單獨訓練的。然后提取情緒可能性并將其傳遞到BS-Fusion。我們在基于EmotiW 2018音頻 - 視頻的子挑戰中評估我們的方法。研究了多個特征和分類器。通過實驗分析,我們發現視頻模態在三種模態中具有最高的識別準確率。最后,我們通過BS-Fusion在測試數據集中實現了60.34%的識別準確度。
在未來,我們將為情感識別添加更多的辨別功能。由于情緒表達與視頻內容有關,因此將考慮視頻描述信息。此外,電影類型也很重要。恐怖電影中的恐懼很常見。
總結
以上是生活随笔為你收集整理的情绪识别的多模态特征,分类器和融合方法研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 小白入门:什么是CURD?
- 下一篇: matlab理论物理应用,Matlab在