视觉与听觉相结合的深度跨域情绪识别
?PaperWeekly 原創 ·?作者|張瑋瑋
單位|東北大學碩士生
研究方向|情緒識別
論文標題:Joint Deep Cross-Domain Transfer Learning for Emotion Recognition
論文地址:https://arxiv.org/abs/2003.11136
引言
1.1 論文動機
眾所周知,自動情感識別的挑戰是缺乏足夠的標記數據來訓練穩健的情緒分類模型。大型數據集準確地標注情感類別不僅成本高昂而且耗時,還需要具體的技能和知識。為了解決情感分類中數據缺乏的問題,遷移學習方法被廣泛采用 。
然而,在不同的領域(例如,從視覺領域到聽覺領域,反之亦然)傳遞知識是一項具有挑戰性的任務。當在不同的數據集上執行訓練/測試時,對遷移學習也提出了更大的挑戰,由于數據集之間的分布變化,常常會引起性能的顯著下降。
1.2 論文工作
為了在不受分布變化影響的情況下,完成在多個數據集和多個資源貧乏的數據集上傳遞情感知識的任務,作者提出了一種聯合的深度跨域學習方法,旨在學習跨域知識,并將學習到的知識從龐大的數據集中聯合轉移到數據量貧乏的數據集中,提高了情感識別的性能。
算法旨在學習跨越視覺和聽覺領域的情感知識,并將跨領域的知識轉移到多個缺乏源的數據集。
論文方法
表示視覺數據的源數據集, 是音頻數據的源數據集 ,N 個可視化目標數據集表示為 ,所有的目標數據集都是資源貧乏的,并且包含少量帶注釋的數據。
如圖所示,作者首先使用可視化數據集 訓練一個初始模型 。該初始模型也被認為是預訓練模型,然后使用目標數據集 進行微調。
這一步的結果是一個跨數據的微調模型 ,我們將 應用于個目標數據集 產生 個跨域微調模型。為了遷移所有目標域共享的知識,最后的 個跨域微調模型被聯合訓練。
在預先訓練的模型中獲得的情感知識可以在跨域遷移步驟中重復使用。進行這種跨域遷移的原因是,在進行聯合學習之前,將學習到的情緒知識從預先訓練好的模型中,從視覺域遷移到聽覺情緒域,是因為視覺域和聽覺域之間存在互補信息。
因此,它可以為當前的模型積累有用的情感知識。利用我們提出的聯合學習算法,在這些資源貧乏的數據集上同時最小化類內情緒方差和最大化類間情緒方差,將學習到的該模型的情緒知識遷移到多個數據集。
給定輸入特征向量 及其對應的標簽 ,交叉熵損失公式如下 :
, 與 分別表示目標域類別和 softmax 層參數; 是目標概率分布 , 是預測的概率分布。通過同時優化兩個交叉熵損失,我們在最終域上的模型微調的累積參數集現在被傳輸和重用,作為我們在兩個不同的視覺域上的聯合學習的初始知識。
對比損失計算如下:
,,, 分別來自于 ,,, 來自于同一類情緒,=1,否則 =0。
因此,聯合學習算法的訓練損失函數 定義如下:
算法的目標是學習特征提取函數中的參數 。,, 參數引入傳播兩個情感分類信號和一個情感匹配信號。聯合學習算法在測試過程中的偽代碼如算法1所示。
結果
視頻情感識別模型的實驗結果分別如表 2 和表 4 所示 : V_eNTER_Model 在視頻數據集 eNTERFACE 上進行預訓練,V_SAV_Model (Fine-tuned) 微調全連接層的 V eNTER Model 預訓練模型。
如表 3 結果所示,在 audio SAVEE 數據集上,不斷微調 V_SAV_Model 的所有層。同樣,與其他最先進的語音情感識別模型相比,A_EMO_Model (Fine-tuned) 表現最佳 (89%),明顯優于 A_EMO_Model (67%),如表 5 所示。
如表 7 所示,盡管通過簡單地結合 visual eNTERFACE 和 visual SAVEE 來擴大多個數據集進行學習,V_SAV_eNTER_Model 在識別精度上并沒有顯著的提高。雖然通過聯合優化兩個交叉熵損失來學習 V_SAV_eNTER_Model,該模型仍然存在跨數據集分布偏移的問題。
相比之下,從表 7 中可以看出,采用表 1 中詳細描述的聯合學習算法進行學習時,模型的性能得到了極大的提高,同時優化了兩個交叉熵損失和一個對比損失。?這說明模型可以很好地泛化多個數據集,從而成功地解決了數據集之間的分布移位問題。
結論
在這篇論文中,作者開發了一個框架,這個框架能夠通過同時最小化類內方差和最大化類間方差,來很好地學習多個資源貧乏且互不關聯的情感數據集。
通過使用連續的微調策略整合跨域遷移,提出的框架成功地將情感學習知識在不同的模式間遷移,例如從一個視覺領域遷移到另一個視覺領域,從視覺領域遷移到聽覺領域,然后再遷移到多個領域。
據我們所知,本文提出的聯合學習算法是第一個旨在解決多個資源貧乏的情緒數據集的訓練問題的研究。
點擊以下標題查看更多往期內容:?
變分推斷(Variational Inference)最新進展簡述
變分自編碼器VAE:原來是這么一回事
圖神經網絡三劍客:GCN、GAT與GraphSAGE
如何快速理解馬爾科夫鏈蒙特卡洛法?
深度學習預訓練模型可解釋性概覽
ICLR 2020:從去噪自編碼器到生成模型
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的视觉与听觉相结合的深度跨域情绪识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《寂静岭 2:重制版》游戏豪华版解锁,普
- 下一篇: 小米造车总部设在哪里 很有可能在他的家乡