當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

读文章笔记（八）：多模态情感分析数据集整理

發布時間：2023/12/14 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了读文章笔记（八）：多模态情感分析数据集整理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

讀文章筆記（八）：多模態情感分析數據集（Multimodal Dataset）整理

雙模態（一般是文本、圖像和語音的兩兩組合）
三模態（一般是文本、圖像加語音）

作者：騎著白馬的王子
地址：https://www.zhihu.com/people/pi-pi-57-67
公眾號：人工智能前沿講習https://mp.weixin.qq.com/s/rWRJ8taUsIQAZFq3PD1-ng

雙模態（一般是文本、圖像和語音的兩兩組合）

1.《Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model》–【多模態諷刺識別】2019年。
論文中建立的數據集，包含文本和圖像兩個模態，具體來說是三個模態，文本部分包含兩個方面：一個是描述（文本模態），另一個是圖像的屬性，即圖像包含那些東西，用文字描述（也可以歸類為屬性模態）。數據集較好之處是給出了原始數據，即有原始的文本，原始的圖像和屬性描述，可以任意操作成實驗表征。

數據集和代碼鏈接是https://github.com/headacheboy/data-of-multimodal-sarcasm-detection

2.《 Making the v in vqa matter: Elevating the role of image understanding in visual question answering》–【多模態問答】2017年。

論文中是VQA數據集，包括原始的圖片、問答文本等各種屬性。我們簡單的可以通過word2vec或者Glove或者bert提取文本的embedding，通過Resnet來提取圖片的feature，圖片問題和回答三個方面通過對應的id來聯系。

數據集下載鏈接在https://visualqa.org/download.html

3.《Towards Multimodal Sarcasm Detection(An Obviously Perfect Paper)》–【多模態諷刺】2019年。

論文給的是圖像和文本雙模態諷刺視頻。其中每個標簽對應的圖像包含多個，對應的文本是一組對話，數據集鏈接是：https://github.com/soujanyaporia/MUStARD

4.《Microsoft COCO Captions Data Collection and Evaluation Server》–【多模態圖片字幕】2015年。

論文給出的是經典的MS COCO數據集，現在還在廣泛使用，數據集非常大，大部分設計到純CV方面的數據集，標注一共分為5類：目標點檢測，關鍵點檢測，實例分割，全景分割以及圖片標注，前面四個都是CV領域的，感興趣的同學可以玩一下，簡單的多模態方向只需要最后一個，當然如果你要通過目標檢測輔助多模態分析等等方向前面幾個標注也是有用的。簡單的，我們這里需要的是圖片和字幕兩個模態，可以用來做多模態匹配之類的任務。數據集包括2014年發布的以及2017年發布的，每個都有超過幾十萬張圖片的標注，圖片給出的是原始圖片，標注是基于JSON文件給出的，也是原始的文本數據，我們只要寫出程序將字幕抽取出來就可以了，字幕和圖片之間有id對應，非常方便。

數據集鏈接是：https://cocodataset.org/#download

三模態（一般是文本、圖像加語音）

1.《Multimodal Language Analysis in the Wild_ CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph》–【多模態情感和情緒分析】2018年。

論文中描述的CMU-MOSEI數據集規模最大的三模態數據集，且具有情感和情緒兩個標簽。但是這里要注意，數據集是多標簽特性，即每一個樣本對應的情緒可能不止一種，對應情緒的強弱也不同，在[-3~3]之間。數據集的原始數據給出了，但是過于原始，即給出的是文本，音頻和視頻文件，圖像還得自己去以固定頻率捕獲并且和文本語音對其還是比較麻煩的。大多實驗都使用處理好的實驗數據。

數據集的鏈接是：http://immortal.multicomp.cs.cmu.edu/raw_datasets/processed_data/

2.《UR-FUNNY: A Multimodal Language Dataset for Understanding Humor》–【多模態幽默分析】2019年。

論文中描述的是UR-FUNNY數據集，包含文本語音圖像三個模態來分析幽默情感。具體目前沒用到沒有細看，日后再補充。

數據集和代碼鏈接是：https://github.com/ROC-HCI/UR-FUNNY

3.《MOSI: Multimodal Corpus of Sentiment Intensity and Subjectivity Analysis in Online Opinion Videos》–【多模態情緒分析】。

論文中描述的是CMU-MOSI數據集，跟上述的CMU-MOSEI數據集名字很像，但是發布較早，規模小且只有情緒的標簽。數據集跟MOSEI一樣，有處理好的實驗數據，但是也有部分原始數據，video部分依然是視頻不是已經捕獲好的圖像。

數據集的鏈接是：http://immortal.multicomp.cs.cmu.edu/raw_datasets/processed_data/

4.《CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality》–【中文多模態情緒】2020年。

論文中給出常規的文本、圖片和語音的數據進行多模態情緒分類，其中標簽更加細致，不僅有最終的標簽，還有各個模態的標簽。

具體如圖所示。論文以及數據集具體我還沒看，日后需要我將修改更仔細。

數據集鏈接是：https://github.com/thuiar/MMSA

總結

以上是生活随笔為你收集整理的读文章笔记（八）：多模态情感分析数据集整理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：外文翻译之 Removing Camer
下一篇：【Chaos混沌】基于Simulink的