论文浅尝 - EMNLP2020 | 跨媒体关键词预测: 多模态多头注意力和图像文本的统一框架...
論文筆記整理:柏超宇,東南大學碩士。
文章鏈接:https://arxiv.org/pdf/2011.01565.pdf
來源:EMNLP 2020
動機
社交媒體每天都會產生大量的內容。為了幫助用戶快速捕捉所需內容,關鍵詞預測受到越來越多的關注。盡管如此,之前的工作大多集中在文本建模上,很大程度上忽略了圖像中蘊含的豐富信息。隨著單模態模型的發展成熟,研究人員把關注熱點聚焦在了多模態模型上,希望通過結合文本和視覺信息,幫助模型去更好的完成對應任務。
簡介
在這項工作中,作者探索了文本和圖像在預測多媒體帖子的關鍵詞中的作用。為了更好地調整社交媒體風格的文本和圖像,作者提出了:(1)一種新穎的多模態多頭注意力(M3H-Att),以捕捉復雜的跨媒體交互;(2)image wordings,以光學字符和圖像屬性的形式,連接兩種模態。此外,我們設計了一個新穎的統一框架,以利用關鍵詞分類和生成的輸出,并將它們的優點結合起來。在實驗部分,作者從Twitter收集了一個大規模數據集,實驗表明,本文的模型明顯優于之前傳統注意力網絡。進一步的分析表明,該模型的多頭注意力能夠關注各個模態的信息,并在不同場景下提升分類或生成任務的效果,本文所關注的任務是在多模態的社交信息中提取出關鍵詞。
模型框架
作者采用了一個生成式模型來生成最后的答案,這也是最近多模態模型常用的方法,作者使用了Glove對文字信息進行初始化,使用GRU提取文本的特征。而在圖像方面作者考慮了兩種特征,使用了在VG數據集上預訓練過的Faster-RCNN對目標框進行檢測,置信度前五框的類別被選出來,作為圖像的attributefeature,用來提供對圖像的高層理解;同時也會采用卷積核為7*7的VGG-16抽取出整幅圖像的特征。而圖片中的文字信息,作者也使用了OCR技術識別了出來,與文字信息拼接在一起。
在抽取出單模態的特征后,作者使用了一個M3H-Att的模型來對這三種模態的特征進行融合,將融合后的多模態向量解碼生成所需要的關鍵詞。
M3H-Att即Multi-Modality Multi-Head Attention,也是基于Transformer結構的一個編碼器。QKV三個矩陣只有Q送入了自己模態的attention層,而K和V矩陣都送入另一個模態的attention層,詳情可以參考下面的圖。
這種結構在雙流的多模態預訓練模型中也有用到,如Vil-BERT,而本模型將bbox的類別也當成一個模態信息進行了三個模態信息的融合。
實驗
在實驗部分,作者與一些流行的單模態多模態模型進行對比,從實驗結果中我們可以發現由于最后需要回答的關鍵詞是文本模態的,所以單從圖片中進行解碼并不會獲得比較好的效果,而從利用文本模態能夠得到一個比較不錯的結果,本文提出的多模態模型相比較于最出色的單文本模態模型有所提升,但是效果不明顯,圖片的視覺信息還未和文本對齊,所以帶來的性能提升非常有限,在這里可能借助一些預訓練任務能夠讓這幾個模態的向量融合的更好。
在實驗部分,作者還嘗試了一些消融實驗,分別展示了在該任務上使用多頭注意力機制和OCR特征以及attribute特征的作用,分別都對模型的效果有所提升。
總結
本文研究了社交媒體上的跨媒體關鍵詞預測任務,并提出了一個框架來融合生成和分類模型的優勢來完成這一任務。此外,本文還提出了一種新型的多模態多頭注意力機制來融合文本和圖像的特征。在新收集的大規模Twitter語料庫上的實驗結果表明,該模型優于基于傳統注意力機制的生成和分類模型。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - EMNLP2020 | 跨媒体关键词预测: 多模态多头注意力和图像文本的统一框架...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 互联网架构:常用基础中间件介绍
- 下一篇: 论文浅尝 | AAAI2020 - 多分