【《Multimodal Transformer for Unaligned Multimodal Language Sequences》论文翻译】
《Multimodal Transformer for Unaligned Multimodal Language Sequences》論文翻譯
《用于非對齊多模態(tài)語言序列的多模態(tài)Transformer》
論文地址:[1906.00295] Multimodal Transformer for Unaligned Multimodal Language Sequences (arxiv.org)
代碼地址:
GitHub - yaohungt/Multimodal-Transformer: [ACL'19] [PyTorch] Multimodal Transformer
摘要:
人類語言通常是多模態(tài)的,包括自然語言、面部手勢和聲音行為的混合。然而,建模這種多模態(tài)的人類語言時間序列數(shù)據(jù)存在兩個主要的挑戰(zhàn):1)由于每個模態(tài)序列的采樣率可變,導致固有的數(shù)據(jù)不對齊;2)跨模式元素之間的長期依賴關系。
在本文中,我們引入Multimodal Transformer (MulT),以端到端方式解決上述問題,而無需顯式對齊數(shù)據(jù)。我們模型的核心是方向性兩兩跨模態(tài)關注,它關注跨不同時間步的多模態(tài)序列之間的相互作用,并潛移默化地從一個模態(tài)流調(diào)整到另一個模態(tài)流。對對齊和非對齊多模態(tài)時間序列的綜合實驗表明,我們的模型在很大程度上優(yōu)于最先進的方法。此外,實證分析表明,本文所提出的交叉注意機制能夠捕獲相關的交叉注意信號。
1、引言
人類語言不僅具有口頭語言,還具有非語言行為,從視覺(面部屬性)和聲學(聲調(diào))模式(Gibson et al., 1994)。這些豐富的信息為我們理解人類行為和意圖提供了好處(Manning et al., 2014)。然而,不同語言模式之間的異質(zhì)性往往增加了分析人類語言的難度。例如,音頻和視覺流的受體可能會隨著接收頻率的變化而變化,因此我們可能無法獲得它們之間的最佳映射。皺眉可能與過去說過的悲觀的話有關。也就是說,多模態(tài)語言序列往往表現(xiàn)出“不對齊”的性質(zhì),需要推斷跨模態(tài)的長期依賴,這就提出了執(zhí)行高效多模態(tài)融合的問題。
為了解決上述問題,在本文中,我們提出了Multimodal Transformer (MulT),這是一個端到端的模型,擴展了標準Transformer網(wǎng)絡(V aswani等人,2017),直接從未對齊的多模式流中學習表示。我們的模型的核心是跨模態(tài)注意模塊,它關注整個話語尺度上的跨模態(tài)互動。這個模塊通過重復強調(diào)一個模態(tài)的特征和其他模態(tài)的特征,來潛移默化地從一個模態(tài)到另一個模態(tài)(例如,視覺→語言)不考慮對齊的需要。相比之下,處理未對齊多模態(tài)序列的一種常見方法是在訓練前強制單詞對齊(Poria et al., 2017;Zadeh等人,2018a,b;Tsai等人,2019;Pham等人,2019年;Gu et al., 2018):通過將視覺和聲學特征與單詞的分辨率對齊來手動預處理。然后,這些方法將在(已經(jīng))對齊的時間步上模擬多模態(tài)相互作用,因此不直接考慮原始特征的長期跨模態(tài)偶發(fā)。我們注意到,這樣的文字排列不僅需要涉及領域知識的特征工程;但在實踐中,它可能也不總是可行的,因為它需要額外的數(shù)據(jù)集元信息(例如,單詞或講話的確切時間范圍)。我們演示了單詞對齊和由圖1中的模型推斷出的跨頻注意之間的區(qū)別。
為了進行評估,我們在三種人類多模態(tài)語言基準上進行了一套全面的實驗:CMU-MOSI (Zadeh等人,2016),CMU-MOSEI (Zadeh等人,2018b)和IEMOCAP (Busso等人,2008)。我們的實驗表明,MulT實現(xiàn)了最先進的(SOTA)結(jié)果,不僅在通常評估的單詞對齊設置,而且更具有挑戰(zhàn)性的不對齊場景,在大多數(shù)指標上超過了之前的方法的5%-15%。此外,實證定性分析進一步表明,多模態(tài)分析所使用的跨模態(tài)注意能夠跨異步模態(tài)捕獲相關信號。
圖1電影評論中的示例視頻剪輯。[上面]詞級對齊的圖示,其中視頻和音頻特征在每個口語的時間間隔內(nèi)被平均。[下面]文本(“壯觀”)和視覺/音頻之間的交叉模式注意權(quán)重的圖示。
為了進行評估,我們在三個人類多模態(tài)語言基準上進行了一系列全面的實驗:CMU-MOSI、CMU-MOSEI、IEMOCAP。我們的實驗表明,MulT達到了最先進的(SOTA)結(jié)果,不僅在常用評估的詞對齊設置中,而且在更具挑戰(zhàn)性的未對齊場景中,在大多數(shù)指標上都比以前的方法高出5%-15%的差距。此外,經(jīng)驗性定性分析進一步表明,MULT使用的跨模態(tài)注意能夠捕獲跨不同模態(tài)的相關信號。
2、相關工作
先前對人類多模態(tài)語言的分析工作涉及到從語言、視覺和聽覺的多模態(tài)序列推斷表征的領域。與從靜態(tài)領域(如圖像和文本屬性)學習多模態(tài)表征不同(Ngiam等人,2011;Srivastava和Salakhutdinov, 2012),人類語言包含時間序列,因此需要融合時變信號(Liang et al., 2018;Tsai et al., 2019)。早期工作使用早期融合方法拼接來自不同模式的輸入特征(Lazaridou等人,2015;Ngiam等人,2011),并顯示與從單一模式學習相比,性能有所提高。最近,人們提出了更先進的模型來學習人類多模態(tài)語言的表示。例如,Gu等。Wang et al.(2018)使用分層注意策略學習多模態(tài)表征。Pham等人(2019)使用伴隨的非言語行為調(diào)整了詞匯表征。(2019)學習了使用循環(huán)翻譯目標的魯棒多模態(tài)表示,Dumpala等人(2019)探索了用于視聽對齊的跨模態(tài)自動編碼器。之前的這些方法基于這樣的假設,即多模態(tài)語言序列在單詞的解析中已經(jīng)對齊,并且只考慮短期的多模態(tài)交互。相比之下,我們提出的方法不需要對齊假設,并在整個序列的尺度上定義了跨模態(tài)相互作用。
Transformer Network。Transformer Network
首次被引入神經(jīng)機器翻譯(NMT)任務,其中編碼器和解碼器側(cè)各自利用自我注意(Parikh et al., 2016;林等人,2017;V aswani等人,2017)變壓器。
在自我注意的每一層之后,編碼器和解碼器通過附加的解碼器子層連接,其中解碼器針對目標文本的每個元素處理源文本的每個元素。我們建議讀者參閱(V aswani et al., 2017)以獲得對該模型的更詳細的解釋。除了NMT,變壓器網(wǎng)絡也已成功應用于其他任務,包括語言建模(Dai等人,2018;Baevski和Auli, 2019)、語義角色標注(Strubell等人,2018)、詞義消歧(Tang等人,2018)、學習句子表征(Devlin等人,2018)和視頻活動識別(Wang等人,2018)。
本文吸取了NMT變壓器的強大啟發(fā),將其擴展到多模態(tài)設置。雖然NMT轉(zhuǎn)換器專注于從源文本到目標文本的單向翻譯,但人類多模態(tài)語言的時間序列既不像單詞嵌入那樣具有良好的表示,也不像單詞嵌入那樣離散,每個模態(tài)序列具有截然不同的頻率。因此,我們不建議明確地從一種模式轉(zhuǎn)換到其他模式(這可能是極具挑戰(zhàn)性的),而是通過注意力來潛在地適應不同模式的元素。因此,我們的模型(MulT)沒有編碼器-解碼器結(jié)構(gòu),但它是由多個堆疊成對和雙向的交叉注意塊,直接關注低級特征(同時刪除自我注意)。經(jīng)驗上,我們證明了我們提出的方法在各種人類多模態(tài)語言任務上的改進超過了標準轉(zhuǎn)換器。
3、提出的方法
在本節(jié)中,我們描述了我們提出的用于建模非對齊多模態(tài)語言序列的多模態(tài)轉(zhuǎn)換器(MulT)(圖2)。
在高層,MulT通過前饋融合過程從多個方向兩兩交叉模態(tài)變壓器合并多模態(tài)時間序列。具體地說,每個跨模態(tài)轉(zhuǎn)換器(在第3.2節(jié)中介紹)通過學習對兩種模態(tài)特征的注意,用來自另一種源模態(tài)的低級特征反復強化目標模態(tài)。因此,MulT體系結(jié)構(gòu)使用這種交叉模態(tài)變壓器對所有模態(tài)進行建模,然后使用融合特征進行預測的序列模型(例如,自我注意變壓器)。我們提出的模型的核心是跨模態(tài)注意模塊,我們在3.1節(jié)中首先介紹了該模塊。然后,在第3.2和3.3節(jié)中,我們詳細介紹了MulT體系結(jié)構(gòu)的各種成分(參見圖2),并討論了跨模態(tài)注意和經(jīng)典多模態(tài)對齊之間的區(qū)別。
圖2 MulT在模態(tài)(L,V,A)上的總體框架。跨模態(tài)transformers是MulT中用于多模態(tài)融合的核心部件,具有潛在的跨模態(tài)適應性。
3.1 Crossmodal Attention
跨模態(tài)注意
我們考慮兩個模態(tài)?α?和?β?,每個模態(tài)的兩個序列(潛在未對齊)分別表示為?
和??。在本文的其余部分,分別用??和??表示序列長度和特征維數(shù)。受NMT中將一種語言翻譯成另一種語言的解碼器transformer的啟發(fā),我們假設,融合跨模態(tài)信息的一個好的方法是提供一種跨模態(tài)的潛在適應,即??β?到?α?。請注意,我們論文中考慮的模態(tài)可能跨越非常不同的領域,例如面部屬性和口語。
我們定義查詢(Query)為?,鍵(key)為?,值(value)為??,其中??,?,?:
注意,?和??有相同的長度(即),但同時在??的特征空間中表示。具體的說,公式(1)中按比例??縮放的 softmax?計算分數(shù)矩陣??,其第??項測量由模態(tài)的第???個時間步長對模態(tài)??的第??個時間步長給予的關注度。因此,?的第??個時間步長是??的加權(quán)總和,其權(quán)重由??中的第??行確定。我們稱公式(1)為單頭跨模態(tài)注意,如圖3(a)所示。
?圖3(a):跨模態(tài)注意??來自不同模態(tài)的序列 ?和???之間
基于先前關于transformer的工作,我們在跨模態(tài)注意計算中添加了殘差連接(residual ——connection)。然后引入positionwise feed-forward(相當于全連接層)以組成完整的跨模態(tài)注意塊(如圖3(b))。每個跨模態(tài)注意塊直接適應與低級特征序列(即圖3(b)中的??),并且不依賴與自注意力(self-attention),這使得它不同于NMT編解碼器的體系結(jié)構(gòu)。我們認為,從低層特征進行自適應有利于我們的模型保留每個模態(tài)的低層信息。在第4.3節(jié)中,我們將從中級特征(即??)適應的實證研究留在消融研究中。
圖3(b):跨模態(tài)transformer是幾個跨模態(tài)注意塊的深層堆疊。
圖3:來自模態(tài)??和??的兩個時間序列之間的跨模態(tài)transformer的架構(gòu)元素
3.2 總體架構(gòu)
多模態(tài)語言序列通常涉及三種主要模態(tài):語言(L)、視頻(V)和音頻(A)模態(tài)。我們用???表示這3中模態(tài)的輸入特征序列(及其維數(shù))。有了這些符號,在這一小節(jié)中,我們將更詳細地描述多模態(tài)Transformer的組件以及如何應用跨模態(tài)注意模塊。
時間卷積
為了確保輸入序列的每個元素對其鄰域元素有足夠的感知,我們將輸入序列通過一維時間卷積層:?其中??是模態(tài)??的卷積核大小,?是公共維度。卷積序列預計將包含序列的局部結(jié)構(gòu),這一點很重要,因為序列是以不同的采樣率收集的。此外,由于時間卷積將不同通道的特征投影到相同的維度,因此點積在跨模態(tài)注意模塊中是允許的。
位置嵌入
為了使序列能夠攜帶時間信息,在(Vaswani等人,2017)之后,我們將位置嵌入(PE)添加到??上:? (3) 。其中??計算每個位置索引的(固定)嵌入,???是針對不同模態(tài)產(chǎn)生的低級位置感知特征。我們將位置嵌入的更多細節(jié)留在附錄A中。
Crossmodal Transformers
基于跨模態(tài)注意塊(crossmodal attention blocks ),我們設計了跨模態(tài)Transformer(crossmodal transformer ),使一種模態(tài)能夠接收來自另一模態(tài)的信息。在下面的示例中,我們使用將視覺 (V)?信息傳遞給語言 (L)?的示例,用??表示。我們將每個跨模態(tài)注意塊的所有維度??固定為 ?。每個跨模態(tài)transformer由D層跨模態(tài)注意塊組成(見圖3(b))。形式上,跨模態(tài)transformer按照??層進行前饋計算:
其中??是由??參數(shù)化的positionwise feed-forward 子層,??表示位于第??層的??的多頭版本。LN表示層歸一化。在這個過程中,每個模態(tài)通過來自多頭跨模態(tài)注意模塊(multi-head crossmodal attention module )的底層外部信息不斷更新其序列。在跨模態(tài)注意塊的每個級別,來自源模態(tài)的低級信號被變換成一組不同的鍵/值對以與目標模態(tài)交互。經(jīng)驗上,我們發(fā)現(xiàn)跨模態(tài)transformer學習跨模態(tài)關聯(lián)有意義的元素(有關詳細信息,請參見第4節(jié))。最終的MulT是基于對每對跨模態(tài)交互進行建模的。因此,考慮到3種模態(tài)(即L、V、A),我們總共有6臺跨模態(tài)transformer(參見圖2)。
Self-Attention Transformer and Prediction
作為最后一步,我們將來自共享相同目標模態(tài)的跨模態(tài)transformers的輸出連接起來,以產(chǎn)生??。例如,??。然后,它們中的每一個都通過序列模型來收集時間信息以進行預測。我們選擇self-attention transformer。最后,提取序列模型的最后一個元素,通過全連接層進行預測。
3.3 Discussion about Attention & Alignment
在對未對齊的多模態(tài)語言序列進行建模時,MulT依賴于跨模態(tài)注意塊來合并跨模態(tài)的信號。雖然在訓練之前的先前工作中,多模態(tài)序列被(手動)比對到相同的長度,但我們注意到,MulT通過完全不同的角度來看待非對其問題。具體地說,對于MulT來說,多個模態(tài)元素之間的相關性純粹基于注意力。換言之,MulT不會通過(簡單地)對齊來處理模態(tài)不對齊;相反,跨模態(tài)注意鼓勵模型直接關注存在強信號或相關信息的其他模態(tài)中的元素。因此,MulT能夠以一種常規(guī)對其不容易揭示的方式捕捉遠程跨模態(tài)突發(fā)事件。另一方面,傳統(tǒng)的跨模態(tài)對齊可以表示為一個特殊的(階梯對角線)跨模態(tài)注意矩陣(即單調(diào)注意(Yu et al.,2016))。我們在圖4中說明了它們的區(qū)別。
圖4 使用注意矩陣實現(xiàn)從模態(tài)??到??的可視化對齊的示例。多模態(tài)對齊是跨模態(tài)注意的一種特殊(單調(diào))情況。?
4、實驗
在本節(jié)中,我們在三個數(shù)據(jù)集上對多模態(tài)變壓器(MulT)進行了實證評估,這些數(shù)據(jù)集在之前的研究中經(jīng)常用于對人類多模態(tài)情感識別進行基準測試(Pham等人,2019;Tsai等人,2019;Liang et al., 2018)。我們的目標是在詞對齊(幾乎所有之前的作品都采用了詞對齊)和非對齊(更具挑戰(zhàn)性,MulT通常是為多模態(tài)語言序列設計的)的多模態(tài)語言序列上將MulT與之前的競爭方法進行比較。
4.1 Datasets and Evaluation Metrics
數(shù)據(jù)集和評估指標
每個任務由一個單詞對齊(處理方式與前面的工作相同)和一個未對齊的版本組成。對于這兩個版本,從文本(GloV e詞嵌入(Pennington等人,2014))、視覺(Facet (iMotions, 2017))和聲學(COV AREP (Degottex等人,2014))數(shù)據(jù)模式中提取多模態(tài)特征。附錄中包含了對特性的更詳細介紹。
對于單詞對齊的版本,如下(Zadeh等人,2018a;Tsai等人,2019;Pham等人,2019年),我們首先使用P2FA (Y元和Liberman, 2008年)來獲得對齊的時間步(分段w.r.t。
(Words)的音頻和視覺流,然后我們對這些時間范圍內(nèi)的音頻和視覺特征進行平均。所有單詞對齊的序列的長度都是50。整個過程在所有數(shù)據(jù)集上都是相同的。另一方面,對于未對齊的版本,我們保留了提取的原始音頻和視覺特征,沒有任何分詞對齊或手動子采樣。結(jié)果,每個模態(tài)的長度變化很大,其中音頻和視覺序列可能包含多達>1000個時間步。我們將在下面詳細闡述這三項任務。
CMU-MOSI & MOSEI.?
CMU-MOSI (Zadeh等人,2016)是一個人類多模態(tài)情感分析數(shù)據(jù)集,包含2199個簡短的獨白視頻片段(每個片段的時長相當于一句話)。CMUMOSI的聲學和視覺特征分別以12.5和15 Hz的采樣率提取(而文本數(shù)據(jù)按每個單詞分割并表示為離散單詞嵌入)。與此同時,CMU-MOSEI (Zadeh等人,2018b)是一個情緒和情感分析數(shù)據(jù)集,由23454個電影評論視頻片段從Y ouTube(約10× CMU-MOSI的大小)組成。未對齊的CMU-MOSEI序列以20 Hz的采樣率提取聽覺信號,15 Hz的采樣率提取視覺信號。
對于CMU-MOSI和CMU-MOSEI,每個樣本都由人工注釋員用從-3(強烈負面)到3(強烈正面)的情感分數(shù)進行標記。我們使用各種度量來評估模型的性能,這與以前的工作中采用的方法是一致的:7-class accuracy7級準確度(即?中的情感得分分類),binary accuracy二進制精度(即??正面/負面情緒),F1 分數(shù)?,mean absolute error (MAE) of the score,和the correlation of the model’s prediction with human(模型預測與人體的相關性)。這兩個任務經(jīng)常用于對模型融合多模態(tài)(情感)信息的能力進行基準測試。
IEMOCAP?
IEMOCAP (Busso et al., 2008)由10K個視頻組成,用于人類情感分析。Wang et al.(2019)選擇4種情緒(快樂、悲傷、憤怒和中性)進行情緒識別。與CMU-MOSI和CMU-MOSEI不同,這是一個多標簽任務(例如,一個人可以同時悲傷和憤怒)。它的多模態(tài)流考慮音頻(12.5 Hz)和視覺(15 Hz)信號的固定采樣率。我們跟隨(Poria等人,2017;Wang et al., 2019;Tsai et al., 2019)報告了二元分類精度和預測的F1分數(shù)。
4.2 Baselines
我們選擇早期融合LSTM (EF-LSTM)和晚期融合LSTM (LF-LSTM)作為基線模型,以及循環(huán)參與V變異嵌入網(wǎng)絡(RA VEN) (Wang et al., 2019)和多模態(tài)循環(huán)翻譯網(wǎng)絡(MCTN) (Pham et al., 2019),在各種詞對齊的人類多模態(tài)語言任務中實現(xiàn)SOTA結(jié)果。為了全面地比較這些模型,我們將連接主義者時間分類(CTC) (Graves等人,2006)方法與先前不能直接應用于未對齊設置的方法(如EFLSTM、MCTN、RA VEN)相適應。具體來說,這些模型訓練以優(yōu)化CTC對齊。目標與人的多模態(tài)目標同時進行。我們將CTC模塊的更詳細的處理留在附錄中。為了公平比較,我們將所有模型的參數(shù)數(shù)量控制為近似相同。超參數(shù)在附錄中報告。
4.3 Quantitative Analysis
詞對齊實驗。
我們首先在單詞對齊的序列上評估MulT,這是先前建模人類多模態(tài)語言的方法的“主場”(Sheikh等人,2018;Tsai等人,2019;Pham等人,2019年;Wang et al., 2019)。表1、2和3的上半部分顯示了MulT和基線方法在單詞分配任務上的結(jié)果。使用類似的模型大小(大約200K參數(shù)),MulT在所有任務上的不同指標上都優(yōu)于其他競爭方法,除了IEMOCAP上的“悲傷”類結(jié)果
不對齊的實驗。
接下來,我們在未對齊設置的同一組數(shù)據(jù)集上評估MulT。注意,MulT可以直接應用于未對齊的多模態(tài)流,而基線模型(LF-LSTM除外)需要額外的對齊模塊(例如,CTC模塊)。
結(jié)果顯示在表1、2和3的底部部分。在三個基準數(shù)據(jù)集上,MulT在大多數(shù)屬性上比之前的方法(有些帶有CTC)提高了10%-15%。
經(jīng)驗上,我們發(fā)現(xiàn),與其他競爭方法相比,MulT在訓練中收斂更快,獲得更好的結(jié)果(見圖5)。此外,雖然我們注意到,當我們從單詞對齊的多模態(tài)時間序列切換到非對齊的多模態(tài)時間序列時,通常所有模型的性能都會下降,但MulT所產(chǎn)生的影響比其他方法小得多。我們假設出現(xiàn)這種性能下降是因為異步(和更長的)數(shù)據(jù)流在識別重要特性和計算適當?shù)淖⒁饬Ψ矫鎺砹烁嗟睦щy。
圖5 與未對齊的CMU-MOSEI任務上的其他基線比較時,MULT的驗證集收斂性
表1 基于CMU-MOSI的對齊和非對齊多模態(tài)序列的多模態(tài)情感分析結(jié)果。h表示越高越好,l表示越低越好。 EF代表早期融合,LF代表晚期融合
表2:在CMU-MOSEI上(相對大規(guī)模)對齊和非對齊多模態(tài)序列的多模態(tài)情感分析結(jié)果。
?表3:基于IEMOCAP的對齊和非對齊多模態(tài)情緒分析結(jié)果。
消融研究
為了進一步研究MulT中單個成分的影響,我們使用CMU-MOSEI的未對齊版本進行全面的燒蝕分析。結(jié)果如表4所示。首先,我們考慮僅使用單峰transformers(即,僅語言、音頻或視覺)的性能。我們發(fā)現(xiàn),語言transformers的性能遠遠超過其他兩種語言transformers。例如,對于??度量,將純音頻與純語言單模態(tài)transformer進行比較時,模型從65.6提升到77.4。這一事實與先前工作(Pham等人,2019年)的觀察結(jié)果一致,在先前的工作中,作者發(fā)現(xiàn)一個好的語言網(wǎng)絡在推理時已經(jīng)可以取得良好的性能。
其次,我們考慮
1、一種晚融合transformer,它按特征串聯(lián)了三個自注意transformers的最后一個元件。
2、一種接受三個異步序列???的早期融合自我注意變壓器,經(jīng)驗上,我們發(fā)現(xiàn)EF-和LF-Transformer(融合多模態(tài)信號)的性能都優(yōu)于單模態(tài)變壓器。
3、我們根據(jù)目標模態(tài)研究了單個跨模態(tài)transformers的重要性(例如??網(wǎng)絡)。如表4所示,在未對齊的CMU-MOSEI上,
我們發(fā)現(xiàn),在未對齊的CMU-MOSEI上的大多數(shù)指標中,跨模態(tài)注意模塊比后期和早期融合變壓器模型持續(xù)改進。特別是在三種跨模態(tài)轉(zhuǎn)換中,以語言(L)為目標模態(tài)的轉(zhuǎn)換效果最好。
此外,我們還研究了在跨通道注意塊(類似于NMT編碼器-解碼器架構(gòu),但沒有自我注意;見3.1節(jié))。雖然在其他燒蝕條件下,利用中級特征的MulT仍然優(yōu)于模型,但我們從經(jīng)驗上發(fā)現(xiàn),從低級特征中調(diào)整效果最好。這些結(jié)果表明,跨模態(tài)注意具體地有利于多模態(tài)學習,使其獲得更好的表征學習。
?表4:利用CMU-MOSEI對MulT跨模態(tài)變壓器效益的消融研究)。
4.4 Qualitative Analysis
為了理解跨模態(tài)注意是如何在建模未對齊的多模態(tài)數(shù)據(jù)時起作用的,我們通過可視化注意激活來實證檢驗MulT接收到的是哪種信號。圖6顯式了MulT第三層??網(wǎng)絡上的跨模態(tài)注意矩陣的一部分(原始矩陣具有維度??,該圖顯示了與該矩陣的大約6秒短窗口相對應的注意力)。我們發(fā)現(xiàn)跨模態(tài)注意已經(jīng)學會了注意跨兩種模態(tài)的有意義的信號。例如,更強烈的注意力會集中在那些傾向于暗示情感的詞語(如“電影”、“令人失望”)和視頻中劇烈的面部表情變化(上述視覺序列的開始和結(jié)束)的交集上。這一觀察結(jié)果證明了MulT相對于傳統(tǒng)對齊的一個上述優(yōu)勢(見第3.3節(jié)):跨頻注意使MulT能夠直接捕捉潛在的遠程信號,包括注意矩陣上的對角線。
圖6:CMU-MOSEI上[V→L]跨頻變壓器第三層跨頻注意權(quán)重樣本的可視化。我們發(fā)現(xiàn),跨模態(tài)注意已經(jīng)學會了將某些有意義的單詞(如“movie”、“令人失望”)與更強的視覺信號片段(通常是更強的面部運動或表情變化)聯(lián)系起來,盡管原始的L/V序列之間缺乏對齊。注意,由于時間卷積,每個文本/視覺特征都包含附近元素的表示。?
5.結(jié)論
在本文中,我們提出了用于分析人類多模態(tài)語言的多模態(tài)變壓器(Multimodal Transformer, MulT)。多模態(tài)分析的核心是跨模態(tài)注意機制,通過直接關注其他模態(tài)的低階特征,提供了一種潛在的跨模態(tài)適應機制,融合了多模態(tài)信息。而之前的方法主要集中在對齊的多模式流,MulT作為一個強大的基線,能夠捕獲長期偶發(fā),無論對齊假設。經(jīng)驗上,我們表明,與之前的方法相比,多方法表現(xiàn)出最好的性能。
我們相信,MulT在未對齊的人類多模態(tài)語言序列上的結(jié)果為其未來的應用提供了許多令人興奮的可能性(例如,視覺問答任務,其中輸入信號是靜態(tài)和時間進化信號的混合)。我們希望MulT的出現(xiàn)可以鼓勵在一些任務上的進一步探索,在這些任務中,聯(lián)合曾經(jīng)被認為是必要的,但跨通道的注意力可能是一個同等(如果不是更多)競爭性的選擇。
總結(jié)
以上是生活随笔為你收集整理的【《Multimodal Transformer for Unaligned Multimodal Language Sequences》论文翻译】的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 线程池invokeAll方法详解
- 下一篇: 手把手讲解 Android Hook-A