论文浅尝 - AAAI2020 | 多模态基准指导的多模态自动文摘
論文筆記整理:劉雅,天津大學碩士。
鏈接:
https://aaai.org/ojs/index.php/AAAI/article/view/6525
動機
近年來,隨著計算機視覺以及自然語言處理技術的發展,多模態自動文摘技術逐漸成為學術界和工業界研究的熱點。當前的多模態自動文摘受限于數據集本身的原因只能采用文本模態的負對數似然損失作為目標函數訓練整個網絡,同時利用注意力機制來輔助挑選圖片。這種做法容易帶來模態偏差的問題,即整個網絡會傾向于優化文本生成的質量而忽視了圖片的挑選過程。該論文提出了多模態基準指導的多模態自動文摘方法。基本想法是優化多模態摘要訓練的目標函數,即在文本損失的基礎上增加圖片選擇的損失函數。
亮點
論文亮點主要包括:
(1)提出一種新的評估指標,該論文是第一個從信息完整性的角度評估多模式摘要的方法,該方法學習了模型摘要和參考摘要的聯合多模式表示形式。包含信息完整性的評估指標與人類判斷的相關性更好。
(2)提出一種多模態損失函數,以多模態參考為指導,以利用摘要生成和圖象選擇中的損失
概念及模型
該方法由三部分組成:
首先利用數據集本身的特征將只有文本基準的訓練數據擴展至多模態基準,主要采用兩種方式,即直接使用輸入圖片的順序對圖片進行排序或者使用圖片的文字描述與標準文本摘要參考答案之間的ROUGE值大小對輸入圖片進行排序。
在模型上添加圖片判別器用于訓練圖片挑選的過程,模型的損失函數也由文本的損失函數及圖片挑選的損失函數加權求和而成。
通過數據集中的圖片和文本描述構造文本-圖片對齊片段從而用來訓練能夠更好地評價多模態片段的評價模型,具體而言論文將兩對圖片-描述的文本部分(或圖像部分)進行交換去構造兩個匹配的多模態片段。
模型整體框架如下:
多模態匹配片段構造示意圖如下:
多模態目標函數
為了在訓練中利用多峰參考,論文提出了一種多峰目標函數,該函數除了考慮文本摘要的負對數似然損失外,還考慮了圖像選擇的交叉熵損失。論文將多模態摘要分解為兩個任務:摘要生成和文本圖像關系識別。為此,論文提出了一種圖像識別器來指導圖像選擇。圖像鑒別器將確定圖像是否與文本內容有關。我們應用多任務學習來同時訓練兩個子任務。在多任務設置中,共享兩個子任務的文本編碼器和摘要解碼器。論文使用另一個圖片解碼器將全局圖象特征g轉化為g’.
可以通過兩種方式顯示文本信息:(1)文本編碼器的最后一個隱藏狀態;或(2)摘要解碼器的最后隱藏狀態。為了將兩個向量投影到一個聯合語義空間中,論文使用兩個具有ReLU激活功能的多層感知器將文本向量和視覺向量轉換為Itxt和Ivis。圖象和文本信息之間的相關性可以表示為:
圖像分為文本相關和非文本相關,這意味著可以將文本-圖像關系識別視為分類任務。因此,論文采用了交叉熵損失:
其中PA(img)表示圖像的實際概率分布(如果選擇排名前k位的圖像作為目標,則圖像的概率為1 / k。)。最后,將交叉熵損失(由超參數λ加權)添加到摘要生成的損失函數中,以產生一個同時考慮了文本參考和圖像參考的新損失函數:
聯合多模態表示
在跨模式檢索中,輸入是一對圖像和一個文本。但是在該論文提出的模型中,輸入變成一對多模態分段(ma,mb),其中ma =(Imagea,Texta)和mb =(Imageb,Textb)。關鍵問題是如何構建訓練數據。MSMO數據集中有很多圖像字幕對,并且假定每個圖像都與相應的字幕相匹配。因此,通過交換兩個圖像標題對的圖像(或文本)以獲得匹配的多模態分段對(ma*,m*b),其中m*a =(Imageb,Texta)和m*b =(Imagea ,Textb)。值得注意的是,由于m*b中的Imagea與m*a中的Texta相匹配,而m*a中的Imageb與m*b中的Textb相匹配,因此m*a在語義上與m*b相匹配對圖像和文本進行編碼,然后使用多模式注意力機制融合文本向量和圖像特征。最后模型是在一個新的最大利潤率損失下訓練的:
其中(m,m *)是匹配的多模態分段對,(m,)是從批次中采樣的負對。論文還使用MSMO數據集中的圖像字幕對構造訓練數據。
理論分析
實驗
目前多模態自動文摘的數據集還比較匱乏,這項工作在MSMO數據集上進行實驗驗證。一般圖文式摘要的評價關注三個方面的指標:圖片準確率(IP)、文本摘要的ROUGE值(ROUGE-L)以及系統輸出中圖片文本的相關度(Msim)。該論文引入一個新的自動評價指標MRmax用來直接度量兩個多模態信息之間的相似度(輸出和參考答案的最大相似度)。MMAE是對IP、ROUGE和Msim的組合,MMAE++是IP、ROUGE、Msim和MRmax四個自動評價指標的組合。利用與人工打分之間的相關度來對比不同的自動評價指標。
下表給出了不同的自動評價指標與人工打分的相關度,可以看出融入了直接測量多模態片段的評價指標MR之后,新的自動評價模型MMAE++相比于MMAE在與人工打分的相關度上有一個顯著的提升。為了衡量論文提出的多模態基準指導的模型,論文同多個強基線模型進行了對比,包括融入全局或者局部視覺特征的多模態注意力機制的生成式自動文摘模型(ATG、ATL)、層次化的多模態自動文摘模型(HAN)以及基于圖模型的抽取式自動文摘模型(GR)
下表給出了不同模型生成的圖文式摘要的質量對比,可以看出在引入多模態基準指導后,模型的圖片挑選質量(IP)得到了顯著的改善,并且文本生成質量也有略微改進,從而生成更高質量的圖文摘要。相對于使用編碼器隱層狀態而言,采用解碼器隱層狀態去進行圖片選擇效果會更好。另一方面,使用圖片描述與文本摘要之間ROUGE值的大小對圖片排序獲得的多模態基準對于模型的指導作用更加明顯。
同時,本論文也對比了不同的圖片選擇損失函數權重對于模型性能的影響,可以看到當圖片和文本的損失函數的權重都相同時,圖文摘要的質量是最好的。
論文對比了在計算圖片損失中考慮的圖片數量(即top-K圖片作為gold standard)所帶來的影響,并且發現當 K=3的時候,模型取得了最好的效果。
總結
在本文中,論文著重于通過提出一種多模式目標函數來改進多模式摘要,該目標函數同時考慮了文本摘要生成的負對數似然損失和圖像選擇的交叉熵損失。實驗表明,該模型可以在真實的人工標記測試集和自動構建的測試集上提高多模式輸出的質量。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 - AAAI2020 | 多模态基准指导的多模态自动文摘的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 图谱实战 | 徐美兰:深度应用驱动的医学
- 下一篇: 论文浅尝 | 利用开放域触发器知识改进事