论文浅尝 - ICLR2020 | 具有通用视觉表示的神经机器翻译
論文筆記整理:柏超宇,東南大學在讀碩士。
來源:ICLR2020 https://openreview.net/forum?id=Byl8hhNYPS
代碼鏈接:https://github.com/cooelf/UVR-NMT
簡介和動機
近年來,不少工作已經證明了視覺信息在機器翻譯(NMT)這個任務上面是幫助的,但是這種模型存在著不少的限制,視覺信息僅僅用于小型的多模態數據集,而不能應用于大規模純文本數據集上面,并且是制作訓練集的成本較高,一幅圖片要配上兩種語言的平行句子對,當前多模態機器翻譯模型無法充分利用視覺信息。
在這篇文章中作者提出了一種僅依靠在單語文本中將圖像信息作為客觀信息融入進來,而不是現有的依靠圖像雙語標注方法,從而突破了在NMT中使用視覺信息的瓶頸,并在多個數據集上取得了提升。
模型方法
模型先基于多模態數據集Multi30K制作了一個主題-圖像查找表,在訓練和解碼的過程中,計算每個詞的TF-IDF,從主題-圖像查找表中檢索出與源句子具有相似主題的一組圖像。然后設計了一個簡單的注意力層,將圖像表示和原始源句表示融合在一起,作為對解碼器的輸入,以預測目標翻譯。這種方法可以容易地應用到純文本的NMT模型中,而無需標注大規模的雙語并行語料庫。
在獲得主題-圖像查找表后,模型可以對純文本數據集進行翻譯,對于輸入進來的句子,模型仍然會執行上面相似的操作①去除句子中停用詞②計算每個詞的TF-IDF③取k個TF-IDF值最高的詞④在主題-圖片查詢表中找到k個詞對應的圖片⑤取出出現次數最多的m張圖片,這個圖片集合可以和文本輸入一起送入后續的網絡,增強翻譯的效果。
后面的任務可以看作是一個seq2seq模型,即將文本序列和圖片序列進行編碼融合,隨后解碼出另一種語言的序列。
在文本的encoder和decoder階段作者使用了流行的Transformer模型,而在融合階段有所創新使用了一個單層的attention來完成文本embeeding和圖片特征向量之間的融合,將文本表示向量作為Q輸入進了圖片的attention層中。
由于機器翻譯任務最終需要生成的是另一種語言的文本序列,圖像只是起輔助作用,所以需要調整下兩個模態信息的權重。最終得到的H向量即可送入解碼器進行解碼。
數據集和實驗
我們在三個數據集上進行實驗:WMT16 En-RO, WMT14 EN-DE和WMT14 EN-FR。這三個數據集大小從小到大增加,從而在不同大小的數據集上都能驗證該方法。加上視覺特征后,翻譯效果都有了不錯的提升。更重要的是,由于視覺模塊只加了一層的attention層,所以加上視覺特征后參數量沒有顯著增加,訓練和推理的時間也不會長很多,
而在Multi30K這個多模態數據集上面,該模型也能取得不錯的效果,比起傳統的多模態方法在一些指標上面也能有所提升。
同時作者也對融合權重λ和每個句子配合的圖片數量進行了研究,手動去設置權重的話是很難得到一個平衡兩個模態信息的值,而像這個模型中采用了自動計算的方法所得到的結果始終優于手動設置的值。同時,為單個句子配上過多的圖片也會讓模型產生困惑,需要在保證信息充足的情況下減少噪聲的引入。
這個工作突破了原有機器翻譯依賴雙語視覺標注的限制,能將訓練好的模型應用在純文本的數據集上并取得不錯的效果。
模型沒有過多的增加Transformer的復雜度,可能將中間的層換成VL-BERT這樣的包含更多背景知識的模型會得到更好的效果。但肯定會大大提升模型復雜度。希望感興趣的同學一起閱讀原文。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 - ICLR2020 | 具有通用视觉表示的神经机器翻译的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ICML2020 | 对比
- 下一篇: 论文浅尝 - WWW2020 | 从自