BERT在多模态领域中的应用
?PaperWeekly 原創 ·?作者|李明曉
學校|魯汶大學博士生
研究方向|自然語言處理
BERT (Bidrectional Encoder Representations from Transformers) 自提出后,憑借著 Transformer 強大的特征學習能力以及通過掩碼語言模型實現的雙向編碼,其大幅地提高了各項 NLP 任務的基準表現。
鑒于其強大的學習能力,2019 年開始逐漸被用到多模態領域。其在多模態領域的應用主要分為了兩個流派:一個是單流模型,在單流模型中文本信息和視覺信息在一開始便進行了融合;另一個是雙流模型,在雙流模型中文本信息和視覺信息一開始先經過兩個獨立的編碼模塊,然后再通過互相的注意力機制來實現不同模態信息的融合。
本文主要介紹和對比五個在圖片與文本交互領域應用的 BERT 模型:VisualBert, Unicoder-VL, VL-Bert, ViLBERT, LXMERT。雖然 VideoBert 是第一個將 Bert 應用到多模態的模型,然而其考慮的是視頻流和文本因此不在本文的介紹當中。?
以下內容分為兩部分,第一部分介紹單流模型,第二部分介紹雙流模型。
單流模型
1. VisualBERT?
論文標題:VisualBERT: A Simple and Performant Baseline for Vision and Language
論文鏈接:https://arxiv.org/abs/1908.03557
源碼鏈接:https://github.com/uclanlp/visualbert
和 BERT 類似,VisualBERT 在結構上采用了堆疊的 Transformer。其在一開始就將文字和圖片信息通過 Transformer 的自注意力機制進行對齊融合。
其文字部分的輸入為原始的 BERT 文字輸入(詞向量+位置編碼+片段編碼)加上 Token/Image 編碼來表示其是圖片或文字,而圖片部分的輸入則是采用通過 Faster-RCNN 提取的圖片區域特征加上相應的位置編碼,片段編碼和 Token/Image 編碼(如下圖右側所示)。
VisualBERT 遵循 BERT 一樣的流程,先進行預訓練然后在相應的任務上進行微調,其采用了兩個預訓練任務:第一個是和 BERT 一樣的語言掩碼,第二個則是句子-圖像預測 (即判斷輸入的句子是否為相應圖片的描述)。
作者在 VQA,VCR,NLVR2 和 Flickr30k 四個視覺語言任務上進行了測試,結果表明 VisualBERT 在四個任務中都達到了最好的表現或和已知最好表現相近的表現。進一步的消融實驗表明 VisualBERT 可以有效地學習到語言和相應圖像區域的聯系,同時也具有一定的句法敏感性。
2. Unicoder-VL
論文標題:Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training
論文鏈接:https://arxiv.org/abs/1908.06066
該模型與(1)中的 VisualBERT 極其相似,在結構上同樣采用堆疊的 Transformer,并且同樣在一開始就對圖像和語言信息進行對齊和融合。
其與 VisualBERT 最大的不同在于改模型在輸入端對圖像的處理。其文字部分的輸入與(1)中相似。在圖像的輸入上,其首先通過 Faster-RCNN 提取區域圖像特征,然后將該特征與區域圖像在圖像中的位置編碼進行拼接再經過一個連接層投影到與語言輸入維度相同的空間(如下圖所示)。
同樣的其也遵循先預訓練后微調的模式。該模型在三個任務中進行預訓練,前兩個與(1)相同為語言掩碼和圖像語言匹配任務,第三個為圖像標簽預測,即預測區域圖像所物體類別。
作者在 MSCOO 和 Flicker30K 上分別進行測試,該模型取得了最佳效果。?
3. VL-BERT?
論文標題:VL-BERT: Pre-training of Generic Visual-Linguistic Representations
論文鏈接:https://arxiv.org/abs/1908.08530
源碼鏈接:https://github.com/jackroos/VL-BERT
與上述兩個模型相同,VL-BERT 在結構上依舊直接采用堆疊的 Transformer。如下圖所示其在輸入端與上述兩個模型略有不同。
首先圖像端的輸入由以下幾個編碼的加和構成:a. Faster-RCNN所提取的區域圖像特征和該區域在原圖像中位置信息的拼;b. 位置編碼;c. 片段編碼;d. [IMG] 編碼。
在文字端該模型的輸入為正常 BERT 文字輸入和整個圖像特征的加和。同第二個模型相似,該模型分別在三個任務上進行預訓練分別為:語言掩碼、圖像標簽分類和圖像語言匹配任務。
作者最后在 VCR, VQA, REC (Referring expression comprehension) 三個任務上測試模型,該模型都取得了最佳或者與最佳相當的表現。
雙流模型
1. ViLBERT?
論文標題:ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
論文鏈接:https://arxiv.org/abs/1908.02265
源碼鏈接:https://github.com/facebookresearch/vilbert-multi-task
基于雙流的 ViLBERT,在一開始并未直接對語言信息和圖片信息進行融合,而是先各自經過 Transformer 的編碼器進行編碼。分流設計是基于這樣一個假設,語言的理解本身比圖像復雜,而且圖像的輸入本身就是經過 Faster-RCNN 提取的較高層次的特征,因此兩者所需要的編碼深度應該是不一樣的。
當兩種模態各自進行編碼后,其輸出會經過一個共注意力機制模塊(如下圖右側所示)。該模塊也是基于 Transformer 的結構,只是在自注意力機制中每個模塊都用自己的 Query 去和另一模塊的 Value 和 Key 計算注意力,由此來融合不同模塊間的信息。
該模型在兩個任務上進行了預訓練,第一個任務為掩碼任務,其中語言端和 BERT 的語言掩碼任務一樣,在圖像端任務的目標則是當區域圖像被掩蓋后模型對其輸出的分類分布能夠盡可能與用來提取區域特征的模型(這里是 Faster-RCNN)的輸出分布一致因此這里作者使用 KL 散度作為目標函數;第二個任務則是常規的語言圖像匹配任務。
作者分別在 VQA, VCR, GRE, IR, ZSIR 等五個任務中最模型進行測試。該模型在五個任務中都取得了當前最好或與最好相當的表現。其后作者又對預訓練過程進行分析發現與訓練過程中模型已經能夠學習到語言與圖像在語義上的對齊關系。
2. LXMERT?
論文標題:LXMERT: Learning Cross-Modality Encoder Representations from Transformers
論文鏈接:https://arxiv.org/abs/1908.07490
源碼鏈接:https://github.com/airsplay/lxmert
該模型與 ViLBERT 一樣采用了雙流模型。如下圖所示,語言與圖像在一開始先各自經過獨立的編碼層進行編碼,然后再經過一個模態交互編碼層進行語言與圖像在語義上的對齊和融合。
在交互編碼層中,該模型同樣的也是使用共注意力機制,即自注意力中的 query 來自一個模態,而 key 和 value 來自另一個模態。該編碼層過后,圖像與語言各自又經過一層自注意力層進一步提取高層特征。
該模型的輸出有三個部分,一個語言端的輸出,一個圖像端的輸出,一個多模態的輸出。該模型在與訓練時使用了四個任務:語言掩碼任務,圖像掩碼任務(該任務有兩部分,第一部分為預測被掩圖像物體類別,第二部分為 ROI 特征回歸任務該任務使用 L2 損失函數,語言圖像匹配任務和圖像問答任務。
最后作者分別在 VQA,GQA 和 NLVR 任務上測試該模型,模型在這些任務上都取得了最好的表現。作者同時又做了一些對比實驗驗證了預訓練有效的提高了模型在最后測試中的表現。?
總結
這五篇論文都嘗試把 BERT 的框架遷移到了多模態領域,并類似于 Bert 那樣想在多模態領域建立一個可通用的特征學習模型。多個實驗表明像 Bert 這樣的架構在多模態領域依舊具有很強的學習能力。
然而,究竟是單流更佳還是雙流更佳還不是很明確,雖然主張單流的論文里有作者與雙流模型進行比較得出單流更好的結論,但是在雙流的論文里同樣有與單流的比較而結果是雙流更好。關于單雙流究竟哪個更好或者是與特定任務相關,看來還需要未來更嚴謹的對比實驗來進一步進行驗證。
Reference
[1] VL-BERT: Pre-training of generic visual linguistic representations. Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu Wei, Jifeng Dai?
[2] Unicoder-VL: A universal encoder for vision and language by cross-modal pre-training. Gen Li, Nan Duan, Yuejian Fang, Ming Gong, Daxin Jiang, Ming Zhou?
[3]?VisualBERT: A simple and performant baseline for vision and language. Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, Kai-Wei?Change
[4]?LXMERT: Learning cross-modality encoder representations from transformers. Hao Tan, Mohit Bansal?
[5]?ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee
點擊以下標題查看更多往期內容:?
深度學習預訓練模型可解釋性概覽
如何使用知識圖譜增強信息檢索模型?
AAAI 2020?| 可建模語義分層的知識圖譜補全
淺談Knowledge-Injected BERTs
BERT+知識圖譜:知識賦能的K-BERT模型
從 Word2Vec 到 BERT
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的BERT在多模态领域中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 蓝光brc公司做什么的
- 下一篇: 涉嫌不正当竞争,韩国 Kakao 旗下网