BERT跨模态之后:占领了视觉常识推理任务榜单TOP 2!
星標/置頂小屋,帶你解鎖
最萌最前沿的NLP、搜索與推薦技術
文 | 小鹿鹿lulu
編 | YY
前言
由于 BERT-like 模型在 NLP 領域上的成功,研究者們開始嘗試將其應用到更為復雜的 多模態 任務上。要求模型除文本數據以外,還要接收其他模態的數據(比如圖像、聲音等),在理解和關聯多模態數據的基礎上,完成更加復雜也更貼近實際的跨模態任務。
而 視覺常識推理 (Visual Commonsense Reasoning,VCR)[1]就是一個非常具有挑戰性的多模態任務,需要在理解文本的基礎上結合圖片信息,基于常識進行推理。給定一張圖片、圖中一系列有標簽的 bounding box,VCR 實際上是兩個子任務:{Q->A} 根據問題選擇答案;{QA->R} 根據問題和答案進行推理,解釋為什么選擇該答案。
例如,圖片中三個朋友聚餐,一名服務員在上菜。Q: 為什么 person 4 指著 person 1?A: 為了告訴 person 3,person 1 點了烤薄餅。R: 之所以這么認為是因為 person 3 是服務員正在上菜,基于常識,服務員通常不知道每道菜是誰點的。
而 VCR 就是由十幾萬這樣的“圖片-問答”對組成的數據集,主要考察模型對跨模態的語義理解和常識推理能力。由于該任務非常具有挑戰性,所以引來了很多的學術界工業界的大佬前來刷榜參賽[2],包括百度、微軟、谷歌、Facebook、UCLA、佐治亞理工學院等等。現在榜單上 TOP2 模型分別為百度 ERNIE 團隊的 ERNIE-ViL-large 和微軟 D365 AI 團隊的 ViLLA-large。下面就來分別看看這兩個模型是如何登頂榜單,利用 BERT 跨界解決多模態問題~
論文鏈接:
ERNIE-ViL
https://arxiv.org/pdf/2006.16934.pdfViLLA
https://arxiv.org/pdf/2006.06195.pdf
Arxiv 訪問慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞【0831】下載論文 PDF~
結合知識的 ERNIE-ViL
ERNIE-ViL 和其他 BERT 多模態模型類似,都是在 BERT 的基礎上將輸入類型和預訓練任務從單一模態(text)擴展到多模態(text+video/image)。
輸入:模型除了接收文本 token embedding 以外,還要接收 image embedding。利用訓練好的目標檢測工具提取圖像中感興趣的核心部分 RoI(region-of-interest),將 well-pretrained 圖像分類模型送入最后一層多分類前的 pooling feature 作為該 RoI 的 region feature,并結合 location feature,?,作為 image embedding。其中, 和? 分別為 RoI 左下角和右上角的坐標, 為寬度, 為高度。
預訓練任務:將 BERT 經典的 MLM 和 NSP 預訓練任務擴展到多模態場景。
隨機 mask text token(sub-words)和 image token(RoIs),并結合沒被 mask 的 text 和 image 預測被 mask 的 token。
NSP 任務不再是判斷兩個文本句子是否連續,而是預測 text 和 image 是否 match。
更多關于 BERT 多模態的擴展細節可以閱讀歷史推文VL-BERT和videoBERT。
在這個經典的架構下,ERNIE-ViL 指出隨機 mask sub-words 或者 RoIs 無法學習到細粒度的文本和圖像的語義信息,比如理解文本和圖像中涉及的對象(objects)、對象的屬性(attributes)和對象間的關系(relationships)。所以,ERNIE-ViL 利用場景圖(Scene Graph)加入結構化的知識,不再隨機 mask 單獨的 sub-words,而是 mask 更有信息的對象、屬性和關系。 這一舉措將 MLM 任務分化成了對象預測、屬性預測、和關系預測,分而治之。
如上圖所示,輸入是圖像和對應的文本“A woman in a blue dress is putting her little white cat on top of a brown car in front of her house”。對文本信息,利用已有的 Scene Graph Parser 工具解析出 Scene Graph Knowledge,其中綠色方框代表示對象、藍色方框表示對象屬性、橙色方框表示對象關系,將 Scene Graph Knowledge 中的元素隨機 mask,結合同樣被 mask 的 RoIs,預測被 mask 的 RoIs 和對象、對象屬性和對象關系。
結合知識的 ERNIE-ViL 模型,不僅登頂 VCR,超過原來的 SOTA 3.7%,還在視覺問答任務(Visual Question Answering,VQA)、圖像檢索(Image Retrieval)和文本檢索(Text Retrieval)上都有顯著的提升。
對抗訓練的 ViLLA
不同于 ERNIE-ViL 在 pre-train task 上下功夫,ViLLA(Vi-and-Language Large-scale Adversarial training)則是利用對抗訓練(adverseral training)優化訓練方法提高模型的泛化能力和魯棒性。
在經典的兩階段訓練(pre-training and fine-tuning)中,雖然 pre-training 階段有大量的數據,但是在下游任務的 fine-tuning 中卻通常只有少量的 labeled data,強有力的 fine-tuning 往往會導致模型在下游任務上迅速過擬合。 而對抗訓練則是一種通過對樣本增加擾動生成更混淆的對抗樣本,來提高模型魯棒性的非常有效的方法之一。那么對抗訓練是否適用于 BERT-like 多模態模型的訓練呢?
由于多模態模型的特殊性,需要同時接收離散的 text 和連續的 visual 兩種類型的輸入。所以和其他常見的對抗訓練方法在 image pixel 或者 sub-word token level 上增加擾動不同,ViLLA 嘗試對圖像和文本的 feature embedding 增加擾動?。 并且模型一次只會對其中一種模態增加擾動,假設擾動后的 label 保持不變。
ViLLA 在 pre-training 和 fine-tuning 兩個階段都加入對抗訓練,損失函數由三個部分組成:
(向右滑動查看完整公式)
其中, 為在不變的 clean data 上的 cross-entropy loss, 為 label-preserving 對抗訓練損失, 為對抗正則項(adversairal regularization)。
(向右滑動查看完整公式)
在 min-max 的過程中,內部的 max 是為了找到范圍內最佳擾動或者最強攻擊,外部的 min 則是最小化最強攻擊情況下的損失。 和? 定義最強攻擊的標準不同, 關注于能最大程度改變預測值與真實值之間誤差的擾動, 則關注于能最讓預測模型的分布與真實值分布區別最大的擾動。
ViLLA 使用了"Free" AT Strategy 來學習模型參數。"Free" AT Strategy 是綜合訓練效率和攻擊精度的一種經典的對抗訓練方法,屬于對抗訓練范疇這里就不詳細介紹啦~感興趣的同學可以閱讀論文[3]了解更多細節~
將上述對抗訓練方法和當時的 SOTA 模型 UNITER[4]就得到了 ViLLA 模型。在 VCR 任務上,ViLLA 相較于 UNITER-large 從 62.8%提升到 65.7%,2.9%的充分說明了對抗訓練的有效性~
寫在最后
ERINE-ViL 結合場景圖加入知識讓模型學習到更細粒度的跨模態的語義信息;ViLLA 利用對抗訓練增加模型的魯棒性,都是 BERT 在多模態領域中非常有意思的嘗試。那么,對抗訓練+ERINE-ViL 是否還可以進一步提升呢?????
多模態領域的研究還是非常可期的,期待更多突破性的研究工作~ 對多模態感興趣的同學,可以掃描下方二維碼加入 賣萌屋多模態討論群,一起交流學習更多多模態領域的知識~
若二維碼失效,可在微信公眾號后臺回復關鍵詞【入群】獲取進群入口。
參考文獻
[1] VCR:
https://arxiv.org/abs/1811.10830
[2] VCR Leaderboard:
https://visualcommonsense.com/leaderboard/
[3] Free AT:
https://arxiv.org/pdf/1904.12843.pdf
[4] UNITER:
https://arxiv.org/abs/1909.11740
總結
以上是生活随笔為你收集整理的BERT跨模态之后:占领了视觉常识推理任务榜单TOP 2!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习平台的未来:谁会赢得下半场?
- 下一篇: 快手搜索技术部招聘NLP算法工程师!