论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示
筆記整理 | 陳卓,浙江大學計算機科學與技術系,博士研究生
研究方向 | 知識圖譜/圖神經網絡/多模態
論文鏈接:https://www.aclweb.org/anthology/2020.findings-emnlp.44.pdf
代碼:https://github.com/ZiaMaryam/ConceptBERT
發表會議:EMNLP 2020
任務核心ideas
模型概覽
流程如下:
得到對應模態的嵌入表示
通過兩個并行模態融合模塊
視覺-語言(輸出2個向量)
知識-語言(輸出1個向量)
聚合三種向量
帶有語言信息的視覺向量
帶有視覺信息的語言向量
帶有外部知識的語言向量
分類器進行答案分類
背景知識
借鑒AAAI2020的一篇文章(Commonsense knowledge base completion with structural and semantic context)中所提到的ConceptNet embedding 作為I2020 常識概念圖中的實體表示
借鑒NIPS2019中一篇文章中的多模態交叉attention方法,交叉視覺和語言兩條stream分別使用了自己的query和來自另一邊的key和value向量,進行信息融合
模型方法
輸入模塊:
編碼模塊:
包括:
1:圖片與bert的聯合編碼
2:bert與Kgembedding的聯合編碼
3:3個編碼方式的聚合
實驗
作者在OK-VQA數據集上達到了sota,但是在VQA標準數據集VQA2.0上并沒有達到。主要原因是因為該方法側重于常識與背景知識,在trick上不如當前SOTA的VQA模型(效果接近76%)。
同時,該論文避開了FVQA數據集,猜測原因是在該數據集上表現不佳(該數據上大部分方法都是基于pipeline,這種end2end的方法不好去對標)
總結與靈感
常識知識庫某種程度上可增強許多VQA任務,哪怕不是顯式地需要外部知識
多模態任務中以圖的形式引入外部知識依然有很大的潛力可以挖掘
預訓練fine-tune +(交叉)注意力機制 + 外部知識 + KG圖結構 - - > 信息最大化
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 暑期学校 | 东南大学2021年国际暑期
- 下一篇: 手把手教你求职进入BAT