论文浅尝 | 端到端神经视觉问答之上的显式推理
鏈接:http://www.public.asu.edu/~cbaral/papers/2018-aaai-psl.pdf
?
概述
視覺問答(Visual Question Answering)現有兩大類主流的問題, 一是基于圖片的視覺問答(ImageQuestion Answering), 二是基于視頻的視覺問答( Video Question Answering).而后者在實際處理過程中, 常常按固定時間間隔取幀,將視頻離散化成圖片(frame)的序列,剔除大量冗余的信息, 以節省內存.
?
當前視覺問答的研究主要關注以下三個部分:
延續自然語言處理中, 對注意力機制(Attention Mechanism) 和記憶網絡(Memory Network) 的研究,旨在通過改進二者提高模型對文本和圖像信息的表達能力,通過更豐富的分布式表示來提升模型的精度.另一方面,也可以視作是對神經計算機(Neural Machine) 其中鍵值模塊(Key-value, 對應注意力)和緩存模塊(Cache, 對應記憶網絡)的改進.
密集地研究可解釋性(Interpretability)和視覺推理(Visual Reasoning) . 對同領域多源異構數據,這類研究方向將問答視為一種檢索或人機交互方式,希望模型能提供對交互結果(即答案)的來由解釋.
將文本或圖像, 以及在圖像中抽取的一系列信息, 如場景圖譜(SceneGraph), 圖片標題(Image Caption)等視為是”知識來源”, 在給定一個問題時,如何綜合考慮所有的知識,并推斷出最后的答案.
文章開頭提到的論文,便是朝著第三個方向再邁進一步.
模型
本文提出的主要模型,是一個基于一階謂詞概率軟邏輯(Probabilistic Soft Logic)的顯式推理機. 如果你已經訓練好了一個用于視覺問答的神經網絡模型,那么這個顯式推理機可以根據模型的輸出結果, 綜合考慮信息后,更正原本模型的輸出結果. 這樣的后處理能提升模型的精度.下圖就是一個這樣的例子.
圖 1:一個正面例子
?
圖 1 中紅色六邊形標示的 “PSL Engine”, 是顯式推理的核心部分.通過這一個部分, 將 “VQA” 的預測結果與” Visual Relation(視覺關系)”,“Question Relation(問題關鍵詞關系)”和”Phrasal Knowledge(語言常識)”三部分信息綜合起來,進行推理, 更新答案. 此處是一個正向例子.
??????????? 推理過程具體如下:
生成 VQA 答案: 存在一個視覺問答的神經網絡模型, 對于這幅圖片和相應問題,預測出最有可能的答案是:教堂(church) 和谷倉(barn).
生成Visual Relation: 通過利用Dense Captioning system(Johnson, Karpathy, and Fei-Fei 2016) 生成圖片的文本描述, 再用Stanford Dependency Parsing(De Marneffe et al. 2006) 抽取生成描述中的關鍵詞,再啟發式的方法為關鍵詞對添加上關系,構成三元組.這代表了從圖片中抽取出有效的結構化信息.
生成 Question Relation: 再次使用StanfordDependency Parsing及啟發式方法抽取問題中包含的三元組信息.
生成 Phrasal Knowledge: 將所有相關關鍵詞在ConceptNet 和詞向量中索引,并計算相似度.
由概率軟邏輯推理引擎綜合前面四步生成的所有信息, 更新 VQA 答案對應的得分,并重新排序,得到新的結果.
?
在推理過程中,使用了概率軟邏輯, 來綜合考量各種生成的事實. 其核心思想是: 由謂詞和變元組成的命題, 真值不在局限于1或0(真或假), 而是可以在閉區間[0, 1]上取值. 一個簡單的例子是:
“X和Y是朋友關系且Y為 Z投票, 蘊含X為 Z 投票”的權重是0.3. 而“X和Y是伴侶關系且Y為Z投票, 蘊含X 為 Z 投票”的權重是0.8. 回到本文的例子, 綜合所有生成的命題并進行推理的過程如下:
在此, 命題的權重w_i 是需要學習的部分. 而優化的目標是使得滿足最多條件的正確答案的權重最高.
實驗
在數據集MSCOCO-VQA(Antol et al. 2015) 測試. 讓我們看看效果:
?
圖 2:實驗結果中的 8 個例子
?
筆記整理:楊海宏,浙江大學博士,研究方向為知識問答與推理。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
?
點擊閱讀原文,進入 OpenKG 博客。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的论文浅尝 | 端到端神经视觉问答之上的显式推理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jieba.cut与jieba.lcut
- 下一篇: 2019字节跳动秋招笔试