visual-reasoning 笔记
目錄
整理最近學習 visual-reasoning的筆記
1. 關注 ACL、EMNLP、NAACLI等會議文章
未開始
2. Cyc項目
2.1 cyc知識庫介紹:
? 該知識庫包含了320w條人類斷言,30w概念,15000謂詞。
? Cyc知識庫中表示的知識一般形如“每棵樹都是植物”、“植物最終都會死亡”。當提出“樹是否會死亡”的問題時,推理引擎可以得到正確的結論,并回答該問題。
? cyc中的概念被稱為常量,主要有以下幾種常量。
個體
集合
真值函數
函數
謂詞
- 最重要的謂詞是#isa 以及 #genls。 #isa 表示某個對象是某個集合的個體,#genls表示某個集合是另一個集合的子集。
句子中可以包含變量,變量字符串以 "?"開頭,這些句子被稱為“規則”。
2.2 對Cyc項目的批評:(我們可以借鑒吸收的經驗)
- 該系統具有創建百科全書式知識庫的野心,但卻手動添加所有的知識到系統中
- 我們是否可以通過程序、腳本等輔助工具盡量自動化完成這一工作
- 其他都是一些技術難點,比如對物質概念的解釋難以令人滿意,缺乏測試系統,該系統在廣度和深度上都有待完善。
3. WordNet
3.1 介紹
? 常規詞典忽略了詞典中同義信息的組織問題。WordNet將詞匯分成五個大類:名詞、動詞、形容詞、副詞和虛詞。 特色之處在于根據詞義來組織詞匯信息,按照詞匯的矩陣模型組織的。
? WordNet中單詞關系包括如下幾種:同義關系、反義關系、上下位關系、部分關系。
? 詞形之間的詞匯關系:同義關系、反義關系
? 詞義之間的語義關系:上位關系(父集)、下位關系(子集)
WordNet 按照詞匯的矩陣模型組織
4. Conceptnet
ConceptNet 是一個大規模的多語言常識知識庫,其本質為一個以自然語言的方式描述人類常識的大型語義網絡。ConceptNet 起源于一個眾包項目 Open Mind Common Sense,自 1999 年開始通過文本抽取、眾包、融合現有知識庫中的常識知識以及設計一些游戲從而不斷獲取常識知識。ConceptNet 中共擁有 36 種固定的關系,如 IsA、UsedFor、CapableOf 等,圖 4 給出了一個具體的例子,從中可以更加清晰地了解 ConceptNet 的結構。ConceptNet 目前擁有 304 個語言的版本,共有超過 390 萬個概念,2800 萬個聲明(statements,即語義網絡中邊的數量),正確率約為 81%。另外,ConceptNet 目前支持數據集的完全下載。
5. visual question answering as reading comprehension 李暉老師文章
main contribution
- 將 vqa 轉換為 tqa任務,可以tqa的技術解決問題
- propose two type of vqa model
- it is easy to extend to adress knowledge based vqa
6. From Recognition fo Cognition: Visual Commonsense Reasoning
R2C Model
task
- 給定image, objects bbox ,query(question), four responses(answers), rationale,
- task 1:(Q -> A)對于一個query, 從四個候選response 中選擇一個
- task 2: (QA -> R)如果選擇出正確的response, 從四個候選 retionale中選擇一個
可取之處:
- 利用到object bbox
- Grounding 中:把名詞對應roi image 的feature 加入 LSTM中,如上圖的【person 4】的 object feature
- Contextualization: 讓 response 跟所有 object bbox feature 進行attention
不理解的地方:
- BERT 在網絡中發揮什么作用?對輸入的文本信息進行編碼??
- Contextualization輸出的是什么信息???
7. FVQA
作者從 coco和imagenet 中挑選了 2190張圖片,這些圖片主要包含三類 visual concept :
- Object: 圖片中的真實實體(例如人、汽車、狗等)。它們是由兩個分別在MS-COCO和ImageNet上訓練的Fast-RCNN模型得到的。同時還利用了一個image attribute model在沒有在圖像中定位的情況下標注了92個objects。一共有326個不同的object class。
- Image Scene: 關于圖像中的場景信息(例如辦公室、臥室、海灘、森林等)。這是通過VGG-16在MIT Place 205-class數據集上訓練得到的,同時使用了包含25個scene class的attribute classifier。最終一共包含221個不同的scene class。
- Action: Attribute model提供了24類不同的人或動物的動作,例如走路、跳躍、沖浪、游泳等。
而關于這些visual concept的knowledge則是從DBpedia、ConceptNet、WebChild等已有的外部KB中抽取的:
- DBpedia: 在DBpedia中存儲的數據是從Wikipedia中抽取的到的。在這個KB中,concepts根據SKOS Vocabulary被link到它們各自的categories或者super-categories。
- ConceptNet: 這個KB是由幾個commonsense關系組成的,例如UsedFor, CreatedBy和IsA。這篇文章中作者使用了11個common relationships來產生問題和答案。
- WebChild: 這個數據庫中包含了一些比較級關系,例如Faster、Bigger和Havier。
數據集構造
數據集組成:
- knowledge base
- 提供common sense
- image-question-answer
- multiple-choices or other???
knowledge base中信息 類別
- CV 類
- 獲取方式
- 從coco數據集中提取 cv common sense
- 用image captioning 的model生成,輸入大量圖片, 獲取cv commense sense
- 類別:
- 位置常識
- action
- image scene
- 獲取方式
- 非 CV類
- 獲取方式
- 各種常識性知識從 concept net等 knowledge base中抽取
- 類別:
- object
- action
- scene
- 上述出現的名詞從kb中抽取 相關信息
- 獲取方式
knowledge base 存儲形式:
- 初步想法:
- 三元組形式存儲
- 進一步:
- 以圖的形式存儲(如何存儲,如何查詢 需要考慮)
轉載于:https://www.cnblogs.com/yeran/p/11318135.html
總結
以上是生活随笔為你收集整理的visual-reasoning 笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 拉布拉多犬多少钱啊?
- 下一篇: “上将儆政教”下一句是什么