VALSE Webinar 20-29期 图文并茂, 让视觉与语言相得益彰
生活随笔
收集整理的這篇文章主要介紹了
VALSE Webinar 20-29期 图文并茂, 让视觉与语言相得益彰
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
目錄
- Richer and Deeper
- Unbiased Scene Graph Generation
- Panel
報告時間:2020年12月2日 (星期三)晚上20:00 (北京時間)
主持人:楊猛 (中山大學)
Richer and Deeper
- 報告人:王鵬 (西北工業大學)
- Richer:下圖中,進行VQA時需要模型具有不同的能力(如Reading能力),理解不同的信息,可能不止Visual信息,需要Knowledge信息等。
- Arxiv:
-
2021AAAI
-
Deeper:知識增強,基于知識的VQA,常識理解。
-
ACMMM 2020 Oral
Unbiased Scene Graph Generation
-
報告人:湯凱華 (Nanyang Technological University)
-
Motivation:場景圖中生成的關系,都是比較常見的關系,這是由于數據集的Bias造成的。
-
Future Work:
Panel
- 嘉賓:
劉偲 (北京航空航天大學)、王鵬 (西北工業大學)、李冠彬 (中山大學)、白亞龍 (京東)、湯凱華 (Nanyang Technological University)
答:子課題:①image to text:caption;②text to image;③image and text關聯學習: visual (common sense) reasoning。
范式:①直接映射;②找中間態。主要有兩種趨勢,一是performance,二是可解釋性,現在在二者間正在逐漸達到平衡。
答:如人眼動儀和Visual Grounding中attention的轉移是一樣的。NLP領域常識庫比較豐富,但是在VQA中引入常識,首先沒有較好的常識庫,而且融入進去也比較困難,但是可以針對特定領域(如醫學、電商)構建常識庫。
答:預訓練會讓模型變成黑盒子,一定程度上和可解釋性是對立的。視覺+語言+常識庫,高級推理機制,視覺是人生下來就有的,語言是人學習的。
答:
答:①數據集標注十分昂貴;②標簽層級化;③標注非常稀疏,沒有負樣本,可以用空間關系的互斥性增加負樣本;④關系可以大致分為兩類,一是空間關系,二是語義關系;⑤精簡版的scene graph,如human action,“主謂賓”中主語永遠是人;⑥虛擬場景向真實場景遷移;⑦不構造數據集,使用zero/few shot;
答:圖像文本自動生成(生成廣告),智能導播,智能導購,風格可控的商品短文生成,VQA目前還停留在感知的階段,推理能力不行,無法大規模商用。下一代人機交互,依賴于視覺語言技術。
答:
答:
總結
以上是生活随笔為你收集整理的VALSE Webinar 20-29期 图文并茂, 让视觉与语言相得益彰的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 20201202 《计算感知》武老师 第
- 下一篇: <文本,场景图>解析实践