Zero-Shot Graph Relation Prediction through Commonsense Knowledge Integration
文章目錄
- Abstract
- Introduction
- 挑戰(zhàn):在zero-shot triplets上的性能下降
- 動機:應(yīng)用常識解決zero-shot relation prediction
- Insight 1: Neighbor commonsense reflects semantic similarity
- Insight 2: Path commonsense reflects relation similarity
- 方法:Scene Graph Relation Prediction through CommonsenseKnowledge Integration
- Motivating Analysis
- Ignorance yet Importance of Zero-Shot Triplets
- Commonsense Knowledge from ConceptNet Neighbors
- Commonsense Knowledge from ConceptNet Paths
- COACHER
- Backbone Scene Graph Generation Pipeline
- Commonsense Integrator
- Neighbor integrator
- Path integrator
- Fused integrator
- Experiments
- 實驗設(shè)置
- Original whole dataset——Visual Genome
- Zero-shot amplified dataset
- Compared algorithms
- Evaluation metrics
Abstract
scene graph generation:介紹
圖像中實體之間的關(guān)系預(yù)測是SGG中的重要步驟,但是目前的方法無法建模沒見過的三元組。
本文認為這一問題的根源在于缺乏對常識的推理。因此,本文提出了集成常識的場景關(guān)系預(yù)測框架。
Introduction
場景圖中的關(guān)系實例被定義為三元組<主語、關(guān)系、對象>。在給定兩個被檢測實體的情況下,根據(jù)學(xué)習到的關(guān)系模型的概率評分來預(yù)測他們之間存在的關(guān)系。然而,現(xiàn)有的大多數(shù)場景圖生成模型依賴于大量的訓(xùn)練來記憶。
挑戰(zhàn):在zero-shot triplets上的性能下降
有兩種類型的三元組,即訓(xùn)練數(shù)據(jù)中看到的三元組和未看到的三元組。
在訓(xùn)練數(shù)據(jù)中觀察到三元組< man,eating, pizza >。如果這個三元組在測試階段再次出現(xiàn),那么它被稱為非零射三元組。相比之下,一個三元組< child, eating, pizza >具有在訓(xùn)練數(shù)據(jù)中未觀察到的新的實體-關(guān)系組合稱為零次三元組。
動機:應(yīng)用常識解決zero-shot relation prediction
常識知識是指關(guān)于世界的一般事實,它使人類能夠在不熟悉的情況下進行推理。基于這一過程,本文從人類的角度出發(fā),提出了整合常識性知識來緩解用之不竭的三元關(guān)系問題,提高SGG中零次關(guān)系預(yù)測的性能。
本文使用的常識知識來自Concept-Net,這是一個來自人群的語義知識圖,包含關(guān)于現(xiàn)實世界概念的豐富結(jié)構(gòu)化知識。
Insight 1: Neighbor commonsense reflects semantic similarity
在ConceptNet中,兩個單獨節(jié)點之間的鄰居相似度表示他們在現(xiàn)實世界中的語義相似性。
例如,在圖1中,child和man有許多共同的鄰居,如fun,sleep,boy等,這表明child和man可能是相似的,因此與其他實體有類似的互動。如果模型在訓(xùn)練數(shù)據(jù)中看到一個三元組< man, eating, pizza >,那么由于知道child在語義上與m
an相似,它應(yīng)該更容易從看不見但相似的圖像中識別出< child, eating, pizza >這樣的三元組。
因此可以通過對鄰居重合度建模來檢測兩個實體之間的語義相似度。
Insight 2: Path commonsense reflects relation similarity
在ConceptNet中,節(jié)點之間由多條連續(xù)的邊組成的路徑連接。如上圖所示,(child, pizza)和(man, pizza)的實體對共享共同的中間路徑,如< RelatedTo, human, desire, food, related - edto >。這種中間路徑的相似性表明,人與披薩之間的關(guān)系可能與孩子與披薩之間的關(guān)系相似。如果在訓(xùn)練數(shù)據(jù)中有三元組< man, eating, pizza >,那么模型應(yīng)該傾向于在一個看不見但相似的圖像中預(yù)測給定的關(guān)系(child,pizza)。根據(jù)上述思想,我們提議通過在ConceptNet中建模兩個實體與其他實體對的路徑重合來推斷兩個實體之間的關(guān)系。
方法:Scene Graph Relation Prediction through CommonsenseKnowledge Integration
本文提出了一個新的框架,該框架將外部常識知識集成到SGG中,用于零鏡頭三連詞的關(guān)系預(yù)測
Motivating Analysis
Ignorance yet Importance of Zero-Shot Triplets
由于對zero-shot settings的忽視,使得現(xiàn)有的方法對zero-shot triplets的關(guān)系預(yù)測效果顯著下降。下表顯示了三個最先進的模型在Visual Genome (SGG最廣泛使用的基準數(shù)據(jù)集)上的性能。注意,這里使用的是平均召回,這是triplet- wisercall的平均結(jié)果。在不同k值下,non-zero-shot triplets的平均召回率幾乎是zero-shot triplets的兩倍,這表明在zero-shot關(guān)系預(yù)測上表現(xiàn)出了令人擔憂的惡化。
然而,這些zero-shot triplets代表了非常常見的關(guān)系,如< child, on, bus >,實際上比一些non-zero-shot triplets,如< bear, wearing, tie >更常見。對于< bear, wears, tie >等特定的三連詞,由于它們出現(xiàn)在訓(xùn)練數(shù)據(jù)中,并被模型記憶,因此其表現(xiàn)要好得多,但由于缺乏泛化能力,這種記憶在現(xiàn)實中的效用相當有限。
本研究將重點放在整合來自外部資源的常識知識,以提高zero-shot triplets的關(guān)系預(yù)測性能。具體地說,我們將ConceptNet作為來自其他替代方案的外部知識資源,因為它對概念的廣泛覆蓋和伴隨的概念語義嵌入是有用的功能[13]。在ConceptNet中,每個概念(單詞或短語)被建模為一個節(jié)點,每條邊表示兩個概念之間的關(guān)系。由于其廣泛的覆蓋范圍,我們能夠?qū)isual Genome中的每個實體類鏈接到ConceptNe中的一個節(jié)點。
Commonsense Knowledge from ConceptNet Neighbors
Visual Genome中類之間的語義相似度可以看作是它們在ConceptNet中對應(yīng)節(jié)點的鄰域相似度,鄰域相似度可以用它們的鄰域Jaccard相似度來計算:
兩個節(jié)點的鄰居的交集數(shù)量比上并集數(shù)量。
為了驗證在conceptnet中使用鄰域相似度作為VIsual Genome語義相似度度量的有效性,我們計算了視覺基因組中觀察最多的150個類的每對之間的相似度,并將它們的相似度按降序排列的結(jié)果。
Commonsense Knowledge from ConceptNet Paths
在ConceptNet中,除了來自鄰居的一跳信息外,由多條邊組成的路徑還可以進一步編碼豐富的多跳信息。具體來說,如果兩對實體在ConceptNet中由許多相同的路徑連接,它們更有可能共享類似的關(guān)系。為了研究ConceptNet上節(jié)點對之間的這種路徑關(guān)系,我們將中路徑定義為:
MidPath:不包含兩端節(jié)點的路徑。
例如,給定節(jié)點people和street之間的路徑< people, RelatedTo,automobile, AtLocation, street >,對應(yīng)的MidPath為< RelatedTo,automobile, AtLocation>。
COACHER
Backbone Scene Graph Generation Pipeline
場景圖生成管道包含了三個部分:
首先得到背景向量,然后得到細化的節(jié)點類別預(yù)測向量,接著得到上下文向量,最后得到邊向量。依靠邊向量,就能得到邊類別預(yù)測向量。這一過程大概如下圖所示:
采用LSTM的本質(zhì)也是希望能夠建模上下文信息。
Commonsense Integrator
常識知識的整合是通過外部資源的計算來實現(xiàn)的。具體來說,我們在這里使用ConceptNet作為外部常識知識的來源。概念網(wǎng)是一種知識圖譜,它將自然語言中的單詞和短語用標記的邊連接起來。它是由豐富的資源如維基詞典和WordNet構(gòu)建的。通過這些資源的組合,ConceptNet包含了超過2100萬個邊和超過800萬個節(jié)點,覆蓋了Visual Genome中的所有實體類。此外,它還為每個節(jié)點提供語義嵌入作為語義特征。在這里,我們開發(fā)了三種類型的集成器來從ConceptNet生成常識嵌入。
Neighbor integrator
檢測到的實體對應(yīng)類別的鄰居嵌入為鄰居向量的平均。一對實體的編碼如下所示:
Path integrator
從ConceptNet中找出路徑,然后按照跳數(shù)分類。每一跳內(nèi)都形成了一張圖。
經(jīng)典的序列模型如LSTM不能有效地處理非常短的路徑。受用于圖表示學(xué)習的消息傳遞網(wǎng)絡(luò)的啟發(fā)[2,16],我們設(shè)計了一種神經(jīng)消息傳遞機制來學(xué)習每一組l-hop路徑的表示。最后將它們結(jié)合起來,形成基于路徑的常識嵌入。
Fused integrator
為了融合基于鄰居和基于路徑的常識知識,我們通過初始化的方式將基于鄰居的知識注入到基于路徑的知識中 M S G v 0 ( v ) = M E A N ( F v , e n b v ) MSG_v^0(v)=MEAN(F_v,e_{nb}^v) MSGv0?(v)=MEAN(Fv?,enbv?)。
Experiments
實驗設(shè)置
Original whole dataset——Visual Genome
斯坦福大學(xué)李飛飛組于2016年發(fā)布的大規(guī)模圖片語義理解數(shù)據(jù)集,他們希望該數(shù)據(jù)集能像ImageNet那樣推動圖片高級語義理解方面的研究。
其主要由四個組成部分:
原來的整個數(shù)據(jù)集。對于場景圖的生成,我們使用Visual Genome數(shù)據(jù)集(SGG的常用基準)來訓(xùn)練和測試我們的框架。該數(shù)據(jù)集包含108,077張圖像,其中類和關(guān)系的數(shù)量分別為75,729和40,480。然而,92%的關(guān)系沒有超過10次,因此,我們遵循Visual Genome中廣泛使用的拆分策略,選擇最頻繁的150個對象類和50個關(guān)系作為代表。此外,我們使用70%的圖像及其對應(yīng)的實體和關(guān)系作為訓(xùn)練集,剩下的30%的圖像留作測試。從訓(xùn)練集中分離出一個5k規(guī)模的驗證集用于參數(shù)調(diào)優(yōu)。
Zero-shot amplified dataset
為了進一步研究模型在更嚴格的零次設(shè)置下的泛化能力,我們通過構(gòu)建另一個零次放大數(shù)據(jù)集來減少模型在訓(xùn)練過程中可以利用的信息。這是通過簡單地從訓(xùn)練數(shù)據(jù)中刪除包含較少常見關(guān)系的圖像來實現(xiàn)的。結(jié)果,后30個公共關(guān)系的三元數(shù)減半,而前20個公共關(guān)系的三元數(shù)基本保持不變。這樣,我們增加了模型的難度,特別是在預(yù)測零次三元組的關(guān)系時。
Compared algorithms
Evaluation metrics
Recall@K:對于每個樣本,只要置信度前K的標簽中有正確的就算成功召回。
zR@K:Recall@K在零次子集中的得分。
總結(jié)
以上是生活随笔為你收集整理的Zero-Shot Graph Relation Prediction through Commonsense Knowledge Integration的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 重新认识HTML(一)别来无恙
- 下一篇: 打开思维,新年开工一定要元气满满!