Identity-Aware Textual-Visual Matching with Latent Co-attention文章翻译学习(ICCV)
原文鏈接:點擊打開鏈接
Abstract
文本 - 視覺匹配旨在測量句子描述和圖像之間的相似性。大多數(shù)現(xiàn)有方法在解決此問題時沒有有效利用身份級別注釋。在本文中,我們提出了一個用于文本 - 視覺匹配問題的身份感知兩階段框架。我們的stage-1 CNN-LSTM網(wǎng)絡(luò)學(xué)習(xí)將跨模態(tài)特征嵌入到新的交叉模態(tài)交叉熵(CMCE)丟失中。第一階段網(wǎng)絡(luò)能夠有效地篩選容易出現(xiàn)錯誤的配對,并為第二階段訓(xùn)練提供初始訓(xùn)練點。第二階段CNN-LSTM網(wǎng)絡(luò)利用潛在的共同關(guān)注機制改進匹配結(jié)果。空間注意力將每個單詞與相應(yīng)的圖像區(qū)域相關(guān)聯(lián),而潛在語義注意力將不同的句子結(jié)構(gòu)對齊,以使得匹配結(jié)果對句子結(jié)構(gòu)變化更穩(wěn)健。對具有身份級別注釋的三個數(shù)據(jù)集進行的大量實驗表明,我們的框架以大幅度優(yōu)于最先進的方法。
Introduction
識別自然語言描述與圖像之間的對應(yīng)關(guān)系和測量相似性是計算機視覺中的一項重要任務(wù),并且具有許多應(yīng)用,包括文本圖像嵌入,零焦學(xué)習(xí), 和視覺QA。 我們將這種普遍問題稱為文本 - 視覺匹配,近年來越來越受到關(guān)注。這項任務(wù)是具有挑戰(zhàn)性的,因為語言描述和圖像外觀之間的復(fù)雜關(guān)系是高度非線性的,并且對于類似的語言描述,圖像外觀存在較大的變化或細微的變化。
但是,在跨文本和可視域進行匹配時,基準數(shù)據(jù)集中提供的身份級別注釋會被大多數(shù)現(xiàn)有方法忽略。
在本文中,我們提出了一個兩階段的身份感知文本 - 視覺匹配框架,它由兩個深度神經(jīng)網(wǎng)絡(luò)組成。 Stage-1網(wǎng)絡(luò)通過引入跨模式交叉熵(CMCE)丟失來有效地利用身份級別注釋進行特征學(xué)習(xí)(參見圖1),從而學(xué)習(xí)圖像和語言描述的身份感知特征表示。訓(xùn)練結(jié)束后,它提供了初步的匹配結(jié)果,也是訓(xùn)練階段2網(wǎng)絡(luò)的初始點。 階段2深度神經(jīng)網(wǎng)絡(luò)采用潛在協(xié)同機制,共同學(xué)習(xí)空間關(guān)注和潛在語義關(guān)注以匹配顯著圖像區(qū)域和潛在語義概念以進行文本 - 視覺親和度估計。
【圖一:學(xué)習(xí)與身份級別注釋進行文本與視覺匹配的深層功能。 利用身份級別的注釋可共同最小化內(nèi)部身份差異并最大化身份間差異,從而產(chǎn)生更具有區(qū)別性的特征表示。】
我們的第一階段網(wǎng)絡(luò)由CNN和LSTM組成,用于學(xué)習(xí)文本和視覺特征表示。 目標(biāo)是最小化描述與屬于相同身份的圖像之間的特征距離。階段1網(wǎng)絡(luò)利用具有動態(tài)緩沖區(qū)的專用CMCE丟失,其隱含地使整個數(shù)據(jù)集中的內(nèi)部身份特征距離最小化并且最大化身份間特征距離,而不是僅僅小型小型配件。相反,對于成對或三重損失函數(shù),隨著訓(xùn)練樣本數(shù)量的增加,訓(xùn)練期間采樣消極樣本的概率將以二次方式或立方方式減少。
經(jīng)過訓(xùn)練的第一階段網(wǎng)絡(luò)能夠有效地篩選培訓(xùn)和測試中容易出現(xiàn)的錯誤匹配。 然而,第一階段CMCE損失的一個局限性在于,生成的文本和視覺特征沒有緊密耦合。對第一階段結(jié)果的進一步改進對于獲得準確的匹配結(jié)果是至關(guān)重要的。 我們的Stage-2網(wǎng)絡(luò)是一個緊密耦合的CNN-LSTM網(wǎng)絡(luò),具有潛在的注意力。 它采用一對語言描述和圖像作為輸入,并輸出用二元交叉熵損失訓(xùn)練的文本 - 視覺匹配置信度。
用于語言編碼的常規(guī)RNN在輸入描述過長時難以記憶完整的順序信息。它傾向于錯過在句子開頭出現(xiàn)的重要詞匯。 RNN對于不同的句子結(jié)構(gòu)也是變體。描述相同圖像但具有不同句子結(jié)構(gòu)的句子可以由具有較大差異的特征來表示。例如,“金發(fā)女孩穿著白色連衣裙和高跟鞋”,“女孩穿著高跟鞋和白色連衣裙”。她有金色的頭發(fā)。“兩個句子描述的都是同一個人,但第一個可能更關(guān)注”白色禮服和高跟鞋“,第二個可能會給”金發(fā)“賦予更高的權(quán)重。受到神經(jīng)機器翻譯中的對齊(關(guān)注)技術(shù)的啟發(fā),針對階段2 CNN-LSTM網(wǎng)絡(luò)提出了一種潛在的共同關(guān)注機制。視覺空間注意模塊將單詞與其相關(guān)的圖像區(qū)域相關(guān)聯(lián)。潛在語義關(guān)注模塊將不同的句子結(jié)構(gòu)與對齊解碼器LSTM對齊。在LSTM的每一步,它學(xué)習(xí)如何權(quán)衡不同的單詞的特征,以更穩(wěn)定不變地應(yīng)對變化的句子結(jié)構(gòu)。
本文的貢獻有三個。 1)我們提出了一種新穎的身份感知兩階段深度學(xué)習(xí)框架來解決文本 - 視覺匹配問題。第一階段網(wǎng)絡(luò)可以有效地篩選容易出現(xiàn)錯誤的匹配,也可以作為培訓(xùn)第二階段網(wǎng)絡(luò)的初始點。階段2網(wǎng)絡(luò)利用二進制分類細化匹配結(jié)果。利用大多數(shù)現(xiàn)有方法忽略的身份級別注釋來學(xué)習(xí)更好的特征表示。 2)為了利用身份級別的注釋,我們的stage-1網(wǎng)絡(luò)采用了具有特征緩沖區(qū)的專用CMCE丟失。這種損失使得有效的特征嵌入和快速評估成為可能。 3)為我們的第二階段網(wǎng)絡(luò)提出了一種新的潛在的共同關(guān)注機制。它有一個空間關(guān)注模塊,專注于每個輸入單詞的相關(guān)圖像區(qū)域,以及一個潛在語義關(guān)注模塊,可自動對齊不同單詞的特征表示,以最大限度地減少句子結(jié)構(gòu)變化的影響。
Related works
2.1 具有身份級別注釋的視覺匹配
具有身份級別注釋的視覺匹配任務(wù),例如人員重新識別和人臉識別,以發(fā)展的很好。但隨著樣本數(shù)量的增加會變得不穩(wěn)定,或者更難采樣。
2.2 文本視覺匹配
2.3 身份感知的視覺文本匹配(兩者結(jié)合)
雖然身份級別注釋廣泛用于視覺匹配任務(wù),但很少用于文本視覺匹配。使用這樣的注釋可以通過最小化內(nèi)部身份距離并捕獲文本概念和視覺區(qū)域之間的關(guān)系來輔助跨域特征嵌入,這使得文本 - 視覺匹配方法對于每個域內(nèi)的變化更加穩(wěn)健。
(最相關(guān)的幾篇文獻及數(shù)據(jù)集)
3. Identity-AwareTextual-Visual Matching with Latent Co-attention
文本 - 視覺匹配旨在對圖像和語言描述進行準確的驗證。如何呢,許多存在的文本 - 視覺匹配數(shù)據(jù)集提供的身份級別注釋并沒有被有效地用于跨領(lǐng)域特征學(xué)習(xí)。在本節(jié)中,我們介紹一種新穎的用于文本 - 視覺匹配的身份感知兩階段深度學(xué)習(xí)框架。第一階段CNN-LSTM網(wǎng)絡(luò)采用專用的跨模態(tài)交叉熵(CMCE)丟失,它利用身份級別注釋來最小化內(nèi)部身份并最大化身份間特征距離。由于其線性評估時間,評估也很有效。在訓(xùn)練融合后,第一階段網(wǎng)絡(luò)能夠篩選容易出現(xiàn)錯誤的匹配,并為訓(xùn)練第二階段CNN-LSTM網(wǎng)絡(luò)提供初始點。第二階段網(wǎng)絡(luò)進一步驗證了與新型潛在共同關(guān)注機制的難以匹配。它以端到端的方式共同學(xué)習(xí)視覺空間注意力和潛在語義注意力,恢復(fù)視覺區(qū)域之間的關(guān)系,實現(xiàn)對句子結(jié)構(gòu)變化的魯棒性。
?
3.1 Stage-1 CNN-LSTM with CMCE loss
圖2說明了階段1網(wǎng)絡(luò)的結(jié)構(gòu),圖2是松散耦合的CNN-LSTM。 給定輸入文本描述或圖像,對視覺CNN和語言LSTM都進行訓(xùn)練,以將輸入圖像和描述映射到聯(lián)合特征嵌入空間中,使得屬于同一身份的特征表示應(yīng)該具有小的特征距離,而不同身份的人應(yīng)該有很大的距離。 為了實現(xiàn)這一目標(biāo),CNN-LSTM網(wǎng)絡(luò)受到CMCE損失的培訓(xùn)。
【圖二:階段一—— 在每次迭代中,小批量中的圖像和文本描述首先分別輸入到CNN和LSTM中以生成它們的特征表示。 然后通過將一種模式中的采樣特征與另一種模式的特征緩沖器中的所有其他特征進行比較來計算CMCE損失(步驟-1)。 CNN和LSTM參數(shù)通過反向傳播更新。 最后,視覺和文本特征緩沖區(qū)被更新為采樣特征(步驟2)。】
3.1.1 Cross-Modal Cross-Entropy Loss
對于傳統(tǒng)的成對分類丟失[3,19]或三重最大邊緣丟失[32,26],如果訓(xùn)練集中有N個身份,則可能的訓(xùn)練樣本數(shù)為O(N2平方)。通常難以抽取反面樣本來學(xué)習(xí)有效的特征表示。 另一方面,在評估階段,成對或三重損失特征計算的時間復(fù)雜度將隨著N的增加而呈二次曲線增長,這將花費大量的計算時間。為了解決這個問題,我們提出了一種新穎的CMCE損失,它有效地比較了每次迭代中從一種模式到另一種模式中所有N個身份的小批量n個身份特征。直觀地說,采樣的n個身份特征需要在其他形式中具有與其相應(yīng)身份的高相似性,并且與整個身份集合中的所有其他N-n身份特征具有低相似性。 跨模態(tài)相似性被計算為來自兩種模式的特征的內(nèi)積。 通過使用所提出的損失函數(shù),反面樣本在每個訓(xùn)練時期都被覆蓋,并且對所有測試樣本進行采樣的評估時間復(fù)雜度僅為O(N)。
在每次訓(xùn)練迭代中,將屬于n個不同身份的小批量圖像轉(zhuǎn)換為視覺特征,每個視覺特征由v∈RD表示。 D是兩種模式的特征嵌入維度。所有N個身份的文本特征被預(yù)先存儲在文本特征緩沖區(qū)S∈RD×N中,其中Si表示第i個身份的文本特征。 然后可以將視覺特征表示v與所有文本特征S之間的相似度計算為ST v。輸入圖像v與文本特征緩存器中的第i個身份相匹配的概率可以利用以下的交叉模態(tài)softmax函數(shù):
其中σv是控制概率分布如何高峰的溫度超參數(shù)。類似地,在每個過程中,也會對屬于n個身份的一小部分句子描述進行采樣。 設(shè)s∈RD表示最小批量中的一個文本樣本的特征。 所有的視覺特征都預(yù)先存儲在一個視覺特征緩沖區(qū)V∈RD×N中。 s在視覺特征緩沖區(qū)中與第k個身份相匹配的概率定義為
其中σs是另一個溫度超參數(shù)。 在每次迭代中,我們的目標(biāo)是最大化以上文本和相應(yīng)的身份對的匹配概率。 然后可以將學(xué)習(xí)目標(biāo)定義為最小化以下CMCE損失,
其中,TV和TS分別是視覺特征V和文本特征S的目標(biāo)標(biāo)識。其梯度計算為:
文本和視覺特征緩沖器能夠有效地計算一個模態(tài)中的采樣身份特征和另一模態(tài)中的所有特征之間的文本視覺相似性。這是我們的跨模態(tài)熵損失的關(guān)鍵。
在第一次迭代之前,圖像和文本特征是由CNN和LSTM獲得的。每個標(biāo)識的文本和視覺特征存儲在文本和視覺特征緩沖器中的對應(yīng)行中。如果標(biāo)識具有多個描述或圖像,則其在緩沖器中的存儲特征是多個樣本的平均值。在每次迭代中,在前向傳播之后,首先計算損失函數(shù)。視覺CNN和語言LSTM的參數(shù)通過反饋進行更新。對于采樣的身份圖像和描述,它們在文本和視覺特征緩沖器中的對應(yīng)行由新生成的特征更新。如果對應(yīng)的標(biāo)識T具有多個實體圖像或描述,則緩沖器行被更新為具有以下公式的運行加權(quán)平均值,STV=0.5STV+0.5S和VTS=0.5VTS+0.5V,其中S和V是新生成的文本和視覺特征,TS和TV表示它們的對應(yīng)的身份。
雖然CMCE損失與SOFTMax損失函數(shù)具有相似的形成,但它們有較大的差異。首先,CMCE通過文本和視覺域傳播梯度。它可以有效地嵌入來自不同領(lǐng)域的相同身份的特征并使它們相似,并擴大非對應(yīng)身份之間的距離。第二,特征緩沖器存儲不同模態(tài)的所有標(biāo)識的特征表示,使得與所有身份的小批量樣本之間的比較非常有效。
?
3.2 Stage-2 CNN-LSTM with latent co-attention
在訓(xùn)練之后,Stage-1網(wǎng)絡(luò)能夠有效地獲得初始匹配結(jié)果,因為文本和視覺特征可以獨立地為每個模態(tài)計算。然而,視覺和文本特征嵌入可能不是最優(yōu)的,因為Stage-1將整個句子壓縮成單個向量。單個單詞和圖像區(qū)域之間的對應(yīng)關(guān)系沒有建立以捕獲詞級相似性。階段-1對句子結(jié)構(gòu)的變化也很敏感。為了獲得精確的匹配結(jié)果,對階段-1匹配結(jié)果的進一步細化是理想的。對于第二階段,我們提出了一個緊密耦合的CNN-LSTM網(wǎng)絡(luò),它具有潛在的共同關(guān)注機制,它將一對文本描述和圖像作為輸入并輸出它們的匹配置信度。 第二階段框架將個體單詞和圖像區(qū)域與空間注意力相關(guān)聯(lián),以更好地捕捉單詞級的相似性,并通過潛在的語義關(guān)注自動重新排列句子結(jié)構(gòu)。受過訓(xùn)練的第一階段網(wǎng)絡(luò)是第二階段網(wǎng)絡(luò)的初始階段。 此外,它篩選容易出現(xiàn)的負面情況,因此只有來自階段1結(jié)果的硬性否定匹配樣本才用于培訓(xùn)階段-2。 有了第一階段,階段2可以專注于處理對最終結(jié)果影響最大的更具挑戰(zhàn)性的樣本。
第2階段網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。輸入圖像的視覺特征由視覺CNN獲得。 字功能由編碼器LSTM生成。 在每個單詞處,通過空間關(guān)注模塊獲得聯(lián)合的單詞圖像特征,其將單詞特征與其對應(yīng)的圖像區(qū)域相關(guān)聯(lián)。解碼器LSTM然后自動地對準單詞的編碼特征以增強對句子結(jié)構(gòu)變體的魯棒性。利用解碼器LSTM的輸出特征來獲得最終匹配置信度。 首次提出了空間和潛在語義共同關(guān)注的思想,并據(jù)此設(shè)計了網(wǎng)絡(luò)。 與用于NLP的LSTM解碼器[4,31]不同,它們的每一步對應(yīng)于特定的輸出詞,我們的語義解碼器的每一步捕捉到潛在語義概念,并且步數(shù)被預(yù)定義為概念的數(shù)量。
【圖三:空間注意力將相關(guān)視覺區(qū)域與每個輸入詞相關(guān)聯(lián),而潛在語義注意力通過空間注意模塊自動對齊圖像詞語特征以增強對句子結(jié)構(gòu)變化的穩(wěn)健性。】
3.2.1 Encoder word-LSTM with spatial attention
對于視覺CNN和編碼器LSTM,我們的目標(biāo)是在每個輸入詞上生成一個聯(lián)合詞 - 視覺特征表示。 簡單的解決方案將簡單地將視覺特征與每個單詞的單詞特征連接起來。 然而,不同的單詞或短語可能更多地涉及具體的視覺區(qū)域而不是整體圖像。 受到[31]的啟發(fā),我們采用空間關(guān)注機制來對每個單詞的相關(guān)視覺區(qū)域加權(quán)。(一個大空間里可能還包含很多單詞,需要更細致化)
給定輸入句子描述,我們首先將每個單詞編碼為一個單獨的矢量,然后通過全連接層和編碼器LSTM將它們轉(zhuǎn)換為特征矢量。我們用H = {h1,...,hT},H∈RDH×T來表示單詞特征,其中ht表示編碼器LSTM在時間步t的隱藏狀態(tài),DH是隱藏狀態(tài)維。 令I(lǐng) = {i1,...,iL},I∈RDI×L表示輸入圖像中所有L區(qū)域的視覺特征,其中DI是圖像特征維度,而il是空間上的特征向量區(qū)域l。 在時間步t,可以計算每個圖像區(qū)域k上的空間注意力
其中WI∈RK×DI和WH∈RK×DH是將視覺和語義特征轉(zhuǎn)換到相同的K維空間的參數(shù)矩陣,并且WP∈R1×K將耦合的文本和視覺特征轉(zhuǎn)換為親和度分數(shù)。在時間t處給出一個單詞,所有L圖像區(qū)域上的注意力ak被softmax函數(shù)歸一化,并且應(yīng)該總計為1.直觀上,Ak表示第t個單詞與第k個圖像區(qū)域相關(guān)的概率。所獲得的空間關(guān)注然后被用于通過加權(quán)平均選通視覺特征,
通過這種方式,門控視覺功能更注重相關(guān)區(qū)域到第t個單詞。為了在每個單詞中包含文本和視覺信息,我們將LSTM的門控視覺特征和隱藏狀態(tài)作為空間注意模塊的輸出
3.2.2 Decoder LSTM with latent semantic attention
盡管LSTM具有記憶狀態(tài)和忘記門來捕獲長期信息,但它仍然面臨著處理非常長的句子以將輸入句子的所有信息壓縮成固定長度的向量的挑戰(zhàn)。對于句子結(jié)構(gòu)的變化,它可能不夠健壯。 受到神經(jīng)機器翻譯中的對齊(注意力)技術(shù)的啟發(fā),我們建議使用具有潛在語義注意力的解碼器LSTM來自動調(diào)整句子結(jié)構(gòu)并估計最終的匹配置信度。注意,與機器翻譯中的傳統(tǒng)解碼器LSTM不同,其中每個步驟對應(yīng)于實際的單詞,我們的解碼器LSTM的每一步?jīng)]有物理意義,而僅具有潛在語義意義。給定由編碼器LSTM編碼的最終特征,M步驟解碼器LSTM逐步處理編碼特征,同時搜索整個輸入句子以對齊圖像詞特征xt,t = {1,...,T}。在解碼過程的第m個時間步驟,計算第t個輸入詞的潛在語義注意力a'm
其中f是對第m個解碼步驟中的第j個詞的重要性進行加權(quán)的重要性函數(shù)。 它建模了一個雙層卷積神經(jīng)網(wǎng)絡(luò)。 cm-1是解碼器LSTM對于步驟m-1的隱藏狀態(tài)。在每個解碼步驟m,語義關(guān)注“軟”(?)通過加權(quán)求和來對齊字圖像特征
對齊的圖像字詞特征x?m然后被兩個全連接層轉(zhuǎn)換并且被饋送到M步驟解碼LSTM中以獲得最終的匹配置信度。 通過自動將圖像詞特征與潛在的語義注意力對齊,在每個解碼步驟中,解碼器LSTM能夠通過重新加權(quán)源圖像詞特征來增強網(wǎng)絡(luò)對句子結(jié)構(gòu)變化的魯棒性,從而更多地關(guān)注相關(guān)信息。為了訓(xùn)練階段2網(wǎng)絡(luò),我們還在構(gòu)建文本圖像訓(xùn)練對時使用身份級別的注釋。如果圖像和句子具有相同的身份,則將它們視為一對。 通過stage-1網(wǎng)絡(luò)過濾更容易的訓(xùn)練樣本。解碼器LSTM利用二元交叉熵損失進行訓(xùn)練,
其中N'是用于訓(xùn)練階段2網(wǎng)絡(luò)的樣本的數(shù)量,Ci是第i個文本圖像對的預(yù)測匹配置信度,并且y i表示其目標(biāo)標(biāo)簽,其中1表示屬于相同標(biāo)識的文本和圖像對, 0代表不同的身份。
?
4. Experiments
4.1. Datasets and evaluation metrics
CUHK-PEDES dataset:CUHK-PEDES數(shù)據(jù)集包含13,003個人身份的40,206幅圖像。 每個圖像由兩個句子描述。 訓(xùn)練集中有11,003人,34,054張圖片和68,108個句子描述。驗證集和測試集分別包含3,078和3,074個圖像,并且它們都包含1,000人。 選擇前1位和前10位的精確度來評估自然語言描述[15]后的人物搜索表現(xiàn),這是查詢文本與前1名和前10名得分圖像之間成功匹配的百分比。
?
CUB dataset and Flower dataset:CUB和Flower數(shù)據(jù)集分別包含11,788個鳥圖像和8,189個花圖像,其中每個圖像由10個文字描述標(biāo)記。 CUB中有200個不同的類別,數(shù)據(jù)集分為100個訓(xùn)練,50個驗證和50個測試類別。花有102個花類和三個子集,其中包括62個類別,20個驗證和20個測試。 我們使用與[26]相同的實驗設(shè)置進行公平比較。培訓(xùn)班和測試班之間沒有重疊。 與[26]類似,身份類僅在訓(xùn)練期間使用,并且測試以新身份進行。 我們報道了AP @ 50用于文本到圖像檢索以及圖像到文本檢索的前1精度。 給定查詢文本類,該算法首先計算與文本查詢類的身份匹配的前50個檢索圖像的百分比。 所有50個測試類別的平均匹配百分比表示為AP@ 50。
?
4.2. Implementation details
為了與不同數(shù)據(jù)集上的現(xiàn)有基線方法進行公平比較,我們選擇了CUHK-PEDES數(shù)據(jù)集的VGG-16 [29]和CUB和Flower數(shù)據(jù)集的GoogleNet [30]作為視覺CNN。對于stage-1網(wǎng)絡(luò),視覺特征是通過L2-對VGG-16和GoogleNet的“drop7”和“avgpool”層的輸出特性進行歸一化來獲得的。我們采用LSTM的最后隱藏狀態(tài)對整個句子進行編碼,并將文本向量嵌入到具有視覺圖像的512維特征空間中。文本特征也是L2規(guī)范化的。等式(1)中的溫度參數(shù)σv和σs。(1)和(2)經(jīng)驗地設(shè)定為0.04。利用Adam優(yōu)化器對LSTM進行訓(xùn)練,學(xué)習(xí)率為0.0001,而CNN則用批量隨機梯度下降進行訓(xùn)練。對于第二階段CNN-LSTM網(wǎng)絡(luò),我們不是將視覺圖像嵌入到一維向量中,而是將VGG-16的“pool5”圖層或GoogleNet的“初始(5b)”圖層的輸出作為圖像用于學(xué)習(xí)空間關(guān)注的表示。在訓(xùn)練階段,我們首先訓(xùn)練語言模型并修正CNN模型,然后聯(lián)合微調(diào)整個網(wǎng)絡(luò),以有效地耦合圖像和文本特征。培訓(xùn)和測試樣本通過階段1的匹配結(jié)果進行篩選。 對于每個視覺或文本樣本,我們從第一階段網(wǎng)絡(luò)采集其他模式的20個最相似的樣本,并為第二階段訓(xùn)練和測試構(gòu)建文本 - 視覺對樣本。每個文本圖像對分配有一個標(biāo)簽,其中1代表相應(yīng)的一對,0代表不相應(yīng)的一對。解碼LSTM的步長M被設(shè)置為5。
?
4.3. Results on CUHK-PEDES dataset(和現(xiàn)有方法相比較)
我們比較了我們提出的兩階段框架與CUHK-PEDES數(shù)據(jù)集上的六種方法。 表1中記錄了文本到圖像檢索的前1和前10個準確度。請注意,只有文本到圖像檢索結(jié)果才會針對數(shù)據(jù)集進行評估,因為圖像到文本檢索不是一個對于數(shù)據(jù)集的實際問題。我們的方法以大幅度的優(yōu)勢勝過了最先進的方法,這證明了所提出的兩階段框架在將文本和視覺實體與身份級別注釋進行匹配時的有效性。
我們的第一階段模型勝過所有比較方法。 與最先進的GNA-RNN [15]相比,我們提出的方法在前1精度方面的增益為2.50%,其網(wǎng)絡(luò)結(jié)構(gòu)比我們的網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜。 這顯示了CMCE損失的優(yōu)點。 此外,引入特性緩沖區(qū)使得即使在大量身份的情況下比較計算也更有效率。GMM + HGLMM [12]使用Fisher Vector作為句子表示,通過匯集句子中每個單詞的word2vec嵌入。Word CNN-RNN [26]旨在最小化相應(yīng)的文本 - 視覺對之間的距離,并最大限度地提高每個小批量內(nèi)非相應(yīng)文本之間的距離。 然而,這種方法受到最小批量大小的限制,不能應(yīng)用于具有大量身份的數(shù)據(jù)集。我們的CMCE損失在top-1帶來21.55%的準確性,其勝過Word CNN-RNN的10.48%。 具有CMCE損耗的第一級CNN-LSTM在其精確性和時間復(fù)雜性方面表現(xiàn)良好因為其松散耦合的網(wǎng)絡(luò)結(jié)構(gòu)。
第二階段的CNN-LSTM潛在的共同關(guān)注進一步提高了前1位和前10位精度的4.39%和5.70%。共同關(guān)注機制有效地將視覺區(qū)域與潛在語義概念對齊,以最小化句子結(jié)構(gòu)變化的影響。 與隨機抽樣的方法相比,如更深的LSTM Q +normI [3],iBOWIMG [40],NeuralTalk[31]和GNA-RNN [15],我們的網(wǎng)絡(luò)更注重區(qū)分過濾后的難的樣本但第一階段網(wǎng)絡(luò)區(qū)分容易的不相關(guān)的樣本。
?
4.4. Ablation studies
在本節(jié)中,我們通過對CUHK-PEDES數(shù)據(jù)集進行一系列消融研究,調(diào)查第一階段和第二階段網(wǎng)絡(luò)中每個組分的影響。我們首先研究提議的CMCE損失的重要性。我們訓(xùn)練我們的第一階段模型,用三重損失代替建議的損失 [26],命名為“三聯(lián)體”。如表2所示,與我們的第一階段相比,CUHK-PEDES組的前1名下降了6.79%,并且具有新的損失函數(shù)。 另外,三聯(lián)體損失[26]需要3倍的訓(xùn)練時間。 然后我們通過忽略注釋來調(diào)查身份級別注釋對文本 - 視覺匹配性能的重要性。 在這種情況下,每個圖像或句子都被視為一個獨立的身份。與“Stage-2”的結(jié)果相比,“Stage-2w / o ID”的前1和前10的準確性分別為2.47%和5.71%,這表明身份級別注釋可以幫助文本 - 視覺 通過最小化身份內(nèi)特征變化來進行匹配。
為了證明我們潛在的語義注意力的有效性,我們將它從原來的階段2網(wǎng)絡(luò)中刪除,表示為“Stage-2 w/ o SMA”。 前1精度下降2.36%,這表明潛在的語義注意力可以幫助對齊視覺和語義概念,并減輕LSTM對不同句子結(jié)構(gòu)的敏感度。 空間注意力試圖將單詞或短語與不同的視覺區(qū)域相關(guān)聯(lián),而不是整個圖像。 基于“Stage-2 w / o SMA”的框架,我們進一步從Stage-2網(wǎng)絡(luò)中刪除空間關(guān)注模塊,表示為“Stage-2w / o SMA + SPA”,它可以被看作是一個簡單的 來自CNN和LSTM的視覺和文本特征的連接,隨后是用于二元分類的兩個完全連接的層。 與“Stage-2w / o SMA”相比,前1位和前10位精度都下降了。
第一階段網(wǎng)絡(luò)能夠為第二階段網(wǎng)絡(luò)的培訓(xùn)和評估提供樣本,同時也是培訓(xùn)的起點。 為了研究第一階段網(wǎng)絡(luò)的影響,我們設(shè)計了一個額外的基線,表示為“階段-2W / O SMA + SPA +階段-1”。 這個基線在不使用第一階段網(wǎng)絡(luò)的情況下進行了訓(xùn)練。 與“Stage-2 w / oSMA + SPA”基線相比,它表現(xiàn)出明顯的性能下降,這表明了我們提出的框架中第一階段網(wǎng)絡(luò)的必要性。 由于階段1網(wǎng)絡(luò)在評估階段僅選擇階段2中每個查詢文本的20個最接近的圖像,因此某些組件的效果可能不會在前10的準確性方面顯而易見。
?
4.5. Results on the CUB and Flower datasets
表3和表4顯示了CUB和Flower數(shù)據(jù)集上圖像文本和文本圖像檢索的實驗結(jié)果。 我們與兩個數(shù)據(jù)集上的最新方法進行比較。 CNN-RNN [26]為語句特征嵌入學(xué)習(xí)CNN-RNN文本編碼器,并將視覺和文本特征轉(zhuǎn)換到相同的嵌入空間。不同的文本特征也與CNN-RNN方法結(jié)合使用。 Word2Vec [23]對句子描述中每個單詞的預(yù)訓(xùn)練單詞向量進行平均以表示文本特征。 BoW [9]是通過單層線性投影的單熱矢量的輸出。通過學(xué)習(xí)編碼器功能,屬性[2]將屬性映射到嵌入空間。不同類型的文本表示與CNN-RNN框架結(jié)合進行測試。我們的方法在頂級1圖像到文本檢索的準確性方面比現(xiàn)有CNN-RNN的性能優(yōu)越3%,在兩個數(shù)據(jù)集上的文本圖像檢索AP @ 50方面的性能都超過10%,這表明 該方法的有效性。 對于“Triplet”基線,CUB數(shù)據(jù)集中Top-1和AP @ 50分別下降9.0%和3.1%,Flower數(shù)據(jù)集下降4.1%和3.1%,證明了所提出的損失函數(shù)比傳統(tǒng)三元組損失。由于[26]提供的前1精度是通過將相同類別的句子融合成一個矢量來計算的,因此我們的階段2網(wǎng)絡(luò)因此不適用于圖像到文本檢索任務(wù),因此我們只報告階段1 圖像到文本檢索的結(jié)果已經(jīng)超越了其他基線。
?
4.6. Qualitative results
我們還對所提議的方法進行定性評估。圖4顯示了示例文本到圖像檢索結(jié)果。 大多數(shù)句子可以正確匹配與其描述相對應(yīng)的圖像。 在第一種情況下,幾乎所有的人都穿著一件帶有“黑灰色和白色條紋”的毛衣。相同身份(第一,第二和第五人稱圖像)的不同圖像出現(xiàn)在排名最高的結(jié)果中,這表明所提出的兩階段CNN-LSTM可以在不同域之間正確匹配身份,并最大限度地減少身份內(nèi)距離。一些錯誤匹配的結(jié)果甚至對人類來說很難區(qū)分視覺外觀的細微差異。 在第二種情況下,第一個人和第二個人都穿著“白色短袖襯衫”,但只有第一個是由于肩上攜帶的“黑色錢包”而成為真正的匹配結(jié)果。
5. Conclusion
在本文中,我們提出了一種新穎的身份感知視覺語義匹配兩階段框架。該框架由兩個深度神經(jīng)網(wǎng)絡(luò)組成。 階段1CNN-LSTM網(wǎng)絡(luò)學(xué)習(xí)將輸入圖像和描述嵌入到相同的特征空間中,并且利用CMCE損失來將身份內(nèi)距離最小化。 它作為第二階段訓(xùn)練的初始點,并通過篩選大多數(shù)不正確的配對,為第二階段提供訓(xùn)練和評估樣本。第二階段網(wǎng)絡(luò)是一個具有潛在協(xié)同機制的CNN-LSTM,它通過一個對齊解碼器LSTM共同學(xué)習(xí)空間關(guān)注和潛在語義關(guān)注。它會自動對齊不同的單詞和圖像區(qū)域,以最大限度地減少句子結(jié)構(gòu)變化的影響。 我們在三個數(shù)據(jù)集上評估所提出的方法,并執(zhí)行一系列消融研究來驗證每個組件的效果。 我們的方法大大優(yōu)于最先進的方法,并且證明了提出的身份感知視覺 - 文本匹配框架的有效性。總結(jié)
以上是生活随笔為你收集整理的Identity-Aware Textual-Visual Matching with Latent Co-attention文章翻译学习(ICCV)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 转发--目前开源数据集整理
- 下一篇: 图像分割——Multi-Scale an