Text to image论文精读 NAAF:基于负感知注意力的图像-文本匹配框架 Negative-Aware Attention Framework for Image-Text Matching
NAAF:Negative-Aware Attention Framework for Image-Text Matching是基于負(fù)感知注意力的圖文匹配,其利用匹配片段的積極影響和不匹配片段的消極影響來共同推斷圖像-文本的相似性,文章由中國(guó)科學(xué)技術(shù)大學(xué)和北京郵電大學(xué)學(xué)者在2022CVPR上發(fā)表。
論文地址:https://ieeexplore.ieee.org/document/9879764
代碼地址:https://github.com/CrossmodalGroup/NAAF.
作者博客地址:https://www.cnblogs.com/lemonzhang/p/16456403.html
注意:這篇論文主要討論的是圖像和文本的匹配,即語義一致性的方法。不是專用于做文本生成圖像的系列論文,本篇文章是閱讀這篇論文的精讀筆記。
一、原文摘要
圖文匹配作為一項(xiàng)基本任務(wù),彌合了視覺和語言之間的鴻溝。這項(xiàng)任務(wù)的關(guān)鍵是準(zhǔn)確測(cè)量這兩種模式之間的相似性。先前的工作主要基于匹配的片段(即,具有高相關(guān)性的單詞/區(qū)域)來測(cè)量這種相似性,同時(shí)低估甚至忽略了不匹配的片段的影響(即,低相關(guān)性的單詞或區(qū)域),例如,通過典型的LeaklyReLU或ReLU操作,該操作迫使負(fù)分?jǐn)?shù)接近或精確到零。這項(xiàng)工作認(rèn)為,不匹配的文本片段(包含豐富的不匹配線索)對(duì)圖像文本匹配也至關(guān)重要。
因此,我們提出了一種新的消極意識(shí)注意框架(NAAF),該框架明確地利用匹配片段的積極影響和不匹配片段的消極影響來共同推斷圖像-文本的相似性。NAAF(1)精心設(shè)計(jì)了一種迭代優(yōu)化方法,以最大限度地挖掘不匹配的片段,促進(jìn)更具辨別力和魯棒性的負(fù)面影響,(2)設(shè)計(jì)了雙分支匹配機(jī)制,以精確計(jì)算具有不同掩碼的匹配/不匹配片段的相似性/不相似性程度。在兩個(gè)基準(zhǔn)數(shù)據(jù)集(即Flickr30K和MSCOCO)上進(jìn)行的大量實(shí)驗(yàn)證明了我們的NAAF的卓越性能,達(dá)到了最先進(jìn)的性能。
二、圖像-文本匹配
圖像文本匹配任務(wù)定義:也稱為跨模態(tài)圖像文本檢索,即通過某一種模態(tài)實(shí)例, 在另一模態(tài)中檢索語義相關(guān)的實(shí)例。例如,給定一張圖像,查詢與之語義對(duì)應(yīng)的文本,反之亦然。具體而言,對(duì)于任意輸入的文本-圖像對(duì)(Image-Text Pair),圖文匹配的目的是衡量圖像和文本之間的語義相似程度(這也是文本生成圖像中很重要的一個(gè)點(diǎn))。
圖片和文字由于模態(tài)的異構(gòu),存在極大的語義鴻溝。圖文匹配的關(guān)鍵挑戰(zhàn)在于準(zhǔn)確學(xué)習(xí)圖片和文本之間的語義對(duì)應(yīng)關(guān)系,并度量它們的相似性。在現(xiàn)有的圖像文本匹配方法中有兩種范式:
在局部級(jí)匹配的領(lǐng)域,基于注意力的匹配框架最近迅速成為主流,其關(guān)鍵思想是通過注意力關(guān)注來自另一模態(tài)的每個(gè)查詢片段的相關(guān)片段來發(fā)現(xiàn)所有單詞-圖像區(qū)域?qū)R。
三、為什么提出NAAF?
顯然匹配的片段(即,具有高相關(guān)性分?jǐn)?shù)的單詞區(qū)域?qū)?#xff09;將對(duì)最終的圖像-文本相似性做出很大貢獻(xiàn),而不匹配片段(即具有低相關(guān)性分?jǐn)?shù)的詞區(qū)域?qū)?#xff09;的影響將被削弱甚至消除,例如,通過在注意力過程中迫使負(fù)分?jǐn)?shù)接近或精確為零的典型LeakyReLU或ReLU。
現(xiàn)有的很多方法主要尋找匹配的片段,而低估或忽略了不匹配片段的影響,完全忽略了不匹配的文本片段在證明圖像文本不匹配中的關(guān)鍵作用,將不可避免地容易產(chǎn)生假陽性匹配:
假陽性匹配:
包含許多匹配片段但有一些不匹配的文本片段的圖像-文本對(duì)(直接表明圖像-文本不匹配)仍然可以獲得高相似度,并且可以正確地排在最前面,這肯定不是一個(gè)令人滿意的結(jié)果,比如說下例兩個(gè)男孩在一些樹旁的路上踢足球:現(xiàn)有的方法主要尋找匹配的片段,例如“男孩”、“樹”,以計(jì)算圖像-文本(I-T)相似性,而不匹配的片段(例如“足球”)的影響被典型的LeaklyReLU或ReLU削弱或忽略,顯然這并不是一個(gè)很優(yōu)秀的匹配,但是由于他在大部分關(guān)鍵詞上匹配得分高,其匹配結(jié)果會(huì)非常靠前,這就屬于假陽性。
其主要集中于最大化匹配(即對(duì)齊)片段的效果,而低估或忽略了不匹配片段的線索作用。而合理的匹配框架應(yīng)該同時(shí)考慮兩個(gè)方面,即圖像文本對(duì)的總體匹配分?jǐn)?shù)不僅由匹配片段的積極影響決定,而且由不匹配片段的消極影響決定。可以充分的挖掘非對(duì)齊片段的負(fù)面作用,使原本檢索在Top位置的錯(cuò)誤匹配降低相似分值,對(duì)圖像匹配度進(jìn)行減分,如下圖所示,就可以很容易消除假陽性。
因此,作者提出了一種新的負(fù)感知注意力框架,該框架首次明確考慮了正匹配和負(fù)不匹配的片段,以聯(lián)合測(cè)量圖像-文本的相似性。與片面關(guān)注匹配片段的傳統(tǒng)匹配機(jī)制不同,該注意力框架可以有效地挖掘不匹配的文本片段,以進(jìn)一步利用這兩種類型的線索進(jìn)行聯(lián)合相似性推斷。并使用它們準(zhǔn)確地反映兩種模式之間的差異。消極感知注意框架NAAF由兩個(gè)模塊組成:
四、NAAF
NAAF的總體框架如圖所示,可以看到,首先Feature Extraction提取圖像特征和文本特征(這里不再展開),然后Negative-aware Attntion使用負(fù)效應(yīng)和正效應(yīng)進(jìn)行負(fù)意識(shí)注意以測(cè)量圖像和文本的相似性,其包括兩個(gè)主要模塊,用于顯式地利用負(fù)不匹配和正匹配的文本片段來聯(lián)合推斷圖像-文本相似性。1.不匹配挖掘模塊使失配線索產(chǎn)生更穩(wěn)健的負(fù)面影響。2.正負(fù)雙分支匹配模塊精確計(jì)算兩種類型片段的正面和負(fù)面影響,從而測(cè)量總體相似性。
4.1、特征提取
- 視覺表征:給定圖像V,利用Visual Genome 預(yù)訓(xùn)練的FasterRCNN檢測(cè)顯著對(duì)象和其他區(qū)域。然后,通過預(yù)訓(xùn)練的ResNet-101過平均池卷積特征提取檢測(cè)區(qū)域。采用全連接層將每個(gè)區(qū)域映射到1024維特征。
- 文本表征:給定由m個(gè)單詞組成的文本U,我們將每個(gè)單詞熱編碼為1024維向量,并嵌入預(yù)先訓(xùn)練的GloVe向量中,然后,向量被饋送到雙向門控循環(huán)單元(BiGRU)中,以整合前向和后向上下文信息。最終的單詞表示 u i u_i ui?是雙向隱藏狀態(tài)的平均值。
4.2、Negative-aware Attntion
給定一個(gè)圖像-文本對(duì),它可能包含豐富的匹配和不匹配片段。本模塊的目標(biāo)就是充分利用這兩類線索,以實(shí)現(xiàn)更準(zhǔn)確的匹配性能。在NAAF框架中主要有兩個(gè)模塊:
1??:不匹配挖掘模塊
不匹配挖掘模塊期望顯式地和自適應(yīng)地建模失配和匹配片段的相似性分布,旨在最大限度地分離它們,以實(shí)現(xiàn)有效的不匹配片段挖掘。
為此,在訓(xùn)練過程中,對(duì)于不匹配和匹配的單詞區(qū)域片段對(duì),首先對(duì)它們的相似度進(jìn)行采樣:
S k ? = [ s 1 ? , s 2 ? , s 3 ? , … , s i ? , … ] S k + = [ s 1 + , s 2 + , s 3 + , … , s i + , … ] \begin{aligned} S_{k}^{-} &=\left[s_{1}^{-}, s_{2}^{-}, s_{3}^{-}, \ldots, s_{i}^{-}, \ldots\right] \\ S_{k}^{+} &=\left[s_{1}^{+}, s_{2}^{+}, s_{3}^{+}, \ldots, s_{i}^{+}, \ldots\right] \end{aligned} Sk??Sk+??=[s1??,s2??,s3??,…,si??,…]=[s1+?,s2+?,s3+?,…,si+?,…]?
其中S-表示不匹配區(qū)域-單詞的相似度分?jǐn)?shù),S+表示匹配區(qū)域-單詞的相似度分?jǐn)?shù)。
基于構(gòu)造出的兩個(gè)集合,可以分別建立匹配片段和不匹配片段的相似度分?jǐn)?shù)s的概率分布模型:
分布模型公式表示為: f k ? ( s ) = 1 σ k ? 2 π e [ ? ( s ? μ k ? ) 2 2 ( σ k ? ) 2 ] , f k + ( s ) = 1 σ k + 2 π e [ ? ( s ? μ k + ) 2 2 ( σ k + ) 2 ] f_{k}^{-}(s)=\frac{1}{\sigma_{k}^{-} \sqrt{2 \pi}} e^{\left[-\frac{\left(s-\mu_{k}^{-}\right)^{2}}{2\left(\sigma_{k}^{-}\right)^{2}}\right]}, f_{k}^{+}(s)=\frac{1}{\sigma_{k}^{+} \sqrt{2 \pi}} e^{\left[-\frac{\left(s-\mu_{k}^{+}\right)^{2}}{2\left(\sigma_{k}^{+}\right)^{2}}\right]} fk??(s)=σk??2π?1?e[?2(σk??)2(s?μk??)2?],fk+?(s)=σk+?2π?1?e[?2(σk+?)2(s?μk+?)2?]
其中(μ?k,σ?k)和(μ+k,σ+k)分別是兩種分布的平均值和標(biāo)準(zhǔn)差:
分別得到兩個(gè)相似度分布建模后,可以用一個(gè)顯式的邊界t在匹配片段和不匹配片段之間進(jìn)行區(qū)分,如圖所示,相似度分?jǐn)?shù)大于 t k t_k tk?的區(qū)域-單詞對(duì)被視為匹配片段,反之則為不匹配片段,但是不可避免的就會(huì)出現(xiàn)兩種誤判:將實(shí)際上不匹配的片段區(qū)分為匹配的 和 將實(shí)際上匹配的片段誤認(rèn)為是不匹配的。而此模塊的目的是最大限度的挖掘出不匹配片段,找出一個(gè)最優(yōu)的邊界t,使得區(qū)分錯(cuò)誤的概率最低,保證識(shí)別的準(zhǔn)確性,即解決如下優(yōu)化問題:
min ? t α ∫ t + ∞ f k ? ( s ) d s + ∫ ? ∞ t f k + ( s ) d s , s.t.? t ≥ 0 \begin{array}{ll} \min _{t} & \alpha \int_{t}^{+\infty} f_{k}^{-}(s) d s+\int_{-\infty}^{t} f_{k}^{+}(s) d s, \\ \text { s.t. } & t \geq 0 \end{array} mint??s.t.??α∫t+∞?fk??(s)ds+∫?∞t?fk+?(s)ds,t≥0?
其中t是該問題的決策變量,α是懲罰參數(shù)。
對(duì)于該問題的最優(yōu)解求解,我們首先搜索它的一階導(dǎo)數(shù)的零點(diǎn),并根據(jù)可行域的約束條件在(t ≥ 0)處截?cái)?#xff0c;得到最優(yōu)解為:
t k = [ ( ( β 2 k 2 ? 4 β 1 k β 3 k ) 1 2 ? β 2 k ) / ( 2 β 1 k ) ] + 其中 β 1 k = ( σ k + ) 2 ? ( σ k ? ) 2 , β 2 k = 2 ( μ k + σ k ? 2 ? μ k ? σ k + 2 ) , β 3 k = ( σ k + μ k ? ) 2 ? ( σ k ? μ k + ) 2 + 2 ( σ k + σ k ? ) 2 ln ? σ k ? α σ k + . \begin{array}{c} t_{k}=\left[\left(\left(\beta_{2}^{k^{2}}-4 \beta_{1}^{k} \beta_{3}^{k}\right)^{\frac{1}{2}}-\beta_{2}^{k}\right) /\left(2 \beta_{1}^{k}\right)\right]_{+} \\ \text {其中} \beta_{1}^{k}=\left(\sigma_{k}^{+}\right)^{2}-\left(\sigma_{k}^{-}\right)^{2}, \beta_{2}^{k}=2\left(\mu_{k}^{+} \sigma_{k}^{-2}-\mu_{k}^{-} \sigma_{k}^{+2}\right), \text { } \beta_{3}^{k}=\left(\sigma_{k}^{+} \mu_{k}^{-}\right)^{2}-\left(\sigma_{k}^{-} \mu_{k}^{+}\right)^{2}+2\left(\sigma_{k}^{+} \sigma_{k}^{-}\right)^{2} \ln \frac{\sigma_{k}^{-}}{\alpha \sigma_{k}^{+}} . \end{array} tk?=[((β2k2??4β1k?β3k?)21??β2k?)/(2β1k?)]+?其中β1k?=(σk+?)2?(σk??)2,β2k?=2(μk+?σk?2??μk??σk+2?),?β3k?=(σk+?μk??)2?(σk??μk+?)2+2(σk+?σk??)2lnασk+?σk???.?
2??:正負(fù)雙分支匹配模塊
雙分支框架可以同時(shí)關(guān)注圖像-文本對(duì)中不匹配和匹配的片段,方法是使用不同的注意力掩碼分別精確測(cè)量它們?cè)谪?fù)注意力和正注意力中的影響。
具體地說,首先計(jì)算所有單詞和區(qū)域之間的語義相關(guān)性得分為:
s i j = u i v j T ∥ u i ∥ ∥ v j ∥ , i ∈ [ 1 , m ] , j ∈ [ 1 , n ] s_{i j}=\frac{u_{i} v_{j}^{\mathrm{T}}}{\left\|u_{i}\right\|\left\|v_{j}\right\|}, i \in[1, m], j \in[1, n] sij?=∥ui?∥∥vj?∥ui?vjT??,i∈[1,m],j∈[1,n],這里原理與AttnGAN中的DAMSM類似。
然后使用不同的注意力掩碼雙線計(jì)算:
最終,圖像文本對(duì) (U,V)的相似度由正面作用和負(fù)面作用共同決定: S ( U , V ) = 1 m ∑ i = 1 m ( s i neg? + s i pos? ) S(U, V)=\frac{1}{m} \sum_{i=1}^{m}\left(s_{i}^{\text {neg }}+s_{i}^{\text {pos }}\right) S(U,V)=m1?∑i=1m?(sineg??+sipos??)
4.3、采樣和更新策略
此外,為了對(duì)精確的偽詞區(qū)域相似性標(biāo)簽進(jìn)行采樣,作者基于計(jì)算的相似度排名的正確性設(shè)計(jì)來決定是否更新 s i + s^+_i si+?和 s i ? s^?_i si??。
4.4、損失函數(shù)
本文中用于端到端訓(xùn)練的目標(biāo)函數(shù)是雙向三元組排序損失,損失函數(shù)如下:
L = ∑ ( U , V ) [ γ ? S ( U , V ) + S ( U , V ′ ) ] + + [ γ ? S ( U , V ) + S ( U ′ , V ) ] + L=\sum_{(U, V)}\left[\gamma-S(U, V)+S\left(U, V^{\prime}\right)\right]_{+}+\left[\gamma-S(U, V)+S\left(U^{\prime}, V\right)\right]_{+} L=∑(U,V)?[γ?S(U,V)+S(U,V′)]+?+[γ?S(U,V)+S(U′,V)]+?
其中: (U, V )表示成功匹配的圖像和匹配的文本,(U, V′)和(U′, V )表示未成功匹配的圖像和文本。
五、實(shí)驗(yàn)
5.1、實(shí)驗(yàn)設(shè)置
1??數(shù)據(jù)集:Flickr30K總共有31000張圖片和155000個(gè)句子,其被分成1000張測(cè)試圖像、1000張驗(yàn)證圖像和29000張訓(xùn)練圖像。MS-COCO包含123287張圖像和616435個(gè)句子,將其分為5000張測(cè)試圖像、5000張驗(yàn)證圖像和113287張訓(xùn)練圖像。
2??評(píng)估指標(biāo):Recall(R@K,K=1,5,10)和rSum。R@K表示檢索到的前K個(gè)列表中的地面真相的百分比。rSum是所有R@K在圖像到文本和文本到圖像中,反映了整體匹配性能。
3??實(shí)現(xiàn)細(xì)節(jié):顯卡為RTX 3090Ti GPU,優(yōu)化器為Adam,初始學(xué)習(xí)率為0.0005,每10個(gè)周期衰減10%。Flickr30K和MSCOCO的最小批量大小分別設(shè)置為128和256,兩個(gè)數(shù)據(jù)集上都有20個(gè)epoches,特征尺寸d被設(shè)置為1024。λ設(shè)置為20,α設(shè)置為2.0,γ設(shè)置0.2。
5.2、實(shí)驗(yàn)結(jié)果
定量指標(biāo):
可視化最優(yōu)閾值學(xué)習(xí)過程:
不匹配線索挖掘?qū)Ρ?#xff08;藍(lán)色為不匹配):
六、總結(jié)
這項(xiàng)工作的主要貢獻(xiàn)總結(jié)如下。
1) 提出了一種新穎的雙分支匹配模塊,該模塊聯(lián)合利用不匹配和匹配的文本片段進(jìn)行精確的圖像文本匹配。與傳統(tǒng)的關(guān)注不同,該方法可以同時(shí)關(guān)注失配和匹配片段,以明確地利用它們的負(fù)面和正面影響。雙分支匹配機(jī)制能夠分別測(cè)量精確的相似度/相異度,以聯(lián)合推斷整體圖像-文本相似度。
2) 我們提出了一種新的具有負(fù)挖掘策略的迭代優(yōu)化方法,該方法可以以最大限度地挖掘負(fù)面失配片段,明確地驅(qū)動(dòng)不匹配片段的更多負(fù)面影響,并從理論上保證挖掘的準(zhǔn)確性,產(chǎn)生更全面和可解釋的圖像-文本相似性度量。
3) 在Flickr30K和MS-COCO兩個(gè)基準(zhǔn)上進(jìn)行的大量實(shí)驗(yàn)表明,NAAF的表現(xiàn)優(yōu)于比較方法。分析也充分證明了我們方法的優(yōu)越性和合理性。
💡 最后
我們已經(jīng)建立了🏤T2I研學(xué)社群,如果你對(duì)本文還有其他疑問或者對(duì)🎓文本生成圖像/文本生成3D方向很感興趣,可以點(diǎn)擊下方鏈接或者私信我加入社群。
📝 加入社群 抱團(tuán)學(xué)習(xí):中杯可樂多加冰-采苓AI研習(xí)社
🔥 限時(shí)免費(fèi)訂閱:文本生成圖像T2I專欄
🎉 支持我:點(diǎn)贊👍+收藏??+留言📝
總結(jié)
以上是生活随笔為你收集整理的Text to image论文精读 NAAF:基于负感知注意力的图像-文本匹配框架 Negative-Aware Attention Framework for Image-Text Matching的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win10配置docker环境
- 下一篇: 新兴五只羊床垫,仅次于五星级的睡眠体验!