當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICCV2021|你以为这是一个填色模型？其实我是检索模型！

發布時間：2023/12/3 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 ICCV2021|你以为这是一个填色模型？其实我是检索模型！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

【寫在前面】

語言引導的人稱搜索的關鍵是在視覺輸入和文本輸入之間建立跨模態關聯。現有方法側重于設計多模態注意機制和新的跨模態損失函數來隱式學習這種關聯。作者提出了一種基于顏色推理（LapsCore）的語言引導人搜索表示學習方法。它可以明確地雙向建立細粒度跨模態關聯。具體來說，設計了一對雙子任務，圖像著色和文本完成。在前一個任務中，學習富文本信息以對灰度圖像進行著色，后一個任務要求模型理解圖像并完成標題中的彩色文字空缺。這兩個子任務使模型能夠學習文本短語和圖像區域之間的正確對齊，從而可以學習豐富的多模態表示。在多個數據集上的大量實驗證明了該方法的有效性和優越性。

1. 論文和代碼地址

LapsCore: Language-guided Person Search via Color Reasoning

論文地址：https://ieeexplore.ieee.org/document/9711140/

代碼地址：未開源

2. Motivation

語言引導的人搜索在智能監控中有著廣闊的應用前景，因此引起了人們的廣泛關注。如上圖所示，它旨在從與自然語言描述查詢最匹配的大型圖像數據庫中檢索人物。與基于圖像和基于屬性的person ReID相比，語言查詢比圖像查詢更容易獲得，并且提供了比屬性更全面和準確的描述。

在語言引導的人員搜索任務中存在兩個主要挑戰。首先，由于跨模態間隙，很難計算視覺文本的真實性并構建圖像-文本對齊。其次，人員搜索是一項細粒度的檢索任務：（1）文本為目標人提供非常詳細的描述；（2）人物形象在外觀上存在明顯的跨類差異。

在語言引導人搜索的開創性工作之后，人們投入了大量精力來應對這項任務的挑戰。一些工作設計高級模型，學習更好的圖像和文本表示。另一些工作中開發了注意力機制，以建立局部圖像-文本關聯。還有一些工作提出了新的損失函數來縮小視覺和文本特征之間的距離。然而，所有這些方法都隱含地學習了跨模態局部關聯，這對模型的學習能力留下了嚴格的測試。從大量的語言引導人搜索實驗中，作者觀察到顏色在檢索中起著重要作用。面對個人圖像，人類傾向于接受視覺顏色來提取外觀信息，然后理解與這些顏色相關的衣服或裝飾品。因此，作者受到啟發，提出了一種新的表示學習方法LapsCore，通過求解顏色推理子任務，引導模型明確學習細粒度跨模態關聯。

如上圖所示，第一個子任務，文本引導圖像著色（IC），是根據其文本描述對灰度圖像進行著色。在該任務中，模型能夠正確探測文本中豐富的顏色信息，并將其與相應的圖像區域對齊。例如，在上圖中，不僅需要提取單詞“red”，還需要將“shirt”的語義與“red”配對，并且圖像中表示“shirt”的空間區域應為紅色。因此，可以構造文本到圖像的局部關聯。對于相反方向的圖像到文本，設計了另一個子任務圖像引導文本完成（TC）。具體來說，在每個描述句子中，刪除所有顏色詞，這些空缺需要利用成對的彩色圖像來完成。這樣，有效的圖像區域可以顯著地表示，然后與相關的文本短語相關聯。雖然顏色推理任務對于人類來說并不復雜，但它們需要模型的全面跨模態理解來解決。通過使用這兩個子任務，可以在主任務圖像文本匹配中利用更好的多模態表示。此外，作者提出了另一個“顏色”推理子任務 $ICf\mathrm{IC}_{f}$ ，旨在使用字幕完成缺失通道的圖像特征，該任務將IC任務從圖像顏色通道完成推廣到特征語義通道完成。給定輸入圖像的特征表示，作者部分屏蔽了一些通道，并使用標題來恢復它們。在此過程中，可以探測和利用包括顏色在內的一般文本信息。因此，在顏色不是標題中的主要信息的情況下，它賦予了本文的方法魯棒性。

為了解決第一個子任務IC，作者將其轉化為像素回歸問題。將原始圖像處理為灰度圖像作為輸入，并使用成對字幕恢復原始圖像。TC任務可以被視為視覺問答問題，其中問題是一個帶有顏色詞空缺的句子，答案是候選顏色之一。在圖像特征通道完成子任務中，作者首先在個人ID分類任務上預訓練特征提取器，然后屏蔽視覺特征圖，以便使用字幕進行恢復。作者在語言指導的人員搜索數據集cuhk-pedes上進行了廣泛的實驗。實驗證明，該方法可以顯著提高性能。對通用圖像文本檢索數據集的驗證也證實了其有效性，包括加州理工大學UCSD Birds、Oxford-102 Flowers、Flickr30k和MSCOCO。

綜上所述，本文工作的主要貢獻包括:

1）提出了一種新的表示學習方法LapsCore，以便于明確學習細粒度跨模式關聯。它通過求解顏色來工作推理子任務、圖像著色、文本完成和圖像特征通道完成。

2）在具有挑戰性的語言指導的人員搜索數據集CUHK-PEDES上進行了廣泛的實驗。事實證明，LapsCore可以有效地帶來可觀的性能提升并實現最先進的結果。

3）所提出的方法被證明是通用的，可以納入不同的基線并帶來改進。在其他跨模態檢索任務中也證實了該方法的有效性。

3. 方法

在本節中，將介紹所提出的方法LapsCore。如上圖（左部分）所示，LapsCore通過兩個顏色推理子任務（文本引導圖像著色（IC）和圖像引導文本完成（TC））生成代表性的多模態特征。

3.1. Text-guided Image Colorization

IC任務旨在利用文本描述對灰度圖像進行著色，這些灰度圖像從原始圖像處理為灰度圖像。在此任務中，模型努力理解標題，并探索用于著色的有效信息。因此，可以構建文本到圖像的關聯。

整個任務可以轉化為像素回歸問題。多模態回歸模型表示為 $f_{i c}$ ，以灰色圖像 $I_{g r a y}$ 和描述語句 $Tcolor?T_{\text {color }}$ 對作為輸入，并輸出恢復的圖像。將原始彩色圖像I設置為目標，并使用像素均方誤差損失 $Lic\mathcal{L}_{i c}$ ：

$Lic=∥fic(Igray,Tcolor)?Icolor?∥22\mathcal{L}_{i c}=\left\|f_{i c}\left(I_{g r a y}, T_{c o l o r}\right)-I_{\text {color }}\right\|_{2}^{2}$

為了處理這項任務，作者采用了U-Net框架，該框架對灰色圖像進行編碼，并通過融合文本信息將其解碼為彩色圖像，如上圖（左上角）所示。在編碼階段，我們從輸入中提取多尺度視覺特征。將比例為s的特征圖表示為 $Ys∈Rhs×ws×cs\mathbf{Y}^{s} \in \mathbb{R}^{h_{s} \times w_{s} \times c_{s}}$ ，其中h、w、c分別表示高度、寬度和通道。在文本分支中，描述語句被標記并輸入到嵌入層。然后，LSTM提取文本特征 $X∈RN\mathbf{X} \in \mathbb{R}^{N}$ 。

在解碼階段，視覺特征應與文本特征融合以進行著色。因此，我們設計了多模態SE塊，應用通道注意機制，以便文本信息可以影響圖像特征通道。多模SE塊中的操作如上圖所示（右上角的灰色虛線框）。首先，視覺特征圖Y通過全局池化被壓縮為特征向量 $vs∈Rcs\mathbf{v}^{s} \in \mathbb{R}^{c_{s}}$ 。與文本特征向量X concat，然后將 $Vs\mathbf{V}_{s}$ 饋入兩層多層感知器和softmax層以生成注意向量 $As∈Rcs\mathcal{A}^{s} \in \mathbb{R}^{c_{s}}$ 。最后，利用 $As\mathcal{A}^{s}$ 將 $Ys\mathbf{Y}^{s}$ 更新為多模式表示 $Zs\mathbf{Z}^{s}$ ：

$Zis=Yis?Ais\mathbf{Z}_{i}^{s}=\mathbf{Y}_{i}^{s} \cdot \mathcal{A}_{i}^{s}$

其中下標 $\in\left\{1,2, \ldots, c_{s}\right\}$ 表示通道的索引， $Zis,Yis∈Rhs×ws,Ais\mathbf{Z}_{i}^{s}, \mathbf{Y}_{i}^{s} \in \mathbb{R}^{h_{s} \times w_{s}}, \mathcal{A}_{i}^{s}$ 是標量。

U-Net的解碼器由幾個反卷積層組成。首先，編碼器中的最后一個 $Ys\mathbf{Y}^{s}$ 穿過第一個反卷積層，以生成特征映射 $Ws∈Rhs×ws\mathbf{W}^{s} \in \mathbb{R}^{h_{s} \times w_{s}}$ 。每個 $Ws\mathbf{W}^{s}$ 與SE塊輸出 $Zs\mathbf{Z}^{s}$ 串聯，并通過反卷積層生成更大的 $Ws\mathbf{W}^{s}$ 。作為最后一步，給定最后一個反卷積層中的 $Ws\mathbf{W}^{s}$ ，使用簡單的上采樣和卷積來預測目標。

3.2. Image-guided Text Completion

雙重任務TC需要利用彩色圖像來完成帶有彩色單詞空缺的文本描述。對于每個句子，刪除所有顏色單詞以創建 “無色” 描述。這些空位應該通過分析不同圖像區域的前景色來填充。這樣，可以橋接圖像到文本的關系。

此任務可以視為VQA問題。VQA模型，表示為 $f_{t c}$ ，以彩色圖像， $Icolor?I_{\text {color }}$ 和帶有空缺的文本句子 $T_{q}$ 作為輸入，并輸出缺少的顏色單詞。目標答案是從原始描述中刪除的顏色單詞 $T_{a}$ 。采用典型的交叉損失 $Ltc\mathcal{L}_{t c}$ ，公式為:

$Ltc=CrossEntropy(ftc(Icolor,Tq),Ta)\mathcal{L}_{t c}= CrossEntropy \left(f_{t c}\left(I_{c o l o r}, T_{q}\right), T_{a}\right)$

作者參考了流行的VQA模型 (雙線性注意網絡 (BAN)) 的結構來解決TC任務。見上圖（右下角），視覺和文本特征由MobileNet和LSTM從輸入數據中提取。將文本特征表示為 $X∈RN×ρ\mathbf{X} \in \mathbb{R}^{N \times \rho}$ 和視覺特征為 $Y∈RM×?\mathbf{Y} \in \mathbb{R}^{M \times \phi}$ ，其中N是序列長度，ρ是LSTM輸出維度，φ表示MobileNet輸出的通道號，M=h×w是空間維度的乘積。給定兩個模態特征X和Y，通過計算特征patch之間的模糊度分數生成若干雙線性注意力圖 $Ag\mathcal{A}_{g}$ ，公式如下：

$Ag=softmax?(((1?pg?)°X?U)V?Y)\mathcal{A}_{g}=\operatorname{softmax}\left(\left(\left(\mathbf{1} \cdot \mathbf{p}_{g}^{\top}\right) \circ \mathbf{X}^{\top} \mathbf{U}\right) \mathbf{V}^{\top} \mathbf{Y}\right)$

其中 $U∈RN×K\mathbf{U} \in \mathbb{R}^{N \times K}$ 和 $V∈RM×K\mathbf{V} \in \mathbb{R}^{M \times K}$ 是投影矩陣， $1∈Rρ\mathbf{1} \in \mathbb{R}^{\rho}$ 是一個全一向量， $pg∈RK\mathbf{p}_{g} \in \mathbb{R}^{K}$ ，其中g表示注意力圖索引， $Ag∈Rρ×?\mathcal{A}_{g} \in \mathbb{R}^{\rho \times \phi}$ ， $0$ 表示Hadamard積。

在注意力圖的幫助下，X和Y融合成聯合表示。殘差學習方法用于提高表征能力。在第g個殘差塊中，輸出 $Fg+1∈RK×ρ\mathbf{F}_{g+1} \in \mathbb{R}^{K \times \rho}$ 的計算公式為：

$Fg+1=P?BAN?g(Fg,Y;Ag)?1?+Fg\mathbf{F}_{g+1}=\mathbf{P}^{\top} \operatorname{BAN}_{g}\left(\mathbf{F}_{g}, \mathbf{Y} ; \mathcal{A}_{g}\right) \cdot \mathbf{1}^{\top}+\mathbf{F}_{g}$

其中 $1∈Rρ\mathbf{1} \in \mathbb{R}^{\rho}$ 是一個全一向量，投影矩陣為 $P∈RK×C\mathbf{P} \in \mathbb{R}^{K \times C}$ 。通過將N設置為K，將X用作初始輸入 $F0\mathbf{F}_{0}$ 。生成中間表示的函數，定義為 $fg=BANg(Fg,Y;Ag)\mathbf{f}_{g}=\mathbf{B A N}_{g}\left(\mathbf{F}_{g}, \mathbf{Y} ; \mathcal{A}_{g}\right)$ ，其中 $fg∈RC\mathbf{f}_{g} \in \mathbb{R}^{C}$ ，其第k個元素計算為：

$fg,k=(Fg?U′)k?Ag(Y?V′)k\mathbf{f}_{g, k}=\left(\mathbf{F}_{g}^{\top} \mathbf{U}^{\prime}\right)_{k}^{\top} \mathcal{A}_{g}\left(\mathbf{Y}^{\top} \mathbf{V}^{\prime}\right)_{k}$

其中 $U′∈RN×K,V′∈RM×K,(X?U′)k∈Rρ，(Y?V′)k∈R?\mathbf{U}^{\prime} \in \mathbb{R}^{N \times K}, \mathbf{V}^{\prime} \in \mathbb{R}^{M \times K},\left(\mathbf{X}^{\top} \mathbf{U}^{\prime}\right)_{k} \in \mathbb{R}^{\rho}，\left(\mathbf{Y}^{\top} \mathbf{V}^{\prime}\right)_{k} \in \mathbb{R}^{\phi}$ ，矩陣的下標k表示列的索引。

給定最后一個殘差塊輸出的聯合特征表示，采用多層感知器（MLP）分類器預測每個單詞空缺的顏色類別。

3.3. Generalized IC: Feature Channel Completion

彩色圖像由3個通道“YCbCr”組成，灰度圖像是刪除兩個顏色通道“Cb”和“Cr”的結果。重新思考IC任務，其目的是利用文本顏色信息來恢復兩個缺失的通道。雖然這種方法可以通過顏色橋接跨模態關聯，但當顏色在描述中很小時（例如，在MSCOCO數據集中），可能無法有效地學習文本信息。因此，我們提出了一種廣義的IC，表示為 $ICf\mathrm{IC}_{f}$ ，它使用文本來完成圖像特征的缺失通道。

如上圖所示，ResNet18在識別任務中預訓練，以從圖像中提取豐富的表示，然后“凍結”為特征生成器。作者屏蔽了圖像特征的一些通道，并將屏蔽后的特征輸入到完成模型中，以完整的特征為目標。 $ICf\mathrm{IC}_{f}$ 中的完井模型和損失函數與IC中的相同，只是輸入和輸出比例相應地調整。

3.4. Incorporation

該方法可以作為一種多模態表示學習方法納入流行的圖像文本匹配算法。交叉模態投影匹配和分類（CMPM/C）模型采用了通用框架，該框架分別采用LSTM和MobileNet作為文本和視覺特征提取器。在這里選擇CMPM/C作為跨模式匹配模塊來實現LapsCore，并且它可以很容易地推廣到該框架的其他方法。為了合并，作者刪除了CMPM/C中的特征提取層，替換為IC和TC模塊的表示層，如圖2的左部分所示。將CMPM/C中的匹配損失定義為 $Lcmp\mathcal{L}_{c m p}$ ，然后將/總體多任務損失L計算為：

$L=Lcmp+λ1Lic+λ2Ltc\mathcal{L}=\mathcal{L}_{c m p}+\lambda_{1} \mathcal{L}_{i c}+\lambda_{2} \mathcal{L}_{t c}$

其中 $λ1,λ2∈R+\lambda_{1}, \lambda_{2} \in \mathbb{R}^{+}$ 是平衡每個子任務重要性的標量因子。將 $ICf\mathrm{IC}_{f}$ 合并到CMPM/C的方式類似，多任務損失寫為：

$L=Lcmp+λ3Licf\mathcal{L}=\mathcal{L}_{c m p}+\lambda_{3} \mathcal{L}_{i c_{f}}$

其中 $λ3∈R+\lambda_{3} \in \mathbb{R}^{+}$ 是一個平衡因子。

4.實驗

上表展示了本文方法和SOTA結果的對比結果。

上表展示了本文提出的不同模塊對實驗結果的影響。

給定相同的語言查詢，基線（CMPM/C）和本文的方法（CMP+IC&TC）的檢索結果如上圖所示。相比之下，本文的方法更有效地檢索匹配的人（第一行）。它還揭示了LapsCore使模型對顏色更敏感，從而使檢索結果更合理。

上圖展示了本文方法對不同的圖片進行著色的結果。

上圖展示了對著色模塊改為其他方法的可視化。

上表展示了這些變體的性能。

上表展示了在其他圖文檢索數據集上進行檢索的實驗結果。

5. 總結

在本文中，作者提出了LapsCore，它使用兩個顏色推理子任務來改進語言引導的人搜索的表示學習。第一種方法旨在利用文本信息對灰度圖像進行著色。在雙向上，利用彩色圖像來完成標題中的彩色文字空缺。此外，作者提出了完整的視覺特征通道，適用于一般的圖像文本匹配任務，其中顏色在標題中不占主導地位。定量和定性實驗結果以及廣泛的消融研究表明了該方法的優越性。

已建立深度學習公眾號——FightingCV，關注于最新論文解讀、基礎知識鞏固、科技新聞速遞，歡迎大家關注！！！

FightingCV交流群里每日會發送論文解析，進行學術交流，加群請添加小助手wx：FightngCV666，備注：地區-學校（公司）-名稱

面向小白的頂會論文核心代碼學習：https://github.com/xmu-xiaoma666/External-Attention-pytorch

總結

以上是生活随笔為你收集整理的ICCV2021|你以为这是一个填色模型？其实我是检索模型！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：评估行人行动预测的基准——Benchma
下一篇：（第一篇）pytorch数据预处理三剑客