AAAI 2020 | XIV-ReID:基于X模态的跨模态行人重识别
?PaperWeekly 原創 ·?作者|張曉涵
學校|西安交通大學本科生
研究方向|計算機視覺/行人重識別
論文標題:Infrared-Visible Cross-Modal Person Re-Identification with an X Modality
論文來源:AAAI 2020
論文鏈接:https://aaai.org/Papers/AAAI/2020GB/AAAI-LiD.870.pdf
代碼鏈接:https://github.com/littlejiumi/XIVReID
概述
我們關注的任務是紅外(infrared)-可見光(visible)跨模態行人重識別(IV-ReID)。此任務難點在于可見光圖像與紅外圖像之間顯著的 gap,因此,我們引入了一個輔助的 X modality,并將 infrared-visible 雙模態任務重新表述為 X-Infrared-Visible 三模態學習任務,即 XIV 學習框架。
該框架由兩個主要部分組成:一個是通過自監督學習生成 X 模態的輕量型 X 模態生成器,一個是權重共享的 XIV 跨模態特征學習器,并設計了跨模態的約束。
在X模態的輔助下將可見光與紅外光圖像連接起來,使跨模態的圖像更容易匹配,得到更好的效果,見圖1。
▲ 圖1. 引入X Modality使得跨模態匹配更容易
我們在兩個具有挑戰性的數據集 SYSU-MM01 和 RegDB 上進行了大量的實驗,實驗結果表明,與最先進的方法相比,我們的方法在 rank 1 和 mAP 方面獲得了超過 7% 的絕對增益。
方法
▲?圖2.XIV-ReID學習框架
2.1 問題定義
我們用 表示跨模態 ReID 數據集。其中訓練集 包括對應于 C 個類別的 N 張圖像;測試集包括 ? 和 ? 。用 V, I, X 分別代表可見光圖像、紅外光圖像和學習的 X 模態圖像。f 表示深度特征學習器,g 表示輕量級 X 模態生成器,則 X=g(V)。
測試時,根據 中的紅外光圖像 ,利用 X 模態輔助尋找 ? 中最接近的可見光圖像 :
其中 D(·) 代表歐氏距離。
2.2 X模態圖像
輕量級 X 模態生成器以可見光圖像作為輸入,網絡包括兩個 1×1 的卷積層和一個 ReLU 激活層,將可見光圖像轉換為單通道圖像,然后重構成三通道圖像。第一個 1×1 的卷積層將原始的三通道可見光圖像映射為單通道圖像,之后傳入 ReLU 激活層,然后使用另一個 1×1 的卷積層將單通道圖像映射為三通道的 X 模態圖像。
與其他使用輔助結構的方法相比,如 GANs,我們實現了一個更輕量級和更高效的網絡,且比 GANs 更容易優化。
2.3 權重共享特征學習器
特征學習器以 X 模態、紅外光和可見光圖像三種模式作為輸入,在一個共同的特征空間中學習跨模態信息,三種模式權重共享。通過聯合考慮紅外- X 和紅外-可見交叉模態差別,X 能夠從可見光圖像和紅外圖像中學習。在訓練時,這三種模態同時進行優化。
2.4 模態約束
我們提出一種可見光、紅外光、X 模態聯合的模態約束,這三種模態規模均為 M。這樣,跨模態約束(cross modality gap, CMG) 可以計算為:
紅外圖像和學習得到的 X 模態圖像的約束定義為:
其中:
是閾值參數,。
此外,對于每一種模態,我們還利用模態各自約束(modality respective gap, MRG) 來幫助模型收斂:。具體來說,應用交叉熵損失和一個改進的三重損失來優化特征學習。以紅外圖像為例:
其中:
2.5 優化
我們提出的 XIV ReID 學習框架可以直接端到端優化:
這里的 是平衡兩種約束的超參數。
實驗
3.1 實驗設置
數據集:SYSU-MM01 和 RegDB
評價指標:累計匹配特征(CMC)曲線和平均精度(mAP)
實驗細節:見原文
3.2 結果比較
▲表1.RegDB和SYSU-MM01數據集上與當前最佳IV-ReID方法比較
▲表2.在SYSU-MM01數據集上與cmGAN,D2RL方法比較
▲表3.在SYSU-MM01數據集上與AlignGAN方法比較
▲表4.SYSU-MM01數據集的消融研究
3.3 結果討論
我們統計分析了 SYSU-MM01 和 RegDB 數據集訓練圖像上圖像內部所有像素的平均單色通道強度,見下圖。可見光圖像的三種顏色通道的統計分布是相似的;而 X 模態圖像的“R”通道有更高的強度。
▲圖3.SYSU-MM01和RegDB的訓練集上,一幅圖像中所有像素的平均單顏色通道的強度直方圖
從電磁輻射的角度看,與可見光圖像相比,X 模態圖像顯得更“紅”,因而具有更長的波長;相反地,與紅外圖像相比,X 模態圖像看起來更豐富多彩,因此波長更短。因此,該方法最終獲得了一種介于可見光和紅外光之間的新模態。使用 X 模態學習的特征更容易進行跨模態匹配。
結論
本文研究了跨模態行人重識別問題。為了減少紅外線和可見光圖像之間固有的模態差異,我們提出了一個新的 X-紅外線-可見光(XIV)跨模態學習框架。
具體地,我們設計了一個輕量級的生成器來從可見光圖像和紅外圖像中吸取知識,并輸出 X 模態圖像;在此基礎上,提出了一種基于權值共享的深度特征學習器,以聯合的方式提取跨模態特征和分類輸出。
我們采用端到端的方式,直接利用所設計的模態各自的模態約束(MRG)和跨模態約束(CMG)來實現生成器和特征學習器的優化。在兩種公開的紅外可見跨模態 ReID 數據集 SYSU-MM01 和 RegDB 上的實驗結果證明了所提出的三模態跨模態學習方法的優越性。
中文文字:張曉涵、洪曉鵬
文章引用 bibtex 如下:
@inproceedings{xiv_reid20, author={Li,?Diangang?and?Wei,?Xing?and?Hong,?Xiaopeng?and?Gong,?Yihong}, title={Infrared-Visible?Cross-Modal?Person?Re-Identification?with?an?X?Modality}, booktitle={Proceedings?of?the?AAAI?Conference?on?Artificial?Intelligence}, month?=?{February}, year={2020} }若對文中方法感興趣,歡迎致信:
洪曉鵬老師 hongxiaopeng@mail.xjtu.edu.cn?
和魏星老師 xingxjtu@gmail.com
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的AAAI 2020 | XIV-ReID:基于X模态的跨模态行人重识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 三星电子董事长李在镕:无意分拆代工芯片制
- 下一篇: 银商是什么