SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模
?PaperWeekly 原創 ·?作者?|?金金
單位?|?阿里巴巴研究實習生
研究方向?|?推薦系統
簡介
圖文檢索是信息檢索的一個基礎和關鍵分支。盡管在連接視覺和語言方面取得了很大進展,但由于模內推理和跨模態對齊困難,它仍然具有挑戰性。現有的模態交互方法在公共數據集上取得了令人矚目的成果。然而,他們在交互模式的設計上嚴重依賴專家經驗和經驗反饋,因此缺乏靈活性。
為了解決這些問題,本文提出了一種基于路由機制的新型模態交互建模網絡,這是第一個面向圖像-文本檢索的統一動態多模態交互框架。具體來說,坐著首先設計了四種類型的單元格作為基本單元來探索不同層次的模態交互,然后以密集的策略將它們連接起來以構建路由空間。
論文標題:
Dynamic Modality Interaction Modeling for Image-Text Retrieval
論文來源:
SIGIR 2021
為了賦予模型路徑決策能力,坐著在每個單元中集成了一個動態路由器以進行模式探索。由于路由器以輸入為條件,本文的模型可以為不同的數據動態學習不同的激活路徑。在兩個基準數據集(即 Flickr30K 和 MS-COCO)上進行的大量實驗驗證了本文的模型的優越性。
模型
本文的模型首先分別使用從底至頂的注意力機制抽取圖像特征并選擇得分靠前的區域,另一方面使用 BERT+CNN 抽取文本特征。在此基礎上設計了四種交互方式:
Rectified Identity Cell:通過 Relu 保留有區別的線索;
Intra-Modal Reasoning Cell:通過注意力機制建模模態內的交互特征;
Global-Local Guidance Cell:通過一種模態指導另一種模態的注意力交互;
Cross-Modal Refinement Cell:兩種模態互相交互的特征。
具體的模型圖如下:
在此基礎上,本文使用了動態路由的機制選擇交互的方式,在訓練的階段,除了原本的損失函數以外,還加入了路徑正則的機制,使得相同的語義信息應該選擇相同的路徑。
實驗
本文在圖像檢索文本和文本檢索圖像兩個任務上都進行了實驗,可以看到對比之前僅有模態內交互的模型和靜態的模態間交互模型,本文的模型都取得了更好的效果。
另外,作者探究了本文動態路由機制的有效性,具體來說,對比了隨機選擇路徑和 hard 的選擇方式,可以看到本文 soft 的選擇機制,可以取得更好的效果。
結論
在本文中,本文提出了一個面向圖像文本檢索的統一模態交互建模框架,這是通過動態路由學習探索交互模式的第一項工作。具體來說,本文首先設計了四種類型的單元來執行不同的內部交互操作和動態路由器進行路由學習。
然后我們為路徑決策引入語義路徑一致性正則化。在兩個基準上的大量實驗結果證明了本文提出的方法的有效性和優越性。未來,作者計劃在給定計算資源的約束下探索動態機制在信息檢索系統中的更多應用,使其更加靈活和可擴展。此外,作者計劃將哈希模塊合并到我們的模型中以加快檢索過程。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 团体险怎么买
- 下一篇: 东吴人寿保险股份有限公司可靠吗