【20210109期 AI周报】该重视 Vision Transformer 了
當(dāng)你還在研究目標(biāo)檢測中one2one的時候,當(dāng)你還在死磕模型lantency的時候,當(dāng)你還在折騰模型NPU部署的時候,當(dāng)...,我不得不提一下:該重視Vision Transformer了。自2020年5月,Facebook AI提出了DeTr后,Transformers在計算機(jī)視覺領(lǐng)域無處不在的。包括且不限于以下內(nèi)容:
1 推薦2篇綜述
論文:A Survey on Visual Transformer
鏈接:https://arxiv.org/abs/2012.12556
Transformer 是一種基于自注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò),最初應(yīng)用于自然語言處理領(lǐng)域。受到Transformer 強(qiáng)大的表示能力的啟發(fā),研究人員提議將Transformer 擴(kuò)展到計算機(jī)視覺任務(wù)。與其他網(wǎng)絡(luò)類型(例如卷積網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò))相比,基于Transformer 的模型在各種視覺基準(zhǔn)上顯示出競爭力甚至更好的性能。在本文中,我們通過將這些視覺Transformer模型分類為不同的任務(wù),并分析了這些方法的優(yōu)缺點(diǎn),提供了文獻(xiàn)綜述。特別地,主要類別包括基本圖像分類,高級視覺,低級視覺和視頻處理。由于自注意力是 Transformer 的基本組成部分,因此也簡要回顧了計算機(jī)視覺中的自注意力,包括有效的Transformer 方法,可將Transformer 推入實(shí)際應(yīng)用。最后,我們討論了視覺變壓器的進(jìn)一步研究方向。
?
論文:Transformers in Vision: A Survey
鏈接:https://arxiv.org/abs/2101.01169
Transformers?模型在自然語言任務(wù)方面的驚人結(jié)果,吸引了視覺界研究其在計算機(jī)視覺問題中的應(yīng)用。這項(xiàng)調(diào)查旨在提供計算機(jī)視覺學(xué)科中的 Transformers?模型的全面概述,首先介紹Transformers?模型背后的基本概念,即自我監(jiān)督和自我關(guān)注。Transformers?體系結(jié)構(gòu)利用自我關(guān)注機(jī)制在輸入域中對遠(yuǎn)程依賴項(xiàng)進(jìn)行編碼,從而使其具有較高的表達(dá)力。由于他們假定對問題的結(jié)構(gòu)沒有任何先驗(yàn)知識,因此將使用前置任務(wù)的自我監(jiān)督應(yīng)用于大規(guī)模(未標(biāo)記)數(shù)據(jù)集上的預(yù)訓(xùn)練變壓器模型。然后,在下游任務(wù)上對學(xué)習(xí)的表示進(jìn)行微調(diào),由于編碼特征的泛化和表現(xiàn)力,通常可導(dǎo)致出色的性能。我們涵蓋了Transformers?在視覺領(lǐng)域的廣泛應(yīng)用,包括流行的識別任務(wù)(例如圖像分類,目標(biāo)檢測,動作識別和分割),生成模型,多模式任務(wù)(例如視覺問題解答和視覺推理),視頻處理(例如活動識別,視頻預(yù)測),低級視覺(例如圖像超分辨率和彩色化)和3D分析(例如點(diǎn)云分類和分割)。我們從網(wǎng)絡(luò)和實(shí)驗(yàn)兩個方面比較了流行技術(shù)各自的優(yōu)點(diǎn)和局限性。最后,我們對研究方向和可能的未來工作進(jìn)行了分析。
Blog:https://zhuanlan.zhihu.com/p/340149804
?
2 再補(bǔ)充幾篇新的論文
論文:TransTrack: Multiple-Object Tracking with Transformer
鏈接:https://arxiv.org/abs/2012.15460
代碼:https://github.com/PeizeSun/TransTrack
在這項(xiàng)工作中,我們提出了TransTrack,這是使用Transformer進(jìn)行MOT的基準(zhǔn)。它利用查詢鍵機(jī)制,并將一組學(xué)習(xí)到的對象查詢引入到管道中,以檢測新出現(xiàn)的對象。 TransTrack具有三個主要優(yōu)點(diǎn):(1)它是基于查詢鍵機(jī)制的在線聯(lián)合檢測跟蹤管道。簡化了先前方法中的復(fù)雜步驟和多步驟組件。 (2)它是基于Transformer的全新體系結(jié)構(gòu)。學(xué)習(xí)的對象查詢將檢測當(dāng)前幀中的對象。來自上一幀的對象特征查詢將那些當(dāng)前對象與先前的對象相關(guān)聯(lián)。 (3)首次展示了一種基于查詢鍵機(jī)制的簡單有效的方法,并且Transformer架構(gòu)可以在MOT17挑戰(zhàn)數(shù)據(jù)集上獲得具有競爭力的65.8%的MOTA。我們希望TransTrack可以為多對象跟蹤提供新的視角。
?
論文:TrackFormer: Multi-Object Tracking with Transformers
鏈接:https://arxiv.org/pdf/2101.02702.pdf
TrackFormer,一個端到端的多對象基于encoder-decoder Transformer體系結(jié)構(gòu)的跟蹤和分段模型。該方法引入了跟蹤查詢嵌入,這些跟蹤跟隨對象以自回歸方式播放的視頻序列。新查詢由DETR對象檢測器生成,并隨時間嵌入其對應(yīng)對象的位置。 Transformer解碼器調(diào)整軌道查詢嵌入從一幀到另一幀,從而跟隨變化的對象位置。 TrackFormer通過新的注意跟蹤實(shí)現(xiàn)了幀之間的無縫數(shù)據(jù)關(guān)聯(lián)自我和編碼器-解碼器注意機(jī)制的范例, 可在多對象跟蹤任務(wù)上提供最先進(jìn)的性能。希望我們統(tǒng)一執(zhí)行檢測和跟蹤的方式將促進(jìn)未來多目標(biāo)跟蹤和視頻理解方面的研究。
?
3 基礎(chǔ)知識Self-Attention
可以查看:
attention專欄
CV中的Attention和Self-Attention
通過代碼學(xué)習(xí)Transformer
DETR: Postprocessing-free Detector
?
學(xué)術(shù)交流
如果你平時遇到任何困擾你已久、或面試中的遇到目標(biāo)檢測等相關(guān)問題,可以加群(掃碼下方二維碼,備注互助群,就會拉入群),告訴我們,統(tǒng)一記錄在《Question List》中。盡力幫助大家解決難題,真正解決問題的那種!
?
下載1
在【AI約讀社】公眾號后臺回復(fù):目標(biāo)檢測,即可獲取《圖解目標(biāo)檢測》鏈接
總結(jié)
以上是生活随笔為你收集整理的【20210109期 AI周报】该重视 Vision Transformer 了的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: xp wifi android,《解决没
- 下一篇: C++正交设计笔记2 简单设计