当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT
?作者?|?小舟
來源?|?機器之心
本文中,來自清華大學(xué)、AWS AI 和北京智源人工智能研究院的研究者提出了一種新型可變形自注意力模塊,其中以數(shù)據(jù)相關(guān)的方式選擇自注意力中鍵值對的位置,使得自注意力模塊能夠?qū)W⒂谙嚓P(guān)區(qū)域,并捕獲更多信息特征。
Transformer 近來在各種視覺任務(wù)上表現(xiàn)出卓越的性能,感受野賦予 Transformer 比 CNN 更強的表征能力。然而,簡單地擴大感受野會引起一些問題。一方面,使用密集注意力(例如 ViT)會導(dǎo)致過多的內(nèi)存和計算成本,并且特征可能會受到超出興趣區(qū)域的無關(guān)部分的影響;另一方面,PVT 或 Swin Transformer 中采用的稀疏注意力與數(shù)據(jù)無關(guān),可能會限制對遠(yuǎn)程(long range)關(guān)系建模的能力。
為了緩解這些問題,清華大學(xué)、AWS AI 和北京智源人工智能研究院的研究者提出了一種新型可變形自注意力模塊,其中以數(shù)據(jù)相關(guān)的方式選擇自注意力中鍵值對的位置。這種靈活的方案使自注意力模塊能夠?qū)W⒂谙嚓P(guān)區(qū)域并捕獲更多信息特征。
在此基礎(chǔ)上,該研究提出了可變形注意力 Transformer(Deformable Attention Transformer,DAT),一種具有可變形注意力的通用主干網(wǎng)絡(luò)模型,適用于圖像分類和密集預(yù)測任務(wù)。該研究通過大量基準(zhǔn)測試實驗證明了該模型的性能提升。
論文地址:
https://arxiv.org/abs/2201.00520
可變形注意力 Transformer
現(xiàn)有的分層視覺 Transformer,特別是 PVT 和 Swin Transformer 試圖解決過多注意力的挑戰(zhàn)。前者的下采樣技術(shù)會導(dǎo)致嚴(yán)重的信息損失,而后者的 Swin 注意力導(dǎo)致感受野的增長要慢得多,這限制了對大型物體進(jìn)行建模的潛力。因此,需要依賴于數(shù)據(jù)的稀疏注意力來靈活地對相關(guān)特征進(jìn)行建模,從而導(dǎo)致首先在 DCN [9] 中提出可變形機制。
然而,在 Transformer 模型中實現(xiàn) DCN 是一個不簡單的問題。在 DCN 中,特征圖上的每個元素單獨學(xué)習(xí)其偏移量,其中 H ×W ×C 特征圖上的 3 × 3 可變形卷積具有 9 HWC 的空間復(fù)雜度。如果在注意力模塊中直接應(yīng)用相同的機制,空間復(fù)雜度將急劇上升到 N_qN_kC,其中 N_q、N_k 是查詢和鍵的數(shù)量,通常與特征圖大小 HW 具有相同的比例,帶來近似于雙二次的復(fù)雜度。
盡管 Deformable DETR [54] 已經(jīng)設(shè)法通過在每個尺度上設(shè)置較少數(shù)量的 N_k = 4 的鍵來減少這種開銷,并且可以很好地作為檢測頭,但由于不可接受的信息丟失(參見附錄中的詳細(xì)比較),在骨干網(wǎng)絡(luò)中關(guān)注如此少的鍵效果不佳。與此同時,[3,52] 中的觀察表明,不同的查詢在視覺注意力模型中具有相似的注意力圖。因此,該研究選擇了一個更簡單的解決方案,為每個查詢共享移位鍵和值,以實現(xiàn)有效的權(quán)衡。
模型架構(gòu)
該研究在 Transformer(等式 (4))中的可變形注意力替換了 vanilla MHSA,并將其與 MLP(等式 (5))相結(jié)合,以構(gòu)建一個可變形的視覺 transformer 塊。在網(wǎng)絡(luò)架構(gòu)方面, DAT 與 [7, 26, 31, 36] 共享類似的金字塔結(jié)構(gòu),廣泛適用于需要多尺度特征圖的各種視覺任務(wù)。如下圖 3 所示,形狀為 H × W × 3 的輸入圖像首先被步長為 4 的 4 × 4 非重疊卷積嵌入,然后一個歸一化層獲得補丁嵌入。
為了構(gòu)建分層特征金字塔,主干包括 4 個階段,步幅逐漸增加。在兩個連續(xù)的階段之間,有一個步長為 2 的非重疊 2×2 卷積,對特征圖進(jìn)行下采樣,將空間大小減半并將特征維度加倍。
在分類任務(wù)中,該研究首先對最后階段輸出的特征圖進(jìn)行歸一化,然后采用具有池化特征的線性分類器來預(yù)測對數(shù);在對象檢測、實例分割和語義分割任務(wù)中,DAT 在集成視覺模型中扮演主干的角色,以提取多尺度特征。該研究為每個階段的特征添加一個歸一化層,然后將它們輸入到以下模塊中,例如對象檢測中的 FPN [23] 或語義分割中的解碼器。
實驗
該研究在 3 個數(shù)據(jù)集上進(jìn)行了實驗,以驗證提出的 DAT 的有效性。該研究展示了在 ImageNet-1K [10] 分類、COCO 目標(biāo)檢測和 ADE20K 語義分割任務(wù)上的結(jié)果。此外,該研究提供了消融研究和可視化結(jié)果,以進(jìn)一步展示該方法的有效性。
ImageNet-1K 分類
ImageNet-1K [10] 數(shù)據(jù)集有 128 萬張用于訓(xùn)練的圖像和 5 萬張用于驗證的圖像。研究者在訓(xùn)練分割上訓(xùn)練 DAT 的三個變體,并報告驗證分割上的 Top-1 準(zhǔn)確度,并與其他 Vision Transformer 模型進(jìn)行比較。
該研究在下表 2 中給出了有 300 個訓(xùn)練 epoch 的結(jié)果。與其他 SOTA 視覺 Transformer 模型相比, DAT 在具有相似計算復(fù)雜性的情況下在 Top-1 精度上實現(xiàn)了顯著提高。DAT 在所有三個尺度上都優(yōu)于 Swin Transformer [26]、PVT [36]、DPT [7] 和 DeiT [33]。沒有在 Transformer 塊 [13, 14, 35] 中插入卷積,或在補丁嵌入 [6, 11, 45] 中使用重疊卷積,DAT 比 Swin Transformer [26] 實現(xiàn)了 +0.7、+0.7 和 +0.5 的增益。在 384 × 384 分辨率下進(jìn)行微調(diào)時,該模型繼續(xù)比 Swin Transformer 性能好 0.3。
COCO 目標(biāo)檢測
COCO 目標(biāo)檢測和實例分割數(shù)據(jù)集有 118K 的訓(xùn)練圖像和 5K 的驗證圖像。該研究使用 DAT 作為 RetinaNet [24]、Mask R-CNN [17] 和 Cascade Mask R-CNN [2] 框架中的主干,以評估該方法的有效性。該研究在 ImageNet-1K 數(shù)據(jù)集上對該模型進(jìn)行 300 個 epoch 的預(yù)訓(xùn)練,并遵循 Swin Transformer [26] 中類似的訓(xùn)練策略來公平地比較該方法。該研究在 1x 和 3x 訓(xùn)練計劃中報告在 RetinaNet 模型上的 DAT。如下表 3 所示,在微型和小型模型中,DAT 的性能優(yōu)于 Swin Transformer 1.1 和 1.2 mAP。
當(dāng)在兩階段檢測器(例如 Mask R-CNN、Cascade Mask R-CNN)中實現(xiàn)時,DAT 模型在不同尺寸的 Swin Transformer 模型上實現(xiàn)了一致的改進(jìn),如下表 4 所示。
下表 5 給出了在驗證集上各種方法的 mIoU 分?jǐn)?shù)。
消融實驗
為了驗證 DAT 模型中關(guān)鍵組件設(shè)計的有效性, 該研究進(jìn)行了消融實驗,報告了基于 DAT-T 的 ImageNet-1K 分類結(jié)果。對于幾何信息開發(fā),該研究首先評估了所提可變形偏移和可變形相對位置嵌入的有效性,如下表 6 所示。
對于不同階段的可變形注意力,該研究用不同階段的可變形注意力替換了 Swin Transfomer [26] 的移位窗口注意力。如下表 7 所示,僅替換最后階段的注意力提高了 0.1,替換最后兩個階段導(dǎo)致性能增益為 0.7(達(dá)到 82.0 的整體準(zhǔn)確度)。然而,在早期階段用更多可變形注意力替換會略微降低準(zhǔn)確性。
可視化
該研究在 DAT 中可視化學(xué)習(xí)變形位置的示例,以驗證該方法的有效性。如下圖 4 所示,采樣點描繪在對象檢測框和實例分割掩碼的頂部,從中可以看到這些點已轉(zhuǎn)移到目標(biāo)對象。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點剖析、科研心得或競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 恒易贷征信花能通过吗
- 下一篇: jbc信用卡是什么意思