當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【CVPR2022】Lite Vision Transformer with Enhanced Self-Attention

發(fā)布時(shí)間：2024/1/18 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了【CVPR2022】Lite Vision Transformer with Enhanced Self-Attention 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文：https://readpaper.com/paper/633541619879256064

代碼：https://github.com/Chenglin-Yang/LVT

1、研究動(dòng)機(jī)

盡管ViT模型在各種視覺任務(wù)中效果顯著，但是目前輕量級(jí)的ViT模型在局部區(qū)域效果不理想，作者認(rèn)為：自注意力機(jī)制在淺層網(wǎng)絡(luò)有局限性（Self-attention mechanism is limited in shallower and thinner networks）。為此，作者提出一種 light yet effective vision transformer 可以應(yīng)用于移動(dòng)設(shè)備（Lite Vision Transformer, LVT），具有標(biāo)準(zhǔn)的 four-stage 結(jié)構(gòu)，但是和 MobileNetV2 和 PVTv2-B0 含有相同的參數(shù)量。作者主要提出了兩種新的 attention 模塊：Convolutional Self-Attention (CSA) 和 Recursive Atrous Self-Attention (RASA) 。下面分別介紹 CSA 模塊和 RASA 模塊。

2、Convolutional Self-Attention (CSA)

流程如上圖所示，基本流程是：

計(jì)算similarity（即代碼中的attn）： 將 (hw/4, c) 的矩陣通過1x1卷積變?yōu)?(hw/4, k^2, k^2)。
計(jì)算V： 生成一個(gè)(hw/4, c, k^2)的矩陣，然后reshape通過1x1的卷積改變通道數(shù)（圖中為BMM），得到(hw/4, k^2, c_out)的矩陣。
矩陣乘法，similarity 和 v 相乘，得到 (hw/4, k^2, c_out)
使用 fold 變換得到輸出

從代碼上來看，CSA 的代碼比 VOLO 更復(fù)雜，但本質(zhì)上貌似沒有不同（也許是我的理解還不到位）。而且，我感覺 CSA 的代碼沒有 VOLO 簡(jiǎn)潔。感興趣的可以參考《VOLO: Vision Outlooker for Visual Recognition》這篇論文及網(wǎng)上代碼。

3、Recursive Atrous Self-Attention (RASA)

首先介紹 ASA，與普通的attention計(jì)算不同的地方在于：作者在計(jì)算Q時(shí)，采用了多尺度空洞卷積。卷積權(quán)重共享，降低了參數(shù)。

同時(shí)，作者使用了 recursive 操作。每個(gè)block里，ASA 迭代兩次。

4、實(shí)驗(yàn)分析

網(wǎng)絡(luò)采用了4階段的架構(gòu)。第一階段使用CSA，其他階段使用RASA。

在 ImageNet 的實(shí)驗(yàn)結(jié)果表明，當(dāng)參數(shù)量與 MobileNetV2 和 PVTv2-B0 相當(dāng)時(shí)，本方法準(zhǔn)確率顯著較高。同時(shí)，增大到與ResNet50參數(shù)量接近時(shí)，本方法性能顯著超越了當(dāng)前方法。

其它部分可以參考作者論文，這里不再多說。

總結(jié)

以上是生活随笔為你收集整理的【CVPR2022】Lite Vision Transformer with Enhanced Self-Attention的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： VoxelNeXt：用于3D检测和跟踪的
下一篇：渗透测试工程师面试题目大全