【Transformer】SOFT: Softmax-free Transformer with Linear Complexity
文章目錄
- 一、背景
- 二、方法
- 2.1 Softmax-free self-attention formulation
- 2.2 通過矩陣分解來實現低秩規范化
- 三、效果
本文收錄于 NeurIPS 2021
論文鏈接:https://arxiv.org/pdf/2110.11945.pdf
代碼鏈接:https://github.com/fudan-zvg/SOFT
一、背景
基于 self-attention 的 transformer 雖然取得了較好的效果,但其計算量和內存都和是輸入分辨率大小的平方。
作者認為這種計算限制來源于計算概率時使用的 softmax self-attention。
一般的 self-attention 都是計算規范化的 token 特征的內積計算得到,保持這種 softmax 操作對后面的線性化操作有些挑戰。
所以,本文作者提出了 softmax-free transformer, SOFT,在 self-attention 中移除了 softmax,使用高斯核函數來代替內積,能夠通過低秩矩陣分解來近似得到 self-attention 矩陣。
二、方法
2.1 Softmax-free self-attention formulation
輸入為 X,要進行 attention ,首先要通過映射得到 Q, K, V:
self-attention 的計算如下:
α\alphaα 為計算 self-attention map 的過程,由非線性函數 β\betaβ 和 relation function γ\gammaγ 組成:
一般的形式如下:
為了簡化計算,作者使用如下方式代替:
為了保持 attention matrix 的對稱性,作者設定 Q 和 K 的映射函數一樣,所以,本文的 self-attention matrix 如下:
2.2 通過矩陣分解來實現低秩規范化
為了降低計算量,作者參考 Nystrom[38] 來實現低秩矩陣近似,可以不用計算全部的 self-attention。
規范化的 self-attention matrix S^\hat SS^ 如下:
三、效果
SOFT 及其變體如下:
總結
以上是生活随笔為你收集整理的【Transformer】SOFT: Softmax-free Transformer with Linear Complexity的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 女子不让6岁男童上女厕所遭痛骂 伤害孩子
- 下一篇: 放心玩!一加中国区总裁:Ace2将全面普