【NLP】Attention函数手册!
作者:一元,四品煉丹師
前言
目前的諸多機(jī)器學(xué)習(xí)相關(guān)的問題,諸如推薦問題中的序列處理,時(shí)間序列的預(yù)測,文本分類等問題都會涉及到Attention函數(shù)的使用,Attention已經(jīng)成為了這些問題在建模時(shí)的最為核心的模塊。
而我們在實(shí)踐的過程中發(fā)現(xiàn),attention計(jì)算方式的不同對于不同的問題會有些許影響,有的時(shí)候影響還很大,所以在本文我們看看有哪些常用的attention函數(shù)。
權(quán)重函數(shù)
我們用Q,K,V分別表示Query,Key和Value。
我們將權(quán)重函數(shù)分為兩個(gè)模塊函數(shù)以及函數(shù)。
1.A(Q,K)計(jì)算方式
1.Concat策略
其中,表示連接的意思,該策略簡單,在一些博客中說此類策略在大數(shù)據(jù)問題中效果較好,該計(jì)算方式來源于論文《NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE》
2.Minus
3.Add
4.Dot Product
Dot Product的形式最為簡單,很多時(shí)候我們也經(jīng)常會使用該函數(shù)作為Baseline,但是它的問題也很明顯,雖然降低了模型計(jì)算復(fù)雜度,但是有時(shí)會因?yàn)橄喑说玫竭^大的值影響模型的效果。
5.Bilinear Dot
Bilinear Dot可以認(rèn)為是Dot Product的擴(kuò)展形式,有些情況下,Bilinear Dot的效果和Dot Product稍微好一些。
6.Scaled-dot Product
其中是特征的維度。
7.Content-Based
使用cosine距離替代了直接相乘,該計(jì)算方式來源于論文《Neural Turing Machines》。
8.擴(kuò)展
從上面的諸多計(jì)算中,我們發(fā)現(xiàn)就像是在計(jì)算之間的距離,所以很多基于距離的函數(shù)都是可以套過來嘗試一下的,下面是一些距離的列表,有興趣的朋友可以比較一下。
2.f()計(jì)算
目前最常使用的計(jì)算方式主要有下面兩種。
1.softmax函數(shù)
softmax函數(shù)是使用最多的函數(shù)也是最為常見的函數(shù),在實(shí)踐中往往也可以取得不錯(cuò)的效果。
2.TopN softmax
同樣地,也是先使用softmax函數(shù)進(jìn)行計(jì)算,然后取softmax最大的N個(gè)值進(jìn)行保留,將其它的值全部設(shè)置為0,該方法曾經(jīng)出現(xiàn)在一些推薦相關(guān)的問題建模中,可以取得非常不錯(cuò)的效果。
參考文獻(xiàn)
Attention基本公式及其變種
Attention? Attention!
[機(jī)器學(xué)習(xí)]常用距離定義與計(jì)算
總結(jié)
以上是生活随笔為你收集整理的【NLP】Attention函数手册!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 腾讯视频如何移出其他观看腾讯视频的设备
- 下一篇: 钉钉电脑版怎么创建共享文件 钉钉文件共享
