DL之self-attention:self-attention自注意力机制的简介、应用之详细攻略
DL之self-attention:self-attention自注意力機(jī)制的簡(jiǎn)介、應(yīng)用之詳細(xì)攻略
?
?
?
目錄
self-attention的簡(jiǎn)介
1、self-attention的影響
2、self-attention模塊思路的8個(gè)步驟及其代碼實(shí)現(xiàn)
self-attention的應(yīng)用領(lǐng)域
?
參考文章
一文讀懂自注意力機(jī)制:8大步驟圖解+代碼
?
相關(guān)文章
DL之Attention:Attention的簡(jiǎn)介、應(yīng)用領(lǐng)域之詳細(xì)攻略
DL之self-attention:self-attention的簡(jiǎn)介、應(yīng)用之詳細(xì)攻略
self-attention的簡(jiǎn)介
? ? ? ?一個(gè)self-attention模塊接收n個(gè)輸入,然后返回n個(gè)輸出。這個(gè)模塊中發(fā)生了什么呢?用外行人的話說(shuō),self-attention機(jī)制允許輸入與輸入之間彼此交互(“self”),并找出它們應(yīng)該更多關(guān)注的對(duì)象(“attention”)。輸出是這些交互和注意力得分的總和。
?
1、self-attention的影響
? ? ? ?BERT, RoBERTa, ALBERT, SpanBERT, DistilBERT, SesameBERT, SemBERT, MobileBERT, TinyBERT, CamemBERT……共同之處是BERT,但是最底層則是self-attention。
? ? ? ?“BERT”的架構(gòu),更準(zhǔn)確地說(shuō)是基于Transformer的架構(gòu)。基于Transformer的架構(gòu)主要用于建模語(yǔ)言理解任務(wù),避免了神經(jīng)網(wǎng)絡(luò)中的遞歸,而是完全依賴于self-attention機(jī)制來(lái)繪制輸入和輸出之間的全局依賴關(guān)系。
?
2、self-attention模塊思路的8個(gè)步驟及其代碼實(shí)現(xiàn)
DL之self-attention:self-attention模塊思路的8個(gè)步驟及其代碼實(shí)現(xiàn)
| 1、準(zhǔn)備輸入 | |
| 2、初始化權(quán)重 | 每個(gè)輸入必須有三個(gè)表示(見(jiàn)下圖)。這些表示稱為鍵(key,橙色)、查詢(query,紅色)和值(value,紫色)。在本例中,我們假設(shè)這些表示的維數(shù)是3。因?yàn)槊總€(gè)輸入的維數(shù)都是4,這意味著每組權(quán)重必須是4×3。 注:在神經(jīng)網(wǎng)絡(luò)設(shè)置中,這些權(quán)重通常是很小的數(shù)字,使用適當(dāng)?shù)碾S機(jī)分布(例如高斯、Xavier和Kaiming分布)進(jìn)行隨機(jī)初始化。 |
| 3、推導(dǎo)key,?query?和?value | 注:在實(shí)踐中,偏差向量(bias vector )可以添加到矩陣乘法的乘積。 |
| 4、計(jì)算輸入1的注意力得分 | 為了獲得注意力得分,我們首先在輸入1的查詢(紅色)和所有鍵(橙色)之間取一個(gè)點(diǎn)積。因?yàn)橛?個(gè)鍵表示(因?yàn)橛?個(gè)輸入),我們得到3個(gè)注意力得分(藍(lán)色)。 |
| 5、計(jì)算softmax | 在所有注意力得分中使用softmax(藍(lán)色)。 |
| 6、將分?jǐn)?shù)與值相乘 | 每個(gè)輸入的softmaxed attention 分?jǐn)?shù)(藍(lán)色)乘以相應(yīng)的值(紫色)。結(jié)果得到3個(gè)對(duì)齊向量(黃色)。在本教程中,我們將它們稱為加權(quán)值。 由值(紫色)和分?jǐn)?shù)(藍(lán)色)的相乘推導(dǎo)出加權(quán)值表示(黃色) |
| 7、將權(quán)重值相加,得到輸出1 | 將所有加權(quán)值(黃色)按元素指向求和,結(jié)果向量[2.0,7.0,1.5](深綠色)是輸出1,該輸出基于輸入1與所有其他鍵(包括它自己)進(jìn)行交互的查詢表示。 |
| 8、對(duì)輸入2和輸入3重復(fù)步驟4-7 | 已經(jīng)完成了輸出1,我們對(duì)輸出2和輸出3重復(fù)步驟4到7。 |
?
?
self-attention的應(yīng)用領(lǐng)域
更新……
?
?
?
?
?
?
?
?
?
?
總結(jié)
以上是生活随笔為你收集整理的DL之self-attention:self-attention自注意力机制的简介、应用之详细攻略的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 成功解决ModuleNotFoundEr
- 下一篇: 成功解决ModuleNotFoundEr