當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自注意力机制Self-attention（1）

發布時間：2024/8/23 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了自注意力机制Self-attention（1）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄：
自注意力機制Self-attention（1）
自注意力機制Self-attention（2）

本文是對李宏毅老師的課程進行了整理。
視頻地址為：
https://www.bilibili.com/video/BV1Wv411h7kN?p=23

1 問題引入

問：為什么要引入自注意力機制？
答：輸入一個向量，經過Model預測后得到一個分類結果/數值型結果；當輸入一組向量，經過Model預測后有三種可能的輸出，第一種輸出是一個分類結果/數值型結果，第二種輸出是每個向量輸出一個分類結果/數值型結果（有多少個輸入向量，就有多少個分類結果），第三種輸出是多種分類結果/數值型結果（輸入向量個數和輸出分類結果個數不相同），例如句子"I saw a saw (我看到了一個鋸子)"中判斷"saw"的詞性，第一個是動詞，第二個是名詞，如果沒有上下文，很難判斷"saw"的詞性。

問：哪些應用場景會有一組向量的輸入呢？
答：
（1）一段文字：

（2）一段語音：

（3）social network：

(4) 藥物發現：

2 方法介紹

問：如何利用輸入的一組向量 $a^1$ ， $a^2$ ， $a^3$ ， $a^4$ ，得到輸出 $b^1$ ， $b^2$ ， $b^3$ ， $b^4$ ？
答：首先通過目標向量 $a^1$ ，找到關聯的 $a^2$ ， $a^3$ ， $a^4$ ；然后只要知道怎么計算出 $b^1$ ，就同理知道 $b^2$ ， $b^3$ ， $b^4$ 計算了。

問：如何得到注意力分數？
答：這個模塊是自注意力機制的核心模塊。
上圖介紹了兩種方法來計算注意力分數。
左邊方法為：用一個矩陣 $W^q$ 乘上左邊的向量得到一個向量 $q$ ，再用另外一個矩陣 $W^k$ 乘上左右邊的向量得到向量 $k$ ；注意力分數 $α=q?k\alpha = q \cdot k$ 。
右邊方法為：用一個矩陣 $W^q$ 乘上左邊的向量得到一個向量 $q$ ，再用另外一個矩陣 $W^k$ 乘上左右邊的向量得到向量 $k$ ；注意力分數 $α=Wtanh?(q+k)\alpha = W \tanh (q + k)$ 。
李老師在本次課程采用的是左邊的方法。

query： $q^1 = W^q a^1$ （備注：transform）
key： $k^2 = W^k a^2$ （備注：transform）
attention score： $α1,2=q1?k2\alpha_{1,2} = q^1 \cdot k^2$

Soft-max： $α1,i′=exp?(α1,i)∑jexp?(α1,j)\alpha_{1,i}^{'} = \frac{\exp(\alpha_{1,i})}{\sum_j \exp(\alpha_{1,j})}$

總結

以上是生活随笔為你收集整理的自注意力机制Self-attention（1）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：（pytorch-深度学习系列）卷积神经
下一篇：数理人文

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

自注意力机制Self-attention（1）

1 問題引入

2 方法介紹

總結