當(dāng)前位置：首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

【李宏毅深度学习CP10】Self-attention（part1）

發(fā)布時(shí)間：2024/1/1 pytorch 31 豆豆

生活随笔收集整理的這篇文章主要介紹了【李宏毅深度学习CP10】Self-attention（part1）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

學(xué)習(xí)心得

（1）傳統(tǒng)的Attention是基于source端和target端的隱變量（hidden state）計(jì)算Attention的，得到的結(jié)果是源端的每個(gè)詞與目標(biāo)端每個(gè)詞之間的依賴關(guān)系。但Self Attention不同，它分別在source端和target端進(jìn)行，僅與source input或者target input自身相關(guān)的Self Attention，捕捉source端或target端自身的詞與詞之間的依賴關(guān)系；然后再把source端的得到的self Attention加入到target端得到的Attention中，捕捉source端和target端詞與詞之間的依賴關(guān)系。

（2）self Attention Attention比傳統(tǒng)的Attention mechanism效果要好，主要原因之一是，傳統(tǒng)的Attention機(jī)制忽略了源端或目標(biāo)端句子中詞與詞之間的依賴關(guān)系，相對(duì)比，self Attention可以不僅可以得到源端與目標(biāo)端詞與詞之間的依賴關(guān)系，同時(shí)還可以有效獲取源端或目標(biāo)端自身詞與詞之間的依賴關(guān)系。

文章目錄

- 學(xué)習(xí)心得
- 一、復(fù)雜的Input時(shí)
- 二、Vector Set as Input
- - 2.1 文字處理
  - - 1)One-Hot的Encoding
    - 2)Word Embedding
  - 2.2聲音信號(hào)
  - 2.3 圖
  - 2.4 分子信息
- 三、What is the output?
- - 3.1 每一個(gè)向量都有一個(gè)對(duì)應(yīng)的Label
  - - 1)詞性標(biāo)注
    - 2)語(yǔ)音識(shí)別
    - 3)Social Network
  - 3.2 一整個(gè)Sequence,只需要輸出一個(gè)Label
  - - 1）文字的情感分析
    - 2)語(yǔ)音識(shí)別
    - 3）圖
  - 3.3 機(jī)器要自己決定,應(yīng)該要輸出多少個(gè)Label
- 四、Sequence Labeling
- 五、Self-Attention
- - Self-Attention過(guò)程
  - - 1.怎么產(chǎn)生 $b^1$ 這個(gè)向量
    - 2.計(jì)算α
    - 3.求 $b^1$
- Reference

一、復(fù)雜的Input時(shí)

到目前為止學(xué)的Network的輸入都是一個(gè)向量（比如CV還是youtube視頻等的輸入都可以看做一個(gè)向量），而輸出可能一個(gè)數(shù)值（如類別等）。

更復(fù)雜的去情況：輸入是多個(gè)向量（且這個(gè)輸入的向量的數(shù)目會(huì)改變），在上一節(jié)CNN我們還強(qiáng)調(diào)了假設(shè)輸入的圖片大小是相同。
現(xiàn)在我們假設(shè)我們的模型輸入的Sequence的數(shù)目、長(zhǎng)度都不一樣。

二、Vector Set as Input

2.1 文字處理

Network的輸入是一個(gè)句子，每個(gè)句子的長(zhǎng)度不一樣，單詞也不一樣。

如果把句子里的每個(gè)單詞都描述成一個(gè)向量，那么模型model的輸入就是一個(gè)vector set——該set的大小每次都不一樣（句子的長(zhǎng)度不同）。

1)One-Hot的Encoding

如何把一個(gè)詞匯表示成一個(gè)向量——最簡(jiǎn)單的是One-Hot的Encoding

開(kāi)一個(gè)很長(zhǎng)的向量，其長(zhǎng)度和世界上存在的詞匯數(shù)相同，每一個(gè)維度對(duì)應(yīng)到一個(gè)詞匯，Apple就是100，Bag就是010，Cat就是001，以此類推。

缺點(diǎn)：它假設(shè)了所有的詞匯之間沒(méi)有關(guān)系的，從該向量看不到Cat和Dog都是動(dòng)物所以他們比較接近，Cat和Apple一個(gè)動(dòng)物一個(gè)植物，所以兩者不太大關(guān)系。
在這個(gè)大向量里，沒(méi)有任務(wù)的語(yǔ)義的信息。

2)Word Embedding

給每一個(gè)詞匯一個(gè)向量（該向量是有語(yǔ)義的資訊的），如果把Word Embedding畫(huà)出來(lái)，會(huì)看到如下圖所示的所有動(dòng)物聚集成一團(tuán)，所有的植物聚集成一團(tuán)，所有的動(dòng)詞聚集成一團(tuán)。
可以參考：https://youtu.be/X7PH3NuYW0Q

ps：最小熵原理（六）：詞向量的維度應(yīng)該怎么選擇？——一個(gè)中大數(shù)學(xué)系碩士的博客（很多領(lǐng)域，主要是NLP），算法工程師。

2.2聲音信號(hào)

一段聲音訊號(hào)就是一排向量，我們可以把一段聲音信號(hào)取一個(gè)范圍（該范圍稱為一個(gè)window）。把該window里面的資訊描述成一個(gè)向量（稱為一個(gè)Frame），通常這個(gè)window長(zhǎng)度就是25個(gè)Millisecond。

把這一段的聲音訊號(hào)變成一個(gè)Frame有很多種方法（此處不細(xì)講）。
一小段25Millisecond里面的語(yǔ)音信號(hào)，為了描述一整段的聲音信號(hào)，需要把這個(gè)window往右移一點(diǎn)，通常移動(dòng)的大小是10個(gè)Millisecond。

一段聲音訊號(hào),你就是用一串向量來(lái)表示,而因?yàn)槊恳粋€(gè)Window啊,他們往右移都是移動(dòng)10個(gè)Millisecond,所以一秒鐘的聲音訊號(hào)有100個(gè)向量,所以一分鐘的聲音訊號(hào),就有這個(gè)100乘以60,就有6000個(gè)向量

2.3 圖

社交網(wǎng)絡(luò)就是一個(gè)圖，可以看做是一堆向量組成的：
節(jié)點(diǎn)：每個(gè)節(jié)點(diǎn)可看做一個(gè)向量，如每個(gè)人的簡(jiǎn)歷里面的性別、年齡、工作等，這些信息可以用一個(gè)向量來(lái)表示
邊：兩個(gè)人的關(guān)系連接，如是否為朋友等

2.4 分子信息

一個(gè)分子也可看做是一個(gè)圖，一個(gè)分子可看做是一個(gè)圖，分子上面的每個(gè)球就是一個(gè)原子（可以描述成一個(gè)向量）。一個(gè)原子可以用One-Hot Vector來(lái)表示,氫就是1000,碳就是0100,然后這個(gè)氧就是0010,所以一個(gè)分子就是一個(gè)Graph,它就是一堆向量。

三、What is the output?

輸入是一堆向量,它可以是文字,可以是語(yǔ)音,可以是Graph，這樣輸出是有三種可能的。

3.1 每一個(gè)向量都有一個(gè)對(duì)應(yīng)的Label

這種情況是說(shuō)輸入和輸出一樣數(shù)量。
當(dāng)你的模型,看到輸入是四個(gè)向量的時(shí)候,它就要輸出四個(gè)Label,而每一個(gè)Label,它可能是一個(gè)數(shù)值,那就是Regression的問(wèn)題,如果每個(gè)Label是一個(gè)Class,那就是一個(gè)Classification的問(wèn)題

1)詞性標(biāo)注

在文字處理上的,POS Tagging就是詞性標(biāo)註,你要讓機(jī)器自動(dòng)決定每一個(gè)詞匯它是什麼樣的詞性,它是名詞還是動(dòng)詞還是形容詞等等。
如現(xiàn)在給出句子：I saw a saw并不是“我看一個(gè)看”,而是“我看到一個(gè)鋸子”,這個(gè)第二個(gè)saw當(dāng)名詞用的時(shí)候,它是鋸子，那所以機(jī)器要知道,第一個(gè)saw是個(gè)動(dòng)詞,第二個(gè)saw雖然它也是個(gè)saw,但它是名詞,但是每一個(gè)輸入的詞匯,都要有一個(gè)對(duì)應(yīng)的輸出的詞性

2)語(yǔ)音識(shí)別

參照作業(yè)2

雖然我們作業(yè)二,沒(méi)有給大家一個(gè)完整的Sequence,我們是把每一個(gè)每一個(gè)每一個(gè)Vector分開(kāi)給大家了,但是串起來(lái)就是一段聲音訊號(hào)裡面,有一串Vector,每一個(gè)Vector你都要決定,它是哪一個(gè)Phonetic，這是一個(gè)語(yǔ)音辨識(shí)的簡(jiǎn)化版

3)Social Network

你的Model要決定每一個(gè)節(jié)點(diǎn),它有什麼樣的特性,比如說(shuō)他會(huì)不會(huì)買(mǎi)某一個(gè)商品,這樣我們才知道要不要推薦某一個(gè)商品給他

3.2 一整個(gè)Sequence,只需要輸出一個(gè)Label

1）文字的情感分析

如果是文字的話,我們就說(shuō)Sentiment Analysis。Sentiment Analysis就是給機(jī)器看一段話,它要決定說(shuō)這段話是正面的還是負(fù)面的
比如在淘寶上商家要分析用戶評(píng)價(jià)，不可能分析每一句話。這個(gè)是Sentiment Analysis給一整個(gè)句子,只需要一個(gè)Label,那Positive或Negative,那這個(gè)就是第二類的輸出

2)語(yǔ)音識(shí)別

那如果是語(yǔ)音的例子的話呢,在作業(yè)四裡面我們會(huì)做語(yǔ)者辨認(rèn),機(jī)器要聽(tīng)一段聲音,然后決定他是誰(shuí)講的

3）圖

或者是如果是Graph的話呢,今天你可能想要給一個(gè)分子,然后要預(yù)測(cè)說(shuō)這個(gè)分子,比如說(shuō)它有沒(méi)有毒性,或者是它的親水性如何,那這就是給一個(gè)Graph 輸出一個(gè)Label

3.3 機(jī)器要自己決定,應(yīng)該要輸出多少個(gè)Label

我們不知道應(yīng)該輸出多少個(gè)Label,機(jī)器要自己決定,應(yīng)該要輸出多少個(gè)Label,可能你輸入是N個(gè)向量,輸出可能是N’個(gè)Label

這種任務(wù)又叫做sequence to sequence的任務(wù),在作業(yè)五會(huì)有sequence to sequence的作業(yè),所以這個(gè)之后我們還會(huì)再講

翻譯就是sequence to sequence的任務(wù),因?yàn)檩斎胼敵鍪遣煌恼Z(yǔ)言,它們的詞匯的數(shù)目本來(lái)就不會(huì)一樣多
或者是語(yǔ)音辨識(shí)也是,真正的語(yǔ)音辨識(shí)也是一個(gè)sequence to sequence的任務(wù),輸入一句話,然后輸出一段文字,這也是一個(gè)sequence to sequence的任務(wù)

四、Sequence Labeling

ps：第二種類型有作業(yè)四,感興趣可以去看看作業(yè)四的程式，因?yàn)樯险n時(shí)間有限,所以這次是先只講第一個(gè)類型（每一個(gè)向量都有一個(gè)對(duì)應(yīng)的Label），也就是輸入跟輸出數(shù)目一樣多的狀況（又叫做Sequence Labeling）,你要給Sequence裡面的每一個(gè)向量,都給它一個(gè)Label,那要怎麼解Sequence Labeling的問(wèn)題呢。那直覺(jué)的想法就是我們就拿個(gè)Fully-Connected的Network

然后雖然這個(gè)輸入是一個(gè)Sequence,但我們就各個(gè)擊破,不要管它是不是一個(gè)Sequence,把每一個(gè)向量,分別輸入到Fully-Connected的Network裡面。然后Fully-Connected的Network就會(huì)給我們輸出,那現(xiàn)在看看,你要做的是Regression還是Classification,產(chǎn)生正確的對(duì)應(yīng)的輸出,就結(jié)束了,

缺陷：后面這一個(gè)saw跟前面這個(gè)saw完全一模一樣。既然Fully-Connected的Network輸入同一個(gè)詞匯,它沒(méi)有理由輸出不同的東西。但實(shí)際上,你期待第一個(gè)saw要輸出動(dòng)詞,第二個(gè)saw要輸出名詞,但對(duì)Network來(lái)說(shuō)它不可能做到,因?yàn)檫@兩個(gè)saw 明明是一模一樣的,你叫它一個(gè)要輸出動(dòng)詞,一個(gè)要輸出名詞,它會(huì)非常地困惑,完全不知道要怎麼處理

有沒(méi)有可能讓Fully-Connected的Network,考慮更多的,比如說(shuō)上下文的Context的資訊呢。這是有可能的,你就把前后幾個(gè)向量都串起來(lái),一起丟到Fully-Connected的Network就結(jié)束了

在作業(yè)二裡面,我們不是只看一個(gè)Frame,去判斷這個(gè)Frame屬於哪一個(gè)Phonetic,也就屬於哪一個(gè)音標(biāo),而是看這個(gè)Frame的前面五個(gè)加后面五個(gè),也就總共看十一個(gè)Frame,來(lái)決定它是哪一個(gè)音標(biāo)

所以我們可以給Fully-Connected的Network,一整個(gè)Window的資訊,讓它可以考慮一些上下文的,跟我現(xiàn)在要考慮的這個(gè)向量,相鄰的其他向量的資訊

但是這樣子的方法還是有極限,作業(yè)二就算是給你Sequence的資訊,你考慮整個(gè)Sequence,你可能也很難再做的更好啦,作業(yè)二考慮前后五個(gè)Frame,其實(shí)就可以得到很不錯(cuò)的結(jié)果了,所以你要過(guò)Strong Baseline,重點(diǎn)并不在於考慮整個(gè)Sequence,你就不需要往那個(gè)方向想了,用助教現(xiàn)有給你的Data,你就可以輕易的過(guò)Strong Baseline,

但是真正的問(wèn)題,但是如果今天我們有某一個(gè)任務(wù),不是考慮一個(gè)Window就可以解決的,而是要考慮一整個(gè)Sequence才能夠解決的話,那要怎麼辦呢

那有人可能會(huì)想說(shuō)這個(gè)很容易，我就把Window開(kāi)大一點(diǎn)啊,大到可以把整個(gè)Sequence蓋住就結(jié)束了。但是，今天Sequence的長(zhǎng)度是有長(zhǎng)有短的,我們剛才有說(shuō),我們輸入給我們的Model的Sequence的長(zhǎng)度,每次可能都不一樣

如果你今天說(shuō)我真的要開(kāi)一個(gè)Window,把整個(gè)Sequence蓋住,那你可能要統(tǒng)計(jì)一下你的訓(xùn)練資料,然后看看你的訓(xùn)練資料裡面,最長(zhǎng)的Sequence有多長(zhǎng),然后開(kāi)一個(gè)Window比最長(zhǎng)的Sequence還要長(zhǎng),你才有可能把整個(gè)Sequence蓋住——但是你開(kāi)一個(gè)這麼大的Window,意味著你的Fully-Connected的Network,它需要非常多的參數(shù),那可能不只運(yùn)算量很大,可能還容易Overfitting

五、Self-Attention

所以有沒(méi)有更好的方法,來(lái)考慮整個(gè)Input Sequence的資訊呢——Self-Attention
Self-Attention的運(yùn)作方式就是,Self-Attention會(huì)吃一整個(gè)Sequence的資訊

然后你Input幾個(gè)Vector,它就輸出幾個(gè)Vector,比如說(shuō)你這邊Input一個(gè)深藍(lán)色的Vector,這邊就給你一個(gè)另外一個(gè)Vector。這邊給個(gè)淺藍(lán)色,它就給你另外一個(gè)Vector,這邊輸入4個(gè)Vector,它就Output 4個(gè)Vector。
——那這4個(gè)Vector有什麼特別的地方呢,這4個(gè)Vector,他們都是考慮一整個(gè)Sequence以后才得到的。所以這邊每一個(gè)向量,我們特別給它一個(gè)黑色的框框代表說(shuō)它不是一個(gè)普通的向量

如此一來(lái)你這個(gè)Fully-Connected的Network,它就不是只考慮一個(gè)非常小的范圍,或一個(gè)小的Window,而是考慮整個(gè)Sequence的資訊,再來(lái)決定現(xiàn)在應(yīng)該要輸出什麼樣的結(jié)果，這個(gè)就是Self-Attention。
Self-Attention不是只能用一次,你可以疊加很多次。所以可以把Fully-Connected的Network,跟Self-Attention交替使用

Self-Attention處理整個(gè)Sequence的資訊
Fully-Connected的Network,專注於處理某一個(gè)位置的資訊
再用Self-Attention,再把整個(gè)Sequence資訊再處理一次
然后交替使用Self-Attention跟Fully-Connected

有關(guān)Self-Attention,最知名的相關(guān)的文章,就是《Attention is all you need》.那在這篇Paper裡面呢,Google提出了Transformer這樣的Network架構(gòu)

之后會(huì)講到,Transformer裡面一個(gè)最重要的Module就是Self-Attention。像Self-Attention這樣的架構(gòu)最早并不是在《Attention is all you need》（把Self-Attention這個(gè)Module,把它發(fā)揚(yáng)光大）。因?yàn)槠鋵?shí)很多更早的Paper,就有提出過(guò)類似的架構(gòu),只是不見(jiàn)得叫做Self-Attention,比如說(shuō)叫做Self-Matching,或者是叫別的名字。

Self-Attention過(guò)程

那Self-Attention是怎麼運(yùn)作的呢
Self-Attention的Input,它就是一串的Vector,那這個(gè)Vector可能是你整個(gè)Network的Input,它也可能是某個(gè)Hidden Layer的Output,所以我們這邊不是用 $x$ 來(lái)表示它,

我們用 $a$ 來(lái)表示它，代表它有可能是前面已經(jīng)做過(guò)一些處理,它是某個(gè)Hidden Layer的Output,那Input一排a這個(gè)向量以后,Self-Attention要Output另外一排b這個(gè)向量——那這每一個(gè)b都是考慮了所有的a以后才生成出來(lái)的,所以這邊刻意畫(huà)了非常非常多的箭頭,告訴你 $b^1$ 考慮了 $a^1$ 到 $a^4$ 產(chǎn)生的， $b^2$ 考慮 $a^1$ 到 $a^4$ 產(chǎn)生的， $b^3 、b^4$ 也是一樣,考慮整個(gè)input的sequence,才產(chǎn)生出來(lái)的。

1.怎么產(chǎn)生 $b^1$ 這個(gè)向量

（剩下 $b^1 b^2 b^3 b^4$ 剩下的向量同理）
這里有一個(gè)特別的機(jī)制，這個(gè)機(jī)制是根據(jù) $a^1$ 這個(gè)向量,找出整個(gè)很長(zhǎng)的sequence裡面,到底哪些部分是重要的,哪些部分跟判斷 $a^1$ 是哪一個(gè)label是有關(guān)係的,哪些部分是我們要決定 $a^1$ 的class,決定 $a^1$ 的regression數(shù)值的時(shí)候,所需要用到的資訊

每一個(gè)向量跟 $a^1$ 的關(guān)聯(lián)的程度,用一個(gè)數(shù)值叫α來(lái)表示

這個(gè)self-attention的module,怎麼自動(dòng)決定兩個(gè)向量之間的關(guān)聯(lián)性呢,你給它兩個(gè)向量 $a^1$ 跟 $a^4$ ,它怎麼決定 $a^1$ 跟 $a^4$ 有多相關(guān),然后給它一個(gè)數(shù)值α呢,那這邊呢你就需要一個(gè)計(jì)算attention的模組

這個(gè)計(jì)算attention的模組,就是拿兩個(gè)向量作為輸入,然后它就直接輸出α那個(gè)數(shù)值,

2.計(jì)算α

計(jì)算這個(gè)α的數(shù)值有各種不同的做法

比較常見(jiàn)的做法呢,叫做用dot product,輸入的這兩個(gè)向量分別乘上兩個(gè)不同的矩陣,左邊這個(gè)向量乘上 $W^q$ 這個(gè)矩陣得到矩陣 $q$ ,右邊這個(gè)向量乘上 $W^k$ 這個(gè)矩陣得到矩陣 $k$ 。
再把 $q$ 跟 $k$ 做dot product,就是把他們做element-wise 的相乘,再全部加起來(lái)以后就得到一個(gè) scalar,這個(gè)scalar就是α,這是一種計(jì)算α的方式
有另外一個(gè)叫做Additive的計(jì)算方式,它的計(jì)算方法就是,把同樣這兩個(gè)向量通過(guò) $W^q$ $W^k$ ,得到 $q$ 跟 $k$ ,那我們不是把它做Dot-Product,是把它這個(gè)串起來(lái),然后丟到這個(gè)過(guò)一個(gè)Activation Function

然后再通過(guò)一個(gè)Transform,然后得到α。總之有非常多不同的方法,可以計(jì)算Attention,可以計(jì)算這個(gè)α的數(shù)值,可以計(jì)算這個(gè)關(guān)聯(lián)的程度。但是在接下來(lái)的討論裡面,我們都只用左邊這個(gè)方法,這也是今日最常用的方法,也是用在Transformer裡面的方法

要把這邊的 $a^1$ 去跟這邊的 $a^2 a^3 a^4$ ,分別都去計(jì)算他們之間的關(guān)聯(lián)性,也就是計(jì)算他們之間的α

（1）你把 $a^1$ 乘上 $W^q$ 得到 $q^1$ ,那這個(gè)q有一個(gè)名字,我們叫做Query,它就像是你搜尋引擎的時(shí)候,去搜尋相關(guān)文章的問(wèn)題,就像搜尋相關(guān)文章的關(guān)鍵字,所以這邊叫做Query
（2） $a^2 a^3 a^4$ 你都要去把它乘上 $W^k$ ,得到 $k$ 這個(gè)Vector, $k$ 這個(gè)Vector叫做Key,那你把這個(gè)Query q1,跟這個(gè)Key k2,算Inner-Product就得到α
（3）我們這邊用 $α_{1,2}$ 來(lái)代表說(shuō),Query是1提供的,Key是2提供的時(shí)候,這個(gè)1跟2他們之間的關(guān)聯(lián)性,這個(gè)α這個(gè)關(guān)聯(lián)性叫做Attention的Score,叫做Attention的分?jǐn)?shù),

接下來(lái)也要跟 $a^3 a^4$ 來(lái)計(jì)算

把 $a_3$ 乘上 $W^k$ ,得到另外一個(gè)Key也就是 $k^3$ , $a^4$ 乘上 $W^k$ 得到 $k^4$ ,然后你再把 $k^3$ 這個(gè)Key,跟 $q^1$ 這個(gè)Query做Inner-Product,得到1跟3之間的關(guān)聯(lián)性,得到1跟3的Attention,你把 $k^4$ 跟 $q^1$ 做Dot-Product,得到 $α_{1,4}$ ,得到1跟4之間的關(guān)聯(lián)性
其實(shí)一般在實(shí)作時(shí)候, $q^1$ 也會(huì)跟自己算關(guān)聯(lián)性,自己跟自己計(jì)算關(guān)聯(lián)性這件事情有多重要,你可以自己在做作業(yè)的時(shí)候試試看,看這件事情的影響大不大了

計(jì)算出a1跟每一個(gè)向量的關(guān)聯(lián)性以后,接下來(lái)這邊會(huì)接入一個(gè)Soft-Max。這個(gè)Soft-Max跟分類的時(shí)候的那個(gè)Soft-Max是一模一樣的,所以Soft-Max的輸出就是一排α,所以本來(lái)有一排α,通過(guò)Soft-Max就得到 $α^{'}$
這邊你不一定要用Soft-Max,用別的替代也沒(méi)問(wèn)題,比如說(shuō)有人嘗試過(guò)說(shuō)做個(gè)ReLU,這邊通通做個(gè)ReLU,那結(jié)果發(fā)現(xiàn)還比Soft-Max好一點(diǎn),所以這邊你不一定要用Soft-Max,這邊你要用什麼Activation Function都行,你高興就好,你可以試試看,那Soft-Max是最常見(jiàn)的,那你可以自己試試看,看能不能試出比Soft-Max更好的結(jié)果

3.求 $b^1$

接下來(lái)得到這個(gè) $α^{'}$ 以后,我們就要根據(jù)這個(gè) $α^{'}$ 去抽取出這個(gè)Sequence裡面重要的資訊,根據(jù)這個(gè)α我們已經(jīng)知道說(shuō),哪些向量跟 $a^1$ 是最有關(guān)係的,怎麼抽取重要的資訊呢,

首先把 $a^1$ 到 $a^4$ 這邊每一個(gè)向量,乘上 $W^v$ 得到新的向量,這邊分別就是用 $v^1 v^2 v^3 v^4$ 來(lái)表示
接下來(lái)把這邊的 $v^1$ 到 $v^4$ ,每一個(gè)向量都去乘上Attention的分?jǐn)?shù),都去乘上 $α^{'}$
然后再把它加起來(lái),得到 $b^1$
$b1=∑iα1,i′vib^1=\sum_i\alpha'_{1,i}v^i$

如果某一個(gè)向量它得到的分?jǐn)?shù)越高,比如說(shuō)如果 $a^1$ 跟 $a^2$ 的關(guān)聯(lián)性很強(qiáng),這個(gè) $α^{'}$ 得到的值很大,那我們今天在做Weighted Sum以后,得到的 $b^1$ 的值,就可能會(huì)比較接近 $v^2$ 。所以誰(shuí)的那個(gè)Attention的分?jǐn)?shù)最大,誰(shuí)的那個(gè) $v$ 就會(huì)Dominant你抽出來(lái)的結(jié)果。以上就是怎麼從一整個(gè)Sequence 得到 $b^1$ 。

Reference

（1）李宏毅深度學(xué)習(xí)2021課程
（2）Self-Attention機(jī)制全方位總結(jié)：https://zhuanlan.zhihu.com/p/79115586
（3）Self-attention + transformer 和其他一些總結(jié)：https://www.cnblogs.com/illlioo/p/14752174.html
（4）https://github.com/Kyubyong/transformer

總結(jié)

以上是生活随笔為你收集整理的【李宏毅深度学习CP10】Self-attention（part1）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： RunTime Error! R6025
下一篇： 04741自考计算机网络原理知识点总结、

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

pytorch

【李宏毅深度学习CP10】Self-attention（part1）

學(xué)習(xí)心得

文章目錄

一、復(fù)雜的Input時(shí)

二、Vector Set as Input

2.1 文字處理

1)One-Hot的Encoding

2)Word Embedding

2.2聲音信號(hào)

2.3 圖

2.4 分子信息

三、What is the output?

3.1 每一個(gè)向量都有一個(gè)對(duì)應(yīng)的Label

1)詞性標(biāo)注

2)語(yǔ)音識(shí)別

3)Social Network

3.2 一整個(gè)Sequence,只需要輸出一個(gè)Label

1）文字的情感分析

2)語(yǔ)音識(shí)別

3）圖

3.3 機(jī)器要自己決定,應(yīng)該要輸出多少個(gè)Label

四、Sequence Labeling

五、Self-Attention

Self-Attention過(guò)程

1.怎么產(chǎn)生b1b^1b1這個(gè)向量

2.計(jì)算α

3.求b1b^1b1

Reference

總結(jié)

1.怎么產(chǎn)生 $b^1$ 這個(gè)向量

3.求 $b^1$