[深度学习] Attention机制,一文搞懂从实例到原理
一 人類的視覺注意力
擴(kuò)展閱讀:
Attention and Augmented Recurrent Neural Networks【譯文】
不用看數(shù)學(xué)公式!圖解谷歌神經(jīng)機(jī)器翻譯核心部分:注意力機(jī)制
Attn: Illustrated Attention
Deep Reading | 從0到1再讀注意力機(jī)制,此文必收藏!
從注意力模型的命名方式看,很明顯其借鑒了人類的注意力機(jī)制,因此,我們首先簡單介紹人類視覺的選擇性注意力機(jī)制。
圖1 人類的視覺注意力
視覺注意力機(jī)制是人類視覺所特有的大腦信號處理機(jī)制。人類視覺通過快速掃描全局圖像,獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,也就是一般所說的注意力焦點(diǎn),而后對這一區(qū)域投入更多注意力資源,以獲取更多所需要關(guān)注目標(biāo)的細(xì)節(jié)信息,而抑制其他無用信息。
這是人類利用有限的注意力資源從大量信息中快速篩選出高價(jià)值信息的手段,是人類在長期進(jìn)化中形成的一種生存機(jī)制,人類視覺注意力機(jī)制極大地提高了視覺信息處理的效率與準(zhǔn)確性。
圖1形象化展示了人類在看到一副圖像時(shí)是如何高效分配有限的注意力資源的,其中紅色區(qū)域表明視覺系統(tǒng)更關(guān)注的目標(biāo),很明顯對于圖1所示的場景,人們會(huì)把注意力更多投入到人的臉部,文本的標(biāo)題以及文章首句等位置。
深度學(xué)習(xí)中的注意力機(jī)制從本質(zhì)上講和人類的選擇性視覺注意力機(jī)制類似,核心目標(biāo)也是從眾多信息中選擇出對當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。
?
Attention機(jī)制的應(yīng)用
前文有述,Attention機(jī)制在深度學(xué)習(xí)的各種應(yīng)用領(lǐng)域都有廣泛的使用場景。上文在介紹過程中我們主要以自然語言處理中的機(jī)器翻譯任務(wù)作為例子,下面分別再從圖像處理領(lǐng)域和語音識(shí)別選擇典型應(yīng)用實(shí)例來對其應(yīng)用做簡單說明。
????????????????????? 圖13 圖片-描述任務(wù)的Encoder-Decoder框架
圖片描述(Image-Caption)是一種典型的圖文結(jié)合的深度學(xué)習(xí)應(yīng)用,輸入一張圖片,人工智能系統(tǒng)輸出一句描述句子,語義等價(jià)地描述圖片所示內(nèi)容。很明顯這種應(yīng)用場景也可以使用Encoder-Decoder框架來解決任務(wù)目標(biāo),此時(shí)Encoder輸入部分是一張圖片,一般會(huì)用CNN來對圖片進(jìn)行特征抽取,Decoder部分使用RNN或者LSTM來輸出自然語言句子(參考圖13)。
此時(shí)如果加入Attention機(jī)制能夠明顯改善系統(tǒng)輸出效果,Attention模型在這里起到了類似人類視覺選擇性注意的機(jī)制,在輸出某個(gè)實(shí)體單詞的時(shí)候會(huì)將注意力焦點(diǎn)聚焦在圖片中相應(yīng)的區(qū)域上。圖14給出了根據(jù)給定圖片生成句子“A person is standing on a beach with a surfboard.”過程時(shí)每個(gè)單詞對應(yīng)圖片中的注意力聚焦區(qū)域。
??????????????????? 圖14 圖片生成句子中每個(gè)單詞時(shí)的注意力聚焦區(qū)域
圖15給出了另外四個(gè)例子形象地展示了這種過程,每個(gè)例子上方左側(cè)是輸入的原圖,下方句子是人工智能系統(tǒng)自動(dòng)產(chǎn)生的描述語句,上方右側(cè)圖展示了當(dāng)AI系統(tǒng)產(chǎn)生語句中劃橫線單詞的時(shí)候,對應(yīng)圖片中聚焦的位置區(qū)域。比如當(dāng)輸出單詞dog的時(shí)候,AI系統(tǒng)會(huì)將注意力更多地分配給圖片中小狗對應(yīng)的位置。
??????????????? 圖15 圖像描述任務(wù)中Attention機(jī)制的聚焦作用
???????????????????? 圖16 語音識(shí)別中音頻序列和輸出字符之間的Attention
語音識(shí)別的任務(wù)目標(biāo)是將語音流信號轉(zhuǎn)換成文字,所以也是Encoder-Decoder的典型應(yīng)用場景。Encoder部分的Source輸入是語音流信號,Decoder部分輸出語音對應(yīng)的字符串流。
圖16可視化地展示了在Encoder-Decoder框架中加入Attention機(jī)制后,當(dāng)用戶用語音說句子 how much would a woodchuck chuck 時(shí),輸入部分的聲音特征信號和輸出字符之間的注意力分配概率分布情況,顏色越深代表分配到的注意力概率越高。從圖中可以看出,在這個(gè)場景下,Attention機(jī)制起到了將輸出字符和輸入語音信號進(jìn)行對齊的功能。
上述內(nèi)容僅僅選取了不同AI領(lǐng)域的幾個(gè)典型Attention機(jī)制應(yīng)用實(shí)例,Encoder-Decoder加Attention架構(gòu)由于其卓越的實(shí)際效果,目前在深度學(xué)習(xí)領(lǐng)域里得到了廣泛的使用,了解并熟練使用這一架構(gòu)對于解決實(shí)際問題會(huì)有極大幫助。
?
原文:干貨 | 關(guān)于深度學(xué)習(xí)中的注意力機(jī)制,這篇文章從實(shí)例到原理都幫你參透
https://zhuanlan.zhihu.com/p/37601161
?
總結(jié)
以上是生活随笔為你收集整理的[深度学习] Attention机制,一文搞懂从实例到原理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 吴京:拍《流浪地球》之前对科幻一无所知
- 下一篇: 消息称佳能下周发布两机两镜,含全画幅入门