【NLP】AAAI21最佳论文Runners Up!Transformer的归因探索!
作者:一元,四品煉丹師
Self-Attention Attribution: Interpreting Information Interactions Inside Transformer(AAAI21)
問(wèn)題背景
在之前大家對(duì)于Transformer的理解都是,Transformer的成功得益于強(qiáng)大Multi-head自注意機(jī)制,從輸入中學(xué)習(xí)token之間的依賴關(guān)系以及編碼上下文信息。我們都很難解釋輸入特性如何相互作用以實(shí)現(xiàn)預(yù)測(cè)的。Attention計(jì)算得到的分?jǐn)?shù)也并不能完美的解釋這些交互作用,本文提出一種自我注意歸因方法來(lái)解釋Transformer內(nèi)部的信息交互。我們以Bert為例進(jìn)行研究。首先,我們利用自我注意歸因來(lái)識(shí)別重要的注意頭,其它注意頭會(huì)隨著邊際效果的下降而被剪掉。此外,我們提取了每個(gè)層中最顯著的依賴關(guān)系,構(gòu)造了一個(gè)屬性樹(shù),揭示了Transformer內(nèi)部的層次交互。最后,我們證明了歸因結(jié)果可以作為對(duì)抗模式來(lái)實(shí)現(xiàn)對(duì)BERT的非目標(biāo)攻擊。
那么該方案是怎么做的呢?
方案
1.背景知識(shí)
給定輸入, 我們將word的embedding打包成一個(gè)矩陣,?疊加的層Transformer通過(guò)
的方式計(jì)算得到最終的輸出。
這其中最為核心的就是Multi-head的self-attention,self-attention的第個(gè)head為:
其中,表示有多關(guān)注,此處我們假設(shè)為attention heads的個(gè)數(shù),最終multi-head attention可以通過(guò)下面的形式得到:
其中,,表示鏈接的意思。
2.Self-Attention Attribution
上圖左側(cè)是微調(diào)后的BERT中一個(gè)頭部的注意力分?jǐn)?shù)。我們觀察到:
注意力得分矩陣是相當(dāng)密集的,雖然只有一個(gè)12個(gè)head。這很難讓我們?nèi)ダ斫鈫卧~在Transformer中是如何相互作用的。
此外,即使注意力分?jǐn)?shù)很大,也不意味著這對(duì)詞對(duì)決策建模很重要;
相比之下,我們的目標(biāo)是將模型決策歸因于自我注意關(guān)系,如果交互作用對(duì)最終預(yù)測(cè)的貢獻(xiàn)更大,那么自我注意關(guān)系往往會(huì)給出更高的分?jǐn)?shù)。
給定輸入,表示Transformer模型,它將attention權(quán)重矩陣作為模型輸入,此處,我們操縱內(nèi)部注意得分,并觀察相應(yīng)的模型動(dòng)態(tài) 來(lái)檢驗(yàn)單詞交互的貢獻(xiàn)。由于屬性總是針對(duì)一個(gè)給定的輸入,為了簡(jiǎn)單起見(jiàn),我們此處省略它。
我們計(jì)算第個(gè)attention head的時(shí)候,我們先得到我們的歸因得分矩陣。
其中表示element-wise的乘法,表示第個(gè)attention權(quán)重矩陣,計(jì)算模型關(guān)于的梯度,所以的第個(gè)元素就是關(guān)于第個(gè)attention head的token 和token 交互計(jì)算的。
表示在一個(gè)層中,所有token都不相互關(guān)注。當(dāng)從0變?yōu)?時(shí),
如果注意聯(lián)系,對(duì)模型預(yù)測(cè)有較大影響,其梯度也會(huì)越加顯著,因此積分值也會(huì)較大。
直觀地說(shuō), 不僅考慮了attention分?jǐn)?shù),而且還考慮了模型預(yù)測(cè)對(duì)注意關(guān)系的敏感性。
attribution分?jǐn)?shù)可以通過(guò)積分的Riemman近似來(lái)計(jì)算得到,具體地說(shuō),我們?cè)趶牧阕⒁饩仃嚨皆甲⒁鈾?quán)重A的直線路徑上以足夠小的間隔出現(xiàn)的點(diǎn)處求梯度的和。
其中為近似的步數(shù),后續(xù)實(shí)驗(yàn)中,我們將其設(shè)置為20。
我們?cè)倏匆幌孪旅孢@張圖:
我們發(fā)現(xiàn):
更大的注意分?jǐn)?shù)并不意味著對(duì)最終預(yù)測(cè)的貢獻(xiàn)更大。SEP標(biāo)記與其它標(biāo)記之間的注意得分相對(duì)較大,但獲得的歸因得分較少。
對(duì)contradiction類(lèi)的預(yù)測(cè),最主要的是第一節(jié)中的“don't”與第二節(jié)中的“I know”之間的聯(lián)系,這種聯(lián)系更容易解釋。
實(shí)驗(yàn)
1.效果分析
我們發(fā)現(xiàn):
歸因得分修剪頭部會(huì)對(duì)模型效果可以產(chǎn)生更顯著的影響。
在每一層中只修剪Top2的兩個(gè)歸因分?jǐn)?shù)的頭部會(huì)導(dǎo)致模型精度的極大降低。相比之下,保留它們有助于模型達(dá)到近97%的準(zhǔn)確率。即使每層只保留兩個(gè)heads,模型仍然可以有很強(qiáng)的性能。
和attention分?jǐn)?shù)相比,使用attention分?jǐn)?shù)裁剪heads的影響不是非常明顯,這也充分證明了我們方法的有效性。
2.Head Attention的裁剪
1.Head Importance
1.1 Our method
其中表示從held-out幾何中采樣得到的樣本。表示第個(gè)attention head的最大attribution值。
1.2. Tylor expansion
其中是關(guān)于樣本的損失函數(shù),是第個(gè)head對(duì)應(yīng)的attention分?jǐn)?shù)。
2.實(shí)驗(yàn)對(duì)比
使用我們的方法進(jìn)行裁剪的效果是最好的。
小結(jié)
本文提出了自我注意歸因(ATTATTR),它解釋了Transformer內(nèi)部的信息交互,使自我注意機(jī)制更易于解釋。文章進(jìn)行了定量分析,證明了ATTATTR的有效性。此外,利用本文提出的方法來(lái)識(shí)別最重要的注意head,從而提出了一種新的頭部剪枝算法。然后利用屬性得分得到交互樹(shù),從而可視化變壓器的信息流。本文的方法非常有參考價(jià)值。
往期精彩回顧適合初學(xué)者入門(mén)人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專(zhuān)輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專(zhuān)輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專(zhuān)輯溫州大學(xué)《機(jī)器學(xué)習(xí)課程》視頻 本站qq群851320808,加入微信群請(qǐng)掃碼:總結(jié)
以上是生活随笔為你收集整理的【NLP】AAAI21最佳论文Runners Up!Transformer的归因探索!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: TIM怎么更新版本 TIM检查更新版本教
- 下一篇: 360浏览器图片放大镜如何关闭