论文浅尝 - ICLR2021 | BERTology 遇上生物学:在蛋白质语言模型中解释注意力
?????? ???
來源:ICLR2021
鏈接:https://arxiv.org/abs/2006.15222v3
一.動機
Transformer架構已經被證明可以學習有用的蛋白質分類和生成任務表示。然而,在可解釋性方面存在挑戰。
二.亮點
本文通過attention分析蛋白質Transformer模型,通過attention(1)捕獲蛋白質的折疊結構,將在底層序列中相距很遠但在三維結構中空間接近的氨基酸連接起來(2)以蛋白質的關鍵功能成分結合位點為靶點(3)關注隨著層深度的增加而逐漸變得更加復雜的生物物理特性。這一行為在三個Transformer架構(BERT、ALBERT、XLNet)和兩個不同的蛋白質數據集上是一致的。并提出了一個三維可視化的方法顯示attention和蛋白質結構之間的相互作用。
三.方法論
Model:
Attention analysis:
計算高attention對()在數據集X中存在的比例。
Datasets:
ProteinNet用于氨基酸和contact map的分析,Secondary Structure用于二級結構的分析,在Secondary Structure的基礎上創建了第三個關于結合位點和轉錄修飾點的數據集,其中添加了從蛋白質數據庫web api獲得的結合位點和PTM注釋。
四.實驗
4.1蛋白質結構
Figure 2
Attention與contact maps在最深層強烈一致:圖2顯示了根據公式1定義的指標,在被評估的五個模型中,attention如何與contact map相一致。在最深層發現了最一致的頭,對接觸的關注達到44.7% (TapeBert)、55.7% (ProtAlbert)、58.5% (ProtBert)、63.2% (ProtBert- bfd)和44.5% (ProtXLNet),而數據集中所有氨基酸對的接觸背景頻率為1.3%。單個頭ProtBert- bfd具有最好的效果,其含有420M參數,同時也是唯一在BFD預訓練。
考慮到模型是在沒有任何空間信息的情況下進行的語言建模任務訓練,這些具有結構意識的head的存在值得關注。一種可能是接觸更可能發生生物化學作用,在接觸的氨基酸之間產生統計依賴。
4.2結合位點和轉錄修飾點
Figure 3
在模型的大多數層Attention意在結合位點:對結合位點的關注在ProtAlbert模型中最為顯著(圖3b),該模型有22個頭,將超過50%的注意力集中在結合位點上,而數據集中結合位點的背景頻率為4.8%。三種BERT模型(圖3a、3c和3d)對結合位點的關注也很強,注意頭對結合位點的關注分別達到48.2%、50.7%和45.6%。
ProtXLNet(圖3 e)目標結合位點,但不像其它模型強烈:最一致的頭有15.1%attention關注結合位點,平均頭將只有6.2%的attention關注結合位點,而前四個模型均值以次為13.2%,19.8%,16.0%,和15.1%。目前還不清楚這種差異是由于架構的差異還是由于預訓練目標的差異;例如,ProtXLNet使用雙向自回歸預訓練方法(見附錄a .2),而其他4個模型都使用掩碼語言建模。結合位點是蛋白質與其他大分子的相互作用位置,這決定了蛋白質的高級功能,即使序列整體進化,結合位點也將被保留,同時結合位點的結構也局限于特定的家族或超家族,結合位點可以揭示蛋白質之間的進化關系,因此結合位點可能為模型提供對個體序列變化具有魯棒性的蛋白質的高級描述。
一小部分Head的attention意在PTMs, TapeBert中的Head 11-6集中了64%的注意力在PTM位置上,盡管這些只發生在數據集中0.8%的序列位置上。
4.3跨層分析
在較深層attention意在高級屬性:圖4中較深的層相對更關注結合位點和contact(高級概念),而二級結構(低級到中級概念)則更均勻地跨層定位;Attention probe顯示關于contact map的知識主要在最后1-2層被編碼進注意權重,這與基于文本的Transformer模型在較深層次處理更復雜的屬性相一致;Embedding probe(圖5,橙色)也表明,模型首先在較低層構建局部二級結構的表示,然后在較深層完全編碼結合位點和接觸圖。然而,這一分析也揭示了在接觸圖的知識如何在嵌入中積累的明顯差異,embedding是在多個層次上逐漸積累這種知識,而attention權重則只在最后的層次上獲得這種知識。
4.4氨基酸和可替代矩陣
根據圖6,attention head關注特定氨基酸,那么每個head是否記住了特定的氨基酸或者學會了與氨基酸相關的有意義的特性,為了驗證這個猜想,計算了所有不同氨基酸對與頭部注意力分布之間的皮爾遜相關系數(圖7 左)并發現與BLOSUM62(圖7 右)的皮爾遜系數為0.73,表明attention適度與可替代關系統一。
五.總結
本文將NLP的可解釋性方法應用于蛋白質序列建模,并在此基礎上建立了NLP與計算生物學的協同效應并展示了Transformer語言模型如何恢復蛋白質的結構和功能特性,并將這些知識直接整合到它的注意機制中。雖然本文的重點是將注意力與已知的蛋白質特性協調起來,但人們也可以利用注意力來發現新的關系或現有措施的更細微的形式
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - ICLR2021 | BERTology 遇上生物学:在蛋白质语言模型中解释注意力的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 会议交流—PPT下载|DataFunSu
- 下一篇: 论文浅尝 - IJCAI2020 |