Paying More Attention to Self-attention: Improving Pre-trained Language Models via Attention Guiding
更加關注自注意力:通過注意力引導改進預訓練語言模型
Shanshan Wang Shandong University Qingdao, China wangshanshan5678@gmail.com Zhumin Chen ? Shandong University Qingdao, China chenzhumin@sdu.edu.cn Zhaochun Ren Shandong University Qingdao, China zhaochun.ren@sdu.edu.cn Huasheng Liang WeChat, Tencent Guangzhou, China watsonliang@tencent.com Qiang Yan WeChat, Tencent Guangzhou, China rolanyan@tencent.com Pengjie Ren Shandong University Qingdao, China p.ren@uva.nl
摘要
預訓練語言模型(PLM)已在廣泛的信息檢索和自然語言處理任務中證明了其有效性。作為PLM的核心部分,多頭自我注意因其能夠共同關注來自不同位置的信息而備受關注。然而,研究人員發現,PLM總是表現出固定的注意模式,無論輸入如何(例如,過度關注“[CLS]”或“[SEP]”),我們認為這可能會忽略其他位置的重要信息。在這項工作中,我們提出了一種簡單而有效的注意力引導機制,通過鼓勵人們對既定目標的注意力來提高PLM的績效。具體而言,我們提出了兩種注意力引導方法,即注意力圖辨別引導(MDG)和注意力模式去相關引導(PDG)。前者明確鼓勵多個自我注意頭之間的多樣性共同關注來自不同表征子空間的信息,而后者鼓勵自我注意關注盡可能多的不同位置的輸入。我們在三個基準數據集(即MultiNLI、MedNLI和跨流派IR)上使用多個通用預訓練模型(即BERT、阿爾伯特和Roberta)和領域特定預訓練模型(即BioBERT、臨床-BERT、BlueBert和SciBERT)進行實驗。大量的實驗結果表明,我們提出的MDG和PDG在所有數據集上都以高效率和低成本帶來了穩定的性能改進。
CCS概念
?????信息系統→ 聚類和分類;內容分析和特征選擇;?計算方法學→ 對比學習。
關鍵詞
????預訓練模型、多頭自我注意力、注意力引導、注意力地圖辨別、注意力模式去相關ACM參考格式:Shanshan Wang,Zhumin Chen? , 任兆春、梁華生、嚴強、任鵬杰。更加關注自我注意力:通過注意力引導改進預先訓練的語言模型。ACM會議記錄(2017年會議)。ACM,美國紐約州紐約市,11頁。
 ????https://doi.org/10.1145/1122445.1122456.
1簡介
????預訓練語言模型(PLM)在廣泛的下游任務中帶來了巨大的性能提升,包括機器翻譯[22]、文本分類[31]、文檔排序[26]等。預訓練語言模型(PLM)的核心組件是自我注意機制,它允許模型捕獲遠程依賴信息。
 ????最近,許多研究側重于分析自我注意力機制,即注意力的權重和聯系,以解釋網絡或揭示PLM的特征[4、10、35]。
 ????這些探索工作發現了一個普遍現象:盡管自我注意力機制取得了成功,但這些語言模型表現出簡單的注意力模式[28,36]。例如,De-vlin等人[6]和Kovaleva等人[10]報告了一種現象,即在預先訓練的BERT模型中,40%的頭部只是注意力定界符,如“[CLS]”和/或“[SEP]”此外,Michel等人。[20] 證明WMT【34】和BERT【6】中的多頭注意對于獲得競爭性績效來說是不必要的。
 ????同樣,Raganato等人[27]也證實,編碼器中最專注的連接根本不需要學習,因為transformer架構學習到的大多數自我注意模式僅僅反映了上下文信息的位置編碼。
 ????自我注意的有效性可以通過引入各種信息來提高。例如,Li等人[14]證明,可以通過增加注意力頭的多樣性來改善下游任務。此外,許多研究側重于通過句法監督等外部信息修飾自我注意,以改善輸入表征。他們的結果表明,添加額外的信息確實有助于PLM提高下游任務的有效性。然而,由于這些方法修改了自我注意的計算過程,它們必須從頭開始重新訓練PLM。眾所周知,用大量從頭開始的數據對PLM進行訓練將需要大量的計算資源和時間。此外,提取額外的信息,如語法結構,將進一步增加計算負擔。
 ????因此,本文試圖研究以下研究問題:在微調階段,是否有可能在沒有額外信息的情況下引導自我注意,以提高下游任務的性能?如圖1所示,從沒有引導的PLM中學習到的注意力頭部總是呈現相似的模式,例如,不同的頭部注意到相似的位置。相反,我們尋求設計一種注意力引導機制,以便綜合考慮各種信息。我們期望注意力引導機制可以作為輔助目標來規范下游任務的微調。類似的工作在[5]中完成。他們使用幾個預定義的注意力模式來指導PLM s的訓練。具體來說,他們添加了一個輔助損失來引導自我注意力朝向一組預定義模式(即,“[下一個]、“[上一個]、“[第一個]、“[Delim]”和“[周期]”)。
 ????由于這些預定義的模式只覆蓋少數固定的模式,無法引入更多的信息,因此該方法在改善注意力頭的多樣性方面能力有限。因此,在這項工作中,我們建議探索自我注意力引導方法,而不預先定義注意力模式或關于輸入的額外知識,以鼓勵多個注意力頭之間的多樣性。
 ????我們提出了一種注意力引導機制,通過明確鼓勵多個注意力頭之間的多樣性來調節自我注意力,從而提高PLM的性能。具體而言,我們提出了兩種注意力引導方法,即注意力圖辨別引導(MDG)和注意力模式去相關引導(PDG)。前者通過不同的注意力圖來鼓勵自我注意力關注來自不同輸入方面的信息。注意力圖本身是獨特的,每個注意力圖都可能與其他注意力圖有很大的不同[19],因此它可以捕獲與其他注意力圖不同的輸入信息。后者通過減少與不同注意力模式的相關性,鼓勵自我注意力將注意力放在更加多樣化的位置,從而改善注意力模式的多樣性。我們通過在三個基準數據集上進行實驗,驗證了注意力引導機制在多個通用和領域特定PLM上的有效性。特別是,我們發現,所提出的注意力引導機制在小規模數據集上仍然有效,證明了其在低資源環境下的重要性。
 ????我們的主要貢獻如下:?我們提出了兩個自我注意力指導術語,即MDG和PDG,用于指導自我注意力頭部,使PLM能夠學習全面和多樣的注意力模式。
 ?????我們展示了注意力引導機制在三個不同數據集和任務中對七個通用和領域特定PLM的有效性。
 
 圖1:注意力引導機制示意圖。習得的注意力頭總是表現出固定和相似的模式,這可能會忽略重要信息。注意力引導旨在引導學習過的注意力負責人關注輸入的不同部分,以便能夠考慮到更重要的信息。
2方法論
????2.1任務在這項工作中,我們將以下兩個不同的任務作為應用。
 ????任務1:自然語言推理。這項任務的目標是預測是否可以從給定的承諾中推斷出給定的假設。此任務制定為多類分類任務。
 ????在實現中,我們在從PLM最后一個層的輸出派生的“[CLS]”表示的頂部添加了一個分類層,就像大多數方法一樣[21、29、46]。PLM通過最小化多類交叉熵損失進行微調,其定義如下:
 
 其中表示PLM和分類層中的所有可訓練參數,|是訓練樣本數,是第個樣本的基本真理。
 ????任務2:跨醫學類型查詢。這項任務的目的是找到支持健康相關新聞文章中主要主張的研究出版物。此任務被表示為二進制分類任務。類似地,我們在從PLM最后一個層的輸出導出的“[CLS]”表示的頂部添加了一個分類層。PLM通過最小化二元交叉熵損失進行微調,如下所示:
 
 其中是第-個樣本的基本真值,是第-個樣本所屬的概率。
2.2多頭自注意力
????預訓練的語言模型(PLM)通常是一個大規模、強大的神經網絡,經過訓練的,具有大量的數據樣本和計算資源[3,11]。有了這樣一個基礎模型,我們可以輕松高效地生成新模型來解決各種下游任務,而不是從頭開始對其進行訓練。PLM更加關注自我注意力:通過2017年7月在美國華盛頓特區舉行的注意力指導會議改進預先訓練的語言模型,依靠多頭自我注意力來捕獲tokens之間的依賴關系[6]。給定一個隱藏狀態,多頭自我關注首先將其線性投影到查詢中? , 鑰匙? , 和值? 分別使用參數矩陣。公式如下:
 
 然后,自我注意分布? 通過查詢的縮放點積計算? 和鍵? . 將這些權重分配給相應的值向量? 獲取輸出狀態? :
 
 此處? 注意力分布是否由? -注意力頭部。是隱藏大小。最后,輸出狀態? 所有磁頭中的一個被連接起來以產生最終狀態。
2.3注意力引導
????圖2顯示了我們的方法的工作流程。首先,我們使用預先訓練好的模型對每個樣本進行編碼,得到相應的注意力矩陣。然后基于樣本表示法計算任務目標損失。同時,注意矩陣將由兩個術語指導,即注意地圖辨別引導(MDG)和注意模式去相關引導(PDG),旨在推動自我注意的多樣性,進一步提高下游任務的性能。更具體地說,對于這兩個下游任務,除了目標之外,我們還引入了兩個輔助目標來引導自我注意。
 ????正式地,每個任務的訓練目標修改為:
 
 哪里是最終的訓練目標,它包含訓練損失的三個部分。表示任務對象,該對象因任務而異。表示注意力圖辨別指導(MDG)項,表示注意力模式去相關指導(PDG)項。這兩個術語可以單獨使用,也可以組合使用,它們分別使用和進行管理。請注意,引入的正則化項與1和2項類似,它們不引入任何新參數,只影響標準模型參數的微調。
 ????2.3.1注意力圖辨別。對于給定的樣本,首先,我們需要從預訓練模型(如BERT)的輸出中獲得該樣本的表示及其相應的注意力圖。公式可以描述為:
 
 其中表示“[CLS]”token的隱藏狀態,我們將其視為示例的表示。}是多層多頭注意力映射集。是第十張注意力圖? ? 由預先訓練的模型制作的注意力圖。和? 分別表示層編號和每個層中的頭部編號。
 ????然后,我們在“[CLS]”表示的頂部添加一個分類層。形式上,分類層的公式由:=(),(7)實現,其中是權重矩陣,(·)是激活函數,是給定樣本的最終表示。通過由下游任務確定的等式1或等式2,我們可以從樣本的地面真值標簽計算監督下的任務目標損失。
 ????為了簡化計算,每個注意力圖∈ R×作為一個向量處理∈ R,將所有tokens接收到的注意力值相加。將注意力圖轉換為注意力向量的對應公式為:
 
 ,其中表示第-個注意力圖,是注意力圖的列索引。
 ????由于PLM中的自我注意力機制是多層多頭結構,因此產生了多個注意力向量。
 ????我們把所有的注意力向量組織成一個矩陣∈ R(? ? )× .
 ????具體而言,我們將所有注意力向量串聯起來,構建注意力矩陣。形式上,對應的公式如下:
 
 其中⊕ 表示串聯操作,表示注意力矩陣。
 ????受[32,41]的啟發,我們應用實例判別法推送注意力圖的多樣性,以便捕獲輸入的豐富信息。目標函數是基于softmax準則建立的。假設每個注意力圖代表一個不同的類。也就是注意力圖∈ R,即注意力矩陣的-行,被劃分為第-類。
 ????因此,第-類的權重向量可以用向量來近似。一個注意力圖被分配到第四類的概率是:
 
 ? 衡量與第th類的匹配程度,因為它被視為第th類的權重。是控制分布濃度的溫度參數[8],并歸一化為∥ ∥ = 1、目標最大化聯合概率
 
 2.3.2注意力模式去相關。我們分析了多頭注意力頭可能會遇到冗余問題,其中每個注意力向量集中在一個非常相似的區域。為了鼓勵每個注意力頭從輸入的不同位置捕獲信息,同時,我們提出了另一個注意力引導項,即注意力模式去相關引導(PDG)。
 ????受【15】的啟發,我們認為。,? ∈ R? ? 作為第次注意力模式的軟表征。通常,注意力模式應該是獨立的,以確保減少冗余信息。目標函數用于推動注意力模式的多樣性,減少模式冗余,從而使從注意力矩陣計算出的互相關矩陣盡可能接近身份矩陣。
 ????PDG術語的公式旨在構建獨立的注意力模式,如下所示:
 
 ,其中是注意力矩陣,∈ R×為單位矩陣,且| |.| |2表示Frobenius范數的平方[47]。
 ????? ∈ R×可以看作是不同注意力模式的互相關矩陣。最小化互相關矩陣和身份矩陣之間的差異相當于使注意力模式多樣化,以便它們關注不同的tokens【23,48】。
 
 圖2:擬議PLM的管道,采用注意力引導方法。注意力引導機制分別包括注意力圖辨別引導(MDG)和注意力模式去相關引導(PDG)。對于批量樣本,我們使用預訓練的模型將每個樣本編碼為特征向量,并獲得每個樣本的注意力矩陣。通過任務目標加上MDG和PDG兩種注意力引導方法產生的損失來學習最優特征嵌入。MDG和PDG都試圖將訓練樣本的注意力頭最大程度地分散在序列長度單位范圍內。
3實驗裝置
????為了評估我們提出的注意力引導機制的有效性,我們在不同的下游任務上對各種預訓練的模型進行了廣泛的實驗。我們證明,注意力引導機制可以促進注意力頭的多樣性,并進一步提高在不同下游任務上的表現。
3.1數據集和評估
????我們在以下數據集上進行實驗。
 ?????MultiNLI 1[39]是一個由433k個句子對組成的眾包集合,這些句子對用文本蘊涵信息進行注釋,即蘊涵、矛盾和中性。該數據集用于自然語言推理任務,也常用于評估各種PLM【5,37】。精度(簡稱ACC)是此任務的標準度量。同時,我們還報告了分類任務中常用的其他指標,如精度、召回率和F1。
 ?????MedNLI 2【30】用于臨床領域的自然語言推理,其數據結構與MultiNLI相同。準確度也是此數據集的標準度量。與MultiNLI一樣,我們也報告了精度、召回率和F1。
 ?????跨體裁IR 3【49】用于跨醫學體裁查詢任務,其中每個聲明(即新聞標題)都與至少一份支持它的同行評審研究出版物相關聯。
 ????對于每個聲明,它需要對候選出版物重新排序,以獲得正確的出版物。繼原作者之后,我們報告了平均倒數排名(即MRR)和Recall@K(即。,R@K=1、3、5、20)個指標。
3.2用于比較的PLM
????我們考慮了七個基于transformer的PLM:三個是在通用語言語料庫(BERT、阿爾伯特和Roberta)上預先訓練的,四個是在生物醫學語料庫(BioBERT、Clinical-BERT、BlueBert和SciBERT)上預先訓練的。
 ?????BERT 4[6]是一種多層雙向Transformer編碼器。
 ????由于以下版本的PLM通常基于BERT base uncased版本(12個層和768個隱藏大小,參數為108M),因此我們在此使用BERT base uncased進行公平比較。
 ?????Roberta 5【18】的架構與BERT相同,但在訓練機制上有很多變化,例如更隨機的mask機制。我們在這里使用Roberta base進行比較。
 ????表1:有無注意力引導的PLM性能比較(%)。黑體字表示在相應指標方面,注意力引導(AG)的性能有所提高。? 表示<0。05和?? 表示<0。t檢驗分別為01。
 ????據我們所知,截至2021 11月,SOTA代表了性能最佳的方法。實驗的多NLI匹配測試集。
 ?????ALBERT 6【12】通過因子化嵌入參數化和跨層參數共享壓縮了BERT的架構。我們使用ALBERT-base-v2版本。
 ?????BioBERT 7【13】是第一位接受生物醫學相關預培訓的BERT。它用BERT的預訓練參數初始化,然后在PubMed摘要和全文文章上進一步預訓練。
 ????我們使用最好的版本BioBERT V1.1。
 ?????ClinicalBERT 8[1]是從BioBert v1.0開始初始化的,并在MIMIC-III v1.4數據庫中對大約200萬條注釋進行了進一步的預訓練。
 ?????BlueBERT 9【24】首先從BERT開始初始化,然后在PubMed生物醫學語料庫和臨床筆記上進一步進行訓練的。
 ?????SciBERT 10[2]是一個基于BERT的模型,在語義學者140萬篇論文的基礎上預先訓練,其中18%的論文來自計算機科學,82%來自生物醫學領域。
 ?????索塔。據我們所知,我們還比較了每個數據集上的最新方法,這些方法基于Roberta、布魯伯特和BERT[24、33、49]。
 
3.3實施細節
????擬議的注意力引導機制作用于PLM中的所有注意力頭。我們分別在MultiNLI、MedNLI和跨流派IR數據集上微調了5個時代、20個時代和5個時代的所有PLM模型。隱藏大小為768,序列長度設置為每個PLM的256。我們對所有型號使用Adam優化器(學習率1e-05),并且根據GeForce RTX 3090 GPU的內存將批量大小設置為最大值。具體來說,在不同的數據集上,ALBERT的批量大小設置為56,其他PLM的批量大小設置為64。根據網格搜索,從集合{0.1、0.01、0.001、0.0001}中選擇等式5中的和。公式11中的溫度參數設置為1.0。
3.4不同預訓練模型的結果
????表1列出了不同任務的所有PLM結果。從結果來看,我們有幾個觀察結果。
 ????首先,所提出的AG可以提高PLMs在所有任務上的性能。例如,在MultiNLI和MedNLI數據集上,所有選定的具有注意力引導的預訓練模型都可以在所有指標方面提高所有PLM上下游任務的性能。類似地,在跨流派IR數據集上,我們的注意力引導方法可以提升任務的大多數指標。此外,令人鼓舞的發現是,在MedNLI數據集上,簡單地將AG添加到BlueBERT(即BlueBERT+AG)優于SOTA,而在跨流派IR數據集上,BioBERT+AG遠遠優于SOTA。這些數字顯示了擬議的注意力引導的有效性。AG之所以有效,是因為引導后的自我關注能夠更好地關注更廣泛、更多樣化的tokens,這有利于下游任務。
 ????其次,AG在不同的模型和數據集上扮演著不同的角色。
 ????例如,所提出的注意力機制總是能提高MultiNLI和MedNLI數據集的性能,而在跨流派IR數據集上,某些指標略有下降,例如。,R@20在注意力引導后,BERT從94.58%下降到94.09%。此外,我們還觀察到,不同PLM的性能在MRR方面總是有所改善,并且當K較小時,可以改善更多PLM的性能R@K韻律學。這表明,注意力引導方法可能會受到評估指標的某些魅力的影響。例如R@20很難通過注意力引導來提升。然而,盡管某些指標略有下降,但在大多數情況下,我們的注意力引導方法可以有效地改進預訓練的模型。
 ????第三,根據我們的結果,AG在小型數據集上扮演著更大的角色。例如,AG的最大改進在F1方面達到3.58%,在R@5分別在MedNLI(11k句對)和跨體裁IR(48k句對)數據集上,這兩個數據集的得分高于MultiNLI(443k句對)數據集的得分,即0.98%。為了進一步探索這一現象,我們改變了MedNLI數據集的訓練大小,以評估AG的作用,詳情參見§4.3。
3.5不同注意力引導方法的比較
????我們還研究了注意力引導機制與其他相關工作的比較。由于所有相關工作都需要重新訓練一個新的模型,而不是我們的工作在預先訓練的模型的微調階段進行。因此,很難直接比較它們。為了進行比較,我們在預訓練模型的微調階段采用了不同的方法來引導自我注意。具體而言,我們實施了Deshpande和Narasimhan提出的五種注意力引導模式(即,“[下一個]”、“[上一個]”、“[第一個]”、“[德里姆]”和“[時期]”)。此外,我們還基于從輸入中提取的知識實現了三種注意力引導方法。具體而言,基于知識的引導方法是通過單詞/tokens之間的共現關系、句法依賴關系和類似關系,即分別為“[PMI]”、“[依賴關系]”和“[WordSim]”來引導注意力。我們使用的這些關于自我注意的先驗知識是由Qi等人提出的。[25]和Xia等人。[42] . 表2報告了這些不同引導方法的結果,表2顯示:首先,無論哪種引導方法都可以不同程度地提高預訓練模型(即BERT)的有效性。
 ????例如,在單詞相似性知識的指導下(即,“[單詞模擬]”),MultiNLI數據集上BERT的ACC從83.24%增加到83.73%。研究結果還表明,自我注意力頭需要被引導,只要引導方法合理,如使用一些固定的共同注意力模式或使用從輸入中獲得的知識,主流任務的績效也可以提高。
 ????第二,雖然我們提出了三種類型的注意力引導方法,Deshpande和Narasimhan【5】,但Qi等人。[25]和Xia等人[42]可以提高PLM在主流任務中的性能,不同的引導方法在不同的數據集中發揮不同的作用。我們的AG在幾乎所有指標上都優于其他方法,例如在MedNLI和MutiNLI數據集上的ACC。但在跨流派的IR數據集上,“[WordSim]”方法在大多數指標方面都優于我們的方法。這表明,不同的注意力引導方法的效果可能會受到數據集的影響,在特定數據集上嘗試一種或多種注意力引導方法可以最大限度地提高預訓練模型的有效性。如何選擇合適的先驗知識或指導方法進行自我關注可能是一個需要進一步探索的問題。
4分析
4.1消融研究
????為了分析AG的改進來自何處,我們對每個數據集上的最佳模型進行了消融研究。顯然,更容易理解的是,由醫學語料庫預先訓練的模型更善于處理與醫學相關的任務(即MedNLI和跨流派IR)。因此,MultiNLI、MedNLI和跨流派IR數據集上最好的預訓練模型分別是Roberta、Blue-BERT和BioBERT。詳細結果如表3所示。我們考慮以下三種設置:(1)w/o-AG表示沒有AG的PLM s,即基線PLM s。(2)w/o-MDG表示沒有MDG項但保留PDG項的PLM。(3) 無PDG表示刪除PDG術語,但保留MDG術語。
 ????表3中的結果表明,MDG和PDG對PLM很有幫助,因為刪除它們中的任何一個都會導致幾乎所有指標的性能下降。此外,在MedNLI和跨流派IR數據集上,最明顯的下降是去除PDG的變體,即不含PDG。這說明注意力模式去相關引導可以為PLM帶來更有價值的注意力信息,因為PDG可以推動每個頭部關注輸入的不同位置以捕獲多樣性信息。
 ????我們還注意到R@1在跨流派IR數據集上略有下降,例如R@1銀從76.48%下降到75.87%。Nev-ertheless,AG與其他指標(即MRR、,R@3, R@5和R@20)在AG機制之后仍有改進。
4.2AG對不同層的影響
????由于所提出的AG(即MDG和PDG)可以應用于PLM的任何層,因此我們設計實驗來觀察它們對BERT的不同層的影響。圖3總結了不同層上具有MDG的BERT、具有PDG的BERT和同時具有MDG和PDG的BERT的結果。藍色虛線表示沒有AG的BERT。
 ????從圖3可以看出,大多數層都能明顯受益于MDG和PDG,如在MDG的指導下,層7的ACC從76.02%增加到77.36%。同樣,在PDG的引導下,層的ACC從76.02%提高到77.43%。此外,中低層始終可以從PDG中受益,而頂層層偶爾會出現一些下降。例如,在層11,在PDG的引導下,ACC從76.02%下降到75.81%。相反,隨著MDG的增加,BERT的下、中層出現了一些下降,例如,BERT的ACC在層層下降了0.63%。這是可以理解的,因為千年發展目標和發展目標的職能不同。千年發展目標關注不同的注意力頭,而PDG推動每個注意力頭關注輸入的不同tokens/位置。因此,將MDG和PDG相結合通常會在幾乎所有層上改善BERT。例如,在層分別受到MDG和PDG的指導后,性能提高了0.21%和1.51%,而MDG和PDG結合后,性能提高了1.76%。此外,發現較低的層在所有tokens對上都表現出廣泛的注意力[4]。因此,下層調用表2:不同引導方法下PLM的性能比較(%)。與最佳基線結果相比的顯著改進標記為? (t檢驗,<0.05)。
 ????用于指導PDG促進tokens而非MDG的多樣性,與中間和頂部層相比。
 
 表3:不同方法的性能比較(%)。粗體表示在相應指標方面的最佳結果。實驗的多NLI匹配測試集。與最佳基線結果相比的顯著改進標記為? (t檢驗,<0.05)。
 圖3:采用所提出的AG機制的每個BERT層的性能。圖(a)、(b)和(c)分別展示了使用MDG、PDG以及MDG和PDG兩者來指導BERT的每個層的結果。
4.3 AG對不同訓練規模的影響
????在表1中,我們發現擬議的AG在MedNLI和跨流派IR數據集上比在MultiNLI數據集上帶來了更多的改進。為了探索我們的AG機制是否受訓練數據集大小的影響,我們從MedNLI的訓練集中隨機選擇20%到100%的數據進行微調。詳細結果如圖6所示。在這個實驗中,我們有以下觀察結果。
 ????PDG和MDG通常可以在不同的訓練大小下提高BERT,即使數據量很小。具體而言,當僅使用20%的訓練集時,MDG將準確率提高了0.84%(即從68.78%提高到69.62%),而PDG也將準確率提高了0.70%(從68.78%提高到69.48%)。MDG和PDG在小數據集上有效的原因是,當沒有足夠的訓練數據時,PLM很難適應不同的任務。換句話說,自我關注并沒有得到很好的調整。因此,自我關注的引導變得尤為重要。此外,PLM很容易過度適應小型數據集。
 ????PDG和PDG可以在某些方面幫助緩解這種過度擬合問題。
 
 圖4:隨機樣本的注意力熱圖。圖(a)表示沒有AG的注意力,圖(b)-(d)分別表示有MDG、PDG以及MDG和PDG兩者的注意力。
4.4注意力熱圖案例研究
????在千年發展目標(MDG)和個人發展目標(PDG)的指導下,我們觀察注意力頭部的變化,看看指導后是否有任何不同的注意力模式。我們從MedNLI數據集的測試集中隨機選擇一個樣本,并在圖4中顯示BERT所有層所有頭部的平均注意力圖。為了便于觀察,圖4僅顯示了序列中的前15個tokens,所選的token序列為“[‘[CLS],‘患者’,‘拒絕’,‘任何’,‘頭痛’,’,‘,‘視覺’,‘變化’,’,‘胸部’,‘疼痛’,‘,’,‘,’,',‘pl’,‘歐元’]”。
 ????如圖4(d)所示,與圖4(a)相比,帶有MDG和PDG的注意力圖可以將注意力放在更多的位置,而圖4(a)不受AG的引導。例如,更多的注意力集中在最后一列中的token上(即“##eur”),圖4(a)中沒有AG的注意力圖忽略了該標記。事實上,token“##eur”和之前的token“pl”構成了一個重要的醫學概念“pleur”,應該引起注意力。AG可以使此類tokens得到更多的注意力,這就是AG可以改進PLM的原因。
4.5注意力主成分分析案例研究
????為了探索我們的AG機制是否促進自我注意力的豐富性和多樣性,我們從MedNLI數據集的測試集中隨機選擇一些樣本,并通過主成分分析(PCA)[9]對BERT所有層的所有注意力頭部進行降維。圖5顯示了有/無AG機制的每個注意力頭的空間分布。從圖5中,我們可以看到,有MDG和PDG的注意力分布(圖5的(b)-(d))比沒有AG的分布更分散(見圖5(a))。
 ????這表明提議的AG機制(包括MDG和PDG)是有效的,AG確實鼓勵自我注意力將注意力放在序列的更寬位置。
 ????此外,圖5(b)(即受千年發展目標指導)中多頭注意力的分布比圖5(c)(即受PDG指導)中更分散。顯然,原因是千年發展目標旨在推動不同注意力圖的多樣性,這將導致分散的注意力頭。
 表4:使用不同PLM的三個數據集上的每歷元訓練時間(秒)(有或沒有擬議的
 
4.6時間成本分析
????以前的大多數研究直接修改了自我注意的計算過程,例如[25,42],這意味著他們需要重新訓練PLM。相比之下,我們的方法在微調階段工作,不需要重新訓練PLM。因此,我們的AG在時間成本方面也有優點。
 ????然而,AG的計算過程將比在特定數據集上直接微調預先訓練的模型需要更多的時間。
 ????表4顯示了三個數據集上不同PLM(帶或不帶AG)的每歷元訓練時間。
 ????從表4可以看出,通過添加AG,增加的時間成本很小。具體而言,在MultiNLI、MedNLI和跨流派IR數據集上,AG每歷元訓練的額外時間成本分別約為130秒、7秒和19秒。我們認為時間成本可以接受,因為AG可以顯著改進不同的預訓練模型。
 
 圖5:隨機樣本的注意力主成分分析。圖(a)表示多層多頭注意力的空間分布,圖(b)-(d)表示具有MDG、PDG以及MDG和PDG兩者的注意力
 
 圖6:BERT和AG在不同數量的訓練數據上的表現。
5相關工作
????現有的自我注意研究大致可分為三類:自注意探索、自注意修正和自注意引導。
5.1自注意探測
????這一研究方向側重于自我注意的模式探索,即分析權重和聯系的可解釋性。例如,維格(Vig)和貝林科夫(Belinkov)[35]將注意力可視化,并在一個大型語料庫上分析注意力和語法之間的相互作用。他們發現,在模型的不同層,不同的注意針對不同的詞類,并且注意與依賴關系密切相關,尤其是在中間層。同樣,Clark等人。[4] 通過視覺分析和統計分析證明,伯特的注意力中捕捉到了大量的句法信息。Kovaleva等人[10]總結了5種常見的注意力模式,分別稱為垂直、對角線、垂直+對角線、塊和異質。Voita等人。【36】使用層相關傳播確定每個編碼器層中最重要的頭,然后嘗試描述它們所扮演的角色。Wang等人。
 ????【38】介紹DODRIO,這是一種開源交互式可視化工具,幫助研究人員和從業者分析注意力機制,以滿足自我注意力可視化的需要。
5.2自注意修正
????這一研究路線修改了注意力公式,使注意力權重對局部地區產生了bias[7、43、45]。例如,Wu et al.(40)和Yang et al.(44)使用卷積模在某些部分取代自我關注,使網絡的計算效率更高。Raganato等人【27】設計了七種預定義的模式,每種模式都可以代替注意力頭來訓練神經機器翻譯模型,而無需學習它們。
 ????這種方法的優點是可以在不損失翻譯質量的情況下減少參數占用。Qi等人[25]同時考慮方向mask、單詞距離mask和依賴距離mask,并將它們添加到注意力計算中,以獲得結構先驗。類似地,Li等人【17】將每個token映射到樹節點,并計算任意兩個節點的距離,然后將距離添加到注意力計算中。Xia等人。
 ????[42]將單詞相似度知識注入到注意力計算中,使BERT模型意識到單詞對的相似度。
5.3自關注引導
????與上述兩條研究路線不同,我們的工作屬于自我注意力引導,它在不引入任何新參數或修改注意力計算公式的情況下引導自我注意力的學習。Deshpande和Narasimhan的作品屬于這一類。在他們的工作中,基于對注意力的分析,預先定義了五種固定模式,在此基礎上添加了一個規則化項,以迫使注意力在PLMs的訓練階段接近預先定義的注意力模式。與我們的工作相比,至少有兩個不同之處。首先,我們不需要預先定義注意力模式。相反,注意力是通過MDG和PDG部分自適應引導的。其次,我們不需要從頭開始訓練PLM。我們的注意力引導方法在PLM s的微調階段起作用。我們在表2中與Deshpande和Narasimhan[5]的工作進行了比較,展示了2017年7月17日在華盛頓特區舉行的會議,Wang等人。
 ????我們的方法在不引入新知識或事先預先定義注意力模式的情況下獲得了相當或更好的性能。
6結論和未來工作
????在這項工作中,我們提出了兩種注意力引導方法,即注意力圖辨別引導(MDG)和注意力模式去相關引導(PDG),通過鼓勵學習到的注意從輸入中獲得更多信息并變得更加多樣化來提高PLM的性能。
 ????七個PLM在三個數據集上的實驗結果驗證了我們提出的方法的有效性。特別是,我們發現,所提出的注意力引導機制適用于小數據集和大數據集,這很有吸引力,因為構建大型標記數據集既耗時又費力。
 ????至于未來的工作,我們計劃探索如何結合更多特定領域的知識來指導低資源領域的自我注意學習,例如醫學領域中疾病、藥物和癥狀的關系。
再現性
????這項工作使用公開可用的數據。為了便于報告結果的可復制性,我們在https://anonymous上發布了代碼。4打開。科學/r/AttentionGuide-F6C0。
參考文獻
[1] Emily Alsentzer, John R. Murphy, Willie Boag, Wei-Hung Weng, Di Jin, Tristan Naumann, and Matthew B. A. McDermott. 2019. Publicly Available Clinical BERT Embeddings. CoRR abs/1904.03323 (2019).
[2] Iz Beltagy, Kyle Lo, and Arman Cohan. 2019. SciBERT: A Pretrained Language Model for Scientific Text. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, EMNLP-IJCNLP . 3613–3618.
[3] Monojit Choudhury and Amit Deshpande. 2021. How Linguistically Fair Are Multilingual Pre-Trained Language Models?. In Thirty-Fifth AAAI Conference on Artificial Intelligence, AAAI . 12710–12718.
[4] Kevin Clark, Urvashi Khandelwal, Omer Levy, and Christopher D. Manning. 2019. What Does BERT Look at? An Analysis of BERT’s Attention. In Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, BlackboxNLP@ACL . 276–286.
[5] Ameet Deshpande and Karthik Narasimhan. 2020. Guiding Attention for Self- Supervised Learning with Transformers. In Findings of the Association for Com- putational Linguistics, EMNLP . 4676–4686.
[6] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT . 4171– 4186.
[7] José A. R. Fonollosa, Noe Casas, and Marta R. Costa-jussà. 2019. Joint Source- Target Self Attention with Locality Constraints. CoRR abs/1905.06596 (2019). [8] Geoffrey E. Hinton, Oriol Vinyals, and Jeffrey Dean. 2015. Distilling the knowledge in a Neural Network. CoRR abs/1503.02531 (2015).
[9] Ian T Jolliffe and Jorge Cadima. 2016. Principal component analysis: A review and recent developments. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences 374, 2065 (2016), 20150202.
[10] Olga Kovaleva, Alexey Romanov, Anna Rogers, and Anna Rumshisky. 2019. Revealing the Dark Secrets of BERT. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, EMNLP-IJCNLP . 4364–4373.
[11] Huiyuan Lai, Antonio Toral, and Malvina Nissim. 2021. Thank you BART! Rewarding Pre-Trained Models Improves Formality Style Transfer. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, ACL/IJCNLP . 484–494.
[12] Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. 2020. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. In 8th International Conference on learning Representations, ICLR
????.
[13] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, and Jaewoo Kang. 2020. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinform. 36, 4 (2020), 1234–1240.
[14] Jian Li, Zhaopeng Tu, Baosong Yang, Michael R. Lyu, and Tong Zhang. 2018. Multi-Head Attention with Disagreement Regularization. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, EMNLP . 2897–2903.
[15] Yunfan Li, Peng Hu, Jerry Zitao Liu, Dezhong Peng, Joey Tianyi Zhou, and Xi Peng. 2021. Contrastive Clustering. In Thirty-Fifth AAAI Conference on Artificial Intelligence, AAAI . 8547–8555.
[16] Zhongli Li, Qingyu Zhou, Chao Li, Ke Xu, and Yunbo Cao. 2020. Improving BERT with syntax-aware local attention. arXiv preprint arXiv:2012.15150 (2020).
[17] Zhongli Li, Qingyu Zhou, Chao Li, Ke Xu, and Yunbo Cao. 2021. Improving BERT with Syntax-aware Local Attention. In Findings of the Association for Computational Linguistics, ACL/IJCNLP . 645–653.
[18] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. RoBERTa: A Robustly Optimized BERT Pretraining Approach. CoRR abs/1907.11692 (2019).
[19] Tomasz Malisiewicz, Abhinav Gupta, and Alexei A. Efros. 2011. Ensemble of exemplar-SVMs for object detection and beyond. In IEEE International Conference on Computer Vision, ICCV . IEEE Computer Society, 89–96.
[20] Paul Michel, Omer Levy, and Graham Neubig. 2019. Are Sixteen Heads Really Better than One?. In Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems . 14014–14024.
[21] Elias Moons, Aditya Khanna, Abbas Akkasi, and Marie-Francine Moens. 2020. A comparison of deep learning methods for ICD coding of clinical records. Applied Sciences 10, 15 (2020), 5262.
[22] Myle Ott, Sergey Edunov, David Grangier, and Michael Auli. 2018. Scaling Neural Machine Translation. In Proceedings of the Third Conference on Machine Translation: Research Papers, WMT . 1–9.
[23] Geondo Park, Chihye Han, Daeshik Kim, and Wonjun Yoon. 2020. MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding. In IEEE Winter Conference on Applications of Computer Vision, . IEEE, 1507–1515.
[24] Yifan Peng, Shankai Yan, and Zhiyong Lu. 2019. Transfer Learning in Biomedical Natural Language Processing: An Evaluation of BERT and ELMo on Ten Bench- marking Datasets. In Proceedings of the 18th BioNLP Workshop and Shared Task, BioNLP@ACL . 58–65.
[25] Le Qi, Yu Zhang, Qingyu Yin, and Ting Liu. 2020. Multiple Structural Pri- ors Guided Self Attention Network for Language Understanding. CoRR abs/2012.14642 (2020).
[26] Yifan Qiao, Chenyan Xiong, Zhenghao Liu, and Zhiyuan Liu. 2019. Understanding the Behaviors of BERT in Ranking. CoRR abs/1904.07531 (2019). [27] Alessandro Raganato, Yves Scherrer, and J?rg Tiedemann. 2020. Fixed Encoder Self-Attention Patterns in Transformer-Based Machine Translation. In Findings of the Association for Computational Linguistics, EMNLP . 556–568.
[28] Alessandro Raganato, J?rg Tiedemann, et al. 2018. An analysis of encoder representations in transformer-based machine translation. In Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, BlackboxNLP@EMNLP .
[29] Nils Reimers and Iryna Gurevych. 2019. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, EMNLP-IJCNLP . 3980–3990.
[30] Alexey Romanov and Chaitanya Shivade. 2018. Lessons from natural language inference in the clinical domain. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, EMNLP . 1586–1596.
[31] Chi Sun, Xipeng Qiu, Yige Xu, and Xuanjing Huang. 2019. How to Fine-Tune BERT for Text Classification?. In Chinese Computational Linguistics - 18th China National Conference, CCL , Vol. 11856. 194–206.
[32] Yaling Tao, Kentaro Takagi, and Kouta Nakata. 2021. Clustering-friendly representation Learning via Instance Discrimination and Feature Decorrelation. In 9th International Conference on Learning Representations, ICLR 2021 .
[33] Ehsan Tavan, Ali Rahmati, Maryam Najafi, Saeed Bibak, and Zahed Rahmati. 2021. BERT-DRE: BERT with Deep Recursive Encoder for Natural Language Sentence Matching. CoRR abs/2111.02188 (2021).
[34] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All you Need. In Advances in Neural Information Processing Systems 30: Annual conference on Neural Information Processing Systems . 5998–6008.
[35] Jesse Vig and Yonatan Belinkov. 2019. Analyzing the structure of attention in a transformer language model. In Proceedings of the 2019 ACL Workshop Black- boxNLP: Analyzing and Interpreting Neural Networks for NLP, BlackboxNLP@ACL . 63–76.
[36] Elena Voita, David Talbot, Fedor Moiseev, Rico Sennrich, and Ivan Titov. 2019. Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned. In Proceedings of the 57th Conference of the Association for Computational Linguistics, ACL . 5797–5808.
[37] Wenhui Wang, Hangbo Bao, Shaohan Huang, Li Dong, and Furu Wei. 2021. MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pre- trained Transformers. In Findings of the Association for Computational Linguistics, ACL/IJCNLP (Findings of ACL, Vol. ACL/IJCNLP 2021) . 2140–2151.
[38] Zijie J. Wang, Robert Turko, and Duen Horng Chau. 2021. Dodrio: Exploring Transformer Models with Interactive Visualization. CoRR abs/2103.14625 (2021).
[39] Adina Williams, Nikita Nangia, and Samuel R. Bowman. 2018. A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Com- putational Linguistics: Human Language Technologies, NAACL-HLT . 1112–1122.
[40] Felix Wu, Angela Fan, Alexei Baevski, Yann N. Dauphin, and Michael Auli. 2019. Pay Less Attention with Lightweight and Dynamic Convolutions. In 7th international Conference on Learning Representations, ICLR .
[41] Zhirong Wu, Yuanjun Xiong, Stella X. Yu, and Dahua Lin. 2018. Unsupervised Feature Learning via Non-Parametric Instance Discrimination. In 2018 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2018 . 3733–3742.
[42] Tingyu Xia, Yue Wang, Yuan Tian, and Yi Chang. 2021. Using Prior Knowledge to Guide BERT’s Attention in Semantic Textual Matching Tasks. In WWW ’21: The Web Conference 2021 . 2466–2475.
[43] Mingzhou Xu, Derek F. Wong, Baosong Yang, Yue Zhang, and Lidia S. Chao. 2019. Leveraging Local and Global Patterns for Self-Attention Networks. In Proceedings of the 57th Conference of the Association for Computational Linguistics, ACL . 3069–3075.
[44] Baosong Yang, Longyue Wang, Derek F. Wong, Lidia S. Chao, and Zhaopeng Tu. 2019. Convolutional Self-Attention Networks. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,NAACL-HLT . 4040–4045.
[45] Shan Yang, Heng Lu, Shiyin Kang, Liumeng Xue, Jinba Xiao, Dan Su, Lei Xie, and Dong Yu. 2020. On the localness modeling for the self-attention based end-to-end speech synthesis. Neural Networks 125 (2020), 121–130.
[46] Andrew Yates, Rodrigo Nogueira, and Jimmy Lin. 2021. Pretrained Transformers for Text Ranking: BERT and Beyond. In SIGIR ’21: The 44th International ACM Conference on Research and Development in Information Retrieval, SIGIR . 2666– 2668.
[47] Shi-Fang Yuan, Yi-Bin Yu, Ming-Zhao Li, and Hua Jiang. 2020. A direct method to Frobenius norm-based matrix regression. Int. J. Comput. Math. 97, 9 (2020), 1767–1780.
[48] Jure Zbontar, Li Jing, Ishan Misra, Yann LeCun, and Stéphane Deny. 2021. Barlow Twins: Self-Supervised Learning via Redundancy Reduction. In Proceedings of the 38th International Conference on Machine Learning, ICML , Vol. 139. 12310–12320.
[49] Chaoyuan Zuo, Narayan Acharya, and Ritwik Banerjee. 2020. Querying across genres for medical claims in news. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, EMNLP . 1783–1789.
總結
以上是生活随笔為你收集整理的Paying More Attention to Self-attention: Improving Pre-trained Language Models via Attention Guiding的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: AUTOCAD——计算面积的方法
 - 下一篇: 如何把图片整合到war3的mpq文件中作