万字长文带你一览ICLR2020最新Transformers进展(上)
原文鏈接:http://gsarti.com/post/iclr2020-transformers/
作者:Gabriele Sarti
編譯:樸素人工智能
Transformer體系結構最初是在Attention is All You Need[1]中提出的,它是順序語言建模方法(如LSTM[2])的有效替代方法,此后在自然語言處理領域變得無處不在,從而推動了大多數下游語言的發展相關任務。
今年的國際學習表示法會議(ICLR[3])中有許多文章對原始的Transformer及其最新的BERT[4]和Transformer-XL[5]進行了改進。這些改進措施解決了Transformer眾所周知的弱點:
優化自我注意力計算。
在模型架構中注入出于語言動機的歸納偏差。
使模型更具參數和數據效率。
這篇文章希望總結并提供這些貢獻的高層概述,重點介紹更好和更快的自然語言處理模型的當前趨勢。所有圖像版權歸其各自的論文作者。
1. Self-atention的變體
可縮放的點積自注意力是標準Transformer層中的主要組件之一,無論依賴關系在輸入中的距離如何,都可以對其進行建模。自注意力機制大家都已經很熟悉,其公式為:
進一步,多頭自注意力機制的公式為:
本節介紹了自我注意組件的一些變體,使其在上下文處理中更加有效。
Long-Short Range Attention
Introduced in: Lite Transformer with Long-Short Range Attention[6] by Wu, Liu et al.
通過將輸入沿通道尺寸分成兩部分并將每個部分輸入兩個模塊,Long-Short Range Attention (LSRA) 可使計算效率更高。兩個模塊分別是使用標準自注意的全局提取器和使用輕量級深度卷積的局部提取器。作者指出這種方法可以減少一半模型的整體計算,使其適合于移動端。
Tree-Structured Attention with Subtree Masking
Introduced in: Tree-Structured Attention with Hierarchical Accumulation[7] by Nguyen et al.
標準Transformer的一個缺點是缺少歸納偏差來解釋語言的層次結構。這部分是由于通常通過遞歸或遞歸機制建模的樹狀結構,難以保持恒定的自我注意時間復雜性。
本文所提出的解決方案是利用輸入文本的句法分析來構建隱藏狀態樹,并使用分層累加將非葉子節點的值用子節點聚合來表示。最終的輸出表示通過分支級表示的加權聚合來構建。
本文另一個有趣的想法是通過限制每個節點查詢僅關注其子樹,使用子樹遮罩來過濾掉多余的噪聲。這種歸納偏差的引入方式會增加計算和存儲成本,文章使用參數共享來減輕這種成本。
Hashed Attention
Introduced in: Reformer: The Efficient Transformer[8] by Kitaev et al.
由于self-attention的時間復雜度與序列長度的平方成正比,給建模長序列帶來了困難。Reformer提出將每個查詢所涉及的候選者池限制為通過本地敏感哈希(LSH)找到的一小部分鄰居。由于LSH分桶采用隨機投影的方法,因此類似的向量有時可能會落在不同的鄰域中。文中使用多輪并行哈希處理來緩解此問題。使用LSH注意可以將自我注意操作的計算成本降低到,允許模型在更長的序列上運行。
關于LSH可以參考我們之前的文章REALM后續:最近鄰搜索,MIPS,LSH和ALSH。
eXtra Hop Attention
Introduced in: Transformer-XH: Multi-Evidence Reasoning with eXtra Hop Attention[9] by Zhao et al.
盡管對Transformer可以在單個序列或序列對上進行操作獲得很好結果,但它們卻很難推廣到證據分散在多段文本中的情況,例如頗具挑戰性的多跳問答任務。
Transformer-XH引入了一種新的注意力變體eXtra Hop Attention,可以將其應用于由邊(例如,超鏈接)連接的文本序列圖。這種新的注意力機制將每個序列開頭的特殊標記[CLS]用作關注中心(attention hub),該中心attend到圖中的其他相連接的序列。然后將所得表示通過線性投影的標準自注意力機制進行組合。模型展示出對需要對圖進行推理任務的顯著改進,但新的注意力機制引入了額外的計算代價。
2. 訓練目標
Transformer模型的預訓練通常是通過多個不受監督的目標來實現的,并利用了大量的非注釋文本。用于此目的的最常見任務是自回歸語言建模(也稱為標準語言建模,LM)和對掩碼輸入的自動編碼(通常稱為掩碼語言建模,MLM)。
標準的Transformer實現及其GPT變體采用自回歸方法,利用序列內部的單向上下文(正向或反向)估計下一個token的概率分布:
類似BERT的方法使用雙向上下文來恢復輸入被特殊[MASK] token替代的一小部分。事實證明,此變體對下游自然語言理解任務特別有效。
除了單詞級建模之外,由于許多重要的語言應用程序都需要理解兩個序列之間的關系,因此通常在訓練過程中添加諸如下一個句子預測(NSP)之類的句子級分類任務。關于BERT,可以參考我們之前的文章[預訓練語言模型專題] BERT,開啟NLP新時代的王者。
盡管這些任務可以獲得有意義的token和句子層表示,但本節將介紹一些更好的替代方法,這些方法可以使學習更加有效。
Discriminative Replacement Task
Introduced in: ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators[10] by Clark et al.
在類似BERT的模型中使用的掩蔽策略在數據上效率很低,僅使用約15%的輸入文本來完成MLM任務。但是,由于過多的masked token可能會使整體上下文信息損失嚴重,因此很難增加屏蔽數據的百分比。
ELECTRA提出了一種簡單而有效的方法來應對這種效率低下的問題。像普通的MLM一樣,訓練一個小的屏蔽語言模型,然后將其用作生成器,用其填充輸入中被屏蔽的token。但是,主模型的新任務將是一個分類任務:除了預測掩蓋的token之外,該模型還必須檢測生成器替換了哪些token。這允許利用整個輸入序列進行訓練。正如作者所提到的,在相同的計算預算下,這種方法始終優于MLM預訓練。
關于Electra,可以參考我們之前的文章性能媲美BERT卻只有其1/10參數量??| 近期最火模型ELECTRA解析。
Word and Sentence Structural Tasks
Introduced in: StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding[11] by Wang et al.
如前所述,Transformers并未明確考慮輸入中存在的語言結構。雖然樹狀結構的注意力在模型體系結構中注入了很多的結構信息,但StructBERT采用了兩種更輕便但有效的方法,使生成的表示形式更了解語言的基本順序。
第一個是單詞結構目標(word structural objective),即輸入的三字組(trigram)被隨機打亂,模型必須重新構造其原始順序。這是與常規MLM并行完成的。句子結構目標(sentence structural objective) 是ERNIE 2.0中句子重排任務和ALBERT中SOP任務的輕量級變體:給定一對句子對(S1, S2)作為輸入,我們要求模型區分S1是在S2之前、之后或與之無關。這項新任務擴展了標準的NSP任務,NSP對于學習有意義的句子關系來說太容易了。這些改進帶來了自然語言理解能力的提升。
Type-Constrained Entity Replacement
Introduced in: Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model[12] by Xiong et al.
盡管很多研究已經顯示,經過預訓練的Transformer模型隱式地捕獲了現實世界的知識,但是它們的標準訓練目標并未明確考慮到在現實世界中進行可靠推理所需的以實體為中心的信息。
帶類型約束的實體替換(Type-constrained entity replacement) 是一種弱監督的方法,文本中的實體隨機地被具有相同實體類型的其他來自Wikidata的實體替換。然后,該模型使用類似于ELECTRA的判別目標來確定實體是否被替換。這是在多任務設置中與MLM一起完成的,并且作者報告說,由于更深入地了解實體,該模型在例如開放域QA和實體類型預測等問題中有顯著的提升。
萬字長文實在是太長了,今天又是周末,所以我們決定分兩天放送。明天將介紹Embedding和模型結構兩方面的內容,不見不散哦~
參考資料
[1]
Attention is All You Need: https://arxiv.org/abs/1706.03762
[2]LSTM: https://www.researchgate.net/publication/13853244_Long_Short-term_Memory
[3]ICLR官網: https://iclr.cc/
[4]BERT: https://www.aclweb.org/anthology/N19-1423/
[5]Transformer-XL: https://www.aclweb.org/anthology/P19-1285/
[6]Lite Transformer with Long-Short Range Attention: https://iclr.cc/virtual_2020/poster_ByeMPlHKPH.html
[7]Tree-Structured Attention with Hierarchical Accumulation: https://iclr.cc/virtual_2020/poster_HJxK5pEYvr.html
[8]Reformer: The Efficient Transformer: https://iclr.cc/virtual_2020/poster_rkgNKkHtvB.html
[9]Transformer-XH: Multi-Evidence Reasoning with eXtra Hop Attention: https://iclr.cc/virtual_2020/poster_r1eIiCNYwS.html
[10]ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators: https://iclr.cc/virtual_2020/poster_r1xMH1BtvB.html
[11]StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding: https://iclr.cc/virtual_2020/poster_BJgQ4lSFPH.html
[12]Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model: https://iclr.cc/virtual_2020/poster_BJlzm64tDH.html
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯AI基礎下載(pdf更新到25集)機器學習的數學基礎專輯本站qq群1003271085,加入微信群請回復“加群”獲取一折本站知識星球優惠券,復制鏈接直接打開:https://t.zsxq.com/yFQV7am喜歡文章,點個在看總結
以上是生活随笔為你收集整理的万字长文带你一览ICLR2020最新Transformers进展(上)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 导师眼中让人崩溃的学生是什么样子的?
- 下一篇: 万字长文带你一览ICLR2020最新Tr