刷完EMNLP 2021论文列表,我们挑出了这8篇预训练相关必读论文
?作者?|?王馨月
單位?|?四川大學本科生
研究方向?|?自然語言處理
VG-GPLMs
論文標題:
Vision Guided Generative Pre-trained Language Models for Multimodal Abstractive Summarization
論文鏈接:
https://arxiv.org/abs/2109.02401
項目地址:
https://github.com/HLTCHKUST/VG-GPLMs
多模態抽象摘要(Multimodal abstractive summarization, MAS)是將視頻(視覺模態)及其相應轉錄本(文本模態)進行總結的模型,能夠從互聯網上的海量多模態數據中提取基本信息(下圖是 MAS 任務的一個例子)。近年來盛行的大規模生成預訓練語言模型(GPLMs)在文本生成任務中十分有效,這篇文章的作者嘗試將在 MAS 中利用 GPLMs 的強大能力。
作者提出了一種基于注意力的附加層來合并視覺信息,同時保持其原始文本生成能力,來構建用于 MAS 任務的視覺引導(vision guided, VG)GPLMs。實驗結果在 How2 數據集上顯著超過了現有技術模型,對于整體改進的貢獻率為 83.6%。
上圖展示了論文提出的 VG GPLMs 的模型,模型基于 Trasformer 進行構建,并加入了 add-on 子層來平衡兩種基于注意力的文本-視覺融合機制:跨模態向量點積注意力和跨模態多頭注意力。
作者還進行了十分詳細的消融研究以分析各種模態融合方法和融合位置的有效性。
PermuteFormer
論文標題:
PermuteFormer: Efficient Relative Position Encoding for Long Sequences
論文鏈接:
https://arxiv.org/abs/2109.02377
項目地址:
https://github.com/cpcp1998/PermuteFormer
最近的 Transformer 變體 Performer 使用線性注意力機制將 Transformer 擴展到更長的序列。但是,這種方法與相對位置編碼不兼容,而相對位置編碼比絕對位置編碼具有優勢。在這篇論文中,作者討論了向 Performer 添加相對位置編碼的可能方法,提出了 PermuteFormer。
PermuteFormer 是一種基于 Performer 的模型,具有相對位置編碼,可在長序列上線性縮放。PermuteFormer 對查詢和鍵應用相關位置變換,將位置信息編碼到注意力模塊中。經過設計后,self-attention 的最終輸出不受 token 絕對位置的影響。論文作者在長序列數據集 Long-Range Arena 以及語言建模數據集 WikiText-103 上評估 PermuteFormer。
實驗表明,PermuteFormer 在幾乎沒有計算開銷的情況下一致地提高了 Performer 的性能,并且在大多數任務上都優于 vanilla Transformer。
Light Transformer
論文標題:
Frustratingly Simple Pretraining Alternatives to Masked Language Modeling
論文鏈接:
https://arxiv.org/abs/2109.01819
項目地址:
https://github.com/gucci-j/light-transformer-emnlp2021
掩碼語言建模(MLM)訓練模型來預測輸入標記的隨機樣本,這些樣本在整個詞匯表的多類設置中被 [MASK] 占位符替換。在預訓練時,通常在標記或序列級別上與 MLM 一起使用其他輔助目標,以提高下游性能。然而,到目前為止,之前的工作還沒有嘗試檢查其他更簡單的語言直觀目標是否可以單獨用作主要的預訓練目標。
在這篇論文中,作者探索了基于 token 級分類任務作為 MLM 替代品的五個簡單的預訓練目標。GLUE 和 SQuAD 的實證結果表明,作者提出的方法使用 BERT-BASE 架構實現了與 MLM 相當或更好的性能。
上圖是論文提出的五個簡單的預訓練任務和 MLM。分別為:打亂、隨機、打亂+隨機、token 類型、第一個字符。
上圖顯示了實驗結果。
Transformer Generalization
論文標題:
The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers
論文鏈接:
https://arxiv.org/abs/2108.12284
項目地址:
https://github.com/robertcsordas/transformer_generalization
這篇論文的作者提出了幾個提高 transformer 系統泛化性的技巧,分別為:
使用相對位置嵌入解決 EOS 決策問題:實驗表明,如果模型在沒有 [EOS] token 作為輸出詞匯表的一部分的情況下進行訓練,性能將進一步提高。得出的結論是,教導模型何時結束序列對模型的長度泛化能力有不良副作用。
謹慎選擇模型:實驗結果表明,在某些情況下,提前停止選擇的模型甚至達不到最終泛化準確率的一半。大多數數據集都沒有用于泛化的驗證集 ? ? ? ?拆分。即使驗證集可用于泛化拆分,使用準確率而不是損失來進行提前停止和超參數調整也至關重要。
Embedding 方案的重大影響:對于具有絕對位置嵌入的 Transformer ,單詞和位置嵌入必須結合在一起。
Prompt Tuning
論文標題:
The Power of Scale for Parameter-Efficient Prompt Tuning
論文鏈接:
https://arxiv.org/abs/2104.08691
在這篇論文中,作者探索了 “prompt tuning” 用于學習“soft prompt”以調節凍結語言模型(FPT)以執行特定的下游任務。通過使用 T5 對模型大小的消融,作者表明 prompt tuning 在規模上更具競爭力:當模型超過數十億個參數時,論文提出的方法“縮小了差距”并匹配了模型調整的強大性能。
這一發現尤其重要,因為共享和服務大型模型的成本很高,而將一個凍結模型重用于多個下游任務的能力可以減輕這一負擔。與完整模型調優相比,使用 soft prompt 調節凍結模型可以提高跨領域遷移的魯棒性。
如圖所示是傳統模型 tuning 和 Prompt tuning 的對比。
論文作者提出的訓練過程為:凍結了整個預訓練模型,只允許每個下游任務額外的 k 個可調標記被添加到輸入文本中。這種“soft prompt”經過端到端訓練,可以壓縮來自完整標記數據集的信號。
CodeT5
論文標題:
CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation
論文鏈接:
https://arxiv.org/abs/2109.00859
項目地址:
https://github.com/salesforce/CodeT5
BERT 和 GPT 等自然語言(NL)的預訓練模型最近已被證明可以很好地轉移到編程語言(PL)上,并在很大程度上受益于一系列與代碼相關的任務。盡管取得了成功,但大多數當前的方法要么依賴于僅編碼器(或僅解碼器)的預訓練,這對于生成(或理解)任務來說是次優的,要么以與 NL 相同的方式處理代碼片段,而忽略了 PL 的特性,例如 token 類型。
這篇論文中作者提出了 CodeT5,這是一個統一的預訓練 encoder-decoder Transformer 模型,它可以更好地利用從開發人員分配的標識符傳達的代碼語義。模型采用統一的框架來無縫支持代碼理解和生成任務,并允許多任務學習。此外,論文還提出了一種新穎的標識符感知預訓練任務,使模型能夠區分哪些代碼 token 是標識符,并在它們被 mask 時恢復它們。
此外,論文還利用用戶編寫的代碼注釋和雙峰雙生成任務進行更好的 NL-PL 對齊。實驗表明,CodeT5 在理解代碼缺陷檢測和克隆檢測等任務以及包括 PL-NL、NL-PL 和 PL-PL 在內的各個方向的生成任務方面明顯優于先前的方法。
如圖是 CodeT5 的預訓練任務。
如圖是 CodeT5 進行代碼翻譯任務的實例。
Thermostat
論文標題:
Thermostat: A Large Collection of NLP Model Explanations and Analysis Tools
論文鏈接:
https://arxiv.org/abs/2108.13961
項目地址:
https://github.com/DFKI-NLP/thermostat
為了促進語言領域的神經可解釋性研究,論文作者展示了 Thermostat,其中包含大量模型解釋和隨附的分析工具。Thermostat 允許輕松訪問超過 200k 解釋,用于跨不同 NLP 任務的突出的最先進模型的決策,由多個解釋器生成。隨附的軟件工具允許逐個分析解釋,也可以在語料庫級別上進行累積分析。
用戶可以調查和比較模型、數據集和解釋器,而無需編排實現細節。Thermostat 是完全開源的,使語言領域的可解釋性研究民主化,避免了冗余計算并增加了可比性和可復制性。
如圖是 Thermostat 的下載使用以及加載數據集和顯示 token 熱力圖的實例。
T3-Vis
論文標題:
T3-Vis: a visual analytic framework for Training and fine-Tuning Transformers in NLP
論文鏈接:
https://arxiv.org/abs/2108.13587
這篇論文作者提出了一個對于 transformer 的可視化框架,允許用戶通過交互式可視化探索模型的不同方面(例如,隱藏狀態、注意力),并允許使用一套內置算法來計算模型組件和輸入序列不同部分的重要性。
如圖是框架的使用界面,對于一個輸入序列,包含數據集、數據表、注意力頭重要性可視實例分析。
1
·
·
·
總結
以上是生活随笔為你收集整理的刷完EMNLP 2021论文列表,我们挑出了这8篇预训练相关必读论文的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: u盘上不显示文件怎么回事 U盘文件不见怎
- 下一篇: 隐藏的东西如何恢复不了怎么办 恢复不了的