當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

复旦大学邱锡鹏教授：NLP预训练模型综述

發布時間：2024/10/8 编程问答 57 豆豆

生活随笔收集整理的這篇文章主要介紹了复旦大学邱锡鹏教授：NLP预训练模型综述小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者｜王馨月

學校｜四川大學本科生

研究方向｜自然語言處理

引言

隨深度學習的發展，多種神經網絡都被應用在 NLP 任務中，比如 CNN、RNN、GNN 和 attention 機制等，但由于現有的數據集對于大部分有監督 NLP 任務來說都很小，因此，早期的模型對 NLP 任務來說都很“淺”，往往只包含 1-3 層。

而預訓練模型（Pre-trained Models, PTMs）的出現將NLP帶入一個新的時代，更“深”的模型和訓練技巧的增強也使得 PTMs 由“淺”變“深”，在多項任務都達到了 SOTA 性能。

近日，復旦大學的邱錫鵬老師等人發布了預訓練模型綜述 Pre-trained Models for Natural Language Processing: A Survey，從背景、分類到應用與前景對 PTMs 做了詳細而全面的調研。

論文標題：Pre-trained Models for Natural Language Processing: A Survey

論文鏈接： https://arxiv.org/abs/2003.08271

背景

2.1 語言表示學習

對于語言來說，一個好的表示應當描繪語言的內在規則比如詞語含義、句法結構、語義角色甚至語用。

而分布式表示的核心思想就是通過低維實值向量來描述一段文本的意義，而向量的每一個維度都沒有對于意義，整體則代表一個具體的概念。圖 1 是 NLP 的通用神經體系架構。

有兩種 embedding（詞嵌入）方式：上下文嵌入和非上下文嵌入，兩者的區別在于詞的 embedding 是否根據詞出現的上下文動態地改變。

非上下文嵌入：表示語言的第一步就是將分離的語言符號映射到分布式嵌入空間中。也就是對于詞匯表中的每個單詞（詞根），通過 lookup table 映射到一個向量。

這種嵌入方式有兩個局限：一是一個詞通過這種方法獲得的詞嵌入總是靜態且與上下文無關的，無法處理多義詞；二是難以解決不在詞匯表中的詞（針對這個問題，很多 NLP 任務提出了字符級或詞根級的詞表示，如 CharCNN、FastText、Byte-Pair Encoding (BPE)）。

上下文嵌入：為解決多義性和上下文相關的問題，將詞在不同上下文的語義做區分。通過對詞（詞根）的 token 加一層 Neural Contextual Encoder（神經上下文編碼器）得到詞的上下文嵌入。

2.2 神經上下文編碼器

如圖 2 中所示，大部分的神經上下文編碼器都可以被分為三類：卷積模型、序列模型、基于圖的模型。

卷積模型：卷積模型通過卷積操作將輸入句子中的 embeddings 與其相鄰的局部信息集成。

序列模型：序列模型通常使用 RNN（如 LSTM 和 GRU）來描述詞的上下文表示。實踐中，雙向 RNN 常用于收集詞的兩邊信息，但表現往往會受到長程依賴問題的影響。

基于圖的模型：基于圖的模型將詞視做節點，通過預先定義的語言結構（如句法結構和語義聯系）來學習上下文表示。但如何構造一個好的圖結構往往嚴重依賴于專家知識和外部 NLP 工具，如依存分析器。

實際操作中往往直接通過一個全連接圖來建模并讓模型自己學習結構（一般通過自注意力機制）。一個典型的成功運用就是 Transformer。

分析：卷積模型和序列模型都很難解決詞之間的長程依賴問題，而 Transformer 雖然能更好地描述詞之間的深層聯系，卻往往需要非常大的語料來訓練，且容易在中等規模的數據集上過擬合。

2.3 為什么要預訓練？

正如上文提到的，模型參數的數量增長迅速，而為了訓練這些參數，就需要更大的數據集來避免過擬合，而大規模的標注數據集成本又非常高。而相比之下，大規模未標注的語料卻很容易構建。

為了利用大量的未標注文本數據，我們可以先從其中學習一個好的表示，再將這些表示用在別的任務中。這一通過 PTMs 從未標注大規模數據集中提取表示的預訓練過程在很多 NLP 任務中都取得了很好的表現。

預訓練的優點可以總結為以下三點：1 在大規模語料上通過預訓練學習通用語言表示對下游任務很有幫助；2) 預訓練提供了更好的模型初始化參數，使得在目標任務上有更好的泛化性能和更快的收斂速度；3) 預訓練是一種有效的正則化方法，能夠避免在小數據集上過擬合。

PTMs概述

PTMs 的主要區別在于上下文編碼器的使用、預訓練任務和目標。上下文編碼器已在 2.2 中做了敘述，接下來對預訓練任務進行分析，并提出一種 PTMs 分類方法。

如圖 3，這一部分內容作者在文中有一張非常詳細的分類圖可供參考。

表 1 從多個角度區分了文中提到的一些 PTMs。

3.1 預訓練任務

PTMs 按照預訓練任務類型可以被分為兩類：有監督學習、無監督學習/自監督學習。

有監督學習的預訓練任務主要有機器翻譯 (MT)，典型的模型是 CoVe。而下文進一步根據實現思路將自監督/無監督任務分為兩類，一是基于上下文的 (LM, DAE, PLM)，二是基于對比的 (CTL)。

3.1.1 語言模型 (LM)

作為 NLP 中最常見的無監督任務，LM 一般指自回歸 LM (auto-regressive LM) 或者單向 LM (unidirectional LM)。具體訓練過程是基于一個大的語料，通過最大似然估計 (MLE) 訓練計算一個句子出現的概率。

然而單向 LM 的缺點則是只能編碼一個詞左側的文本和其自身，而更好的上下文應該編碼左右兩側的文本。針對這一缺點，解決方案是雙向 LM (BiLM)，即一個從左到右和一個從右到左的模型的組合。

3.1.2 去噪聲自編碼器 (Denoising Autoencoder, DAE)

這里將原文中 Masked Language Modeling (MLM) 與 DAE 合并為一個部分，因為一般將 BERT 中提出的 MLM 看作是基于 DAE 的思路實現的。

DAE 的目的是通過向輸入文本中添加噪聲，利用含噪聲的樣本去重構不含噪聲的輸入。主要有五個實現方式：擋住 (MASK) token、刪除 token、填充 token、句子排列、文本輪換。

MLM 隨機選出一些詞用 [MASK] 標記，然后去預測被 MASK 的詞。但由于被 MASK 的詞并不出現在 fine-tuning 的過程中，會導致預訓練和微調的過程出現不一致性。針對這種情況，BERT 通過 80% [MASK]，10% 隨機 token,10% 原 token 的方式來進行 mask。

而 MLM 的一種變體，Seq2SeqMLM，則是通過將 encoder-decoder (Seq2Seq) 應用到 MLM 上，這種變體有利于 Seq2Seq 類型的下游任務，比如 QA，總結和機器翻譯。這一結構主要用在 MASS 和 T5 中。

而在 BERT 之后的很多論文都對 MLM 做了一些改進以增強性能，作者將其總結為 E-MLM (Enhanced Masked Language Modeling)。

其中 RoBERTa 使用動態 masking，UniLM 將對 mask 的預測擴展到三種任務：單向、雙向和 Seq2Seq。XLM 通過一種串聯并行雙語句對叫做 TLM (translation language modeling) 的模型實現 MLM。

而 SpanBERT 和 StructBERT 則是引入了結構化信息。而 ERINE (Baidu) 則是選擇 MASK 實體和短語，E-BERT 和 ERINE (THU) 則是利用了實體 embedding 方法，這三者都是借助了外部知識來豐富 MLM。

3.1.3 排列語言模型（PLM）

針對 MLM 中使用 MASK 導致的預訓練與微調過程的不一致，Permuted Language Modeling (PLM) 對于一個給定序列，生成其所有可能排列進行采樣作為訓練的目標。值得注意的是，PLM 并不改變原始文本的位置，而是重新定義 token 預測的順序。

3.1.4 對比學習（CTL）

CTL (Contrastive Learning) 基于一種“learning by comparison”的思路，假設某些觀測文本對比隨機采樣文本在語義上更相似，通過構建正樣本和負樣本并度量距離來實現學習。CTL 通常比 LM 具有更少的計算復雜度，也因此成為一個值得選擇的 PTMs 訓練標準。

3.1.5 Deep InfoMax (DIM)

DIM 最初是在 CV 領域提出的用于最大化圖像全局特征與局部特征之間的互信息（Mutual Information）的方法。

InfoWord 將 DIM 引入到語義表達學習中，提出用 DIM objective 以最大化句子的全局表示和一個 N-gram 的具備表示之間的互信息。

噪聲對比估計（Noise-Contrastive Estimation，NCE）通過訓練一個二元分類器來區分真實樣本和假樣本，訓練詞嵌入。NCE 的思想也被用在 word2vec 中。

3.1.6? Replaced Token Detection (RTD)

RTD 和 NCE 大體相同，根據上下文來預測 token 是否替換。

CBOW 的 negetive sampling 就可以看作是一個 RTD 的簡單版本，其中采樣是根據詞匯表中的分布進行采樣。

ELECTRA 基于 RTD 提出了一種新的 generator-discriminator 框架。首先用 MLM 任務訓練 generator，再用 generator 的權重初始化 discriminator，再用判別任務（判別哪些 token 被 generator 替換過）訓練 discriminator。

最終在下游任務只需要對 discriminator 進行 fine-tuning。TRD 也是一種很好的解決? MLM 導致的不一致問題的方法。

WKLM 則是通過在實體層面（entity-level）進行詞替換，替換為同一個實體類型的實體名。

3.1.7 Next Sentence Prediction (NSP)

NSP 訓練模型區分兩個輸入語句是否為訓練語料中連續的片段，在選擇預訓練句對時，第二個句子 50% 是第一個句子實際的連續片段，50% 是語料中的隨機段落。NSP 能夠教會模型理解兩個輸入句子之間的聯系，從而使得如 QA 和 NLI 這種對此類信息敏感的下游任務受益。

然而，近來 NSP 的必要性也遭到了質疑，XLNet 的作者發現不用 NSP loss 的單句訓練優于使用 NSP 的句對訓練。RoBERTa 的作者進一步分析表明：在對單個文本中的文本塊訓練時，去除 NSP 會在下游任務稍微提高性能。

3.1.8 Sentence Order Prediction (SOP)

NSP 結合了主題預測相關性預測，而因為主題預測更容易，模型將更依賴于主題預測。為更好建模句子之間的相關性，ALBERT 提出使用 SOP loss 替換 NSP loss，SOP 使用一個文檔中的兩個連續片段作為正樣本，將這兩個片段交換順序作為負樣本。

采用了 SOP 的 ALBERT 在多項下游任務中結果都優于 BERT。StructBERT 和 BERTje 也使用 SOP 作為自監督學習任務。

3.2? PTMs的拓展

3.2.1 引入知識的PTMs

通常 PTMs 都是用大量語料訓練通用的語言表示，而將外部的領域知識引入到 PTMs 被證明式有效的。自 BERT 以來，就有很多預訓練任務用以將外部知識納入 PTMs，如：

LIBERT：linguistically-informed BERT ，通過附加語言約束任務納入了語言知識。

SentiLR：通過對每個單詞添加情感極性，將 MLM 拓展至 Label-Aware MLM (LA-MLM)，在多個情感分類任務達到 SOTA。

SenseBERT：不僅能預測被 mask 的 token，還能預測 WordNet 中的 supersense。

ERINE (THU)：將知識圖譜中預訓練的實體嵌入與文本中相應的實體提及相結合，以增強文本表示。

KnowBERT：端到端將帶實體連接模型與實體表示集成。

KEPLER：將知識嵌入和語言模型對象聯合。

K-BERT：不同于以上幾個模型通過實體嵌入引入知識圖譜中的結構化信息，K-BERT 通過直接將知識圖譜中相關三元組引入句子，獲得一個 BERT 的拓展的樹形輸入。

K-Adapter：針對不同預訓練任務獨立訓練不同的適配器以引入多種知識，以解決上述模型在注入多種知識出現的遺忘問題。

3.2.2 多模態PTMs

隨 PTMs 在 NLP 領域的廣泛應用，一些多模態 PTMs 也被設計出來，在一些語音、視頻、圖像數據集上進行了預訓練，比如：

視頻-語言：VideoBERT、CBT
圖像-語言：用于 visual question answering (VQA) and visual commonsense reasoning (VCR)，如 ViLBERT、LXMERT、VisualBERT、B2T2、VLBERT、 Unicoder-VL、UNITER
音頻-文本：用于端到端 Speech Question Answering (SQA) 任務，如 SpeechBERT

3.2.3 領域預訓練PTMs

大多數 PTMs 都是在 Wikipedia 這樣的通用領域語料庫上訓練的，這就限制了他們在特定領域內的表現。

近期有一些用專業領域語料訓練的 PTMs，比如：生物醫學領域的 BioBERT，科學領域的 SciBERT，臨床醫學領域的 ClinicalBERT。還有一些工作嘗試將預訓練模型更好地使用目標應用，比如生物醫學實體歸一化、專利分類等。

3.2.4 多語言與特定語言PTMs

學習多語言文本表示對于跨語言 NLP 任務是很重要的。早期工作著力于學習來自同一語義環境下的多語言詞嵌入，這一方法往往缺乏語言間的校準。近期有如下幾個多語言 PTMs：

Multilingual-BERT：M-BERT，在 Wikipedia 上 104 種種語言的文本上進行 MLM 訓練，每個訓練樣本都是單語言的，也沒有專門設計跨語言目標，但即便如此，M-BERT 在跨語言任務上表現還是非常好。

XLM：通過結合跨語言任務 TLM (translation language modeling)，提升了 M-BERT 的性能。

Unicoder：提出三個跨語言預訓練任務：1) cross-lingual word recovery; 2) cross-lingual paraphrase classification; 3) cross-lingual masked language model。

除此之外還有一些單語言的 PTMs：BERT-wwm，ZEN，NEZHA，ERNIE (Baidu)，BERTje，CamemBERT， FlauBERT ，RobBERT 。

3.3 如何壓縮PTMs

預訓練模型往往包含至少幾千萬個參數，這也使得模型難以部署到生活中的線上服務以及資源有限的設備上，這就使得模型壓縮成為一條可能能夠壓縮模型尺寸并提高計算效率的方法。表 2 展示了一些壓縮的 PTMs 的對比。

壓縮 PTMs 一般有四個方法：

剪枝（pruning）：去除不那么重要的參數（e.g. 權重、層數、通道數、attention heads）
量化（weight quantization）：使用占位更少（低精度）的參數
參數共享（parameter sharing）：相似模型單元間共享參數
知識蒸餾（knowledge diistillation）：用一些優化目標從大型 teacher 模型學習一個小的 student 模型，一些利用知識蒸餾的 PTMs 見表 3。

如何將PTMs應用至下游任務

4.1 遷移學習

遷移學習就是將源任務中的知識適應到目標任務，將 PTMs 適應到下游任務是一種順序遷移學習任務。那么，如何遷移呢？我們需要考慮以下幾個問題：

選擇合適的預訓練任務：近期，LM 是最流行的預訓練任務，也有效解決了很多 NLP 問題。但不同的預訓練任務在不同的下游任務上有不同的效果，比如 NSP 任務能幫助 PTM 理解句子之間的關系，因此 PTM 對于 QA 和 NLI 這樣的下游任務很有幫助。
選擇合適的模型架構：比如 BERT 使用的 MLM 和 Transformer 結構使其擅長 NLU 任務，卻很難生成語言。
選擇合適的語料：下游任務的數據應該接近 PTMs 的預訓練任務。
選擇合適的layers：在“深”的預訓練模型中，不同的 layer 往往描繪不同種類的信息。有三種選擇 layers 的方式：1) 只用 Embedding，如 word2vec 和 Glove；2) Top Layer，如 BERT；3) All Layers，如 ELMo。
是否進行fine-tune：模型遷移一般有兩種方法：特征提取和 fine-tuning。特征提取的參數是凍結的，且往往需要特定任務的體系結構。fine-tunig 的參數是非凍結的，比特征提取方法更為通用且方便。

4.2 fine-tuning的策略

自 ULMFit 和 BERT 起，fine-tuning 已經成為 PTMs 主要的適配方法。這里有一些實用的 fine-tunig 策略：

兩階段 fine-tuning：兩階段遷移的方法在預訓練和 fine-tuning 階段引入了一個中間階段。在第一階段，通過中間任務或語料來微調模型。在第二階段，通過目標任務微調模型。
多任務 fine-tuning：liu等人在多任務學習框架下對 BERT 進行了微調，結果顯示多任務學習和預訓練是互補的方法。
采用額外的適配器 fine-tuning：fine-tuning 的主要缺點是參數效率低，在每一個下游任務上都有各自的 dine-tuning 參數。對此的解決方案是在固定原始參數時引入一些可以 fine-tuning 的適配器。
其他：逐層解凍而非連續 fine-tune 所有層；self-ensemble 和 self-distillation。

一些PTMs的資源

一些開源的應用：

word2vec:?

https://github.com/tmikolov/word2vec

GloVe:?

https://nlp.stanford.edu/projects/glove

FastText:?

https://github.com/facebookresearch/fastText

Transformers:?

https://github.com/huggingface/transformers

Fairseq:?

https://github.com/pytorch/fairseq

Flair:?

https://github.com/flairNLP/flair

AllenNLP:?

https://github.com/allenai/allennlp

FastNLP:?

https://github.com/fastnlp/fastNLP

Chinese-BERT:?

https://github.com/ymcui/Chinese-BERT-wwm

BERT:?

https://github.com/google-research/bert

RoBERTa:?

https://github.com/pytorch/fairseq/tree/master/examples/roberta

XLNet:?

https://github.com/zihangdai/xlnet/

ALBERT:?

https://github.com/google-research/ALBERT

T5:?

https://github.com/google-research/text-to-text-transfer-transformer

ERNIE (Baidu):?

https://github.com/PaddlePaddle/ERNIE

相關資源：

論文列表：

https://github.com/thunlp/PLMpapers

https://github.com/tomohideshibata/BERT-related-papers

https://github.com/cedrickchee/awesome-bert-nlp

BERT Lang Street（收集 BERT 在不同數據集和任務上的表現）：

https://bertlang.unibocconi.it/

BERTViz（應用 transformer 的模型的注意力可視化）：

https://github.com/jessevig/bertviz

應用

6.1 通用評估標準

GLUE (The General Language Understanding Evaluation) 標準是一個集合了 9 個自然語言理解任務的標準。

其中包括：單個句子分類任務（CoLA和SST-2）、文本對分類任務（MNLI, RTE, WNLI, QQP, MRPC）、文本相似度任務（STSB）、相關性排行任務（QNLI）。GLUE 標準能夠能夠很好地評估模型的魯棒性和通用性。

而近期 NLP 的快速發展促使了新的標準 SuperGLUE 的提出，相比 GLUE，SuperGLUE 有更多富有挑戰性且多種多樣的任務，如指代消解和 QA。

6.2 機器翻譯

機器翻譯（Machine Translation, MT）也是 NLP 的一項重要任務。幾乎所有 MT 模型都使用了 encoder-decoder 框架。而近期隨預訓練模型的發展，也有不少嘗試將 BERT 之類的預訓練模型用于初始化 encoder，取得了一定成效。

6.3 問答系統

問答系統（Question answering, QA）或是狹義概念的機器閱讀理解（machine reading comprehension, MRC）也是 NLP 的重要任務。

從易到難，有三種類型的 QA 任務：單回合提取 QA (single-round extractive QA, SQuAD)、多回合生成QA (multi-round generative QA, CoQA)、多跳問答 (multi-hop QA, HotpotQA)。

針對提取 QA，有通過 PTM 初始化 encoder 的回溯閱讀架構（retrospective reader architecture）；針對多回合生成 QA，有“PTM+Adversarial Training+Rationale Tagging+Knowledge Distillation”架構；針對多跳 QA，有“Select, Answer, and Explain” (SAE) 系統。

6.4 情感分析

BERT 通過在廣泛使用的情感分析數據集 SST-2 上進行微調后，表現超過了先前的 SOTA 模型。而后又有很多將 BERT 進行調整以應用在 aspect 級的情感分析（ABSA）任務上。

6.5 總結

從長文本中總結出短文本也是近期 NLP 的熱點。也有很多嘗試將 PTM 應用在總結文本任務上，如將 BERT 通過插入 [CLS] token 來學習句子表示的模型 BERTSUM。

6.6 命名實體識別

命名實體識別（Named Entity Recognition, NER）也是知識提取的一個基礎任務，在很多 NLP 任務上都有重要作用。TagLM 和 ELMo 利用預訓練語言模型的最后一層的輸入和各層的加權總和作為詞嵌入的一部分。

未來方向

7.1 PTMs的上界

隨 BERT 的出現，我們可以發現，很多模型都可以通過更長的訓練步長不在和更大的語料來提升性能，比如去年的 T5 使用的 C4 數據集。而我們也可以通過加深模型來提升性能，比如 Turing-NLG 使用了 72 個 transformer 層。

PTMs 的共同目標都是學習語言的本質通用知識(或者說是世界的知識)，然而，隨著模型的不斷加深，語料的不斷增大，訓練模型的花銷也越來越大。一種更可行的解決方案是設計更有效的模型架構、自監督預訓練任務、優化器和軟硬件方面的技巧等。ELECTRA 就是這個方向上一個很好的嘗試。

7.2 面向任務的預訓練與模型壓縮

在實踐中，不同的下游任務要求 PTMs 擁有不同的功能。而 PTMs 與下游目標任務間的差異通常表現在兩方面：模型架構與數據分布。較大的 PTMs 通常情況下會有更好的性能，但實際問題是如何在低容量設備和低時延應用上使用如此龐大的 PTM。

除此之外，我們可以通過模型壓縮來將通用 PTMs 教給面向對象的 PTM。盡管 CV 中對 CNNs 的壓縮已經非常成熟，但 Tansformer 的全連接結構使得模型壓縮非常具有挑戰性。

7.3 PTMs架構

Transformer 是 PTMs 的一個高效的框架，但 Transformer 的局限在于計算復雜度。由于 GPU 顯存大小的限制，目前大多數 PTM 無法處理序列長度超過 512 個 token 的序列。搭配這一限制需要改進 Transformer 的結構，如 Transformer-XL。因此，尋求更有效的模型架構對于解決長程文本信息也是很重要的。

7.4 Fine-tunig中的知識遷移

Fine-tuning 是目前將 PTM 的知識遷移至下游任務的主要方法，但參數效率卻很低，每個下游任務都有特定的 fine-tuned 參數。

一個可以改進的解決方案是固定 PTMs 的原始參數，并為特定任務添加小型的可微調的適配器，這樣就可以在不同的下游任務使用共享的 PTMs。從 PTM‘s 中挖掘知識也可以更靈活，比如：知識提取、知識蒸餾、數據增加、將 PTMs 作為外部知識等等。

7.5 PTMs的可解釋性與可靠性

PTMs 的深且非線性的架構使得決策制定的過程非常不透明。近期，可解釋人工智能（explainable artificial intelligence, XAI）成為熱點。通過對模型詞嵌入的研究我們可以分析 PTMs 中的語言和世界知識，但更多有關注意力機制的可解釋性的問題還值得探討。

PTMs 這種深模型很容易受到對抗樣本的擾動而產生錯誤的預測。在 CV 領域，對抗攻擊與防御已經被廣泛學習，而由于語言的特性，文本的對抗還非常具有挑戰性。PTMs 的對抗防御也對于提升 PTMs 的魯棒性很重要。

總結

邱錫鵬老師的這篇綜述很全面地概括了預訓練模型，也非常適合初學者當作一個 roadmap 來閱讀。我們可以看到 NLP 的發展過程是非常令人感動的，從最開始的“要表示語言”的目標，使用詞袋模型和 N-gram。

再想到“詞語具有多義性”，所以需要有上下文，使用 LSTM。LSTM 只有單向，那就使用雙向 LSTM。“想要更大范圍的上下文”，就產生了 transformer。

“再大一些”，有了 transformer-XL。還是不夠好，怎么辦？“更多知識”，于是不斷加大語料庫，不斷堆 GPU，直到 T5 探索了“Limits of Transfer Learning with a Uni?ed Text-to-Text Transformer”。

模型太大，成本太高，那就壓縮模型，改進框架，于是有了 ELECTRA。預訓練模型缺乏嘗試推理能力，那就知識提取，于是有了 COMET。每一步嘗試都是在靠近語言的本質與世界的知識。

“The whole of science is nothing more than a refinement of everyday thinking.”

點擊以下標題查看更多往期內容：?

復旦大學邱錫鵬：詞法、句法分析研究進展綜述
深度學習預訓練模型可解釋性概覽
Transformer的七十二變
從Word2Vec到BERT
淺談Knowledge-Injected BERTs
后BERT時代的那些NLP預訓練模型

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的复旦大学邱锡鹏教授：NLP预训练模型综述的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：陆军现役战机首次参展
下一篇：吉利公布银河 E5 10 月购车权益：送