Huggingface BERT源码详解:应用模型与训练优化
?PaperWeekly 原創 ·?作者|李濼秋
學校|浙江大學碩士生
研究方向|自然語言處理、知識圖譜
接上篇,記錄一下對 HuggingFace 開源的 Transformers 項目代碼的理解。
本文基于 Transformers 版本 4.4.2(2021 年 3 月 19 日發布)項目中,pytorch 版的 BERT 相關代碼,從代碼結構、具體實現與原理,以及使用的角度進行分析,包含以下內容:
1. BERT Tokenization 分詞模型(BertTokenizer)
2. BERT Model 本體模型(BertModel)
3.?1.?BertEmbeddings
? ? 2. BertEncoder
? ? 3.1.?BertLayer
? ? ? ? 2.1.?BertAttention
? ? ? ? ? ??2.1.?BertIntermediate
? ? ? ? ? ? ? ?2. BertOutput
? ? ? ? ? ? 3. BertEmbeddings
? ? ? ?? ? ?4. BertEncoder
? ? ? ? 3. BERT-based Models應用模型
4. BertForPreTraining
5. 1. BertForSequenceClassification
? ? 2. BertForMultiChoice
? ? 3. BertForTokenClassification
? ? 4. BertForQuestionAnswering
? ? 5. BERT訓練與優化
6. BERT訓練與優化
7. 1. Pre-Training
? ? 2. Fine-Tuning
? ? 3. 1. AdamW
? ? ? ? 2.?Warmup
BERT-based Models
基于 BERT 的模型都寫在/models/bert/modeling_bert.py里面,包括 BERT 預訓練模型和 BERT 分類模型,UML 圖如下:
BERT模型一圖流(建議保存后放大查看):
▲ 畫圖工具:Pyreverse
首先,以下所有的模型都是基于BertPreTrainedModel這一抽象基類的,而后者則基于一個更大的基類PreTrainedModel。這里我們關注BertPreTrainedModel的功能:
用于初始化模型權重,同時維護繼承自PreTrainedModel的一些標記身份或者加載模型時的類變量。
下面,首先從預訓練模型開始分析。
3.1 BertForPreTraining
眾所周知,BERT 預訓練任務包括兩個:
Masked Language Model(MLM):在句子中隨機用[MASK]替換一部分單詞,然后將句子傳入 BERT 中編碼每一個單詞的信息,最終用[MASK]的編碼信息預測該位置的正確單詞,這一任務旨在訓練模型根據上下文理解單詞的意思;
Next Sentence Prediction(NSP):將句子對 A 和 B 輸入 BERT,使用[CLS]的編碼信息進行預測 B 是否 A 的下一句,這一任務旨在訓練模型理解預測句子間的關系。
▲ 圖源網絡
而對應到代碼中,這一融合兩個任務的模型就是BertForPreTraining,其中包含兩個組件:
class?BertForPreTraining(BertPreTrainedModel):def?__init__(self,?config):super().__init__(config)self.bert?=?BertModel(config)self.cls?=?BertPreTrainingHeads(config)self.init_weights()#?...這里的BertModel在上一篇文章中已經詳細介紹了(注意,這里設置的是默認add_pooling_layer=True,即會提取[CLS]對應的輸出用于 NSP 任務),而BertPreTrainingHeads則是負責兩個任務的預測模塊:
class?BertPreTrainingHeads(nn.Module):def?__init__(self,?config):super().__init__()self.predictions?=?BertLMPredictionHead(config)self.seq_relationship?=?nn.Linear(config.hidden_size,?2)def?forward(self,?sequence_output,?pooled_output):prediction_scores?=?self.predictions(sequence_output)seq_relationship_score?=?self.seq_relationship(pooled_output)return?prediction_scores,?seq_relationship_score?又是一層封裝:BertPreTrainingHeads包裹了BertLMPredictionHead 和一個代表 NSP 任務的線性層。這里不把 NSP 對應的任務也封裝一個BertXXXPredictionHead,估計是因為它太簡單了,沒有必要……
補充:其實是有封裝這個類的,不過它叫做BertOnlyNSPHead,在這里用不上……
繼續下探BertPreTrainingHeads :
class?BertLMPredictionHead(nn.Module):def?__init__(self,?config):super().__init__()self.transform?=?BertPredictionHeadTransform(config)#?The?output?weights?are?the?same?as?the?input?embeddings,?but?there?is#?an?output-only?bias?for?each?token.self.decoder?=?nn.Linear(config.hidden_size,?config.vocab_size,?bias=False)self.bias?=?nn.Parameter(torch.zeros(config.vocab_size))#?Need?a?link?between?the?two?variables?so?that?the?bias?is?correctly?resized?with?`resize_token_embeddings`self.decoder.bias?=?self.biasdef?forward(self,?hidden_states):hidden_states?=?self.transform(hidden_states)hidden_states?=?self.decoder(hidden_states)return?hidden_states這個類用于預測[MASK]位置的輸出在每個詞作為類別的分類輸出,注意到:
該類重新初始化了一個全 0 向量作為預測權重的 bias;
該類的輸出形狀為[batch_size, seq_length, vocab_size],即預測每個句子每個詞是什么類別的概率值(注意這里沒有做 softmax);
又一個封裝的類:BertPredictionHeadTransform,用來完成一些線性變換:
補充:感覺這一層去掉也行?輸出的形狀也沒有發生變化。我個人的理解是和 Pooling 那里做一個對稱的操作,同樣過一層 dense 再接分類器……
回到BertForPreTraining,繼續看兩塊 loss 是怎么處理的。它的前向傳播和BertModel的有所不同,多了labels和next_sentence_label 兩個輸入:
labels:形狀為[batch_size, seq_length] ,代表 MLM 任務的標簽,注意這里對于原本未被遮蓋的詞設置為 -100,被遮蓋詞才會有它們對應的 id,和任務設置是反過來的。
例如,原始句子是I want to [MASK] an apple,這里我把單詞eat給遮住了輸入模型,對應的label設置為[-100, -100, -100, 【eat對應的id】, -100, -100];
為什么要設置為 -100 而不是其他數?因為torch.nn.CrossEntropyLoss默認的ignore_index=-100,也就是說對于標簽為 100 的類別輸入不會計算 loss。
next_sentence_label:這一個輸入很簡單,就是 0 和 1 的二分類標簽。
OK,接下來兩部分 loss 的組合:
直接相加,就是這么單純的策略。
當然,這份代碼里面也包含了對于只想對單個目標進行預訓練的 BERT 模型(具體細節不作展開):
BertForMaskedLM:只進行 MLM 任務的預訓練;
基于BertOnlyMLMHead,而后者也是對BertLMPredictionHead的另一層封裝;
BertLMHeadModel:這個和上一個的區別在于,這一模型是作為 decoder 運行的版本;
同樣基于BertOnlyMLMHead;
BertForNextSentencePrediction:只進行 NSP 任務的預訓練。
基于BertOnlyNSPHead,內容就是一個線性層……
接下來介紹的是各種 Fine-tune 模型,基本都是分類任務:
▲ 圖源:原始BERT論文附錄
3.2 BertForSequenceClassification
這一模型用于句子分類(也可以是回歸)任務,比如 GLUE benchmark 的各個任務。
句子分類的輸入為句子(對),輸出為單個分類標簽。
結構上很簡單,就是BertModel(有 pooling)過一個 dropout 后接一個線性層輸出分類:
?class?BertForSequenceClassification(BertPreTrainedModel):def?__init__(self,?config):super().__init__(config)self.num_labels?=?config.num_labelsself.bert?=?BertModel(config)self.dropout?=?nn.Dropout(config.hidden_dropout_prob)self.classifier?=?nn.Linear(config.hidden_size,?config.num_labels)self.init_weights()#?...在前向傳播時,和上面預訓練模型一樣需要傳入labels輸入。
如果初始化的num_labels=1,那么就默認為回歸任務,使用 MSELoss;
否則認為是分類任務。
3.3 BertForMultipleChoice
這一模型用于多項選擇,如 RocStories/SWAG 任務。
多項選擇任務的輸入為一組分次輸入的句子,輸出為選擇某一句子的單個標簽。
結構上與句子分類相似,只不過線性層輸出維度為 1,即每次需要將每個樣本的多個句子的輸出拼接起來作為每個樣本的預測分數。
實際上,具體操作時是把每個 batch 的多個句子一同放入的,所以一次處理的輸入為[batch_size, num_choices]數量的句子,因此相同 batch 大小時,比句子分類等任務需要更多的顯存,在訓練時需要小心。
3.4 BertForTokenClassification
這一模型用于序列標注(詞分類),如 NER 任務。
序列標注任務的輸入為單個句子文本,輸出為每個 token 對應的類別標簽。
由于需要用到每個 token對應的輸出而不只是某幾個,所以這里的BertModel不用加入 pooling 層;
同時,這里將_keys_to_ignore_on_load_unexpected這一個類參數設置為[r"pooler"],也就是在加載模型時對于出現不需要的權重不發生報錯。
3.5 BertForQuestionAnswering
這一模型用于解決問答任務,例如 SQuAD 任務。
問答任務的輸入為問題 +(對于 BERT 只能是一個)回答組成的句子對,輸出為起始位置和結束位置用于標出回答中的具體文本。
這里需要兩個輸出,即對起始位置的預測和對結束位置的預測,兩個輸出的長度都和句子長度一樣,從其中挑出最大的預測值對應的下標作為預測的位置。
對超出句子長度的非法 label,會將其壓縮(torch.clamp_)到合理范圍。
作為一個遲到的補充,這里稍微介紹一下ModelOutput這個類。它作為上述各個模型輸出包裝的基類,同時支持字典式的存取和下標順序的訪問,繼承自python原生的OrderedDict 類。
以上就是關于 BERT 源碼的介紹,下面介紹一些關于 BERT 模型實用的訓練細節。
BERT訓練和優化
4.1 Pre-Training
預訓練階段,除了眾所周知的 15%、80% mask 比例,有一個值得注意的地方就是參數共享。
不止 BERT,所有 huggingface 實現的 PLM 的 word embedding 和 masked language model 的預測權重在初始化過程中都是共享的:
class?PreTrainedModel(nn.Module,?ModuleUtilsMixin,?GenerationMixin):#?...def?tie_weights(self):"""Tie?the?weights?between?the?input?embeddings?and?the?output?embeddings.If?the?:obj:`torchscript`?flag?is?set?in?the?configuration,?can't?handle?parameter?sharing?so?we?are?cloningthe?weights?instead."""output_embeddings?=?self.get_output_embeddings()if?output_embeddings?is?not?None?and?self.config.tie_word_embeddings:self._tie_or_clone_weights(output_embeddings,?self.get_input_embeddings())if?self.config.is_encoder_decoder?and?self.config.tie_encoder_decoder:if?hasattr(self,?self.base_model_prefix):self?=?getattr(self,?self.base_model_prefix)self._tie_encoder_decoder_weights(self.encoder,?self.decoder,?self.base_model_prefix)#?...至于為什么,應該是因為 word_embedding 和 prediction 權重太大了,以 bert-base 為例,其尺寸為(30522, 768),降低訓練難度。
4.2 Fine-Tuning
微調也就是下游任務階段,也有兩個值得注意的地方。
4.2.1 AdamW
首先介紹一下 BERT 的優化器:AdamW(AdamWeightDecayOptimizer)。
這一優化器來自 ICLR 2017 的 Best Paper:《Fixing Weight Decay Regularization in Adam》中提出的一種用于修復 Adam 的權重衰減錯誤的新方法。論文指出,L2 正則化和權重衰減在大部分情況下并不等價,只在 SGD 優化的情況下是等價的;而大多數框架中對于 Adam+L2 正則使用的是權重衰減的方式,兩者不能混為一談。
AdamW 是在 Adam+L2 正則化的基礎上進行改進的算法,與一般的 Adam+L2 的區別如下:
關于 AdamW 的分析可以參考:
AdamW and Super-convergence is now the fastest way to train neural nets [1]
paperplanet:都 9102 年了,別再用 Adam + L2 regularization了 [2]
ICLR 2018 有什么值得關注的亮點?[3]
話說,《STABLE WEIGHT DECAY REGULARIZATION》這篇好像吐槽AdamW 的 Weight Decay 實現還是有問題…… 有空整整優化器相關的內容。
通常,我們會選擇模型的 weight 部分參與 decay 過程,而另一部分(包括 LayerNorm 的 weight)不參與(代碼最初來源應該是 Huggingface 的示例):
補充:關于這么做的理由,我暫時沒有找到合理的解答,但是找到了一些相關的討論:https://forums.fast.ai/t/is-weight-decay-applied-to-the-bias-term/73212/4forums.fast.ai
4.2.2 Warmup
BERT 的訓練中另一個特點在于 Warmup,其含義為:
在訓練初期使用較小的學習率(從 0 開始),在一定步數(比如 1000 步)內逐漸提高到正常大小(比如上面的 2e-5),避免模型過早進入局部最優而過擬合;
在訓練后期再慢慢將學習率降低到 0,避免后期訓練還出現較大的參數變化。
在 Huggingface 的實現中,可以使用多種 warmup 策略:
TYPE_TO_SCHEDULER_FUNCTION?=?{SchedulerType.LINEAR:?get_linear_schedule_with_warmup,SchedulerType.COSINE:?get_cosine_schedule_with_warmup,SchedulerType.COSINE_WITH_RESTARTS:?get_cosine_with_hard_restarts_schedule_with_warmup,SchedulerType.POLYNOMIAL:?get_polynomial_decay_schedule_with_warmup,SchedulerType.CONSTANT:?get_constant_schedule,SchedulerType.CONSTANT_WITH_WARMUP:?get_constant_schedule_with_warmup, }具體而言:
CONSTANT:保持固定學習率不變;
CONSTANT_WITH_WARMUP:在每一個 step 中線性調整學習率;
LINEAR:上文提到的兩段式調整;
COSINE:和兩段式調整類似,只不過采用的是三角函數式的曲線調整;
COSINE_WITH_RESTARTS:訓練中將上面 COSINE 的調整重復 n 次;
POLYNOMIAL:按指數曲線進行兩段式調整。
具體使用參考transformers/optimization.py:
最常用的還是get_linear_scheduler_with_warmup即線性兩段式調整學習率的方案……
以上即為關于 transformers 庫(4.4.2 版本)中 BERT 相關代碼的具體實現分析,歡迎與讀者共同交流探討。
參考文獻
[1] https://www.fast.ai/2018/07/02/adam-weight-decay/
[2] https://zhuanlan.zhihu.com/p/63982470
[3] https://www.zhihu.com/question/67335251/answer/262989932
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的Huggingface BERT源码详解:应用模型与训练优化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ACL 2021 | SimCLS: 概
- 下一篇: 交税是交纯利润还是营业额