计算机组成原理sop,MacBERT:MLM as correction BERT
本次分享的論文MacBERT,來自哈工大SCIR實驗室,收錄于Findings of EMNLP 子刊,全名為Revisiting Pre-Trained Models for Chinese Natural Language Processing,即中文自然語言處理的預訓練模型再訪。
論文地址:Paper
該篇論文主要做了以下三方面的工作:
(1)大量的實證研究,以重新審視中文預訓練模型在各種任務上的表現,并進行了細致的分析。
(2)提出了一個新的預訓練模型MacBERT,通過用其相似的單詞來掩蓋單詞,從而縮小訓練前和微調階段之間的差距。
(3)為了進一步加快對中文NLP的研究,創建了中文預訓練模型系列并發布到社區。
本文章僅針對該論文的第二個工作進行介紹,即介紹預訓練模型MacBERT。MacBERT模型保持了與BERT相同的訓練前任務,但做了一些修改,具體如下:
1、使用全詞掩蔽和N-Gram掩蔽策略來選擇候選tokens進行掩蔽,從單字符到4字符的掩蔽百分比為40%、30%、20%、10%。
2、原始BERT模型使用[MASK] token進行掩蔽,但是[MASK] token在微調階段從未出現,這會造成預訓練任務與下游微調任務不一致;因此該論文建議使用類似的單詞來掩蔽需要被掩蔽的單詞。
類似的單詞可以通過同義詞工具包(Synonyms)獲得,該工具包是基于word2vec相似度計算來獲取同義詞的。
選擇一個N-gram進行掩碼時,該論文將分別找到相似的單詞。在極少數情況下,當沒有相似的詞時,會降級使用隨機詞替換。
3、使用15%的百分比輸入單詞進行掩蔽,其中80%將替換為相似的單詞,10%將替換為隨機單詞,剩下的10%將保留原始單詞。
4、該論文使用ALBERT提出的句子順序預測(SOP)任務替換BERT原始的NSP任務,通過切換兩個連續句子的原順序創建負樣本。
注意:該論文對MacBERT模型進行預訓練時使用了擴展數據。并且為了識別漢語詞語的邊界,使用LTP進行中文分詞。
這里有一個問題,就是模型對單字符的概率是40%,對于英文來說,比較容易找到單個字符的同義詞
,但是單個字符對于中文來說,大概率是無法找到同義詞的,因此筆者并不理解要如何去操作。
難道要把這么多找不到同義詞的使用隨機替換嗎?顯然應該沒有這么簡單,可能需要源碼放出來的時候,才能知道。
或者有理解的小伙伴,可以再評論中解答一下,也可以加我微信或私聊我。
訓練參數
Base模型參數如下:
Large模型參數如下:
各個任務上MacBERT模型微調效果
閱讀理解任務
CMRC2018數據集效果如下:
DRCD數據集效果如下:
CJRC數據集效果如下:
句子對匹配任務
XNLI、LCQMC、BQ Corpus數據集效果如下:
分類任務
情感分類任務ChnSentiCorp數據集效果如下:
文檔分類任務THUCNews數據集效果如下:
消融實驗
為了對比,上述提出改進點的效果,進行消融實驗,結果如下圖所示:
可以看出,上述提出的改進點,對于預訓練語言模型來說,都有一定的提升。
總結
等論文code開源。看一下在中文數據下,單個字符是如何找到同義詞的。
推薦幾篇筆者文章:
總結
以上是生活随笔為你收集整理的计算机组成原理sop,MacBERT:MLM as correction BERT的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中级计算机培训班心得,计算机中级培训学习
- 下一篇: 终端服务器有多种运行模式,云终端的三种工