BERT微调误区
??與CV不同的是,NLP的微調(diào)是建立在大量無標(biāo)記的數(shù)據(jù)當(dāng)中的,比如維基百科。因此NLP上的預(yù)訓(xùn)練語言模型大多采用的是自監(jiān)督的方式完成訓(xùn)練,具體方式有LM(language mode,即預(yù)測下一個(gè)單詞)和MLM(Masked language model)隨機(jī)遮蓋一個(gè)詞,通過周圍的單詞完成對(duì)中性詞的預(yù)測,其中,GPT采用的是LM,因此更適用于預(yù)測下一句的任務(wù),而BERT則采用后者,11個(gè)NLP任務(wù)的SOTA。
??原始的文章中對(duì)于BERT的微調(diào)的描述是有一些誤區(qū)的。
參考連接:11.2NLP中的微調(diào)【斯坦福21秋季:實(shí)用機(jī)器學(xué)習(xí)中文版】
https://www.bilibili.com/video/BV1bq4y1y7tg?spm_id_from=333.999.0.0
文章How to Fine-Tune BERT for Text Classification?
總結(jié)
- 上一篇: kaminari
- 下一篇: 看看别人家的神仙公司