Bert预训练新法则!
論文簡介:還應(yīng)在遮蔽語言模型中使用 15% 的遮蔽概率嗎?
論文標(biāo)題:Should You Mask 15% in Masked Language Modeling?
論文鏈接:https://arxiv.org/pdf/2202.08005.pdf
論文作者:{Alexander Wettig? Tianyu Gao? Zexuan Zhong Danqi Chen}
論文簡介
以往遮蔽預(yù)訓(xùn)練模型中,遮蔽語言模型通常使用 15% 的遮蔽率,作者團(tuán)隊認(rèn)為更多的遮蔽將提供足夠的上下文來學(xué)習(xí)良好的表示,而更少的遮蔽會使訓(xùn)練過于昂貴。令人驚訝的是,我們發(fā)現(xiàn) 40% 的遮蔽概率的輸入序列可以優(yōu)于 15% 的基線,通過對下游任務(wù)的微調(diào)來衡量可以發(fā)現(xiàn),甚至遮蔽 80% 的字符也可以保留大部分性能。
- 增加遮蔽有兩個明顯的效果,作者通過細(xì)致的消融實驗研究發(fā)現(xiàn):
- 無需使用 80% [MASK]、10% 保持原始token和 10% 隨機(jī)替換token。
- 隨著掩蔽率的提升,隨機(jī)均勻掩碼的效果(Uniform)的表現(xiàn)還會比Span Masking、相關(guān)區(qū)間原則性掩碼(PMI-Masking)更好。
總體來說,該研究成果有助于更好地理解遮蔽語言模型,并指出有效預(yù)訓(xùn)練的新途徑。接下來我們看看詳細(xì)的實驗結(jié)論。
預(yù)訓(xùn)練“15%遮蔽率” 慣例是可以被打破的
“15%遮蔽率”,指在一項預(yù)訓(xùn)練任務(wù)中,隨機(jī)遮住15%的單詞,并通過訓(xùn)練讓AI學(xué)會預(yù)測遮住的單詞。
在這項工作中,作者發(fā)現(xiàn)了在有效的預(yù)訓(xùn)練方案下,可以遮蔽 40-50% 的輸入文本,模型獲得比默認(rèn)的 15% 更好的下游性能。 表格1顯示了遮蔽 15%、40% 和 80% 的例子,以及它們的下游任務(wù)性能。我們可以發(fā)現(xiàn)使用 80% 掩蔽,即使大多數(shù)上下文被破壞,與 15% 的遮蔽 相比,模型仍能學(xué)習(xí)到良好的預(yù)訓(xùn)練表示并保留超過 95%的下游任務(wù)性能。 這個現(xiàn)象打破了以往遮蔽率選擇15%的慣例,并提出了模型如何從高掩蔽率中受益的問題,這可能是未來遮蔽語言模型研究的一個熱點。
預(yù)訓(xùn)練需要超過15%的遮蔽率
為了了解在 MLM 中可以遮蔽多少以字符及遮蔽 率如何影響預(yù)訓(xùn)練模型的性能,本文預(yù)訓(xùn)練了一系列具有不同掩蔽率的模型,范圍從 15% 到80%。圖 1 顯示了相對于不同掩蔽率,下游任務(wù)性能的變化。
我們可以發(fā)現(xiàn)與默認(rèn)的 15% 遮蔽模型相比,高達(dá) 50% 的遮蔽可以達(dá)到相當(dāng)甚至更好的結(jié)果。 遮蔽40% 總體上實現(xiàn)了最佳的下游任務(wù)性能(盡管不同下游任務(wù)的最佳掩蔽率有所不同)。 結(jié)果表明語言模型預(yù)訓(xùn)練不必使用小于 15% 的掩碼率,而使用高效預(yù)訓(xùn)練側(cè)率的大型模型的最佳掩碼率高達(dá) 40%。
為了進(jìn)一步比較 15% 和 40% 的遮蔽率,在表 2 中展示了兩者的 GLUE 測試結(jié)果:
并在圖 2 中繪制了下游任務(wù)性能隨不同訓(xùn)練步驟的變化:
表 2 進(jìn)一步驗證了掩蔽 40% 的性能明顯優(yōu)于 15% — SQuAD 提高了近 2%。 我們還看到在圖 2 中的整個訓(xùn)練過程中,40% 的 masking 具有超過 15% 的一致性優(yōu)勢
“重新”理解Mask Rate
在本節(jié)中,作者從兩個不同的角度分析掩蔽率如何影響 MLM 的預(yù)訓(xùn)練過程:任務(wù)難度和優(yōu)化效果。在Mask機(jī)制下,作者還進(jìn)一步討論了遮蔽率、模型大小和不同損壞策略之間的關(guān)系,以及它們對下游任務(wù)性能的影響。
遮蔽率與破壞率和預(yù)測率之間的關(guān)系
具體來說,就是將掩蔽率拆分為破壞率 (corruption rate)和預(yù)測率 (prediction rate)2個指標(biāo)。其中,破壞率是句子被破壞的比例,預(yù)測率是模型預(yù)測的比例。論文進(jìn)一步針對破壞率(mcorr)和預(yù)測率(mpred)進(jìn)行了研究,發(fā)現(xiàn)了一個新規(guī)律:
預(yù)測率高,模型效果更好;但破壞率更高,模型效果更差:
表3顯示了使用解破壞率 mcorr和預(yù)測率 mpred的消融結(jié)果。我們可以看到,(1)將mcorr固定為40%,將mpred從40%降低到20%,導(dǎo)致下游任務(wù)持續(xù)下降,表明更多的預(yù)測導(dǎo)致更好的性能;(2)將mpred固定為40%,降低mcorr導(dǎo)致持續(xù)更好的性能,這表明較低的破壞率使預(yù)訓(xùn)練任務(wù)更容易學(xué)習(xí)。(3)高預(yù)測率帶來的收益可以超過破壞率帶來的缺陷,性能更好。
高遮蔽率更適合大模型
從上圖我們可以看到,在有效的預(yù)訓(xùn)練設(shè)置下,大型模型可以平均取40%作為最優(yōu)遮蔽率;基礎(chǔ)模型和中等模型大約取20%作為最優(yōu)遮蔽率。這清楚地表明具有更大參數(shù)量的模型從更高的遮蔽率中獲益更多。
揭開“80-10-10”規(guī)則的神秘面紗
2019年以來,大多數(shù)認(rèn)為用將原始token10%替換(保持單詞不變),用隨機(jī)token替換10%是有益的。從那時起,在過往預(yù)訓(xùn)練模型研究中,80-10-10規(guī)則在幾乎所有的MLM預(yù)訓(xùn)練工作中被廣泛采用。其動機(jī)是遮蔽標(biāo)記在訓(xùn)練前和下游微調(diào)之間造成不匹配,使用原始或隨機(jī)的標(biāo)記作為[MASK]的替代方法可以緩解這種差距。基于這一推理,理應(yīng)認(rèn)為屏蔽更多的上下文應(yīng)該會進(jìn)一步增加差異,但作者在下游任務(wù)中觀察到更強(qiáng)的性能。這就引出了是否完全需要80-10-10法則的疑慮。首先,作者重新討論了80-10-10規(guī)則,并將其與破壞率和預(yù)測率兩種指標(biāo)聯(lián)系起來,作者思考如下:
相同字符預(yù)測:預(yù)測相同的字符是一項非常簡單的任務(wù)——模型可以簡單地將輸入復(fù)制到輸出中。來自相同的字符預(yù)測的損失非常小,這個目標(biāo)應(yīng)該被視為一個輔助的正則化,它確保了文本信息從嵌入傳播到最后一層。因此,同樣的token預(yù)測既不應(yīng)該計入破壞率,也不應(yīng)該計入預(yù)測率——它們不會破壞輸入,而且對學(xué)習(xí)的貢獻(xiàn)很小。
隨機(jī)字符破壞:用隨機(jī)token替換會提升破壞率和預(yù)測率,因為輸入已經(jīng)被損壞,預(yù)測任務(wù)并不重要。事實上,作者發(fā)現(xiàn)與[MASK]相比,隨機(jī)token的損失略高,原因有兩點:(1)模型需要決定所有token的信息輸入是否來自隨機(jī)字符和(2)預(yù)測需要對輸入嵌入中的巨大變化需要保持一致。
為了驗證結(jié)論,作者采用m=40%模型僅使用[MASK]替換作為基線,在此基礎(chǔ)上我們添加了三個模型:
1.“+5%相同”:遮蔽40%的字符,預(yù)測45%的字符。
2.“w/5%隨機(jī)”:遮蔽35%的字符,并隨機(jī)替換了另外5%的字符,預(yù)測率為40%。
3.“80-10-10”:在BERT配置中,在所有的遮蔽文本中,80%被[MASK]取代,10%被原始token取代,10%被隨機(jī)token取代。
結(jié)果如表4所示。我們觀察到,相同的字符預(yù)測和隨機(jī)字符損壞會降低大多數(shù)下游任務(wù)的性能。“80-10-10”規(guī)則比簡單地使用[MASK]的所有任務(wù)效果更差。這表明,在微調(diào)范式中,[MASK]模型可以快速適應(yīng)完整的、未損壞的句子,而不需要隨機(jī)替換。鑒于實驗結(jié)果,作者建議只使用[MASK]來做預(yù)訓(xùn)練。
在高遮蔽率下,Uniform Masking 效果更好
為了理解掩蔽率和掩蔽策略之間的相互作用,我們在不同掩蔽率下使用多種掩蔽策略進(jìn)行實驗,發(fā)現(xiàn)隨機(jī)均勻掩碼(Uniform)在最佳遮蔽率下比更復(fù)雜的遮蔽策略表現(xiàn)更好。
圖5顯示了在掩蔽率從15%到40%下,均勻遮蔽、t5 的span maskin和PMI遮蔽的結(jié)果。我們發(fā)現(xiàn),(1)對于所有的遮蔽策略,最優(yōu)遮蔽率都高于15%;(2)跨度遮蔽和PMI遮蔽的最優(yōu)遮蔽率低于均勻遮蔽;(3)當(dāng)所有策略都采用最優(yōu)遮蔽率時,Uniform 遮蔽可以獲得比高級策略相當(dāng)甚至更好的結(jié)果。
為了理解更高的遮蔽率和高級遮蔽策略之間的關(guān)系,如下圖顯示,更均勻的遮蔽基本上增加了遮蔽高相關(guān)字符的幾率,從而減少了瑣碎的字符令牌,并迫使模型更穩(wěn)健地學(xué)習(xí)。我們注意到,即使是Uniform 掩蔽,更高的遮蔽率也會增加“意外”覆蓋整個PMI字符跨度的機(jī)會。通過對語料庫上的掩碼采樣,我們計算圖6中的這個概率,發(fā)現(xiàn)當(dāng)遮蔽率從15%提高到40%時,概率增加了8倍。同樣,更高的遮蔽率使遮蔽字符形成更長的跨度,說明增加的遮蔽率可以產(chǎn)生類似于高級遮蔽蔽策略效果,但是會產(chǎn)生學(xué)習(xí)更好的表征。
論文結(jié)論
在本文中,作者對掩蔽語言模型的掩蔽率進(jìn)行了全面的研究,發(fā)現(xiàn)40%的遮蔽率在下游任務(wù)上的性能始終優(yōu)于傳統(tǒng)的15%遮蔽率。通過揭破壞率和預(yù)測率的關(guān)系,可以更好地理解遮蔽率,并表明更大的模型可以從更高的遮蔽率中獲益更多。另外還證明了80-10-10規(guī)則在很大程度上是不需要的,簡單的均勻遮蔽在更高的掩蔽率下與復(fù)雜遮蔽方案的效果是相當(dāng)?shù)摹?/p>
參考資料
- 陳丹琦帶著清華特獎學(xué)弟發(fā)布新成果:打破谷歌BERT提出的訓(xùn)練規(guī)律!這個慶祝方式太學(xué)神了吧https://www.qbitai.com/2022/02/32722.html
總結(jié)
以上是生活随笔為你收集整理的Bert预训练新法则!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 亲爱的我把孩子放大了文案解说
- 下一篇: 理工男的网红生意, 6000万月活50万