别再无脑wwm了!在下游任务中不一定有效!
文 | python
前言
近幾年來,整詞遮掩(whole word masking, wwm)作為一種(幾乎)不增加計算量,卻能大大提升模型表現的方法,被廣泛地運用在預訓練語言模型中,以促進粗粒度語義的整體建模[1]。然而,這種方法真的是通用的么?論文作者認為,中文里詞是一個組合單元,而非英文中的獨立單元。因此,對中文的整詞遮掩預訓練并非天然有效的。論文作者在中文語法改錯任務上做了實驗。結果表明,在字級別糾錯任務上,wwm效果反而不如逐字遮掩效果好。而在整體任務效果上,將逐字遮掩與整詞遮掩結合表現更佳。
該論文為復旦自然語言處理組與騰訊AI lab的工作,發表于ACL 2022 findings.
論文題目:
"Is Whole Word Masking Always Better for Chinese BERT?": Probing on Chinese Grammatical Error Correction
論文鏈接:
(ACL Findings 2022) https://arxiv.org/abs/2203.00286v2
背景
掩碼語言模型與整詞遮掩
掩碼語言模型是預訓練模型中的一個常用的自監督任務。通過遮掩部分輸入內容,讓模型預測還原的方式,增強模型的語言建模能力。
而整詞遮掩方法,利用中文分詞的結果,在掩碼預測時以詞為單位進行遮掩,可以提高對粗粒度語義的建模能力。如下圖所示,original masking只遮掩的“模”,模型可以很容易地利用輸入的“型”來預測被遮掩的內容,從而減低語言模型建模難度。而WWM(whole word masking)將“模型”兩字均遮掩掉,可以促進模型整體建模這個詞匯,促進長距離依賴的建模。
語法改錯任務
該論文在中文語法改錯任務上展開了任務探索。具體而言,可以分為替換和插入兩個任務。如下圖所示。替換任務中,給定句子和需要替換的語段,模型生成替換內容以構成通順語句;插入任務中,給定句子,插入點與插入長度,模型生成插入內容以形成通順的語句。
實驗結果
實驗結果如下圖所示。其中,Ours的三個模型是該論文作者自己從頭預訓練的三個模型,用以公平比較。-clm僅使用字級別掩碼預測,-wwm使用整詞掩碼預測,-clm-wwm同時使用兩種掩碼預測方式。
從中可以看出,在長度為1時,即對單字進行補充或替換,clm具有明顯的優勢。而隨著需要替換的長度增加,wwm的優勢更為明顯。整體而言,看average的結果,clm和wwm同時使用可以取得更好的表現。
而在下游任務上的實驗表明,同時使用clm與wwm,在幾種預訓練設置下,都能在下游任務上取得和wwm相當的表現。
小編的總結
整體而言,這篇文章其實比較tricky。選擇語法改錯中按字插入、替換這種任務,字級別語言建模任務自然可以取得更好的表現。因為字級別遮掩能夠促進模型建模詞內的依賴關系。
這種因地制宜,因材煉丹的思想是有價值的。在做具體任務的時候,必然要考慮具體任務的特點。不會有一種方法簡單有效又能通吃所有任務的。
當然,因地制宜選擇預訓練任務肯定是最合適的,但如果拿不準的話,wwm+clm可能是一種更穩妥的選擇。
類似的思想,還有一些字詞多粒度預訓練語言模型,如AMBERT[2],LatticeBERT[3]等,通過在預訓練輸入中將字詞同時考慮進去,以提升下游任務表現。
萌屋作者:python
北大畢業的NLP博士。日常寫點論文,碼點知乎,刷點leetcode。主要關注問答、對話、信息抽取、預訓練等方向。力扣國服第一python選手(經常掉下來)。知乎 ID 是 Erutan Lai, leetcode/力扣 ID 是 pku_erutan,歡迎沒事常來逛逛。
作品推薦
恕我直言,你的實驗結論可能嚴重依賴隨機數種子!
AllenAI 發布萬能問答系統 MACAW!各類題型樣樣精通,性能大幅超越 GPT-3!
后臺回復關鍵詞【入群】
加入賣萌屋NLP、CV與搜推廣與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1] Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, and Guoping Hu. 2019. Pre-training with whole word masking for chinese bert. arXiv preprint arXiv:1906.08101.
[2] Xinsong Zhang and Hang Li. 2020. Ambert: A pre- trained language model with multi-grained tokeniza- tion. arXiv preprint arXiv:2008.11869.
[3] Yuxuan Lai, Yijia Liu, Yansong Feng, Songfang Huang, and Dongyan Zhao. 2021. Lattice-bert: Leveraging multi-granularity representations in chi- nese pre-trained language models. arXiv preprint arXiv:2104.07204.
總結
以上是生活随笔為你收集整理的别再无脑wwm了!在下游任务中不一定有效!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python怎么写方程条件,条件方程曲线
- 下一篇: python中object是什么数据类型