當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

别再无脑wwm了！在下游任务中不一定有效！

發布時間：2024/7/5 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了别再无脑wwm了！在下游任务中不一定有效！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | python

前言

近幾年來，整詞遮掩（whole word masking, wwm）作為一種（幾乎）不增加計算量，卻能大大提升模型表現的方法，被廣泛地運用在預訓練語言模型中，以促進粗粒度語義的整體建模[1]。然而，這種方法真的是通用的么？論文作者認為，中文里詞是一個組合單元，而非英文中的獨立單元。因此，對中文的整詞遮掩預訓練并非天然有效的。論文作者在中文語法改錯任務上做了實驗。結果表明，在字級別糾錯任務上，wwm效果反而不如逐字遮掩效果好。而在整體任務效果上，將逐字遮掩與整詞遮掩結合表現更佳。

該論文為復旦自然語言處理組與騰訊AI lab的工作，發表于ACL 2022 findings.

論文題目：
"Is Whole Word Masking Always Better for Chinese BERT?": Probing on Chinese Grammatical Error Correction

論文鏈接：
（ACL Findings 2022） https://arxiv.org/abs/2203.00286v2

背景

掩碼語言模型與整詞遮掩

掩碼語言模型是預訓練模型中的一個常用的自監督任務。通過遮掩部分輸入內容，讓模型預測還原的方式，增強模型的語言建模能力。

而整詞遮掩方法，利用中文分詞的結果，在掩碼預測時以詞為單位進行遮掩，可以提高對粗粒度語義的建模能力。如下圖所示，original masking只遮掩的“模”，模型可以很容易地利用輸入的“型”來預測被遮掩的內容，從而減低語言模型建模難度。而WWM（whole word masking）將“模型”兩字均遮掩掉，可以促進模型整體建模這個詞匯，促進長距離依賴的建模。

語法改錯任務

該論文在中文語法改錯任務上展開了任務探索。具體而言，可以分為替換和插入兩個任務。如下圖所示。替換任務中，給定句子和需要替換的語段，模型生成替換內容以構成通順語句；插入任務中，給定句子，插入點與插入長度，模型生成插入內容以形成通順的語句。

實驗結果

實驗結果如下圖所示。其中，Ours的三個模型是該論文作者自己從頭預訓練的三個模型，用以公平比較。-clm僅使用字級別掩碼預測，-wwm使用整詞掩碼預測，-clm-wwm同時使用兩種掩碼預測方式。

從中可以看出，在長度為1時，即對單字進行補充或替換，clm具有明顯的優勢。而隨著需要替換的長度增加，wwm的優勢更為明顯。整體而言，看average的結果，clm和wwm同時使用可以取得更好的表現。

而在下游任務上的實驗表明，同時使用clm與wwm，在幾種預訓練設置下，都能在下游任務上取得和wwm相當的表現。

小編的總結

整體而言，這篇文章其實比較tricky。選擇語法改錯中按字插入、替換這種任務，字級別語言建模任務自然可以取得更好的表現。因為字級別遮掩能夠促進模型建模詞內的依賴關系。

這種因地制宜，因材煉丹的思想是有價值的。在做具體任務的時候，必然要考慮具體任務的特點。不會有一種方法簡單有效又能通吃所有任務的。

當然，因地制宜選擇預訓練任務肯定是最合適的，但如果拿不準的話，wwm+clm可能是一種更穩妥的選擇。

類似的思想，還有一些字詞多粒度預訓練語言模型，如AMBERT[2]，LatticeBERT[3]等，通過在預訓練輸入中將字詞同時考慮進去，以提升下游任務表現。

萌屋作者：python

北大畢業的NLP博士。日常寫點論文，碼點知乎，刷點leetcode。主要關注問答、對話、信息抽取、預訓練等方向。力扣國服第一python選手（經常掉下來）。知乎 ID 是 Erutan Lai， leetcode/力扣 ID 是 pku_erutan，歡迎沒事常來逛逛。

作品推薦

恕我直言，你的實驗結論可能嚴重依賴隨機數種子！

AllenAI 發布萬能問答系統 MACAW！各類題型樣樣精通，性能大幅超越 GPT-3！

后臺回復關鍵詞【入群】

加入賣萌屋NLP、CV與搜推廣與求職討論群

后臺回復關鍵詞【頂會】

獲取ACL、CIKM等各大頂會論文集！

[1] Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, and Guoping Hu. 2019. Pre-training with whole word masking for chinese bert. arXiv preprint arXiv:1906.08101.

[2] Xinsong Zhang and Hang Li. 2020. Ambert: A pre- trained language model with multi-grained tokeniza- tion. arXiv preprint arXiv:2008.11869.

[3] Yuxuan Lai, Yijia Liu, Yansong Feng, Songfang Huang, and Dongyan Zhao. 2021. Lattice-bert: Leveraging multi-granularity representations in chi- nese pre-trained language models. arXiv preprint arXiv:2104.07204.

總結

以上是生活随笔為你收集整理的别再无脑wwm了！在下游任务中不一定有效！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python怎么写方程条件,条件方程曲线
下一篇： python中object是什么数据类型