【NLP】BERT大魔王为何在商业环境下碰壁?
作者?| Oren Pereg? ?翻譯 |?NewBeeNLP
寫在前面
大型基于Transformer的神經網絡,例如BERT,GPT和XLNET,最近在許多NLP任務中取得了最新的成果。這些模型的成功基于通用任務(例如語言建模)和特定下游任務之間的遷移學習, 這些模型在有標記數據的靜態評估集上表現出色。但是,在商業環境中部署這些模型通常會產生較差的結果。這是因為商業環境通常是動態的,并且在推理數據和訓練數據之間包含連續的領域變化,例如新主題,新詞匯或新寫作風格等。
處理類似這些動態環境的傳統方法是執行連續的重新訓練和驗證,需要不斷地手動數據標記,這不僅費時昂貴且是不切實際的。在數據稀缺的商業環境中實現更好的魯棒性和適應性的一種有前景的方法是在微調階段將與領域無關的知識嵌入到預訓練的模型中。
預訓練模型在低資源環境中表現出色
實際上,許多商業需求都在多種領域上執行相同的任務。例如,考慮對相機(domain A)和筆記本電腦(domain B)兩種不同產品的情感分析。在這種情況下,用于不同domain的現有標記數據量通常很小,并且獲取額外的標記數據既昂貴又不切實際。
與從頭訓練模型相比,預訓練模型的主要優勢是它們通過使用相對少量的標記數據來適應特定任務的能力(如下圖)。在實際的multi-domain環境中,此優勢起著重要作用。但是,是什么使得微調預訓練模型的增強功能在低數據環境中起作用呢?我想部分原因在于,在大規模的預訓練步驟中,網絡會學習語法等結構性語言特征。由于語法是通用特性,因此它既與任務無關,又與領域無關。這種通用的“知識”有助于彌合不同任務和領域之間的鴻溝,并且可以通過微調步驟來提高數據效率。
最近的一篇論文“ What Does BERT Look At?[1] ”闡明了BERT在預訓練期間學到的東西。通過對BERT的self-attention機制的分析,很明顯BERT可以學習大量的語言知識。例如,一些BERT的attention head關注動詞的直接賓語,名詞的確定詞(例如定冠詞),甚至是相關的提及(請參見下圖)。值得注意的是,以無 監督的方式訓練并且沒有任何標記數據的模型能夠學習語言的通用方面。
預訓練模型能解決動態商業環境的挑戰嗎?
在一些動態的商業環境中,根本不可能生成任何標記數據。讓我們來考慮一個經常添加或更改新領域的環境。在這種情況下,不斷標記新的訓練數據將是無效且永無止境的任務, 這些情況需要無監督的領域自適應(domain adaption)系統,該系統使用來自一個領域(source domain)的現有標記數據進行訓練,然后對來自另一個領域(target domain)的未標記數據進行推斷。
我們觀察到,在只有少量目標域標記數據的情況下(下圖),經過預訓練的模型表現比較出色,但是對于根本沒有來自目標域的標記數據的情況呢?預訓練的模型在這些環境中如何表現?迄今為止,使用預訓練的模型僅僅比從頭開始訓練模型有著微小改進(請參見條形圖)。使用標記的目標域數據對BERT進行微調(綠色條)與僅對源域數據進行微調BERT或從頭訓練RNN(藍色和橙色條)之間存在很大差距,這表明預訓練的學習信息預訓練期間的模型比從頭開始的訓練產生了一些增強,但是當無法從目標域中獲得標記數據時,這不足以在整個域中進行擴展。或者說得更直白些:僅使用源域數據對預訓練模型進行微調仍遠遠不能解決無監督域自適應問題。
橙色條表示使用源域數據(筆記本電腦評論)從頭訓練RNN,并使用目標域數據(餐廳評論)進行推理;
藍色條表示使用源域數據進行的BERT微調;
綠色條表示使用目標域數據對BERT進行微調
縮小差距的一步:嵌入結構性信息
那么,為了縮小域內和完全跨域環境之間的鴻溝,該怎么做?在Yann LeCun和Christopher Manning之間的公開討論中,『Deep Learning, Structure and Innate Priors』[2],Manning認為,與缺乏結構信息的系統相比,提供結構信息使我們能夠設計出可以從更少的數據中以更高的抽象水平學習更多信息的系統。NLP社區廣泛支持此觀點。
實際上,在這個工作中,Linguistically-Informed Self-Attention for Semantic Role Labeling[3],表明使用結構信息(即句法信息)可以改進泛化模型。這種改進的泛化增強了域內模型的魯棒性,對于跨域更是如此。例如,在介紹LISA(Linguistically-Informed Self-Attention)模型的最新最著名著作之一中,作者表明,嵌入句法依存關系解析信息可以顯著提高跨域中SRL任務的準確性。作者將語法信息直接嵌入到Transformer網絡的關注頭中,并從頭開始進行訓練。
另一項研究,Attending to Entities for Better Text Understanding[4],表明在cloze test中,那些在自注意力中將dependency relations和coreference chains用作嵌入輔助監督的模型優于參數最大的GPT-2模型。
這些最新的進展使我們在數據稀缺的商業環境中實現更好的魯棒性和可伸縮性又邁出了一步,但是NLP社區仍然需要解決開放的問題和挑戰。應該使用哪種類型的外部信息?如何將這些信息嵌入預訓練的模型中?
結論
基于大型Transformer的預訓練模型最近在許多NLP任務中均取得了SOTA結果。這些模型經過一般語言建模任務的訓練,可以學習該語言的一些基本結構特征,從而使它們在各個領域之間的通用性更好。當給定少量標記的目標域數據時,它們在跨域設置中表現出色。但是,處理動態跨域任務(其中沒有標記的目標域數據)的挑戰仍然存在。在微調階段將外部獨立于領域的知識(即句法信息)嵌入到預訓練的模型中有望獲得成功。
本文翻譯自KDnuggers,可以點擊閱讀原文直達原文。
https://www.kdnuggets.com/2020/03/bert-fails-commercial-environments.html
本文參考資料
[1]
What Does BERT Look At?: https://arxiv.org/pdf/1906.04341.pdf
[2]Deep Learning, Structure and Innate Priors: http://www.abigailsee.com/2018/02/21/deep-learning-structure-and-innate-priors.html
[3]Linguistically-Informed Self-Attention for Semantic Role Labeling: https://arxiv.org/abs/1804.08199
[4]Attending to Entities for Better Text Understanding: https://arxiv.org/abs/1911.04361
-?END?-
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯獲取一折本站知識星球優惠券,復制鏈接直接打開:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群請掃碼進群:總結
以上是生活随笔為你收集整理的【NLP】BERT大魔王为何在商业环境下碰壁?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【NLP】270篇ACL 2019代码开
- 下一篇: 【白话机器学习】算法理论+实战之Ligh