论文浅尝 | 融入知识的弱监督预训练语言模型
論文筆記整理:葉群,浙江大學計算機學院,知識圖譜、NLP方向。
?? 會議:ICLR 2020
鏈接:https://arxiv.org/pdf/1912.09637.pdf
Abstract
預訓練語言模型不僅在傳統的語言學任務上取得了很好的表現,在一些涉及到背景知識的任務上,也取得了一些提升。本文首先在zero-shot fact completion任務上探究了預訓練語言模型捕獲知識的能力,并提出了一種弱監督的訓練目標,使模型學習到更多的背景知識。在新的預訓練方式下,模型在fact completion任務上取得了顯著的提升。下游任務表現中,在QA和entity typing兩個任務上分別比BERT提升2.7和5.7個百分點。
Introduction
預訓練語言模型例如ELMo, BERT和XLNet在大量的NLP任務上取得了新的SOTA。在大規模的自監督訓練過程中,預訓練模型學習到了句法和語義的信息。有趣的是,在一些需要背景知識和推理的任務上,預訓練模型也取得了不錯的效果。比如在WNLI,RECoRD和SWAG任務上,預訓練模型都取得了SOTA,說明模型在預訓練中也學習到了背景知識。本文首先在zero-shot fact completion任務上評估預訓練模型捕獲知識的能力,并提出了一種新的弱監督的訓練目標。實驗證明該訓練目標下,模型可以捕獲到更多的real-world knowledge。
Method
本文設計了一種弱監督訓練目標,給定輸入文本,首先將原始文本鏈接到維基百科的實體,然后將部分實體隨機替換為同類型其他實體。訓練時模型對文本中實體是否替換進行預測,損失函數為二元交叉熵損失函數,即
? ? ? ? ? ? ?
訓練數據為所有的英文的維基百科文本,文本中的實體由anchor link標注好。除了對實體進行替換,訓練目標還保留了BERT中mask language modeling目標,即對字符進行隨機替換,但是替換的比例下降由15%降低為5%。模型架構上,選擇了12層的BERT base。
? ? ? ? ? ? ?
圖1 實體替換策略
Experiments
1. Zero-shot fact completion
數據集來源于Wikidata,每條數據為一個三元組,例如{Paris, Capitalof, France}。去除尾實體,將三元組轉換成query的形式,例如the capital of France is ? 并讓模型對尾實體進行預測。評估指標采用Hits@10。這里的zero-shot指的是模型只有預訓練過程,沒有在具體任務上微調。
實驗結果如表1所示,本文的模型在10個relation中的8個中達到了最佳。
表1 zero-shot fact completion實驗結果
? ? ? ? ? ? ?
2. Question answering
實驗在以下4個數據集上進行:WebQuestions、Trivial QA、Quasar-T、SeachQA;對比的baseline有:DrQA、、DSQA、Evidence Aggregation、 ?BERTserini、OROA。訓練過程即為對模型參數的微調。
實驗結果如表2所示,本文的模型在大多數數據集上都比Baseline方法有所提升。
?
表2 QA實驗結果
? ? ? ? ? ? ?
3. Entity typing
實驗采用了FIGER數據集,對比了ERNIE模型、BERT、LSTM+Hand-craft、Attentative+Hand-craft。實驗結果如表3所示,ERNIE作為同樣融入知識的模型,比BERT提升了5.15%,而本文的模型在BERT的基礎上提升了5.68%。
?
表3 Entity typing實驗結果
? ? ? ? ? ? ?
?
Conclusion
本文提出了一種弱監督方法,使預訓練模型學習到entity-level的知識。實驗證明相比于傳統的預訓練模型,本文的模型可以從非結構化文本中更好地學習到entity-level的知識。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 融入知识的弱监督预训练语言模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 利用冻结语言模型的多模态少
- 下一篇: 征稿 | 软件学报专刊征文:知识赋能的信