论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...
轉載公眾號 |?浙大KG
論文題目:Drop Redundant, Shrink Irrelevant: Selective Knowledge Injection for Language Model Pretraining
本文作者:張寧豫(浙江大學)、鄧淑敏(浙江大學)、張亦弛(阿里巴巴)、張偉(阿里巴巴)、陳華鈞(浙江大學)等
發表會議:IJCAI?2021?(歡迎轉載,轉載請注明出處)
引言
近年來,有很多工作嘗試將知識圖譜等外部知識融入到BERT為代表的預訓練語言模型中。但是,不少外部知識存在一定程度的噪音,且不少實體存在歧義。事實上,先前工作已發現預訓練語言模型中捕獲了相當數量的實體、常識知識,那么不加選擇地將所有的外部知識融入語言模型真的最優么?本文探討了語言模型中融入知識噪音的問題,并提出了一種基于頻率采樣和譜正則化的選擇性知識融入方法。在基準數據集上的實驗結果表明,我們的方法可以增強最新的知識注入的預訓練語言模型。
一、前言
2018年以來,預訓練語言模型的研究風起云涌。由于預訓練過程缺乏對知識的捕捉,學者們提出不少將知識融合預訓練語言模型的方法如ERNIE[1]、KnowBERT[2]、CoLake[3]等。知識的融入的確提升了不少知識密集型任務如關系抽取、實體分類等的效果。然而,外部知識中存在相當程度的噪音。一方面,由于實體的歧義性,文本可能會被融入完全錯誤、不相關的實體知識。比如,對于“qq飛車小橘子”這句話,如果將水果“小橘子”的實體知識融入語言模型,對語義理解反而可能會其負面作用。另一方面,并不是所有的三元組知識都能促進語義理解。比如對于“斯蒂芬·庫里和克萊·湯普森帶領勇士隊勇奪2015年nbva冠軍”這句話,三元組知識(斯蒂芬·庫里,女兒,賴利)在可能對理解語義起不到多少幫助。事實上,CokeBERT[4]和K-BERT[5]都曾在實驗中發現,不加選擇的融入知識并非最優。
從另一個角度,2019年Allan 發表在EMNLP2019的論文[6]及一些后續工作[7,8,9]指出,預訓練語言模型在參數空間其實學習到了大量的實體、常識知識,甚至可以作為一個連續型知識庫,這啟發了我們思考:語言模型注入的知識真的越多越好么?外部的噪音知識對模型有什么影響呢?我們有沒有辦法對知識加以選擇更好地進行知識注入呢?其實,[10]中有學者發現,不加選擇的注入實體知識并不一定會帶來知識密集型任務性能的提升。受到這些工作啟發,我們首先分析了知識中噪音對預訓練語言模型的影響。
二、分析
我們首先采樣了部分實體和實例,并根據實體頻率分析不同知識注入的差異,其次分析了知識噪音對模型的影響。由于很難判斷知識圖譜中究竟有多少噪音,因此我們采取人工控制噪音的方式來分析,這里的噪音主要是指實體的歧義性。我們通過實體替換的方式來人工制造知識噪音。
如上圖a所示,我們發現對于低頻實體而言,注入實體的增益相對較大,這一發現也同[10]中的結論類似。在圖b中,我們發現,隨著噪音的注入,模型性能顯著下降。這一發現也同[11]中的隨機擾動知識圖譜導致的結論一致。由此我們發現,一般來說,知識噪音會損害模型性能(極少數情況噪音會修復知識圖譜中錯誤的關聯關系進而提升魯棒性,見[11])?;诖税l現,我們可以通過頻率對知識進行選擇,以注入對模型更加有用的知識,減少噪音注入的可能性。
受到遷移學習中負遷移理論的啟發[12,13],我們進行進一步分析。我們對知識注入模型的權重和特征及其奇異值進行分析,以驗證語言模型是否可以適用于負遷移理論。
具體的說,我們對預訓練語言模型的最后一層輸出特征進行SVD分解,并比較模型在給定15%、30%、50%和100%訓練樣本時奇異值的情況,如下公式所示:
如下圖所示,我們發現在下游任務微調過程中,模型特征的尾部奇異值往往會自動下降,這一發現也和論文[13]中結論一致,也就說注入的噪音知識可以類比成遷移學習中造成負遷移的原因之一。基于此發現,我們可以直接對尾部奇異值進行約束,以減輕源領域(注入了噪音的語言模型)對下有任務的影響。
三、方法
方法包含兩部分,首先我們提出一種基于頻率的實體采樣算法來選擇知識(這一方法不需要額外參數,也可以基于注意力機制來選擇知識如[14])。先前的工作表明,語言模型其實已經掌握了大部分高頻實體知識,因此我們對預訓練語料(維基百科)中的高頻實體設置一個較低的權重,鼓勵模型注入低頻實體。
然而,由于知識圖譜中存在大量一對多、多對一的事實知識,這部分知識高頻實體也較難習得,且這些實體包含的信息相對較為豐富,因此,我們提高同一個文檔內的實體間跳數較少的實體的采樣權重(超參數控制),具體采樣公式如下:
其次,我們采用了一種譜正則技術來減輕噪音對微調的影響。一般來說傳統的機器學習模型可以通過對參數或特征進行正則來減輕遷移學習的負遷移現象,然而對于語言模型,其參數維度遠大于特征維度,因此我們僅對特征進行正則。我們對語言模型的輸出特征進行SVD分解,并對尾部k個特征值進行約束:
整體的模型圖如下:
四、實驗
我們基于維基百科重新進行了知識注入預訓練(ERNIR,KnowBERT),并在多個知識密集型數據集上進行了實驗,如下表所示,我們的方法在大多數數據集上都取得了較好的效果。此外,我們還發現,通過知識選擇和正則化,我們的方法在GLUE上的性能下降小于原始的知識注入模型。
五、總結與展望
在本文中,我們分析了知識噪音對語言模型性能的影響,并提出一種基于知識選擇的知識融入方法。隨著人工神經網絡技術的不斷發展,數據驅動漸入天花板。盡管超大規模的預訓練語言模型如GPT-3取得了令人驚艷的效果,它仍然經常鬧笑話。數據+知識是驅動未來認知AI的重要路線之一。對于通用的、高頻的實體、常識等知識,也許可以通過大規模預訓練習得,然而更多的低頻長尾知識、多元關聯知識、復雜邏輯知識,數據驅動的方法較難使模型具備相應的能力,可能知識注入和融合符號化推理的方式更加有效。我們的工作探討了如何更好的利用知識,但仍然有模型訓練慢、知識選擇相對Ad hoc等不足。在未來很多可以改進的方向如:
1)深入探索哪些知識對神經網絡更有用?
神經網絡通過海量的數據預訓練可能已經在參數空間習得部分知識,這些連續空間的參數更加有利于機器去適應下有任務,[15]探索了模型究竟掌握了哪些常識知識,仍需要更多的工作去探索神經網絡的能與不能。
2)如何高效注入知識?
符號化知識和向量化表征存在顯著的異構性,[16]提出了一種基于Graph-to-text的方式減輕了數據差異,然而對于大多數人類可讀的知識,如何高效的將其轉換為機器可理解的方式,并注入模型中,仍面臨較大挑戰。
3)如何更新模型中的知識?
互聯網每天會產生海量的新文本,人類知識也在不斷更新,比如在不同時間階段三元組知識(美國,現任總統,特朗普)會更新為(美國,現任總統,拜登)。因此,如何更新預訓練語言模型參數空間的知識面臨研究挑戰。[17]對這一問題進行了初步探索。事實上,降低預訓練語言模型的迭代成本,使得模型低碳、經濟、環保具有非常重要的現實意義。
4)如何解耦模式識別和符號推理?
神經網絡由于其強大的非線性擬合能力,使其在一定程度上具備超越人類的模式識別能力。然而,對于一些基本的常識、數值、邏輯推理問題,預訓練語言模型經常鬧笑話。融合數據和知識,進行神經符號化學習可能是使機器具備推理能力的重要技術路線之一。然而神經網絡的向量空間高度抽象,符號空間相對離散,如何針對具體任務將符號表示Grounding到向量空間,解耦模式識別和符號推理仍面臨嚴峻挑戰。
[1] ERNIE: Enhanced Language Representation with Informative Entities. ACL2019
[2] Knowledge Enhanced Contextual Word Representations. EMNLP2019
[3] CoLAKE: Contextualized Language and Knowledge Embedding.COLING2020
[4] CokeBERT: Contextual Knowledge Selection and Embedding towards Enhanced Pre-Trained Language Models
[5] K-BERT: Enabling Language Representation with Knowledge Graph.AAAI2020
[6] Language Models as Knowledge Bases? EMNLP2019
[7] Language Models as Knowledge Bases: On Entity Representations, Storage Capacity, and Paraphrased Queries.
[8] How can we know what language models know
[9] Language Models are Open Knowledge Graphs.
[10] KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation. TACL2020
[11] Learning to Deceive Knowledge Graph Augmented Models via Targeted Perturbation ICLR2020
[12] Transferability vs. Discriminability: Batch Spectral Penalization for Adversarial Domain Adaptation. ICML2019
[13] Catastrophic Forgetting Meets Negative Transfer: Batch Spectral Shrinkage for Safe Transfer Learning. NeurIPS 2020
[14] Commonsense Knowledge Aware Conversation Generation with Graph Attention. IJCAI2018
[15] Dimensions of Commonsense Knowledge
[16] Benchmarking Knowledge-enhanced Commonsense Question Answering via Knowledge-to-Text Transformation. AAAI2021
[17] Knowledge Neurons in Pretrained Transformers
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 会议交流 | IJCKG 2021 日程
- 下一篇: 论文浅尝 | 异构图 Transform