面向中文短文本的实体链指任务竞赛亚军DeepBlueAI团队技术分享
?PaperWeekly 原創(chuàng) ·?作者|羅志鵬
學(xué)校|深蘭北京AI研發(fā)中心
研究方向|物體檢測
全國知識圖譜與語義計算大會(CCKS 2020)11 月 12 日至 15 日在江西南昌舉行,CCKS(China Conference on Knowledge Graph and Semantic Computing)由中國中文信息學(xué)會語言與知識計算專委會定期舉辦的全國年度學(xué)術(shù)會議。CCKS 已經(jīng)成為國內(nèi)知識圖譜、語義技術(shù)、語言理解和知識計算等領(lǐng)域的核心會議。
CCKS 2020 舉辦的各項挑戰(zhàn)賽公布了最終結(jié)果,來自深蘭科技北京 AI 研發(fā)中心的 DeepBlueAI 團隊斬獲了?3 項冠軍和 1 項亞軍,并獲得了一項技術(shù)創(chuàng)新獎。我們可以通過這篇文章了解下 DeepBlueAI 團隊在『CCKS 2020:面向中文短文本的實體鏈指任務(wù)』賽題中的解決方案。
賽題介紹
面向中文短文本的實體鏈指,簡稱 EL(Entity Linking),即對于給定的一個中文短文本(如搜索 Query、微博、對話內(nèi)容、文章/視頻/圖片的標(biāo)題等),EL 將其中的實體與給定知識庫中對應(yīng)的實體進行關(guān)聯(lián)。
此次任務(wù)的輸入輸出定義如下:
輸入:中文短文本以及該短文本中的實體集合。
輸出:輸出文本此中文短文本的實體鏈指結(jié)果。每個結(jié)果包含:實體 mention、在中文短文本中的位置偏移、其在給定知識庫中的 id,如果為 NIL 情況,需要再給出實體的上位概念類型。
團隊成績
評價方式采用 F-1 分值,在最終榜單上我們 f1 達到了 0.89538 與第一名僅相差0.00002。
B 榜成績:
A 榜成績:
比賽難點
針對中文短文本的實體鏈指存在很大的挑戰(zhàn),主要原因如下:
口語化嚴重,導(dǎo)致實體歧義消解困難;
短文本上下文語境不豐富,須對上下文語境進行精準理解;
相比英文,中文由于語言自身的特點,在短文本的鏈指問題上更有挑戰(zhàn)。
引言
實體鏈接是一項識別文本中的實體指稱(指文本被識別到的命名實體)并將其映射到知識庫中對應(yīng)實體上的任務(wù)?[1]。
對于一個給定的實體鏈接任務(wù),首先需要使用命名實體識別方法和工具識別文本中的實體,然后對每個實體指稱利用候選實體生成技術(shù)生成對應(yīng)候選實體集,最后利用文本信息和知識庫的信息消除候選實體的歧義得到相匹配實體,如果最沒有相匹配實體則將該實體指稱標(biāo)記為 NIL(代表沒有對應(yīng)實體)。
一般來講,實體鏈接包括三個主要環(huán)節(jié):命名實體識別、候選實體生成、候選實體消歧。
CCKS 2020 任務(wù),對比 2019 年任務(wù) [2] 去掉了實體識別,專注于中文短文本場景下的多歧義實體消歧技術(shù),增加對新實體(NIL 實體)的上位概念類型判斷,所以 CCKS 2020 任務(wù)可以分成兩個子任務(wù),分別為多歧義實體消歧和 NIL 實體類型判斷。
針對實體消歧任務(wù)我們采用了基于 BERT [3] 的二分類方法,對每一個候選實體進行預(yù)測,然后對預(yù)測的概率進行排序,由于數(shù)據(jù)集中包含 NIL 實體,我們將 NIL 實體也作為候選實體參與模型訓(xùn)練和概率排序,進而完成消歧任務(wù)。
對于 NIL 實體類型判斷任務(wù)提出了基于問答的 NIL 實體類型判斷模型,模型通過構(gòu)建問句并依據(jù)已知實體信息構(gòu)建上下文,有效的引入短文本中已知實體的知識庫信息,額外信息的引入能夠顯著提升了模型的性能。
實體消歧任務(wù)
實體消歧主要是對于給定的實體指稱,利用候選實體生成技術(shù)得到相應(yīng)的候選實體集,然后在利用實體消歧模型找到真正對 應(yīng)的那個實體。如圖 1 所示,利用短文本中的實體指稱,可以通過候選實體生成的方式得到候選實體集合,然后利用候選實體的描述信息進行實體消歧的得到與實體指稱相對應(yīng)的實體,如果找不到,則用 NIL 表示。
▲ 圖1 實體消歧數(shù)據(jù)樣例
實體描述文本
知識庫中實體的信息為結(jié)構(gòu)化信息,如下所示:
{"alias":?["承志"],?"subject_id":?"10005",?"data":?[{"predicate":?"摘要",?"object":?"愛新覺羅·承志是輔國公西朗阿之子。"},?{"predicate":?"義項描述",?"object":?"愛新覺羅·承志"},?{"predicate":?"標(biāo)簽",?"object":?"人物、話題人物、歷史"}],?"type":?"Person",?"subject":?"愛新覺羅·承志" }為了方便處理,我們將“predicate”與“object”相連得到描述文本。
候選實體生成
候選實體生成最常用的方法是基于字典的方法 [4,5],這種方法需要根據(jù)給定的知識庫構(gòu)建名稱字典,字典的鍵就是實體的名字,而值則是這個名字所對應(yīng)的所有的具有相同名字的實體。
對于每個實體指稱去檢索字典的鍵,如果字典的鍵符合要求,則將該鍵對應(yīng)的值中所有的實體都加入到候選實體集中,其中判斷字典的鍵是否符合要求通常的做法是采用精確匹配的方式,只有當(dāng)實體指稱和字典鍵彼此完全匹配的情況下才加入到候選實體集。
基本流程為先通過知識庫中的實體名字以及實體別稱構(gòu)建實體字典,然后采用精確匹配的方式匹配得到候選實體。
實體消歧
現(xiàn)在比較流行的消歧模型常用的方案是提取實體所在短文本的上下文特征,以及候選實體描述文本的特征,在將這兩類特征經(jīng)過全連接網(wǎng)絡(luò),最后進行二分類 [6,7]。
這類方法對于長文本很有效,但是對于短文本的消歧效果不是很好,主要是因為短文本內(nèi)容較短,上下文太少,難以提取有效的上下文特征,而候選實體的描述文本過長,這種情況造成傳統(tǒng)的實體消歧模型效果并不理想。考慮到短文本的特性,我們采用了基于 BERT 和實體特征的消歧模型。
▲ 圖2 實體消歧模型圖
模型圖如圖 2 所示,模型采用的思想主要是為利用 BERT 模型 [CLS] 符號的輸出向量,以及實體指稱所在開始位置的向量和結(jié)束位置的向量,經(jīng)過全連接層,然后經(jīng)過 sigmoid 進行二分類。
其中 [CLS] 符號的輸出向量可以用來判斷短文本和候選實體的描述文本是否處在同一語義場景,實體位置的向量可以代表實體的上下文特征。模型的輸入為短文本以及候選實體的描述文本,形式為:[CLS] 短文本 [SEP] 候選實體描述文本 [SEP]。
優(yōu)化點:
動態(tài)負采樣:不同于以往在訓(xùn)練前選取固定的負樣本,模型采用動態(tài)負采樣技術(shù),在模型訓(xùn)練中每個 batch 選取不同的負樣本參與訓(xùn)練,通過這種方式能夠極大的提高模型的泛化能力。
NIL 排序:由于增加了 NIL 實體,對NIL 實體也作為候選實體參與訓(xùn)練和排序。
模型融合:采用了百度 ERNIE-1.0 [8] 和 Roberta-wwm [9] 模型兩個預(yù)訓(xùn)練模型,并采用交叉驗證的方式對最后的結(jié)果進行平均融合。
實體類型判斷
對于實體類型判斷任務(wù)大家通用的思路也就是 baseline 思路為,通過提取 mention 位置的向量,然后經(jīng)過全連接分類,得到實體的類型。
這種方案的最大缺點就是僅僅用短文本的信息去對 NIL 實體進行類型分類,沒有利用到已知實體信息的特征,為了利用上其他不是 NIL 實體的信息,我們構(gòu)建了基于問答的實體類型判斷模型。模型基于問答的思想,通過構(gòu)建問句和上下文將已知實體的信息輸入到模型中,來提升實體類別判斷的性能。
{"text_id":?"456",?"text":?"神探加杰特,和彭妮長得一模一樣,竟想要霸占泰龍的位置",?"mention_data":?[{"kb_id":?"283448",?"mention":?"神探加杰特",?"offset":?"0"},?{"kb_id":?"NIL_VirtualThings",?"mention":?"彭妮",?"offset":?"7"},?{"kb_id":?"NIL_VirtualThings",?"mention":?"泰龍",?"offset":?"21"},?{"kb_id":?"88355",?"mention":?"位置",?"offset":?"24"}] }對于上述例子,其中實體有 “神探加杰特” 、“彭妮”,“泰龍”,“位置” 4 個實體,需要預(yù)測類型的 NIL 實體有“彭妮”,“泰龍”,對于實體 “彭妮”,“泰龍”,“彭妮” 根據(jù)命名習(xí)慣很容易判斷為類型為 Person 類型, 就算根據(jù)短文本的語義分析判斷“彭妮”依舊是 Person 類型,同樣模型學(xué)習(xí)到的也是 Person 類型。而“彭妮”的真實類型為 VirtualThings 類型,可以看出在沒有其他額外信息的情況下,很難準確預(yù)測“彭妮”的類型。
當(dāng)前任務(wù)為:對于輸入文本 ,其中存在 NIL 實體集合 {},求 NIL 實體 對應(yīng)的類型 。在經(jīng)過實體消歧后,已經(jīng)知道部分實體的知識庫信息和類型信息,那么任務(wù)可以變?yōu)?#xff1a;對于輸入文本 ,其中存在實體集合 {},已知實體 的知識庫信息 ,其中知識庫信息 會包含對應(yīng)的類型信息 ,求出 NIL 實體 對應(yīng)的類型 。對于改變后的任務(wù)主要是利用上已知實體的信息,對于這種任務(wù)我們采用問答的形式,對于上述例子根據(jù)短文本以及 mention 構(gòu)建問句為兩個:
Question1:神探加杰特,和彭妮長得一模一樣,竟想要霸占泰龍的位置,彭妮的類型是什么? Question2:神探加杰特,和彭妮長得一模一樣,竟想要霸占泰龍的位置,泰龍的類型是什么?根據(jù)已知的實體信息構(gòu)建相關(guān)上下文為:
Context:神探加杰特的類型是作品,描述為?1983--1985?年美國播出的動畫片,位置類型為其他,描述為詞語釋義通過上下文信息,可以得知“神探加杰特”為一個動畫片,而不是電視劇電影等其他作品,那么模型則可以輕易學(xué)出,動畫片中的人物為 VirtualThings 類型。本文將已知實體的信息分為實體類型和實體的描述(實體的描述僅僅使用了知識庫信息中“義項描述”這一項),后續(xù)會對此進行實驗分析。
具體任務(wù)為,根據(jù) question 和 context 去做多分類來識別問句中要識別 NIL 實體的類型,模型基于 BERT 模型,輸入形式為 [CLS]question[SEP]context[SEP],對于上述例子模型圖如下,模型利用 BERT[CLS] 符號的輸出向量,以及實體所在的開始位置向量和結(jié)束位置向量,經(jīng)過全連接層,然后經(jīng)過 softmax 激活函數(shù)進行多分類。
▲ 圖3 類型判斷模型圖
優(yōu)化點:
對抗學(xué)習(xí):在類型判斷模型訓(xùn)練過程中,加入了 FGM [10] 對抗訓(xùn)練,通過在 word embedding 上添加擾動,提升模型魯棒性和泛化能力。
模型融合:采用了百度 ERNIE-1.0 和 Roberta-wwm 模型兩個預(yù)訓(xùn)練模型,并采用交叉驗證的方式對最后的結(jié)果進行平均融合。
實驗
實體消歧任務(wù)
在實體消歧實驗階段,我們對 NIL 實體類型不做識別,下述試驗結(jié)果沒有加入 NIL 類型的評價。其中實驗中參數(shù)配置如下:batch size 為 32,針對不同層采用不同的學(xué)習(xí)率,其中 BERT 模型初始學(xué)習(xí)率為 1e-5,其他模型參數(shù)初始學(xué)習(xí)率為 5e-4,為了更好地收斂到最優(yōu),采用了基于指數(shù)衰減的學(xué)習(xí)率衰減策略,每輪衰減為原來的 0.5 倍。
NIL 實體判定策略:針對某個實體,有三種情況會判定為 NIL 實體,1. 沒有候選實體 2. 候選實體得分排序,最高得分是NIL,3. 候選實體得分排序,最高得分是不是 NIL,但是得分小于 0.05。
編號 | 模型 | F1 |
1 | Model-static- neg2-ernie | 0.7376 |
2 | Model-dyanmic- neg2-ernie | 0.7415 |
3 | Model-dyanmic- neg1-ernie | 0.7402 |
4 | Model-dyanmic- neg3-ernie | 0.7393 |
5 | Model-dyanmic- neg2-bert | 0.7380 |
6 | Model-dyanmic- neg2-roberta | 0.7383 |
我們對以下幾個維度進行了實驗分析,1. 動態(tài)負采樣與靜態(tài)負采樣 2.負采樣的個數(shù)? 3.不同預(yù)訓(xùn)練模型。實驗結(jié)果如表 1 所示,static 代表靜態(tài)負采樣,dyanmic 代表動態(tài)負采樣,neg2 代表負采樣的個數(shù)為 2。
對比模型 1 與模型 2,動態(tài)負采樣對比靜態(tài)負采樣有著巨大的提升,靜態(tài)負采樣之所以不好是沒有利用上更多負樣本的信息,對比模型 2、3、4 可以得出,負樣本個數(shù)并不是越多越好,當(dāng)負樣本太多時會造成類別不均衡導(dǎo)致最終性能下降,并且負樣本增多也會導(dǎo)致數(shù)據(jù)變大,訓(xùn)練時間增加,綜合考慮本文最終采用 2 個負樣本。
對比模型 4、5、6 可以看出不同的預(yù)訓(xùn)練模型對最終的結(jié)果也有著很大的影響,由于數(shù)據(jù)集由百度提供,數(shù)據(jù)中知識庫來源大多來自百度百科,所有百度開源的 ERNIE 模型性能最佳,roberta 次之,綜合考慮最終本文采取的方案為 ernie 模型與 roberta-wwt 融合。融合方案比較簡單,采用交叉驗證求平均的方式。
實體類型判斷任務(wù)
對于實體類型判斷任務(wù),我們采用準確率作為評價標(biāo)準,在實驗設(shè)計方向本文主要設(shè)計了一下幾個方面的對照實驗,模型1:采用 baseline 思路,將實體位置的向量特征輸出分類,模型2:僅僅加入已知實體的類型信息,不加入其他信息,模型3:加入簡短的實體描述信息,模型4:即加入實體類型信息,又加入實體描述信息。模型5:加入對抗訓(xùn)練。
編號 | 模型 | 準確率 |
1 | Model-baseline | 0.8628 |
2 | Model-type | 0.8793 |
3 | Model-desc | 0.8782 |
4 | Model-type+desc | 0.8800 |
5 | Model- type+desc+FGM | 0.8819 |
由模型 1、2、3、4 可以發(fā)現(xiàn),相比于 baseline 加入已知實體的信息能夠顯著提升模型的性能,說明已知實體的信息對短文本 NIL 實體的類別判斷有著很大的幫助。對比模型 2 和模型 3 可以發(fā)現(xiàn),已知實體的類別信息更為重要,這可能與僅僅采用了實體簡短描述信息而沒有使用實體的全部描述信息。
從模型 4 可以得出將實體的類型信息與描述信息相結(jié)合則能夠達到更好的效果。從模型 5 可以看出加入對抗訓(xùn)練能夠提升模型的泛化能力,對最終的結(jié)果也有很大的提升。
實體鏈接結(jié)果
最終將兩個模型合在一起得到最終的實體鏈接效果表如下所示,其中測試集 A 和測試集 B 為多個模型交叉驗證求平均的結(jié)果。
編號 | 模型 | F1 |
1 | 開發(fā)集 | 0.88010 |
2 | 測試集A | 0.89193 |
3 | 測試集B | 0.89538 |
總結(jié)
我們在 2020(全國知識圖譜與語義計算大會)舉辦的“面向中文短文本的實體鏈指”評測任務(wù)中取得了 A 榜第一名的成績,B 榜第二名的成績,其中基于問答的實體類型判斷模型巧妙的利用到了已知實體的信息,此模型對后續(xù)此類型的任務(wù)提供了借鑒意義。
但是本文依舊有些地方需要改進,如知識庫給定的數(shù)據(jù)具有一定的結(jié)構(gòu)信息,直接連在一起當(dāng)文本使用,會損失這部分特征,可以設(shè)計更好的網(wǎng)絡(luò)來利用這部分結(jié)構(gòu)化信息。
參考文獻
[1] Rao, Delip, Paul McNamee, and Mark Dredze. Entity linking: Finding extracted entities in a knowledge base[J]. Multi-source, multilingual information extraction andsummarization. Springer, Berlin, Heidelberg, 2013. 93-115
[2] https://www.biendata.xyz/competition/ccks_2019_el/
[3] Devlin J, Chang M W, Lee K, et al. BERT: ? Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. 2018.
[4] Zhang W, Su J, Tan C L, et al. Entity Linking Leveraging Automatically Generated Annotation[C]. COLING 2010, 23rd International Conference on Computational Linguistics, Proceedings?of?the Conference, 23-27 August 2010, Beijing, China. DBLP, 2010.
[5] Zhang W, Sim Y C, Su J, et al. Entity Linking with Effective Acronym Expansion, Instance Selection and Topic Modeling[C]. IJCAI 2011, Proceedings of the 22nd International Joint Conference on Artificial Intelligence, Barcelona, Catalonia, Spain, July 16-22, 2011. AAAI Press, 2011.
[6] Chen Z, Ji H. Collaborative Ranking: A Case Study on Entity Linking[C]. Proceedings of the 2011 Conference on?Empirical Methods in Natural Language Processing, ?EMNLP 2011, 27-31 July 2011
[7] Pilz A, Gerhard Paa?. From names to entities using?thematic context distance[C]. ?Acm Conference on Information & Knowledge Management. ACM, 2011.
[8] Sun, Yu, et al. "Ernie: Enhanced representation through knowledge integration." arXiv preprint arXiv:1904.09223 (2019).
[9] Cui, Yiming, et al. "Revisiting Pre-Trained Models for Chinese Natural Language Processing." arXiv preprint arXiv:2004.13922 (2020).
[10] Miyato, Takeru, Andrew M. Dai, and Ian Goodfellow. "Adversarial training methods for semi-supervised text classification." arXiv preprint arXiv:1605.07725 (2016).
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標(biāo)準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的面向中文短文本的实体链指任务竞赛亚军DeepBlueAI团队技术分享的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 世界上有什么好吃的食物吗?
- 下一篇: 柠檬到底是酸性还是碱性(柠檬呈酸性还是碱