小米知识图谱团队斩获CCKS 2020实体链指比赛冠军
“CCKS 2020:面向中文短文本的實體鏈指任務(wù)”是由中國中文信息學(xué)會語言與知識計算專業(yè)委員會主辦,該比賽主要面向中文短文本的實體鏈指,簡稱 EL(Entity Linking)。即對于給定的一個中文短文本(如搜索 Query、微博、對話內(nèi)容、文章/視頻/圖片的標(biāo)題等),EL 將其中的實體與給定知識庫中對應(yīng)的實體進行關(guān)聯(lián)。
比賽任務(wù)
面向中文短文本的實體鏈指,簡稱 EL(Entity Linking)。即對于給定的一個中文短文本(如搜索 Query、微博、對話內(nèi)容、文章/視頻/圖片的標(biāo)題等),EL 將其中的實體與給定知識庫中對應(yīng)的實體進行關(guān)聯(lián)。
輸入:中文短文本以及該短文本中的 mention 和其在中文短文本中的位置偏移。
輸出:輸出文本此中文短文本的實體鏈指結(jié)果。每個結(jié)果包含:實體 mention、其在中文短文本中的位置偏移、其在給定知識庫中的 id,如果為 NIL 情況,需要再給出實體的上位概念類型。
比賽難點
相比于長文本擁有豐富上下文信息能輔助實體的歧義消解,短文本的實體鏈指存在很大的挑戰(zhàn),包括:
(1)比賽數(shù)據(jù)集主要來自于:真實的互聯(lián)網(wǎng)網(wǎng)頁標(biāo)題數(shù)據(jù)、視頻標(biāo)題數(shù)據(jù)以及用戶搜索 Query。存在口語化嚴(yán)重、語序錯亂、錯別字多等問題,導(dǎo)致實體歧義消解困難
(2)短文本上下文語境不豐富,須對上下文語境進行精準(zhǔn)理解
(3)相比英文,中文由于語言自身的特點,在短文本的鏈指問題上更有挑戰(zhàn)
引言
實體鏈指的主要目標(biāo)是識別上下文中的名稱指代哪個現(xiàn)實世界中的實體。具體而言,實體鏈指是將給定文本中的一個指稱項映射到知識庫中的相應(yīng)實體上去,如果知識庫尚未收錄相應(yīng)實體,則返回空實體。
最近有不少這方面的優(yōu)秀工作。Ganea O E& Hofmann T. [1]?開創(chuàng)性地在?EL 中引入 Entity Embedding 作為信息,利用 Attention 機制來獲得 Context 的表征,通過實體間的一致性,和 Mention 到 Entity 的 LinkCount 先驗概率聯(lián)合消歧。
Le, P., & Titov, I. [2] 不僅僅考慮 Local/Global 的影響,同時將實體的關(guān)系也考慮進 Embedding 中,對 Entity,Mention,Relation 元組進行 Embedding,借用 ESIM 思想進行對多關(guān)系加權(quán)處理,并使用網(wǎng)絡(luò)進行匹配操作。
Raiman JR&Raiman OM [3] 認(rèn)為當(dāng)我們能預(yù)測出實體 Mention 的 Type,消歧這個任務(wù)就做的差不多了,主要利用 Type System、Type Classifier 和 LinkCount 來達(dá)到消歧的目的。
Sil et al. [4] 不但利用包含 Mention 的句子和 Wiki 頁面的相似度,還加入了細(xì)粒度的相似度計算模型,將幾種相似度作為神經(jīng)網(wǎng)絡(luò)的輸入,避免了句子中不相關(guān)單詞對 Mention 消歧的影響。綜合來看,實體鏈接不僅要考慮 Text 的文本信息、KB 的信息、消歧后的一致性,還需要根據(jù)具體的業(yè)務(wù)場景采用不同的方案,需要靈活的運用 LinkCount、Context、Attributes、Coherence 這四大特征。
我們針對百度發(fā)布的面向中文短文本的實體鏈指任務(wù),設(shè)計的多因子融合實體鏈指模型。首先采用了預(yù)訓(xùn)練的 BERT 來對短文本中的指稱項進行類別預(yù)測,利用預(yù)測的類型構(gòu)建一個 NIL 實體,和其他候選構(gòu)成完備候選實體集,然后對每一個候選實體進行多方位的特征因子抽取,利用一個多層感知機將多個特征因子融合打分,最后根據(jù)每一個候選實體和文本的關(guān)聯(lián)分?jǐn)?shù)進行排序,選擇分?jǐn)?shù)最高的候選實體作為實體消歧預(yù)測結(jié)果。
模型策略
指稱項分類
指稱項分類是主要基于 BERT 模型,輸入數(shù)據(jù)文本,指稱項的起始位置。輸入文本,經(jīng)過 BERT 模型編碼,取 CLS 位置的特征向量、指稱項開始和結(jié)束位置對應(yīng)的特征向量,三個向量拼接,經(jīng)過全連接層,最后 Softmax 激活得到指稱項的類別概率分布。模型結(jié)構(gòu)如圖 1:
▲ 圖1 實體分類模型圖
其中優(yōu)化主要改進的點包括:
(1)二次訓(xùn)練:訓(xùn)練集合中非 NIL 部分的分類數(shù)據(jù)與 NIL 的分布不同,直接與 NIL 部分的數(shù)據(jù)一起訓(xùn)練會導(dǎo)致模型整體預(yù)測 NIL 實體的準(zhǔn)確率下降,而直接用 NIL 部分的數(shù)據(jù)訓(xùn)練則有些訓(xùn)練數(shù)據(jù)較少的類會訓(xùn)練的不充分。所以我們采用二次訓(xùn)練的方法,第一次的時候使用了訓(xùn)練集中非 NIL 的部分,訓(xùn)練兩個 Epoch,然后再在這個基礎(chǔ)上去訓(xùn)練 NIL 部分。
(2)對抗學(xué)習(xí):對抗訓(xùn)練是對抗防御的一種,它構(gòu)造了一些對抗樣本加入到原數(shù)據(jù)集中,希望增強模型對對抗樣本的魯棒性。我們在模型訓(xùn)練的時候加入了對抗學(xué)習(xí),所使用的對抗學(xué)習(xí)方法是 Fast Gradient Method(FGM) [5]。
(3)模型融合:本次使用了 4 個 BERT 預(yù)訓(xùn)練模型。模型融合的方法是使用多折的方法訓(xùn)練了一個基于 MLP 的分類模型。
候選實體獲取
利用實體的 Alias 字段生成 Mention 和實體的映射表,實體的 Alias 的屬性值即為該實體的 Mention,包含該 Mention 的所有實體組成候選實體集合。在候選實體獲取時,從 Mention 和實體的映射表中,取出該 Mention 的候選實體集合,然后指稱項的類別構(gòu)成的 NIL 實體組成完備候選實體集。這樣組成的完備候選實體集中,必有一個正確的實體和文本中的指稱項關(guān)聯(lián)。訓(xùn)練時,指稱項的類別來自標(biāo)注文本中 Kb_id 對應(yīng)的實體類型,預(yù)測時,指稱項的類別由 3.1 部分描述的指稱項分類模塊預(yù)測得到。
為了后續(xù)使用方便,我們將完備候選實體集中的實體屬性進行拼接,處理成實體的描述文本。由于 Type 字段,義項描述和摘要字段的信息重要且占比較大,描述文本中都按照 Type、義項描述、摘要和 Data 中其他 Predicate、Object 對的順序進行拼接。
例如文本"永嘉廠房出租"中“出租”對應(yīng)的候選實體 Id 和描述文本為[["211585", "類型:其他|簡介:動詞,收取一定的代價,讓別人在約定期限內(nèi)使用|外文名:rental|拼音:chū zū|解釋:交納租稅|中文名:出租|舉例:出租圖書|日本語:レンタル|標(biāo)簽:非娛樂作品、娛樂作品、小說作品、語言、電影、字詞"], ["304417", "類型:車輛|描述:辭源釋義|簡介:出租車,供人臨時雇傭的汽車,多按里程或時間收費,也叫出租車|外文名:Taxi、 Cab、 Hackies|粵語:的士|臺灣名:計程車|拼音:chūzūchē|中文名:出租車|新加坡名:德士|標(biāo)簽:交通工具、社會、生活"], ["NIL_Other", "類型:其他|描述:未知實體"]],其中“211585”和“304417”為檢索到的候選實體集合,NIL_Work 為生成的候選實體,一起組成了“出租”在該文本下的完備候選實體集。
實體消歧
針對實體消歧任務(wù),目前最常用的方法是將其視為二分類問題。對每一個候選實體進行多方位的特征因子抽取,將這些特征因子利用一個多層感知機模型進行融合打分,預(yù)測每一個候選實體和指稱項的關(guān)聯(lián)分?jǐn)?shù)。最后對這些分?jǐn)?shù)進行排序,由于我們在候選實體獲取階段,構(gòu)建的是完備候選實體集,那么必有一個正確候選實體,所以在排序后選擇 Top1 即可作為指稱項的關(guān)聯(lián)實體。
特征因子抽取的抽取包括上下文相關(guān)特征和上下文無關(guān)特征,其中上下文相關(guān)特征包括指稱項和候選實體的關(guān)聯(lián)概率計算,多個指稱項之間的關(guān)聯(lián)概率計算等,上下文無關(guān)特征包括實體的流行度、實體的類型等。
這里起到關(guān)鍵作用的特征就是指稱項和候選實體的關(guān)聯(lián)概率。指稱項和候選實體的關(guān)聯(lián)概率和語義相似度計算的區(qū)別在于需要指明文本中待消歧的指稱項。我們利用標(biāo)記符在文本中直接標(biāo)記出指稱項的位置,指明待消歧的指稱項。輸入文本和候選實體描述文本,在文本的指稱項開始和結(jié)束位置添加標(biāo)記符,經(jīng)過 BERT 模型編碼,取 CLS 位置的特征向量,經(jīng)過全連接層,最后 Softmax 激活得到文本中指稱項和候選實體之間的相關(guān)性。求指稱項和候選實體關(guān)聯(lián)概率的模型結(jié)構(gòu)如圖 2 所示。
?
▲ 圖2 實體鏈接模型圖
另外我們在實體消歧模塊也嘗試加入對抗學(xué)習(xí)來提高模型的魯棒性,其中對抗學(xué)習(xí)的方法是 FGM。不同的 BERT 預(yù)訓(xùn)練模型抽取的特征不同,為了豐富特征,本模塊采用了 19 個特征因子來從不同方面刻畫指稱項和候選實體的相關(guān)性。這 19 個特征如下表 1 所示,分別為:
?
▲ 表1 實體消歧特征
特征因子融合的方法是使用多折的方法訓(xùn)練了一個 MLP 的模型。將所有數(shù)據(jù)集分成 n 份,不重復(fù)地每次取其中一份做測試集,用其他四份做訓(xùn)練集訓(xùn)練模型,訓(xùn)練得到 n 個模型。預(yù)測時,取 n 個模型的預(yù)測結(jié)果的平均值,作為預(yù)測結(jié)果。
比賽結(jié)果
CCKS 2020 中文短文本的實體鏈指比賽,限定在給定的標(biāo)注數(shù)據(jù)和知識庫中。標(biāo)注數(shù)據(jù)均通過百度眾包標(biāo)注生成,準(zhǔn)確率 95% 以上。標(biāo)注數(shù)據(jù)集主要來自于:真實的互聯(lián)網(wǎng)網(wǎng)頁標(biāo)題數(shù)據(jù)、視頻標(biāo)題數(shù)據(jù)、用戶搜索 Query。
每條標(biāo)注數(shù)據(jù)包含 Text,Text_id 和 Mention_data 字段,Mention_data 里面包含連接的 Mention,Offset 以及 Kb_id 字段。知識庫包含來自百度百科知識庫的約 39 萬個實體。知識庫中每行代表知識庫的一條記錄(一個實體信息),每條記錄為 Json 數(shù)據(jù)格式。
指稱項分類模型訓(xùn)練中使用二次訓(xùn)練的方法 F1 提升了約 1%,使用對抗學(xué)習(xí) F1 提升了約 0.5%,模型融合后在 Dev 數(shù)據(jù)上 F1 值達(dá)到了 90.02%。具體參數(shù)和驗證數(shù)據(jù)集下結(jié)果如下表:
▲?表2 實體分類參數(shù)以及結(jié)果
實體消歧模型共抽取了 19 個特征因子,使用多折的方法訓(xùn)練了一個 MLP 的模型對這些特征因子進行融合,融合后在 Dev 數(shù)據(jù)上 F1 值達(dá)到了 89.29%。具體參數(shù)和驗證數(shù)據(jù)集下結(jié)果如下表:
?
▲?表3 實體消歧參數(shù)以及結(jié)果
總結(jié)與討論
本文對實體鏈指消歧做了一些探索。利用指稱項類型預(yù)測,構(gòu)建 NIL_type 實體,解決無鏈接指代預(yù)測問題,同時利用 BERT、對抗學(xué)習(xí)、特征融合等訓(xùn)練方法極大地提高了實體消歧的準(zhǔn)確率,獲得了比賽的第一名以及創(chuàng)新獎,相關(guān)論文已被 CCKS 2020 收錄。?
比賽也為小米的后續(xù)研究指明了方向。比如當(dāng)前方法沒有充分利用其它指稱項的侯選實體信息,對其他指稱項信息的利用僅僅停留在名稱層面。另外,可以利用一些特征,先對候選實體進行一次排序,選擇排序前幾的候選實體進行下一步的消歧,這樣分層消歧在候選實體過多的情況下不僅可以提高準(zhǔn)確率,還能提高消歧效率。
參考文獻
[1] Ganea O E, Hofmann T. Deep joint entity disambiguation with local neural attention[J]. arXiv preprint arXiv:1704.04920, 2017.
[2] Le P, Titov I. Improving entity linking by modeling latent relations between mentions[J]. arXiv preprint arXiv:1804.10637, 2018.
[3] Raiman J, Raiman O. Deeptype: multilingual entity linking by neural type system evolution[J]. arXiv preprint arXiv:1802.01021, 2018.
[4] Sil A, Kundu G, Florian R, et al. Neural cross-lingual entity linking[J]. arXiv preprint arXiv:1712.01813, 2017.
[5] Goodfellow, Ian J, Shlens, Jonathon, and Szegedy, Christian. Explaining and harnessing adversarial examples.International Conference on Learning Representations(ICLR), 2015.
?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的小米知识图谱团队斩获CCKS 2020实体链指比赛冠军的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 坦克最重多地方是什么?
- 下一篇: 从宏观调控法的角度如何避免雄安新区出现房