當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

小米知识图谱团队斩获CCKS 2020实体链指比赛冠军

發(fā)布時間：2024/10/8 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了小米知识图谱团队斩获CCKS 2020实体链指比赛冠军小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

“CCKS 2020：面向中文短文本的實體鏈指任務(wù)”是由中國中文信息學(xué)會語言與知識計算專業(yè)委員會主辦，該比賽主要面向中文短文本的實體鏈指，簡稱 EL（Entity Linking）。即對于給定的一個中文短文本（如搜索 Query、微博、對話內(nèi)容、文章/視頻/圖片的標(biāo)題等），EL 將其中的實體與給定知識庫中對應(yīng)的實體進行關(guān)聯(lián)。

比賽任務(wù)

面向中文短文本的實體鏈指，簡稱 EL（Entity Linking）。即對于給定的一個中文短文本（如搜索 Query、微博、對話內(nèi)容、文章/視頻/圖片的標(biāo)題等），EL 將其中的實體與給定知識庫中對應(yīng)的實體進行關(guān)聯(lián)。

輸入：中文短文本以及該短文本中的 mention 和其在中文短文本中的位置偏移。

輸出：輸出文本此中文短文本的實體鏈指結(jié)果。每個結(jié)果包含：實體 mention、其在中文短文本中的位置偏移、其在給定知識庫中的 id，如果為 NIL 情況，需要再給出實體的上位概念類型。

比賽難點

相比于長文本擁有豐富上下文信息能輔助實體的歧義消解，短文本的實體鏈指存在很大的挑戰(zhàn)，包括：

（1）比賽數(shù)據(jù)集主要來自于：真實的互聯(lián)網(wǎng)網(wǎng)頁標(biāo)題數(shù)據(jù)、視頻標(biāo)題數(shù)據(jù)以及用戶搜索 Query。存在口語化嚴(yán)重、語序錯亂、錯別字多等問題，導(dǎo)致實體歧義消解困難

（2）短文本上下文語境不豐富，須對上下文語境進行精準(zhǔn)理解

（3）相比英文，中文由于語言自身的特點，在短文本的鏈指問題上更有挑戰(zhàn)

引言

實體鏈指的主要目標(biāo)是識別上下文中的名稱指代哪個現(xiàn)實世界中的實體。具體而言，實體鏈指是將給定文本中的一個指稱項映射到知識庫中的相應(yīng)實體上去，如果知識庫尚未收錄相應(yīng)實體，則返回空實體。

最近有不少這方面的優(yōu)秀工作。Ganea O E& Hofmann T. [1]?開創(chuàng)性地在?EL 中引入 Entity Embedding 作為信息，利用 Attention 機制來獲得 Context 的表征，通過實體間的一致性，和 Mention 到 Entity 的 LinkCount 先驗概率聯(lián)合消歧。

Le, P., & Titov, I. [2] 不僅僅考慮 Local/Global 的影響，同時將實體的關(guān)系也考慮進 Embedding 中，對 Entity，Mention，Relation 元組進行 Embedding，借用 ESIM 思想進行對多關(guān)系加權(quán)處理，并使用網(wǎng)絡(luò)進行匹配操作。

Raiman JR&Raiman OM [3] 認(rèn)為當(dāng)我們能預(yù)測出實體 Mention 的 Type，消歧這個任務(wù)就做的差不多了，主要利用 Type System、Type Classifier 和 LinkCount 來達(dá)到消歧的目的。

Sil et al. [4] 不但利用包含 Mention 的句子和 Wiki 頁面的相似度，還加入了細(xì)粒度的相似度計算模型，將幾種相似度作為神經(jīng)網(wǎng)絡(luò)的輸入，避免了句子中不相關(guān)單詞對 Mention 消歧的影響。綜合來看，實體鏈接不僅要考慮 Text 的文本信息、KB 的信息、消歧后的一致性，還需要根據(jù)具體的業(yè)務(wù)場景采用不同的方案，需要靈活的運用 LinkCount、Context、Attributes、Coherence 這四大特征。

我們針對百度發(fā)布的面向中文短文本的實體鏈指任務(wù)，設(shè)計的多因子融合實體鏈指模型。首先采用了預(yù)訓(xùn)練的 BERT 來對短文本中的指稱項進行類別預(yù)測，利用預(yù)測的類型構(gòu)建一個 NIL 實體，和其他候選構(gòu)成完備候選實體集，然后對每一個候選實體進行多方位的特征因子抽取，利用一個多層感知機將多個特征因子融合打分，最后根據(jù)每一個候選實體和文本的關(guān)聯(lián)分?jǐn)?shù)進行排序，選擇分?jǐn)?shù)最高的候選實體作為實體消歧預(yù)測結(jié)果。

模型策略

指稱項分類

指稱項分類是主要基于 BERT 模型，輸入數(shù)據(jù)文本，指稱項的起始位置。輸入文本，經(jīng)過 BERT 模型編碼，取 CLS 位置的特征向量、指稱項開始和結(jié)束位置對應(yīng)的特征向量，三個向量拼接，經(jīng)過全連接層，最后 Softmax 激活得到指稱項的類別概率分布。模型結(jié)構(gòu)如圖 1：

▲ 圖1 實體分類模型圖

其中優(yōu)化主要改進的點包括：

（1）二次訓(xùn)練：訓(xùn)練集合中非 NIL 部分的分類數(shù)據(jù)與 NIL 的分布不同，直接與 NIL 部分的數(shù)據(jù)一起訓(xùn)練會導(dǎo)致模型整體預(yù)測 NIL 實體的準(zhǔn)確率下降，而直接用 NIL 部分的數(shù)據(jù)訓(xùn)練則有些訓(xùn)練數(shù)據(jù)較少的類會訓(xùn)練的不充分。所以我們采用二次訓(xùn)練的方法，第一次的時候使用了訓(xùn)練集中非 NIL 的部分，訓(xùn)練兩個 Epoch，然后再在這個基礎(chǔ)上去訓(xùn)練 NIL 部分。

（2）對抗學(xué)習(xí)：對抗訓(xùn)練是對抗防御的一種，它構(gòu)造了一些對抗樣本加入到原數(shù)據(jù)集中，希望增強模型對對抗樣本的魯棒性。我們在模型訓(xùn)練的時候加入了對抗學(xué)習(xí)，所使用的對抗學(xué)習(xí)方法是 Fast Gradient Method（FGM） [5]。

（3）模型融合：本次使用了 4 個 BERT 預(yù)訓(xùn)練模型。模型融合的方法是使用多折的方法訓(xùn)練了一個基于 MLP 的分類模型。

候選實體獲取

利用實體的 Alias 字段生成 Mention 和實體的映射表，實體的 Alias 的屬性值即為該實體的 Mention，包含該 Mention 的所有實體組成候選實體集合。在候選實體獲取時，從 Mention 和實體的映射表中，取出該 Mention 的候選實體集合，然后指稱項的類別構(gòu)成的 NIL 實體組成完備候選實體集。這樣組成的完備候選實體集中，必有一個正確的實體和文本中的指稱項關(guān)聯(lián)。訓(xùn)練時，指稱項的類別來自標(biāo)注文本中 Kb_id 對應(yīng)的實體類型，預(yù)測時，指稱項的類別由 3.1 部分描述的指稱項分類模塊預(yù)測得到。

為了后續(xù)使用方便，我們將完備候選實體集中的實體屬性進行拼接，處理成實體的描述文本。由于 Type 字段，義項描述和摘要字段的信息重要且占比較大，描述文本中都按照 Type、義項描述、摘要和 Data 中其他 Predicate、Object 對的順序進行拼接。

實體消歧

針對實體消歧任務(wù)，目前最常用的方法是將其視為二分類問題。對每一個候選實體進行多方位的特征因子抽取，將這些特征因子利用一個多層感知機模型進行融合打分，預(yù)測每一個候選實體和指稱項的關(guān)聯(lián)分?jǐn)?shù)。最后對這些分?jǐn)?shù)進行排序，由于我們在候選實體獲取階段，構(gòu)建的是完備候選實體集，那么必有一個正確候選實體，所以在排序后選擇 Top1 即可作為指稱項的關(guān)聯(lián)實體。

特征因子抽取的抽取包括上下文相關(guān)特征和上下文無關(guān)特征，其中上下文相關(guān)特征包括指稱項和候選實體的關(guān)聯(lián)概率計算，多個指稱項之間的關(guān)聯(lián)概率計算等，上下文無關(guān)特征包括實體的流行度、實體的類型等。

這里起到關(guān)鍵作用的特征就是指稱項和候選實體的關(guān)聯(lián)概率。指稱項和候選實體的關(guān)聯(lián)概率和語義相似度計算的區(qū)別在于需要指明文本中待消歧的指稱項。我們利用標(biāo)記符在文本中直接標(biāo)記出指稱項的位置，指明待消歧的指稱項。輸入文本和候選實體描述文本，在文本的指稱項開始和結(jié)束位置添加標(biāo)記符，經(jīng)過 BERT 模型編碼，取 CLS 位置的特征向量，經(jīng)過全連接層，最后 Softmax 激活得到文本中指稱項和候選實體之間的相關(guān)性。求指稱項和候選實體關(guān)聯(lián)概率的模型結(jié)構(gòu)如圖 2 所示。

▲ 圖2 實體鏈接模型圖

另外我們在實體消歧模塊也嘗試加入對抗學(xué)習(xí)來提高模型的魯棒性，其中對抗學(xué)習(xí)的方法是 FGM。不同的 BERT 預(yù)訓(xùn)練模型抽取的特征不同，為了豐富特征，本模塊采用了 19 個特征因子來從不同方面刻畫指稱項和候選實體的相關(guān)性。這 19 個特征如下表 1 所示，分別為：

▲ 表1 實體消歧特征

特征因子融合的方法是使用多折的方法訓(xùn)練了一個 MLP 的模型。將所有數(shù)據(jù)集分成 n 份，不重復(fù)地每次取其中一份做測試集，用其他四份做訓(xùn)練集訓(xùn)練模型，訓(xùn)練得到 n 個模型。預(yù)測時，取 n 個模型的預(yù)測結(jié)果的平均值，作為預(yù)測結(jié)果。

比賽結(jié)果

CCKS 2020 中文短文本的實體鏈指比賽，限定在給定的標(biāo)注數(shù)據(jù)和知識庫中。標(biāo)注數(shù)據(jù)均通過百度眾包標(biāo)注生成，準(zhǔn)確率 95% 以上。標(biāo)注數(shù)據(jù)集主要來自于：真實的互聯(lián)網(wǎng)網(wǎng)頁標(biāo)題數(shù)據(jù)、視頻標(biāo)題數(shù)據(jù)、用戶搜索 Query。

每條標(biāo)注數(shù)據(jù)包含 Text，Text_id 和 Mention_data 字段，Mention_data 里面包含連接的 Mention，Offset 以及 Kb_id 字段。知識庫包含來自百度百科知識庫的約 39 萬個實體。知識庫中每行代表知識庫的一條記錄（一個實體信息），每條記錄為 Json 數(shù)據(jù)格式。

指稱項分類模型訓(xùn)練中使用二次訓(xùn)練的方法 F1 提升了約 1%，使用對抗學(xué)習(xí) F1 提升了約 0.5%，模型融合后在 Dev 數(shù)據(jù)上 F1 值達(dá)到了 90.02%。具體參數(shù)和驗證數(shù)據(jù)集下結(jié)果如下表：

▲?表2 實體分類參數(shù)以及結(jié)果

實體消歧模型共抽取了 19 個特征因子，使用多折的方法訓(xùn)練了一個 MLP 的模型對這些特征因子進行融合，融合后在 Dev 數(shù)據(jù)上 F1 值達(dá)到了 89.29%。具體參數(shù)和驗證數(shù)據(jù)集下結(jié)果如下表：

▲?表3 實體消歧參數(shù)以及結(jié)果

總結(jié)與討論

本文對實體鏈指消歧做了一些探索。利用指稱項類型預(yù)測，構(gòu)建 NIL_type 實體，解決無鏈接指代預(yù)測問題，同時利用 BERT、對抗學(xué)習(xí)、特征融合等訓(xùn)練方法極大地提高了實體消歧的準(zhǔn)確率，獲得了比賽的第一名以及創(chuàng)新獎，相關(guān)論文已被 CCKS 2020 收錄。?

比賽也為小米的后續(xù)研究指明了方向。比如當(dāng)前方法沒有充分利用其它指稱項的侯選實體信息，對其他指稱項信息的利用僅僅停留在名稱層面。另外，可以利用一些特征，先對候選實體進行一次排序，選擇排序前幾的候選實體進行下一步的消歧，這樣分層消歧在候選實體過多的情況下不僅可以提高準(zhǔn)確率，還能提高消歧效率。

參考文獻

[1] Ganea O E, Hofmann T. Deep joint entity disambiguation with local neural attention[J]. arXiv preprint arXiv:1704.04920, 2017.

[2] Le P, Titov I. Improving entity linking by modeling latent relations between mentions[J]. arXiv preprint arXiv:1804.10637, 2018.

[3] Raiman J, Raiman O. Deeptype: multilingual entity linking by neural type system evolution[J]. arXiv preprint arXiv:1802.01021, 2018.

[4] Sil A, Kundu G, Florian R, et al. Neural cross-lingual entity linking[J]. arXiv preprint arXiv:1712.01813, 2017.

[5] Goodfellow, Ian J, Shlens, Jonathon, and Szegedy, Christian. Explaining and harnessing adversarial examples.International Conference on Learning Representations(ICLR), 2015.

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識的人。

總有一些你不認(rèn)識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標(biāo)準(zhǔn)：

? 稿件確系個人原創(chuàng)作品，來稿需注明作者個人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式（微信或手機），以便我們在編輯發(fā)布時和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的小米知识图谱团队斩获CCKS 2020实体链指比赛冠军的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：坦克最重多地方是什么？
下一篇：从宏观调控法的角度如何避免雄安新区出现房

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

小米知识图谱团队斩获CCKS 2020实体链指比赛冠军

總結(jié)