论文浅尝 - TACL2020 | 改进低资源跨语言实体链接的候选生成问题
論文筆記整理:譚亦鳴,東南大學博士。
來源:TACL 2020
鏈接:
https://arxiv.org/ftp/arxiv/papers/2003/2003.01343.pdf
1.背景介紹
跨語言實體鏈接(Cross-lingual Entity Linking, XEL)旨在利用源語言文本中實體描述(提及),從目標語言的知識庫中獲取對應的參照實體,其解決方法一般分為兩個步驟:1.候選生成;2.實體挑選。這一任務在富資源場景下(如Wikipeida)取得了不錯的研究成果,但是并沒有很好的擴展到低資源語言上(Low-resource Language, LRL)。雖然近期利用遷移學習的工作通過利用相關語言資源能夠一定程度上緩解LRL對資源的需求,但是其實驗性能依舊遠遜于富資源的XEL模型。
其中一個主要原因是,跨語言的實體鏈接無法像單語那樣使用序列匹配的方式解決候選生成問題,雖然Wikipedia提供了inter language links這樣的多語言實體對齊資源,具有一定可擴展的潛力,但是現階段的工作依然表現不佳。也有一些工作提出利用翻譯模型生成LRL的英文實體,或者基于實體詞典訓練跨語言的序列匹配模型。然而這些方法在Top-30的候選實體上依然遠不如富資源,且有落后達70%的候選召回率。
動機
作者對現有的SOAT候選生成模型Rijhwani et al. (2019)進行錯誤分析,發現兩個普遍存在的錯誤原因:1.知識庫與文本中實體名(提及)的誤匹配;2.字符串匹配模型本身的失誤。
如圖1所示,這是一個Marathi語言到英語知識庫的鏈接實示例(一種來自印度西部地區的小語種)。在這個例子中,第一類錯誤表現為英語實體Cobie Smulders被匹配到文本中的Smulders(綠色部分)或者Jacoba Francisca Maria Smulders(黃色部分);第二類錯誤則是類似藍色例子中的Cobie Smulder被序列匹配到Cobie Sikkens上。
為了解決這兩類問題,作者提出如下改進:
對于誤匹配問題,作者注意到learning-based方法中,包括(Pan et al., 2017; Rijhwani et al., 2019)等工作的候選生成模型訓練數據集是由“實體-實體”組構成,這就使得模型無法捕捉文本中可能存在提及的多樣性。因此,作者將“提及-實體”組也添加到訓練數據中,從而提供更明確的監督。此外,注意到許多源語言資源(variation)與其英文表示存在的相似性,因此也可以使用英文語言資源去獲取它們。因此作者從英文Wikipedia中收集了實體的別名資源,并允許模型在生成候選的時候查詢這些別名。
本文的第二個貢獻是改進了對提及以及實體字符串的表示策略。作者首先假定Rijhwani et. al 2019的LSTM模型可能存在的部分問題,即未能對字符串中所有的單詞進行適當的表示學習,這可能是因為該模型不是很適合在LRL上進行學習。在這里,作者提出改用基于字符n-gram的embedding方法替代LSTM。
2.模型/方法
首先對現有模型的不足進行實驗分析,以印證本文猜測。
2.1提及類型與分析
作者使用HRL(富資源語言,這里使用的是Amharic, Hindi和Thai等語言)-EN的實體組作為訓練數據集(數據集信息實驗部分會做說明),訓練了一個Pivoting-based Entity Linking(PBEL)模型用于生成LRL文本中抽取出的實體提及所對應的候選實體。在LRL方面使用了Tigrinya, Oromo, Marathi以及Lao等四種語言。
作者從每個LRL隨機抽取100個系統輸出,并在性能分析時對它們的提及創建類型,并做人工標注,主要包含以下類型:
????????????????DIRECT:直接音譯
????????????????ALIAS:別名(與KB中的完全不同);
????????????????TRANS:字對字翻譯;
????????????????EXTRA_SRC:在提及中至少多了一個(非專有名詞)單詞;
????????????????EXTRA_ENG:在英文實體中至少多了一個(非專有名詞)單詞;
????????????????BAD_SPAN:提及范圍不是一個實體(實體抽取部分出錯);
???? ???
對于每個候選實體樣本,作者考慮了三種場景:Top-1(目標實體是Top-1候選);Top-2~30;不屬于Top-30。圖2描述了這組場景和樣本的分布情況,可以看到Top-30完全無法覆蓋目標實體的三類提及是:ALIAS,EXTRA_SRC,EXTRA_ENG。
2.2模型改進
首先作者在保持“實體-實體”組訓練集的基礎上,收集了“提及-實體”組,用于擴充訓練數據。其次,通過利用Wikipeida中的“alsoknown as”獲取到英語實體的別名列表,用于擴充可產生候選實體的匹配范圍(公式1)。
之后,作者使用CHARAGRAM,替換Bi-LSTM作為字符串的編碼模型,其結構如圖3所示:
字符串的編碼過程如下:
其中,N是預設的滑動窗口尺寸,V是訓練數據集中所有出現的n-gram的集合,如果n-gram是未出現在V中的,那么將會直接音譯。
3.實驗
數據
DARPA-LRL:來自新聞,博客和社交媒體,包含Tigrinya (ti), Oromo (om), Kinyarwanda (rw), Marathi (mr), Sinhala (si)以及Lao (lo)等小語種語言。
WIKI:Wikipedia中的子數據集(Pan et al., 2017; Rijhwani et al., 2019)
各語言的表示方式見表2。
?????? 結果
?????? 作者給出了各模型上Top-30候選的召回率作為評價標準,如表3所示:
并再一次做了錯誤分析,對比可以看到,新的方法在各提及類型上都產生了一定的效果:
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - TACL2020 | 改进低资源跨语言实体链接的候选生成问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术动态 | 数据库研究者视角下的知识图
- 下一篇: 论文浅尝 | 融合多层次领域知识的分子图