论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战
論文筆記整理:譚亦鳴,東南大學博士。
來源:EMNLP 2020
鏈接:https://arxiv.org/pdf/2005.00692.pdf
1.背景介紹
跨語言實體鏈接(XEL)旨在將任一非英語文本中的實體提及匹配到英語知識庫上(例如Wikipedia,圖1所示)。近年來,大批研究成果被提出,但是現有的技術并不能很好的處理低資源語言(LRL)的挑戰。且這些技術并不能輕松擴展到非基于Wikipedia的數據上(訓練數據主要來自Wiki)。本文對LRL上的跨語言實體鏈接技術進行了深入分析,重點研究了識別與給定候選實體的關鍵步驟。作者的分析表明,現有方法受限于Wikipedia的inter-languagelinks,但是在(Wiki中)語言規模較小的情況下性能拉跨。作者推斷基于LRL的XEL需要借助于Wikipedia之外的跨語言資源,并且構建了一個簡單有效的zero-shot XEL系統,名為QuEL,其實現利用了搜索引擎的查詢日志。在25種語言的實驗上,QuEL表現出平均達到25%的gold候選召回率提升,以及基于現有SOAT端到端實體鏈接模型13%的準確性提升。
缺陷分析與動機
作者首先發現,現有的XEL模型大都嚴重依賴于Wiki所提供的interlanguagelinks(ILLs)資源,但是如圖2所示,ILLs(B)僅僅覆蓋了LRL實體(A)中的一個小子集,因此能夠被直接使用的部分主要是B∩C的區域。例如,Amharic Wikipedia 涵蓋 14,854個條目,但其中僅有8176的部分具有指向英文的ILLs。因此現有的效果較好的候選實體生成模型所使用的數據集大多是基于Wikipedia的,但是對于非Wiki-based的文本和新聞或者社交媒體之類的數據則不具備這樣的效果。
因此,本文的動機可以描述為,LRL-based XEL需要使用Wiki以外的跨語言數據,以覆蓋更多類似圖2中A區域的實體(從而跳出研究對Wikipedia數據集的依賴,且增加其實際可能的使用范圍)。
2.模型/方法
Wikipedia外部數據說明:
作者使用了Query logs(QL)數據集,一個免費的在線百科資源,涵蓋了wiki中的跨語言子集,且整體數據規模相對Wiki大很多。該數據集已經被使用到一些研究任務中,包括跨領域NER和本體知識的獲取。本文是該數據集第一次被用于跨語言任務。
候選生成分析:
本文對四種候選生成方法進行分析:p(e|m), xlwikifier, name_trans, pivoting, 以及 translit(如表1所示)
分析上述方法使用的數據集是LORELEI(內容形式是新聞和社交媒體文本),所有都是Wikipedia外部數據,評價指標是goldcandidate recall,即候選列表中涵蓋gold英文實體的源語言提及的比例。
圖3給出了Wikipeida中ILLs對LRL覆蓋的不足(2019-10-20版本),表2給出了隨機篩選的5個LRL的源語言實體占比。
p(e|m)的workflow是:源語言提及->源語言wiki實體->英語(目標語言)wiki實體。在這個過程中只要一個link缺失,那么整個過程就無法進行。
name_trans: 它的翻譯性能則受限于wikipedia中的映射標簽。
translit以及pivoting則同樣受到訓練數據集規模不夠的限制。
? 在LRL的設定下,較少的Wikiarticles引發了更少的Wiki錨文本映射。作者在LRL(圖4上)與HRL(富資源語言,圖4下)上對現有方法的goldcandidate recall以及其對提及在Wikipedia中的覆蓋率對比。
改進的候選生成QuEL_CG
通過使用QL映射文件,作者在直接搜索源語言提及以及基于查詢的方法下獲取到高質量候選列表。在搜索引擎方面作者使用了GoogleSearch。該方法也可以與p(e|m)一起使用,以強化QL的魯棒性。
3.實驗
數據集:
LORELEI (Strassel and Tracey, 2016),涵蓋了新聞和社交媒體方面的文本數據,作者將其中的25種語言分為了LRL與LRL。其中包含了四種實體類型:GPE地緣政治實體;LOC地點實體;PER人物實體;ORG組織實體。該數據集提供了一個特定的英語知識庫,其中提及的內容都被鏈接到該知識庫。作者將原始數據集改為鏈接到英文Wikipedia,對于沒有鏈接的部分則使用原知識庫的英文信息(名稱和描述)從Wikipedia種進行檢索。
Wikipedia-based數據集:(Tsai and Roth, 2016)收集的,建立于Wiki錨文本映射的基礎上,涵蓋的語言均為HRL。
對比系統:xlwikifier, xelms, ELISA, PBEL PLUS
實體鏈接結果:
下表給出了不同類型實體的鏈接準確性實驗結果。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 利用 KG Embeddi
- 下一篇: 技术如何转型产品经理