论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别
論文筆記整理:譚亦鳴,東南大學博士生,研究方向為跨語言知識圖譜問答。
來源:EMNLP 2018
鏈接:https://www.aclweb.org/anthology/D18-1034
?
問題背景與動機
本文關注小語種/資源匱乏語言的跨語言命名實體識別問題,首先作者肯定了現有無監督/弱監督方法在單語資源豐富的情況下能夠取得不錯的性能。但是對于單語資源不足的情況下,這些方法卻無法適用,原因在于:無監督方法需要構建單語embedding并投影到共享空間中,但是單語資源不足的情況下,無法構建有質量的embedding;弱監督方法則需要使用一定規模(10K~1M)的雙語詞典作為語言對齊的seed,顯然這個要求對于小資源語言(如維吾爾語)也是相對苛刻了。
為了解決這一問題,作者提出結合詞典方法與embedding方法,利用微量平行數據(<10K)構建embedding,將豐富資源的英語數據與微量資源的小語種詞匯投影到共享空間中,而后利用近鄰方式構建規模更大的雙語詞典,再利用雙語詞典將英語數據word-by-word譯為小語種數據,用于NER模型的訓練。同時,考慮到這種方法產生的語言距離真實的自然語言表達存在差異,作者在NER模型中引入self-attention試圖減緩這種影響
?
貢獻
1.? 提出了一種通過語言遷移實現的跨語言NER策略
2. 提出一種 order-invariant self-attention 機制用于緩解語言遷移以及數據量不足對 NER 模型產生的影響
?
方法說明
本文的方法過程描述如下:
1.? 使用單語語料獨立訓練兩種語言的 embedding 單語嵌入使用的方法類似 (Mikolovetal., 2013b; Pennington et al., 2014; Bojanowskiet al., 2017)等人的工作,利用單語文本訓練嵌入矩陣。
2.? 利用給定的微量雙語字典,將上述兩種語言的embedding投影到一個共享空間中投影方法,采用的是 (Zhang et al., 2016; Artetxe et al., 2016; Smithet al., 2017) 等類似的方式,通過訓練投影矩陣,實現將兩種語言的 embedding 投影
3.? 對于單語資源豐富的英語embedding,利用最近鄰策略,挑選另一語言的詞語的embedding作為其翻譯結果,從而構建較大規模的雙語字典在計算embedding相似度方面,采用cross-domain similarity local scaling (CSLS) metric(Lample et al., 2018)實現。
4.? 利用3中的翻譯將英語命名實體識別語料譯為另一語言,同時保留命名實體標簽,用于NER模型的訓練
下圖是上述過程的一個示意,語言對為英語-西班牙語:
模型
NER模型方面,作者采用了一個分層神經網絡+self-attention+CRF的序列標注方案:其中輸入粒度被細化到了char級,每個單詞的字母都通過雙向RNN融合得到,此基礎上再通過一層雙向RNN做詞級別的embedding,之后使用self-attention對得到的每個詞的embedding做一步轉換得到embedding_a,而后將embedding與embedding_a進行組合,得到用于訓練CRF序列標注過程的單詞表示。
?
實驗
數據集
實驗數據方面,作者采用了CoNLL 2002以及2003 NER公開數據集,其中包含英德荷及西班牙語共四種語言,通過將英語與其他三種語言組合為“資源豐富-資源缺乏”的語言組合,構建出上述方法所需的數據形式。
?
實驗結果
表1 反映了本文方法在公開數據集上的實驗,采用F1值作為評價指標,結果上看,相對其他同類模型,本方法的性能提升較為顯著。
同時作者也針對embedding過程的效果進行統計評判,這種使用近鄰進行翻譯的方法,在雙語性能上表現出了一定提升。
同時作者也對小語種維吾爾語進行了NER實驗對比,在無額外知識補充的且使用微量平行數據的情況下,本文增量模型的性能提升還是比較明顯。但是整體結果上,相對目前最好的模型差距還是是否明顯,作者認為產生這一情況的原因在于維吾爾語極低的單語質量,且英語和維吾爾語之間的天然差異本身就非常的大。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ACL2020 | 用于链
- 下一篇: 领域应用 | HiTA知识图谱 “药品-