基于深度学习的命名实体识别研究综述——论文研读
基于深度學習的命名實體識別研究綜述
- 摘要:
- 0引言
- 1基于深度學習的命名實體識別方法
- 1.1基于卷積神經網絡的命名實體識別方法
- 1.2基于循環神經網絡的命名實體識別方法
- 1.3基于Transformer的命名實體識別方法
- 1.4其他的命名實體識別方法
- 1.5基于深度學習的命名實體識別方法對比
- 2基于深度學習的命名實體識別應用領域
- 2.1生物醫學領域
- 2.2社交媒體領域
- 2.3化學領域
- 2.4其他領域命名實體識別技術
- 3基于深度學習的命名實體識別評測方法及數據集
- 3.1評測方法
- 3.2數據集介紹
- 4總結和未來發展
- 4.1現有工作總結
- 4.2未來研究工作
今天又是因為疫情被封在醫院的一天。今天我們來回顧一下NER的一些基礎知識。最近分享的都是一些中文文章,也都是一下自己看的覺得有點意義的文章。后續有時間,我會分享一些英文論文的研讀。希望可以給自己,給你們有一些幫助。
摘要:
- 命名實體識別技術是信息抽取、機器翻譯、問答系統等多種自然語言處理技術中一項重要的基本任務。近年來,基于深度學習的命名實體識別技術成為一大研究熱點。為了方便研究者們了解基于深度學習的命名實體識別研究進展及未來發展趨勢,對當前基于卷積神經網絡、循環神經網絡、transformer模型以及其他一些命名實體識別方法展開綜述性介紹,對四類方法進行了深入分析和對比。同時對命名實體識別應用領域以及所涉及到的數據集和評測方法進行了介紹,并對未來的研究方向進行了展望。
0引言
- 命名實體識別(NamedEntityRecognition,NER)是自然語言處理的一項基本任務[1]。主要是將非結構化文本中的人名、地名、機構名和具有特定意義的實體抽取出來并加以歸類,進而組織成半結構化或結構化的信息,再利用其他技術對文本實現分析和理解目的。這對于文本的結構化起著至關重要的作用。命名實體識別技術在信息抽取、信息檢索、問答系統等多種自然語言處理技術領域有著廣泛的應用。命名實體識別研究歷史最早可以追溯到1991年,Rau[2]在第七屆IEEE人工智能應用會議上發表了“抽取和識別公司名稱”的有關研究文章,陸續出現一些有關名詞識別的研究。1996年,“命名實體(NamedEntity,NE)”一詞首次用于第六屆信息理解會議(MUC-6)[3],會議將命名實體評測作為信息抽取的一個子任務。隨后出現了一系列信息抽取的國際評測會議,諸如CONLL、IEER-99、ACE等,這些評測會議對命名實體識別的發展有極大的推動作用。
- 命名實體識別的主要技術主要有三類:基于規則和字典的方法、基于統計機器學習的方法、基于深度學習的方法。
- (1)基于規則和字典的方法是命名實體識別中最早使用的方法。基于規則的方法要構造大量的規則集,規則集的構建大多采用語言學專家手工構造的規則模板。基于詞典的方法需要建立命名實體詞典,命名實體識別的過程就是在字典或專業領域知識庫中查找的過程。早期的命名實體識別任務大多采用基于規則和詞典的方法實現。Grishma等人[4]利用一些專門的名稱字典,包括所有國家的名稱、主要城市的名稱和公司名稱等開發了一種基于規則的命名實體識別系統。由謝菲爾德大學自然語言處理研究小組開發的GATE項目中的ANNIE[5]系統就是基于規則方法的英文信息抽取系統。Collins等人[6]提出的DL-CoTrain(DL代表決策列表,術語Co-train取自于Blum和Mitchell[7])方法,先將決策列表設置成種子規則集,再對該集合進行無監督的訓練迭代得到更多的規則,最終將規則集用于命名實體的分類。基于手工規則的方法雖然在小數據集上可達到較高的準確率,但面對大量的數據集以及全新領域,這種方式變得不再可取,舊的規則不適用于新命名實體識別詞匯,新的規則庫和詞典的建立需要花費大量的時間及人力,并且這些規則往往依賴于具體語言。如應用于英語的規則難以應用于阿拉伯語,難以涵蓋所有的語言,規則之間常有沖突,有較大的局限性。因此這種方法逐漸被后來的基于統計的機器學習方法所替代。
- (2)基于統計的機器學習方法是利用人工標注的語料進行有監督訓練,然后利用訓練好的機器學習模型實現預測。基于統計機器學習的模型有隱馬爾可夫模型(HiddenMarkovModels,HMM)、最大熵模型(MaximumEntropyModels,MEM)、決策樹(DecisionTrees)、支持向量機(SupportVectorMachines,SVM)和條件隨機場(ConditionalRandomFields,CRF)等。Bikel[8]在1999年提出了基于隱馬爾可夫模型的IdentiFinderTM系統,識別和分類名稱、日期、時間和數值等實體,在英語和西班牙語等多語言上都獲得了較好的成績。Isozaki[9]將SVM應用在命名實體識別問題上,在CRL數據(該數據集基于MainichiNewspape1994年的CD-ROMs[10])上F值(F值是統計學中用來衡量模型精確度的一種指標。現被廣泛應用在自然語言處理領域,比如命名實體識別、分類等,用來衡量算法的性能)達到了90.3%。Yamada等人[11]針對日文提出了第一個基于SVM的命名實體識別系統,他的系統是Kudo的分塊系統(KudoandMatsumoto,2001)[12]的擴展,該分塊系統在CONLL-2000任務中取得了最好的結果。Lin和Tsai等人[13]將最大熵方法與基于詞典匹配和規則相結合,用來識別文本中的生物實體。先手動制定規則,再將制定好的規則輸入到最大熵模型框架中,提高了系統的準確率與召回率。基于統計機器學習的方法與之前的方法相比,效果上有了明顯的提高,但是也需要具有專業領域知識的人進行大量人工標注,人工和時間的成本很高。
- (3)隨著深度學習的興起,使用深度學習方法解決命名實體識別問題成為了研究熱點。該類方法的優勢在于神經網絡模型可以自動學習句子特征,無需復雜的特征工程。本文著重在第2章介紹基于深度學習的命名實體識別研究進展。
1基于深度學習的命名實體識別方法
- 深度學習是深層神經網絡的簡稱[14]。近些年來,深度學習不僅在計算機視覺、圖像處理等方面取得了巨大的成功,而且在自然語言處理領域也取得了很大的進展。基于深度學習的NER模型已經成為主流。深度學習模型對外部輸入數據進行逐層特征提取,通過非線性激活函數從數據中學習復雜的特征,完成多層神經網絡的訓練和預測任務。目前,在命名實體識別領域中最流行的深度學習模型是卷積神經網絡(ConvolutionalNeuralNetwork,CNN)和循環神經網絡(RecurrentNeuralNetwork,RNN)
1.1基于卷積神經網絡的命名實體識別方法
- 卷積神經網絡(CNN)是一種深度前饋神經網絡。Collobert等人[15]提出了基于窗口的(windowapproach)和基于句子的(sentenceapproach)兩種方法來進行NER,這兩種結構的主要區別在于windowapproach僅使用當前預測詞的上下文窗口進行輸入,然后使用傳統的NN結構;而sentenceapproach是以整個句子作為當前預測詞的輸入,加入了句子中相對位置特征來區分句子中的每個詞,然后使用了一層卷積神經網絡結構,利用卷積獲取上下文并將提取的局部特征向量來構造全局特征向量,該方法雖然可從大量未標記數據中進行特征學習,但其無法解決遠程依賴的問題。
Santos等人[16]通過整合字符級CNN來擴展了這個模型,實驗結果證明,對于葡萄牙語和西班牙語NER都有明顯效果。Yao等人[17]提出一種基于CNN的生物醫學命名實體識別模型,使用skip-gram神經網絡模型,該模型雖然不是最快的,但更適合于像醫學文獻中稀有詞的訓練。Strubell等人[18]提出了迭代卷積神經網絡(IteratedDilatedConvolutionalNeuralNetwork,ID-CNN),IDCNN擴張的卷積、有效輸入寬度可以隨深度呈指數增長,比傳統的神經網絡具有更好的上下文和結構化預測能力。Wu等人[19]構建了一種針對中文電子病歷命名體識別的深度神經網絡,實驗結果表明其模型優于其他CRF模型。 - Gui等人[20]提出目標保持對抗神經網絡(TargetPreservedAdversarialNeuralNetwork,TPANN),使用大量其他領域注釋數據、領域內未標記數據和少量標記領域內數據解決社交媒體領域缺乏大規模標記數據集問題。Yang等人[21]采用與文獻[22]相同的結構,使用具有最大池的一層CNN來捕獲字符級表示,獲取每個詞的上下文表示后,在最后的預測層使用基于Softmax和CRF的結構。以上命名實體方法都是在卷積神經網絡的基礎上進行改進從而達到不同效果,其識別方法的基本原理和核心公式見表1。
1.2基于循環神經網絡的命名實體識別方法
- 循環神經網絡(RNN)是一類以序列數據為輸入,所有節點(循環單元)按鏈式連接的遞歸神經網絡。RNN的變體長短期記憶模型(LongShort-TermMemory,LSTM)和門控循環單元(GatedRecurrentUnit,GRU)都在數據建模方面取得了顯著的成就。Huang等人[23]首次將雙向LSTM-CRF(簡稱BILSTM-CRF)模型應用于自然語言處理(NaturalLanguageProcessing,NLP)基準序列標記數據集,如圖1所示。由于采用了雙向LSTM組件,該模型可以捕捉到當前時刻t的過去和未來的特征,但該方法需要大量的特征工程。實驗結果表明BILSTM-CRF是穩健的,且對于詞嵌入的依賴較少,即它不需要依靠嵌入詞就可以產生精確的標注性能。Chiu等人[24]受到Collobert等人[15]的工作啟發提出了一種新穎的神經網絡結構,該架構使用混合雙向LSTM和CNN架構自動檢測字和字符級特征,從而消除了對大多數特征工程的需求。
- 該模型在CONLL2003數據集上獲得了90.91%的F值。Yang等人[25]提出一種用于序列標記的深層次遞歸神經網絡,在字符和單詞級別上使用GRU來編碼形態和上下文信息,并應用CRF字段層來預測標簽。該模型在CONLL2003英語NER取得91.20%的F值。Ma等人[22]通過使用雙向LSTM、CNN和CRF的組合,使模型能夠從詞和字符級表示中學習,實現真正意義上的端到端,無需特征工程或數據預處理,可適用于各種序列標記任務。Zhang等人[26]提出了一種用于中文NER的網格LSTM模型,該模型能夠將單詞本身的含義加入基于詞向量的模型中,以此避免了中文分詞錯誤所帶來的影響,在MSRA語料上達到了93.18%的F值,但對于中文漢字的多義性,該方法還有一定的局限性。
- Rei[27]提出了一種神經序列標記體系結構,使用海量無標注語料庫訓練了一個雙向LSTM語言模型,每個LSTM將來自前一時間的隱藏狀態與來自當前步驟的單詞嵌入一起作為輸入,并輸出新的隱藏狀態。實驗結果表明,在少量標注數據上,該語言模型能夠大幅提高NER的效果。Cui等人[28]提出了一個hierarchically-refinedrepresentation的模型,該模型的第二層LSTM輸入包含兩方面的信息,一個是上一層的輸出,另外一個來自于label信息,這樣除了文本特征外,上層網絡還可以學到label之間的關系。基于循環神經網絡的結構可以保存前后時刻的狀態信息,因此該網絡衍生出了多種不同的命名實體識別方法,其方法原理和公式見表2。
1.3基于Transformer的命名實體識別方法
-
2017年,Transformer模型的提出成為近幾年NLP領域最有影響力的工作。Transformer模型由Vaswani等人[29]提出,其模型架構和大多數神經網絡序列模型架構一樣采用了encode-decode結構。Transformer模型摒棄了遞歸和卷積操作,完全依賴于注意力(attention)機制,通過多頭自注意力(Multi-headedself-attention)機制來構建編碼層和解碼層。其編碼器(encoder)由6個編碼塊(block)組成,每個塊由自注意力機制和前饋神經網絡組成,解碼器(decoder)由6個解碼塊組成,每個塊由自注意力機制,encoder-decoderattention以及前饋神經網絡組成。與已有的模型相比,RNN通過逐步遞歸獲得全局特征,CNN只能獲取局部特征,通過堆疊多層卷積來增大感受野,而Transformer模型通過參數矩陣映射,進行Attention操作,并將該過程重復多次,最后將結果拼接起來,就能一步到位獲取全局特征。其模型結構圖如圖2所示[29]。
- -
Yan等人[30]針對Transformer無法捕獲方向信息及相對位置等問題對模型做出改進,提出了TENER(TransformerEncoderforNER)模型,設計了帶有方向與相對位置信息的atteniton機制。該模型在MSRA中文語料上F值達到92.74%,在英文數據集OntoNotes5.0上F值達到88.43%。
-
Google在2018年提出了采用雙向Transformer網絡結構來進行預訓練的語言模型BERT[31](BidirectionalEncoderRepresentationsfromTransformers),成功地在當年11項NLP任務中取得了令人矚目的成績,成為目前最好的突破性技術之一。因此越來越多的研究者也開始將BERT引入命名實體識別任務。楊飄等人[32]在中文命名實體識別任務上引入BERT預訓練模型,提出了BERT-BIGRU-CRF網絡結構,該模型在MSRA中文語料上可以獲得較好的效果,并且超過了Zhang等人[26]提出的網格LSTM,F值達到95.43%,比網格LSTM高出2.25%。但該方法的參數量更大,所需的訓練時間也更長。
-
Souza等人[33]結合BERT的遷移能力和CRF的結構化預測,將BERT-CRF架構用于葡萄牙語的NER任務,采用基于微調的遷移學習方法,將所有權值在訓練過程中聯合更新,通過使交叉熵損失最小化來對模型進行優化。該模型的效果比之前最先進的(BiLSTM-CRF+FlairBBP)[34]模型表現更好。實驗在只包含人、組織、位置、值和日期五類實體的情況下,F值提高了1%,在包含十類實體(位置、人員、組織、值、日期、標題、事物、事件、抽象和其他)的情況下F值提高了4%。
-
Symeonidou等人[35]提出基于Transformer的BioBERT(BiomedicalNamedEntityRecognitionBERT)模型,并利用遷移學習方法幫助完成生物醫學信息提取任務。BioBERT模型善于捕捉上下文信息,有助于模型性能的提高。
-
Khan等人[36]提出了一種多任務Transformer模型對生物醫學進行命名實體識別。將使用包含不同槽類型的多個數據集訓練一個槽標記器視為一個多任務學習問題,通過Transformer模型的編碼器捕獲輸入表示的上下文信息,并生成共享的上下文嵌入向量。最后,對于每個任務/數據集生成一個特定的任務表示。該方法在時間和內存方面的效率和效果都有提升。
-
Yu等人[37]將視覺信息融入到NER中,提出了一個基于Transformer的多模態架構,將標準Transformer層與跨通道注意機制結合起來,分別為每個輸入單詞生成圖像感知的單詞表示和單詞感知的視覺表示。檢測命名實體并識別給定的<句子,圖像>對的命名實體類型。以上方法的原理及公式見表3。
1.4其他的命名實體識別方法
- 近年來在基于深度學習的命名實體識別研究上,除了基于卷積神經網絡和循環神經網絡的方法外,還涌現了一些新的方法。Zhou等人[38]針對表示差異和資源不平衡問題提出了雙對抗遷移網絡(DualAdversarialTransferNetwork,DATNET),主要面向資源匱乏的NER,大量的實驗證明了DATNET相對于其他模型的優越性,并在CONLLNER數據集上實現了最新的性能。
- Lee等人[39]通過將訓練過的人工神經網絡(ArtificialNeuralNetworks,ANNs)參數轉移到另一個有限人工標記的數據集,改善了在兩個不同數據集上實體識別的最新結果。證明了遷移學習對于少量標簽的目標數據集的有效性。Rei等人[40]在BILSTM-CRF模型結構基礎上,重點改進了詞向量與字符向量的拼接。使用attention機制將原始的字符向量和詞向量拼接改進為權重求和,使用兩層傳統神經網絡隱層來學習attention的權值,這樣就使得模型可以動態地利用詞向量和字符向量信息。實驗結果表明比原始的拼接方法效果更好。
- Yang等人[41]提出了一種基于深層次遞歸神經網絡的遷移學習方法,該方法在源任務和目標任務之間共享隱藏的特征表示和部分模型參數。實驗結果表明,當目標任務標簽較少且與源任務更相關時,該方法可以顯著提高目標任務的性能。Yoon等人[42]提出一個新型的NER模型CollaboNet,由多個BILSTM-CRF模型組成,將每個BILSTM-CRF模型作為一個單任務模型。每個單任務模型都在特定的數據集上進行訓練,并且每個單任務模型都只識別特定的實體類型,這些單個單任務模型互相發送信息,將自身所學到的知識轉移到其他單任務模型上,從而獲得更準確的預測。
- Akbik等人[43]動態地構建了上下文embedding的“內存”,存儲每個詞生成的wordembedding,并應用一個池操作來提取每個單詞的全局表示。這樣使得詞的embedding不僅與當前的句子有關,還有文檔中的前文有關。該方法可以有效解決在未指定的上下文中嵌入罕見字符的問題。在CONLL2003英語數據集上達到了最高F值93.18%,德語達到88.27%。
- Ju等人[44]為解決文本內部嵌套實體識別問題,提出一種新的神經網絡模型來識別嵌套實體,通過動態疊加平面NER層來識別嵌套實體。模型將當前平面NER層中的LSTM層輸出合并起來,并隨后將它們提供給下一個平面NER層,這就允許模型以由內到外的方式,通過充分利用在相應的內部實體中的編碼信息來提取外部實體。該動態模型在嵌套NER上的性能優于之前的基于特征系統。其方法、原理及公式見表4。
1.5基于深度學習的命名實體識別方法對比
- 本節對基于深度學習的三大主流方法:基于卷積神經網絡、基于循環神經網絡和基于Transformer模型進行了對比。總的來說,三種方法的主要差別在于:(1)卷積神經網絡和Transformer模型可以并行運行,訓練時間相對于循環神經網絡要短;(2)卷積神經網絡主要注重局部特征,而循環神經網絡更注重全局特征;(3)卷積神經網絡輸入元素之間相互獨立,難以考慮上下文信息,循環神經網絡能夠預測長距離特征,善于發現和利用數據中的長期依賴性,可有效利用過去特征和未來特征,Transformer模型通過attention機制可更好地捕獲長距離依賴關系。表5從方法特點、優點、缺點這幾個方面對相關方法進行了歸納總結。
2基于深度學習的命名實體識別應用領域
- 隨著NER技術的不斷成熟,目前基于深度學習的命名實體識別已逐漸應用到多個應用領域并取得了不錯的效果。命名實體識別主要應用于生物醫學領域[17,42,45-59]、社交媒體[20,60-75]、地理實體識別[76-79]、軍事領域[80-84]、商品名稱實體識別[85-87]、化學實體識別[88-90]等。表6總結了一些應用領域的代表方法及其貢獻。
2.1生物醫學領域
- 生物醫學領域為目前的研究熱點,生物醫學文本的快速增長使得信息提取成為生物醫學研究的重要基礎。大量的生物醫學知識主要以非結構化的形式存在于各種形式的文本中,將命名實體識別應用于生物醫學領域對生物醫學研究具有重要的應用價值。由于生物醫學數據的龐大以及其存在的詞表外問題,傳統的方法不能達到高效的識別性能,因此,專家們開始將基于深度學習的命名實體識別方法應用到生物醫學領域。基于深度學習的方法可以減少特征工程的依賴[45,47]。
- Gridach等人[45]第一個使用深度神經網絡結合條件隨機場提取生物醫學文本中基因、蛋白質等生物醫學命名實體。通過使用LSTM和CRF的組合,消除了大多數特征工程任務的需要,超越了以前傳統方法,同時減少了詞表外問題,這對復雜的醫學文本來說是至關重要的。基于深度學習的方法往往需要高質量的標記數據,這對醫學NER來說是一個難題,為了解決該問題,學者們研究了如何使用未標記的文本數據來提高NER模型的性能[17,51,53,56]。
- Yao等人[17]基于未標記的生物醫學文本數據,利用CNN對文本信息中所含的蛋白質、基因、疾病和病毒等4類名稱進行了實體識別,并在生物醫學文本中用特定標簽標記。該方法在GENIA數據集上F值達到71%。Fries等人[51]建立了SWELLSHARK生物醫學命名實體識別(NER)系統的框架,不需要手工標記數據。該方法將像詞典這樣的生物醫學資源通過一個生成模型自動生成大規模的標記數據集。該架構可以在更短的時間內自動構建大規模的訓練集。
- Sachan等人[56]在未標記的數據上訓練了一個雙向語言模型(BidirectionalLanguageModel,BiLM),并將其權重轉移到與BiLM架構相同的NER模型的“預訓練”中,通過語言模型的權重來初始化NER模型,使NER模型具有更好的初始化參數,然后用Adam優化器來微調預訓練模型。實驗表明,NER模型權重的這種預處理對于優化器來說是一種很好的初始化方法,與隨機初始化的模型相比,預訓練的模型需要更少的訓練數據。
- 在模型微調期間,預處理模型也收斂得更快。為解決數據缺乏和實體類型錯誤分類的問題,Yoon等人[42]提出了利用多個NER模型的組合的CollaboNet。在CollaboNet中,在不同數據集上訓練的模型相互連接,這樣目標模型就可以從其他合作者模型中獲得信息,以減少誤報。近年來,基于深度學習的方法被廣泛應用到生物醫學命名實體識別中,并取得了不錯的結果。但深度學習方法往往需要大量的訓練數據,數據的缺乏會影響性能。生物醫學命名實體識別數據集是稀缺資源,每個數據集只覆蓋實體類型的一小部分。此外,許多生物實體具有多義性,這也是生物醫學命名實體識別的主要障礙之一。
2.2社交媒體領域
- 產生大量數據信息的社交媒體也是命名實體識別的一個重要應用領域。隨著新媒體的發展,來自網絡新聞傳播的信息要遠多于傳統新聞媒體,因此,在社交媒體上進行命名實體識別任務可挖掘更有價值的信息,可在此基礎上實現對社交平臺上不同的數據流進行分析,如檢測事件、熱點話題等。但由于其多樣性,社交媒體數據往往含有不恰當的語法結構和大量非正式縮略語。這也促使研究者們提出了多個有效的識別方法。Twitter作為互聯網上訪問量最大的十個網站之一,其產生的大量數據信息成為NER領域的研究熱點[60-62,66,68,73-74]。
- Li等人[62]提出了一個無監督NER系統,稱為TwiNER。利用從維基百科和網絡語料庫中獲得的全局上下文,使用動態編程算法將推文劃分為有效的片段(短語)。每個這樣的推文片段都是一個候選命名實體。然后通過一個隨機游走模型(RandomWalkModel)計算每個片段成為命名實體的概率。實驗結果表明在目標數據集上,其效果優于LBJ-NER[91]模型。Tran等人[74,92]針對Twitter數據多樣性問題,利用主動學習和機器學習結合的方法,降低了標注數據成本,擴大訓練數據的覆蓋領域,提高了識別效果。
- Aguilar等人[93]提出一個多任務神經網絡,采用了通用的命名實體分割的次要任務和細粒度命名實體分類的主要任務,從單詞和字符序列中學習特征表示。方法對社交媒體中的公司、創意、團隊、位置、人名、產品等信息進行了識別,實驗結果反映出最難識別的是創意這類實體,識別準確率最高的是人名。隨著NER在英文社交媒體上取得了不錯成果,很多學者對中文社交媒體也展開了研究[63-64,69-71]。Peng等人[64]提出了一種允許聯合訓練學習表示的集成模型,在中文社交媒體新浪微博文本中識別人名、組織和位置等實體。
- He等人[70]提出了一個統一的模型,可以從域外語料庫和域內未標注文本中學習。統一模型包含兩個主要功能,一個用于跨領域學習,另一個用于半監督學習。跨領域學習功能可以基于領域相似性學習領域外的信息,半監督學習功能可以通過自我訓練來學習領域內未標注的信息。在中國社交媒體上,這兩種學習功能都優于NER的現有方法。目前,由于社交媒體往往是更新速度最快,新詞匯出現最多的領域,且其中含有很多不完整文本信息以及用戶生成的大量噪聲文本,使得該領域命名實體識別任務變得更加困難和富有挑戰性。
2.3化學領域
- 化學物質對各個生命系統的影響使其成為生物醫學和臨床醫學應用中一類重要實體,因此化學實體的識別對生物醫學、化工產業等領域都有重要的意義。在文獻中,化學品的命名方式多種多樣,有縮略語、新化學品命名名稱、化學符號、化學元素、化學公式等,這樣復雜的數據集給化學實體識別帶來了挑戰。Tchoua等人[94]針對這些問題,使用主動學習來有效地從專家那里獲取更多的專業標記的訓練數據,從而提高模型性能。Luo等人[90]利用Attention+BILSTM+CRF方法對文檔中所包含的化學實體進行識別。為進一步挖掘化學與疾病之間相互作用信息打下了基礎。通過引入文檔級注意機制,使模型能夠關注同一標記在文檔中多個實例之間的標記一致性。Leaman等人[88]開發了一個tmChem系統,主要用于識別出生物醫學或者化學文獻中所包含的化學實體。通過使用模型組合的方法,將不同標記、特征集、參數的CRF模型進行組合來提高識別效果。化學命名實體識別的相關工作較少,但其對挖掘生物醫學文本有著基礎性的作用,例如生物治療、藥物與藥物之間的相互作用研究等。
2.4其他領域命名實體識別技術
- 在其他應用領域也都取得了不錯的結果。陳鈺楓等人[95]基于漢英雙語命名實體的識別與對齊特性,提出了一種雙語命名實體交互式對齊模型。通過雙語實體的對齊信息使兩種語言特性互補、對實體識別結果進行修正,為實體識別提供邊界和類別的判斷信息,從而提供識別的準確率。馮鸞鸞等人[80]在BILSTM+CRF的基礎上采用深度學習與傳統語言學特征相結合的方法對國防科技領域軍事文本中的技術和術語進行了識別。為構建國防科技領域知識圖譜打下了基礎。
- 李玉森等人[76]將命名實體識別的相關技術應用于基于文本的地理空間知識挖掘技術,不僅能夠豐富地理信息系統(GeographicInformationSystem,GIS)的信息來源,而且能夠提升GIS的表達能力和可理解性。Gaio等人[77]提出一種基于知識的方法對文本地理信息中的空間實體進行標注,從而更好地分析空間信息、消除地方歧義。對于網絡情報分析工作來說,命名實體識別是構建網絡安全圖譜的基礎,由于網絡安全領域標簽數據稀缺,Li[96]等人在BILSTM基礎上提出對抗主動學習框架來有效地選擇信息樣本進行進一步的標注,對模型進行再訓練,從文本網絡威脅情報中識別關鍵威脅相關要素。NER在各領域得到了大量的應用,對多個領域都有著積極的作用。圖3為命名實體識別應用領域比例圖。
3基于深度學習的命名實體識別評測方法及數據集
3.1評測方法
-
命名實體識別評測基本指標有三項,分別為正確率(Precision)、召回率(Recall)和F值(F-score)。準確率反映了NER系統識別正確實體的能力,其計算公式為:
- -
召回率反映了NER系統識別語料庫中所有實體的能力,其計算公式為:
-
F值是一個綜合評價指標,是準確率和召回率的平均值,其公式為:
-
F值是綜合準確率和召回率指標的評估指標,用于綜合反映整體的指標,是目前使用最為廣泛的評測標準。
3.2數據集介紹
-
CONLL2003是經典的命名實體識別任務數據集之一。主要提供了兩種歐洲語言:英語和德語,共有1393篇英語新聞文章和909篇德語新聞文章。所有的英語語料都來自于路透社語料庫(Resultcorpus),該語料庫由路透社的新聞報道組成。德語數據的文本信息都來自于ECI多語言文本語料庫(ECIMultilingualTextCorpus),這個語料庫由多種語言的文本組成,CONLL2003中所含的德語數據是從德國報紙FrankfurterRundshau上提取的。CONLL2003中,實體被標注為四種類型地名(Location,LOC)、組織機構名(Organisation,ORG)、人名(Person,PER)、其他(Miscellaneous,MISC)。
-
MSRA-NER[97]數據集由微軟研究院發布,其目標是命名實體識別,是指識別文本中具有特定意義的實體,共有五萬多條中文命名實體識別標注數據,主要包括人名、地名、機構名等。MUC-6[3]數據庫語料主要取自于新聞語料,包含318條帶注釋的《華爾街日報》文章。MUC-7語料庫的數據主要有紐約時報新聞服務社提供,約158000篇文章。CoNLL2002西班牙語NER共享任務數據集,包含273000的訓練數據集和53000的測試數據集。
-
OntoNotes5.0[98]由1745000英語、900000中文和300000阿拉伯語文本數據組成,OntoNotes5.0[99]的數據來源也多種多樣,有電話對話、新聞通訊社、廣播新聞、廣播對話和博客。實體被標注為地名(Location,LOC)、組織機構名(Organisation,ORG)、人名(Person,PER)等18個類別。不同方法在數據集上的評測效果見表7。
-
表7中,主要總結了不同方法在CONLL2003、MSRA、OntoNotes5.0等三個數據集上不同的評測效果。
-
-
圖4為基于卷積神經網絡和基于循環神經網絡在三個數據集上的評測效果展示。
-
從圖5(a)和(b)可看出Akbik等人[100]所提出的Character-levelLM-BILSTM-CRF模型在CONLL2003(German)和OntoNotes5.0數據集上都取得了最先進的F值。該模型將句子作為字符序列輸入到預先訓練好的雙向字符語言模型中,利用從語言模型中選擇隱藏狀態生成在下游序列標記任務有效的word-levelembeddings,word-levelembeddings由前向LSTM中該詞最后一個字母的隱藏狀態和反向LSTM中該詞第一個字母的隱藏狀態拼接組成,以此來兼顧上下文信息,達到更好的效果。雖然基于RNN的模型在NER任務上已成為主流,但從圖5(a)可以看出只用ID-CNN在CONLL-2003(ENGLISH)數據集上也取得了不錯的效果,Strubell等人[18]通過擴張卷積彌補了CNN表示受網絡有效輸入寬度限制的不足。而且從圖5(b)也可以看出,RNN與CNN結合的BILSTM-CNN、BRNN-CNN、CNN-LSTM模型在OntoNotes5.0數據集上也都取得較好的結果。
-
在中文命名實體識別上,圖5(c)中楊飄等人[32]的BERT-BIGRU-CRF網絡結構在MSRA中文語料上F值達到了最先進的效果。該模型主要加入了BERT預訓練語言模型,BERT采用雙向Transformer作為編碼器,而且還提出了“Masked”語言模型和“下一個句子預測”兩個任務,分別捕捉詞級別和句子級別的表示,并進行聯合訓練,從而提升了識別效果。
-
圖5(d)為三種方法在CONLL2003和OntoNotes5.0數據集上的效果對比圖,從圖5(d)看出相同的方法在CONLL2003數據集上的效果要好于在OntoNotes5.0數據集上。ID-CNN模型雖然在OntoNotes5.0數據集效果要好于BILSTM-CNN模型,但在CONLL2003數據集上卻相反,因此對于不同的數據集應選用合適的方法才能取得更好的效果。通過對以上方法的比較發現CNN與RNN的結合以及對于輸入表示方法的改進會改善命名實體識別的效果,所以未來研究可以考慮將RNN與CNN結合或改進輸入表示的方法從而提高命名實體識別的效果。
4總結和未來發展
4.1現有工作總結
- 基于深度學習的命名實體識別目前已經取得了較大的成功,已成為自然語言處理領域中一項重要的基礎性技術,在很多公開數據集上都達到了很好的性能。但仍存在以下一些問題:
- (1)邊界詞的識別問題詞語邊界的識別錯誤是影響識別效果的主要因素之一,正確的識別實體邊界可以進一步提高實體的識別效果。
- (2)專業領域詞匯的識別問題專業領域命名實體的產生往往以該領域知識為依據,兼顧其語言規律特性,有些領域的實體不僅存在詞表外問題,而且有些實體是一詞多義,這使得識別難度大大增加,導致在許多專業領域無法實現較高的識別性能。基于該問題,雖然很多研究人員發現字符級輸入表示的模型識別效果要好于詞表示,但還是會有一些罕見詞匯無法識別。
- (3)針對訓練(標注)數據缺乏的深入設計采用深度學習方法進行命名實體識別時,一般需要大規模的標注數據。雖然基于卷積神經網絡和循環神經網絡在多個NER任務上都取得了不錯的結果,但因為在模型訓練中,可用于模型訓練的數據往往是有限的,有一些標準數據集只包括一種或兩種類型標注,不包括其他類型,還有一種情況是在有限的訓練數據中每種類型實體的數據只占標注數據總量的一小部分。這就造成訓練數據的缺乏從而影響模型的學習效果。針對這些問題,逐漸涌現出了一些新的方法,如聯合訓練模型、遷移學習、多任務學習等,這些方法雖然解決了標注數據缺乏的問題,但往往都需要大量的內存和時間。因此如何在減少數據注釋工作的同時減低成本、提高模型性能還值得學者們繼續研究和探索。
- (4)性能的進一步提升隨著模型的改進,命名實體識別方法的性能得到了提升,在公開數據集上的F值已由80%左右提升至90%以上,并且有極個別的方法突破了95%。雖然不同的數據集對于方法存在一定影響,但總體來講,命名實體識別方法的性能仍有較大的提升空間,特別是在特定的應用領域。例如在生物醫學領域,已有方法的F值大都低于90%;文獻[100,105,108]等方法在德文上的表現均遠低于其在英文上的表現。多模型的結合、針對數據的設計以及專業知識的嵌入對方法的性能提高將起到積極的作用。
4.2未來研究工作
- 就現階段的命名實體識別研究工作取得的成績和存在的問題來說,未來還可以通過以下幾個方面對NER展開研究:
- (1)左邊界詞的檢測。左邊界詞的識別很大程度上影響整個實體的識別,其中可能包括多個詞,因此,一旦第一個單詞被錯誤地標記,隨后的單詞標記正確率也將受到很大影響。尤其是對于中文實體的識別任務,詞語之間沒有間隔符,會因為分詞或詞匯列表外單詞的影響,難以識別實體邊界,導致實體識別錯誤。目前,主流的中文命名實體識別模型大多都是采用序列標注的方法,將實體邊界與實體類別在同一模型中一起標注,而忽略了邊界詞識別的重要性,有研究表明,實體邊界識別錯誤是影響識別效果的主要因素之一[113],邊界詞的識別可顯著地提高實體識別效果。因此,接下來可以在加強實體邊界檢測方向上進行研究,提高實體識別的準確率,如可使用B-I-E的標記方案來加強邊界詞的檢測。
- (2)專業知識的深度結合。結合特定專業知識來提高NER性能,在生物醫學、化學、社交媒體等領域,因為其數據的復雜性及不規范性,在進行命名實體識別任務時經常會遇到難以準確識別詞匯列表外單詞的問題。對于一些在詞匯列表外的單詞和低頻詞需要結合專業領域的知識來進行數據標記,可通過領域專家介入、人機協同等方式進一步強化專業詞匯和規則,使命名實體識別應用到更多的場景中。
- (3)主動學習。基于深度學習的命名實體識別在訓練過程中往往都需要大量的注釋數據,但注釋數據量大耗時,而且還需要專業領域的專家進行注釋。因此數據標注問題在NER模型訓練中成為了一個難題。主動學習可以通過一定的算法查詢最有用的未標記數據,并交由專家進行標記,然后用查詢到的數據訓練模型從而提高模型的精確度。在文獻[74,92,94,96]等研究中都解決了一些特殊領域因專業標記數據缺失而導致模型性能較差的問題,證實了將主動學習與深度學習相結合的有效性。因此,在深度學習的基礎上引入主動學習,未來可作為解決數據標注問題的一種解決方案。
- (4)多任務學習。多任務學習涉及多個相關的任務同時并行學習,梯度同時反向傳播,多個任務通過底層的共享表示來互相幫助學習,提升主任務泛化效果。多任務學習的一個基本前提是,不同的數據集要有語義和語法上的相似性,這些相似性可以幫助訓練一個更優化的模型。相比單一數據集訓練,它有助于減少模型過擬合,還可以解決訓練數據缺乏問題。因此NER的深度多任務學習也是未來的一個發展方向,通過考慮不同任務之間的關系,多任務學習算法有望比單獨學習每任務的算法取得更好的結果,Ruder等人[112]已經在實驗中得到了證實。
- (5)多模態網絡融合。通過多模態NER網絡融合文本信息和視覺信息,利用關聯圖像更好地識別文本中包含的命名實體。在某些領域中往往存在很多多義詞,這時候就需要依賴于其語境和實體關聯圖像。額外的視覺語境可能會引導每個單詞學習更好的單詞表征。另一方面,由于每個視覺塊通常與幾個輸入詞密切相關,結合視覺塊表示可以潛在地使其相關詞的預測更加準確。
- (6)應用領域的擴展與深入研究。目前的方法雖然取得了一定的成績,但在具體應用領域的性能表現還有待于進一步提升。借鑒強化學習的思路,將專業知識和規則引入獎勵機制、采用人機協同的方法以及將多種網絡進行有機結合等思路有可能取得新的突破。同時將NER應用在更多的學科領域,為多領域的研究提供幫助,使命名實體識別更有價值,這也是研究NER的目的和意義所在。
總結
以上是生活随笔為你收集整理的基于深度学习的命名实体识别研究综述——论文研读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微信公众号消息增加跳转链接
- 下一篇: 机架服务器最多有多少cpu,小身材却有大