论文阅读笔记(二)【ACL2021】知识抽取NER
學習內容
- 由于剛剛進入知識圖譜領域,對該領域的研究熱點不是很了解,所以本文直接翻譯ACL2021中關于知識抽取NER中各個論文的摘要和共享;
- 并且適時在最后寫出自己的理解;
- 同時自己也會在了解完全部后給出各個論文的研究分類。
1. 題目: Improving Named Entity Recognition by External Context Retrieving and Cooperative Learning(利用外部上下文檢索和合作學習改進命名實體識別)
Abstract
命名實體識別(NER)的最新進展表明,文檔級上下文可以顯著提高模型性能。但是,在許多應用程序場景中,這樣的上下文不可用。在本文中,我們建議通過搜索引擎檢索和選擇一組語義相關的文本,以原始句子作為查詢,來查找句子的外部上下文。我們從經驗上發現,基于檢索的輸入視圖(通過連接句子及其外部上下文構建)計算的上下文表示,與僅基于句子的原始輸入視圖相比,可以顯著提高性能。此外,我們可以通過合作學習來提高兩個輸入視圖的模型性能,合作學習是一種鼓勵兩個輸入視圖產生相似上下文表示或輸出標簽分布的訓練方法。實驗表明,我們的方法可以在5個域的8個NER數據集上實現最新的性能。
Introduction
上圖的意思是: 如果我們單純的采用原有的句子,那么得到的Label是非實體; 但是如果我們采用了檢索文本(有相同的詞)作為我們的輔助,那么這個結果就會不一樣了!可以檢測出該單詞是Group的詞性。Contribution
本文的貢獻如下:
- 1.我們提出了一種簡單而直接的方法,通過使用搜索引擎檢索相關文本來改進輸入句子的上下文表示。我們將檢索到的文本與輸入的句子一起作為一個新的基于檢索的視圖。
- 2.我們提出合作學習,在統一模型中共同提高兩個輸入視圖的準確性。我們提出了兩種分別基于L2L_{2}L2?范式和KL散度的CL方法。CL可以利用未標記的數據進行進一步的改進。
- 3.我們在5個領域的多個NER數據集中展示了我們方法的有效性,我們的方法達到了最先進的精度。通過利用大量未標記的數據,可以進一步提高性能。
關鍵詞:文檔上下文; 外部上下文;搜索引擎; transformer; CRF; 合作學習
Method
一個輸入句子x被輸入到搜索引擎中,以獲得與k相關的文本。然后將相關文本輸入重新排序模塊。該框架選擇從重新排序模塊輸出的lll個級別最高的相關文本,并將文本與輸入句子一起提供給基于轉換器的模型。最后,我們計算負似然損失LCL?L2L_{CL-L_{2}}LCL?L2??以及CL損失LCL?KLL_{CL-KL}LCL?KL?。其中CL表示的是協作學習的首字母縮寫,vvv代表的是vector。使得兩個視圖之間不僅特征標記距離小; 而且使得預測的結果距離也小。 后面的LNLLL_{NLL}LNLL?則是負似然損失函數!
其中
牽扯到的基本方法: Re-ranking; CRF(條件隨機場); 一個CL損失,一個是負似然損失函數!
2. 題目:Locate and Label: A Two-stage Identifier for Nested Named Entity(定位和標記:用于嵌套命名實體識別的兩階段標識符)
作者: 沈永良(浙江大學計算機科學與技術學院)、馬新音(中國科技大學)
Abstract
命名實體識別(NER)是自然語言處理中的一項研究熱點。傳統的NER研究只涉及平面實體,忽略了嵌套實體。基于跨度的方法將實體識別視為跨度分類任務。這些方法雖然具有處理嵌套NER的能力,但計算量大,對邊界信息的忽略,對部分匹配實體的跨度利用不足,長實體識別困難。為了解決這些問題,我們提出了一種兩階段實體標識符。首先,我們通過對種子跨度進行過濾和邊界回歸來生成跨度建議,以定位實體,然后用相應的類別標記邊界調整后的跨度建議。該方法在訓練過程中有效地利用了實體和部分匹配跨距的邊界信息。通過邊界回歸,理論上可以覆蓋任意長度的實體,提高了識別長實體的能力。此外,在第一階段中過濾掉許多低質量的種子跨度,降低了推理的時間復雜度。在嵌套的NER數據集上的實驗表明,本文提出的方法優于現有的模型。
Introduction
下圖解釋什么叫平面實體和嵌套實體;
Contribution
我們將NER視為邊界回歸和跨度分類的聯合任務
- 我們有效地利用邊界信息。通過進一步識別實體邊界,我們的模型可以調整邊界以準確定位實體。在訓練邊界回歸器時,除了邊界級平滑L1損失外,我們還使用跨度級損失,用于測量兩個跨度之間的重疊。
- 在訓練過程中,我們不是簡單地將部分匹配的跨度視為負面示例,而是基于IoU(交并比)構造軟示例。這不僅緩解了正面和負面例子之間的不平衡,而且有效地利用了與基本真理實體部分匹配的跨度
- 實驗結果表明,該模型在KBP17、ACE04和ACE05數據集上取得了一致的最新性能,在F1成績上,該模型在KBP17、ACE04和ACE05數據集上的表現分別比同類基準模型好3.08%、0.71%和1.27%。
關鍵字:定位和標記;嵌套實體;跨度分類任務;長實體;兩個階段的實體標識符;邊界;邊界回歸;
Method
第一階段是生成跨度index; 第二階段是添加損失來限制index; 第三階段是交叉熵損失; 上文使用IoU,在這些種子跨度中,與實體重疊程度較高的部分為提案跨度(proposal spans),而重疊程度較低的部分為上下文跨度(contextual spans)。IoU: 交并比
交并比(Intersection-over-Union,IoU),目標檢測中使用的一個概念,是產生的候選框(candidate bound)與原標記框(ground truth bound)的交疊率,即它們的交集與并集的比值。
最理想情況是完全重疊,即比值為1最理想情況是完全重疊,即比值為1
3. 題目:FEW-NERD: A Few-shot Named Entity Recognition Dataset(few-nerd:一個小樣本的命名實體數據集)
作者: 寧定 ,徐光偉,陳玉林
作者單位:清華大學計算機科學與技術系,阿里巴巴集團,清華大學深圳國際研究生院
Abstract
最近,大量文獻圍繞著少樣本命名實體識別(NER)這一主題展開,但很少有公開的基準數據專門關注這一實際且具有挑戰性的任務。目前的方法是收集現有的有監督的NER數據集,并將其重新組織為少數鏡頭設置進行實證研究。這些策略通常旨在識別粗粒度的實體類型,示例很少,而在實踐中,大多數看不見的實體類型都是細粒度的。在本文中,我們介紹了一個大規模的人類注釋的小樣本NERD數據集,它具有8種粗粒度和66種細粒度實體類型的層次結構。Few-NERD由來自維基百科的188238個句子組成,包含4601160個單詞,每個單詞都被標注為上下文或兩級實體類型的一部分。據我們所知,這是前幾次拍攝的NER數據集和最大的人類手工完成的數據集。我們構建了不同側重點的基準任務來綜合評估模型的泛化能力。大量的實證結果和分析表明,few-nerd具有挑戰性,這個問題需要進一步研究。few-nerd公開在了github上
Few-NERD粗細粒度在下圖中展示,其中內圈表示的是粗粒度,外圈是細粒度:
關鍵字: few-shot nerd; 粗細粒度; 最大的手工NERD數據集;
Contribution
- 提出了一個benchmark
4. 題目:MLBiNet: A Cross-Sentence Collective Event Detection Network(MLBiNet:一種跨句集合事件檢測網絡)
作者: 樓東方,廖志林
作者機構:浙江大學26 AZFT聯合知識引擎實驗室;浙江大學杭州創新中心
Abstract
我們考慮共同檢測多個事件的問題,特別是在交叉語句設置中。處理這個問題的關鍵是對語義信息進行編碼,并在文檔級別對事件的相互依賴性進行建模。本文將其轉化為Seq2Seq任務,提出了一種多層雙向網絡(MLBiNet)來同時捕獲文檔級的事件關聯和語義信息。具體地說,在解碼事件標記向量序列時,首先設計了一個雙向解碼器來模擬句子中的事件相互依賴關系。其次,使用信息聚合模塊聚合句子級語義和事件標記信息。最后,我們堆疊多個雙向解碼器并提供跨句子信息,形成一個多層雙向標記架構,以迭代地跨句子傳播信息。我們表明,與當前最先進的結果相比,我們的方法在性能上有了顯著的改進。
下表是ACE2005語料庫跨句語義增強和事件相互依賴,具體來說,s2的語義信息提供了增強s3的潛在信息,s4中的攻擊事件也有助于增強s3。
Contribution
我們在ACE 2005語料庫上進行了實驗研究,以證明其在跨句聯合事件檢測中的優勢。我們的貢獻總結如下:
- 我們提出了一種新的雙向解碼器模型,用于顯式捕獲句子中的雙向事件相互依賴,緩解了傳統標記結構的長距離遺忘問題;
- 我們提出了一個稱為MLBiNet的模型,用于跨句子傳播語義和事件相互依賴信息,并集體檢測多個事件;
- 我們在ACE 2005語料庫上取得了最好的性能(F1value),超過了最新水平1.9分。
關鍵字: 事件監測;交叉語句;語義信息;事件的相互依賴;雙向解碼器;信息聚合模塊;
這里的事件是交叉語句中的事件,因為它們之間是有相互增強作用的;
總體就是用雙向解碼器來處理語義和交叉語句的事件關系,之后用信息聚合模塊來聚合兩方面的信息。
5. 題目:OntoED: Low-resource Event Detection with Ontology Embedding(OntoED:嵌入本體的低資源事件檢測)
作者:鄧淑敏( 浙江大學); 張寧豫(浙江大學);陳輝(阿里巴巴)
數據集及代碼:https://github.com/231sm/Reasoning_In_EE
Abstract
事件檢測(ED)旨在從給定文本中識別事件觸發詞,并將其分類為事件類型。目前大多數的事件關聯方法嚴重依賴于訓練實例,幾乎忽略了事件類型之間的相關性。因此,他們往往遭受數據匱乏的困擾,無法處理新的看不見的事件類型。為了解決這些問題,我們將ED描述為一個事件本體填充過程:將事件實例鏈接到事件本體中預定義的事件類型,并提出了一個新的ED框架,名為OntoED 本體嵌入。我們通過事件類型之間的聯系來豐富事件本體,并進一步歸納出更多的事件關聯。基于事件本體,OntoED可以利用和傳播相關知識,特別是從數據豐富到數據貧乏的事件類型。此外,通過建立與現有事件的鏈接,OntoED可以應用于新的不可見事件類型。實驗表明,ONTED比以前的ED方法更具優勢和魯棒性,尤其是在數據稀缺的情況下。
下圖是一個暴力和攻擊被宣判的示例圖,同時展示了事件監測中出現的問題:比如圖中暴亂事件的規模在兩種類型中相差甚遠,在低資源情景中,監督ED模型容易過度擬合,因為他們需要所有事件類型的足夠訓練實例。另一方面,現實世界的應用程序往往是開放的,并且發展迅速,因此可能會有許多新的看不見的事件類型。處理新的事件類型甚至可能需要重新開始,而不能重復使用以前的注釋。
Contribution
我們的貢獻可以概括如下:
- 我們研究低資源事件檢測問題,提出了一種基于本體的新模型,OntoED,它編碼事件的內部和內部結構;
- 本文提出了一種基于本體嵌入事件關聯的ED框架,該框架將符號規則與流行的深部神經網絡進行相互操作;
- 本文針對ED建立了一個新的數據集OntoEvent,實驗結果表明,該模型在整體、少鏡頭和零鏡頭設置方面都能取得較好的性能。
關鍵詞:事件監測(ED);資源不足;事件觸發詞; 事件類型之間的相關性; 事件本體填充;
本文重點解決的就是低資源場景下事件類別之間的隱含關聯;事件本體填充的意思就是初始的事件本體包含孤立的事件類型和事件實例,這一步就是為了建立起事件類型和事件實例的初始關聯,并建立起事件實例之間的聯系。
6. 題目:BERTifying the Hidden Markov Model for Multi-Source Weakly Supervised Named Entity Recognition(多源弱監督命名實體識別的隱馬爾可夫模型的改進)
作者:李英豪(喬治亞理工學院,美國亞特蘭大);
代碼: github.com/Yinghao-Li/CHMM-ALT
Abstract
我們研究的問題,使用來自多個弱監督源的噪聲標簽學習命名實體識別(NER)標記器。盡管獲取成本低廉,但來自薄弱監管來源的標簽往往不完整、不準確、相互矛盾,因此很難學習準確的NER模型。為了應對這一挑戰,我們提出了一種條件隱馬爾可夫模型(CHMM),該模型能夠以無監督的方式從多源噪聲標簽中有效地推斷出真實標簽。CHMM利用原來訓練好的具有語境表征能力的語言模型的力量增強了經典的隱馬爾可夫模型。具體地說,CHMM從輸入標記的BERT嵌入中學習標簽轉換和排放概率,從而從嘈雜的觀察中推斷出潛在的真實標簽。我們通過另一種培訓方法(CHMMAT)進一步完善了CHMM。它使用CHMM推斷的標簽微調BERT-NER模型,該BERTNER的輸出被視為訓練CHMM的附加弱源。在不同領域的四個NER基準測試上的實驗表明,我們的方法比最新的弱監督NER模型有很大的優勢。
Contribution
我們的貢獻包括:
- 一個多源標簽聚合器CHMM,具有令牌轉換和發射概率,用于聚合來自不同弱標簽源的多組NER標簽
- 一種交替的訓練方法CHMM-ALT,該方法依次訓練CHMM和BERT-NER,利用彼此的多回路輸出優化
- 多源弱監督NER性能對來自不同領域的四個NER基準的綜合評估表明,CHMM-ALT與最強的基線模型相比,F1平均得分提高了4.83。
關鍵詞: 弱監督源; 噪聲標簽; 條件隱藏式的馬爾可夫模型; 真實標簽;多元標簽聚合器;交替訓練;改進BERT-NER
弱監督學習: 鏈接
南京大學周志華教授在2018年1月發表了一篇論文,叫做《A Brief Introduction to Weakly Supervised Learning》,弱監督學習是相對于全部真值標簽這樣的強監督信息而言的,什么是弱監督學習呢?文章里說,弱監督學習可以分為三種典型的類型,不完全監督(Incomplete supervision),不確切監督(Inexact supervision),不精確監督(Inaccurate supervision)。
7. 題目: Document-level Event Extraction via Heterogeneous Graph-based Interaction Model with a Tracker(基于異構圖交互模型和跟蹤器的文檔級事件提取)
作者: 徐潤欣(北京大學計算語言學重點實驗室,中國教育部);常寶寶(北京大學計算語言學重點實驗室,中國教育部,中國深圳彭城實驗室)
代碼:https://github. com/RunxinXu/GIT
Abstract
文檔級事件提取旨在識別整篇文章中的事件信息。由于該任務的兩個挑戰,現有的方法并不有效:a)目標事件參數分散在句子中;b) 文檔中事件之間的關聯對于模型來說是非常重要的。在本文中,我們提出了基于異構圖的帶有跟蹤器的交互模型(GIT)來解決上述兩個難題。對于第一個挑戰,GIT構建了一個異構圖交互網絡來捕獲不同句子和實體提及之間的全局交互。對于第二種情況,GIT引入了一個跟蹤模塊來跟蹤提取的事件,從而捕獲事件之間的相互依賴關系。在大規模數據集上的實驗(Zheng et al.,2019)表明,GIT的性能比以前的方法好2.8倍。進一步的分析表明,GIT可以有效地提取分散在文檔中的多個相關事件和事件參數。
下圖展示了提出文檔級事件的兩個難點:
第一,圖1顯示了一個示例,即實體降低權重(EU)和實體增加權重(EO)事件記錄是從財務文檔中提取的。提取EU事件的難度較小,因為所有相關論點都出現在同一句話中(第2句),然而,對于EO記錄的論點,2014年11月6日出現在第1句和第2句中,而吳曉婷出現在第3句和第4句中。在不考慮句子和實體提及之間的全球互動的情況下,識別此類事件將是一個相當大的挑戰。第二,一個文檔可以同時表示多個相關事件,并且識別它們之間的相互依賴性是2021年5月31日成功開采的基礎。如圖1所示,這兩個事件是相互依賴的,因為它們對應于完全相同的事務,因此共享相同的起始日期。對相關事件之間的這種相互依賴性進行有效建模仍然是這項任務的關鍵挑戰。
Contribution
我們的貢獻總結如下:
- 我們為文檔級EE構建了一個異構圖交互網絡。通過不同的異構邊緣,該模型可以捕獲不同句子中分散事件參數的全局上下文
- 我們引入了一種新的跟蹤模塊來跟蹤提取的事件記錄。跟蹤器簡化了提取相關事件的難度,因為將考慮事件之間的相互依賴性
- 實驗表明,在包含32040個文檔的大規模公共數據集(Zheng等人,2019年)上,GIT的性能比之前的最新模型高出2.8 F1,特別是在跨句事件和多事件場景上(F1的絕對增長率分別為3.7和4.9)。
關鍵詞: 文檔級事件; 目標事件;事件之間的關聯;異構圖交互網絡;句子和事件;全局交互; 跟蹤模塊;事件與事件;相互依賴;
8. 題目:LearnDA: Learnable Knowledge-Guided Data Augmentation for Event Causality Identification(LearnDA:用于事件因果關系識別的可學習知識引導數據擴充)
Abstract
事件因果關系識別的現代模型(ECI)主要基于監督學習,容易出現數據缺失問題。不幸的是,現有的NLP相關的增強方法無法直接生成此任務所需的可用數據。為了解決數據缺乏的問題,我們引入了一種新的方法,通過在雙重學習框架中迭代生成新的示例并對事件因果關系進行分類,來增加事件因果關系識別的訓練數據。一方面,我們的方法是知識引導的,它可以利用現有的知識庫生成格式良好的新句子。另一方面,我們的方法采用了雙重機制,這是一個可學習的擴充框架,可以交互地調整生成過程以生成任務相關句子。在兩個基準EventStoryLine和 Causal-TimeBank上的實驗結果表明:1)我們的方法可以為ECI增加合適的任務相關訓練數據;2) 我們的方法在兩個基準EventStoryLine和 Causal-TimeBank(F1值分別為2.5點和2.1點)方面優于以前的方法。
Introduction
下圖解釋了什么叫做ECI:
事件因果關系識別(ECI)旨在識別文本中事件之間的因果關系,這可以為NLP任務提供重要線索,如邏輯推理和問答。這個任務通常被建模為一個分類問題,比如確定句子中兩個事件之間是否存在因果關系。例如,在圖1中,ECI系統應該在兩句話中識別兩種因果關系:(1)attack ------》(cause)killed 在S1中;(2)statement--------》(cause)protests在S2中;但是現有的ECI都是基于帶有注釋的數據集的,數據集相對較小,這阻礙了高性能事件因果推理模型的訓練;Easy data augmentation(EDA)數據增強方法是最具代表性的方法,它依賴詞匯替換、刪除、交換和插入來生成新數據。然而,僅僅依靠這些單詞操作通常會產生新的數據,這些數據不符合任務相關的質量,如圖1所示,S3由EDA生成,它缺少一個語言表達式來表達killed和attack之間的因果語義。因此,如何使用交互建模數據擴充和目標任務以生成具有任務相關特征的新數據是ECI面臨的一個挑戰性問題。
Contribution
綜上所述,本文的貢獻如下:
- 我們提出了一個新的可學習的數據擴充框架來解決ECI的數據缺失問題。我們的框架可以通過雙重學習來利用識別和生成之間的雙重性,這種雙重學習可以學習為ECI生成任務相關句子;
- 我們的知識是可引導和學習的。具體來說,我們從KBs中引入因果事件對來初始化對偶生成,從而保證生成的因果句的因果關系。我們還采用約束生成結構,通過雙重交互中的迭代學習,逐步生成形式良好的因果句;
- 在兩個基準上的實驗結果表明,我們的模型在ECI上取得了最好的性能。此外,它也顯示出一定的優勢,比以往的數據擴充方法。
關鍵詞:事件因果關系識別(ECI);數據缺失;dual學習框架;迭代生成新的示例;知識引導;雙重學習;因果事件對; 約束生成結構;
9. 題目:Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data(具有小的強地標記和大的弱地標記的數據的命名實體識別)
作者:江浩明(佐治亞理工學院,美國佐治亞州亞特蘭大)
Abstract
弱監督在許多自然語言處理任務中顯示出良好的效果,如命名實體識別(NER)。現有的工作主要集中在學習監督力度較弱的deep-NER模型,也就是沒有任何人工注釋,并且表明僅通過使用弱標記數據,可以獲得良好的性能,盡管對于手動/強標記數據,性能仍然低于完全監督的NER。在本文中,我們考慮一個更實際的情況下,我們既有少量的強標記數據和大量的弱標記數據。不幸的是,我們觀察到,當我們在強標記和弱標記數據的簡單或加權組合上訓練deep-NER模型時,弱標記數據不一定會改善甚至惡化模型性能(由于弱標記中存在大量噪聲)。為了解決這個問題,我們提出了一個新的多階段計算框架——NEEDLE ,它包含三個基本要素:(1)弱標記完成,(2)噪聲感知損失函數,(3)強標記數據的最終微調。通過在電子商務查詢引擎和生物醫學引擎上的實驗,證明了NEEDLE算法能夠有效地抑制弱標簽的噪聲,并優于現有的方法。特別是,我們在3個生物醫學NER數據集上獲得了新的SOTA F1分數:BC5CDRchem 93.74,BC5CDR疾病90.69,NCBIdisease 92.28。
Contribution
我們將我們的主要貢獻總結如下:
- 我們確定了一個關于弱監督的重要研究問題:在使用強標記和弱標記數據的簡單或加權組合訓練deep-NER模型時,弱標記數據的超大規模加劇了弱標記數據中的廣泛噪聲,并可能顯著惡化模型性能。
- 我們提出了一個三階段的計算框架,名為NEEDLE,以更好地利用超大弱標記數據的能力。實驗結果表明,在電子商務查詢NER任務和生物醫學NER任務中,針頭顯著提高了模型的性能。特別是,我們在3個生物醫學NER數據集上獲得了新的SOTA F1分數:BC5CDR化學93.74,BC5CDR疾病90.69,NCBI疾病92.28。
關鍵字: 弱監督;強標記和弱標記組合;多階段計算框架NEEDLE;噪聲感知損失函數;
我們還將建議的框架擴展到多語言設置。
本文是弱監督中數據集是強標記和弱標記組合的。
10. 題目: PRGC: Potential Relation and Global Correspondence Based Joint Relational Triple Extraction(基于潛在關系和全局對應的聯合關系的三重提取)
作者:鄭恒義(深圳大學電子信息工程學院,深圳大學信息技術中心,騰訊賈維斯實驗室,中國深圳)
Abstract
從非結構化文本中聯合提取實體和關系是信息提取中的一項重要任務。最近的方法雖然取得了相當好的性能,但仍存在一些固有的局限性,如關系預測冗余、基于廣度的提取泛化能力差以及效率低下。在本文中,我們從一個新的角度將該任務分解為三個子任務:關系判斷、實體提取和主客體對齊,然后提出了一個基于潛在關系和全局對應的聯合關系三重提取框架(PRGC)。具體來說,我們設計了一個預測潛在關系的組件,該組件將以下實體提取約束到預測的關系子集,而不是所有關系;然后,使用特定于關系的序列標記組件來處理主語和賓語之間的重疊問題;最后,設計了一個全局對應組件,將主體和對象對齊成一個低復雜度的三元組。大量實驗表明,PRGC以更高的效率在公共基準上實現了最先進的性能,并在重疊三元組的復雜場景中提供了一致的性能增益。
Introduction
缺點:我們回顧了表中的兩種端到端方法。對于名為CasRel的多任務方法,關系三重提取分兩個階段執行,將對象提取應用于所有關系。顯然,識別關系的方法是冗余的,其中包含大量無效操作,基于跨度的提取方案只關注實體的開始/結束位置,導致泛化能力差。同時,由于其主客體對齊機制,它一次只能處理一個主題,效率低下且難以部署。對于單級命名為TPLinker的框架,為了避免主客體對齊中的曝光偏差,它利用了一個相當復雜的解碼器,導致稀疏標簽和低收斂速度,而基于跨度的提取的關系冗余和泛化能力差的問題仍然沒有解決
Contribution
本文的主要貢獻如下:
- 1.我們從一個新的角度處理關系三重提取任務,將任務分解為三個子任務:關系判斷、實體提取和主客體對齊;在表1所示的建議范例的基礎上,對以前的工作進行了比較;i)關系判斷,旨在識別句子中的關系,ii)實體提取,旨在提取句子中的所有主語和賓語;iii)主語-賓語對齊,旨在將主語-賓語對對齊為三元組。
- 2.根據我們的觀點,我們提出了一個新的端到端框架,并針對子任務設計了三個組件,大大緩解了冗余關系判斷的問題,基于SPAN的提取泛化能力差,主客體對齊效率低。
- 3.我們在幾個公共基準上進行了廣泛的實驗,這表明我們的方法達到了最先進的性能,特別是對于重疊三元組的復雜場景。進一步的燒蝕研究和分析證實了我們模型中每個組件的有效性。
- 4.除了更高的精度外,實驗表明,與以前的工作相比,我們的方法在復雜度、參數數量、浮點運算(FLOPs)和推理時間方面具有顯著的優勢。
關鍵字: 非結構化文本;三元組(主語、關系、賓語);多任務學習;聯合關系三重提取框架;預測潛在關系的組件;序列標記組件;全局對應組件;
11. 題目:CIL: Contrastive Instance Learning Framework for Distantly Supervised Relation Extraction(CIL:用于遠程監督關系抽取的對比實例學習框架)
作者: 陳濤(浙江大學、阿里巴巴浙江大學前沿技術聯合研究所)
Abstract
自從遠程監督(DS)首次被引入關系提取(RE)任務以來,從遠程監控(DS)生成的訓練數據中減少噪聲的旅程已經開始。在過去的十年中,研究人員應用多實例學習(MIL)框架從許多的句子中找到最可靠的特征。雖然MIL包的模式可以大大降低DS噪聲,但它不能表示數據集中許多其他有用的句子特征。在許多情況下,這些句子特征只能通過額外的句子級人工標注來獲得,代價很高。因此,遠程監督RE模型的性能是有界的。在本文中,我們超越了典型的MIL框架,提出了一種新的對比實例學習(CIL)框架。具體而言,我們將初始MIL視為關系型三重編碼器,并對每個實例的正對和負對進行約束。實驗證明了我們提出的框架的有效性,在NYT10、GDS和KBP上比以前的方法有了顯著的改進。
Introduction
關系抽取(relationextraction,RE)旨在根據實體的上下文預測實體之間的關系。提取的關系事實可以使各種下游應用程序受益。由于訓練數據的數量通常限制了傳統的有監督的RE系統,因此當前的RE系統通常采用遠程監督(DS)來通過對齊知識庫(KBs)和文本來獲取豐富的訓練數據。然而,這種啟發式方法不可避免地會給生成的數據帶來一些噪聲。成為遠程監督關系抽取(DSRE)的最大挑戰。
下圖中展示了傳統的MIL和改進后的MIL;
左側是經典的MIL框架用在DSRE中, 通過將訓練實例劃分為多個包并使用包作為新的數據單元,句子都有相同的KB fact知識庫[實體1, 實體2, 關系];
右側則是在句子后面添加了注意力機制,從嘈雜的數據中形成精確表示的能力,MIL框架在bag level訓練;
無論一個包包含多少實例,只有形成的包級別表示可以用于MIL中的進一步培訓,這是非常低效的。
Contribution
因此,本文的主要貢獻總結如下:
- 我們討論了長期存在的MIL框架,并指出它不能有效地利用MIL包中的大量實例
- 我們提出了一種新的對比實例學習方法,以提高MIL框架下DSRE模型的性能
- 對保留集和人類注釋集的評估表明,CIL比以前的SOTA模型有顯著的改進。
關鍵詞: 關系抽取(RE);遠程監督(DS,被引入);DSRE;生成數據;MIL框架; 去除噪音;Beyond MIL的對比實例學習(CIL)框架; 關系三重編碼器;約束正負對;有效利用;
補:1. bag-level = bag of words
詞袋模型,我們將一個文檔轉化為多個詞的結合;
同時一個bag就表示的是一種確切的關系類型; 比如兩個實體之間就是出生地的關系;
鏈接地址
該算法的核心思想是將文本與大規模知識圖譜進行實體對齊,利用知識圖譜已有的實體間關系對文本進行標注。遠程監督基于的基本假設是:如果從知識圖譜中可獲取三元組R(E1,E2)(注:R代表關系,E1、E2代表兩個實體),且E1和E2共現與句子S中,則S表達了E1和E2間的關系R,標注為訓練正例;
12. 題目:SENT: Sentence-level Distant Relation Extraction via Negative Training(SENT:通過否定訓練提取句子級距離關系)
作者: 馬碩天(復旦大學計算機學院,中國上海),貴濤(復旦大學現代語言與語言學研究所,中國上海)
Abstract
關系提取的遠程監控為包內的每個句子提供統一的包標簽(bag labels ),而精確的句子標簽對于需要精確關系類型的下游應用程序非常重要。直接使用袋子標簽進行句子級訓練將引入大量噪聲,從而嚴重降低性能。在這項工作中,我們建議使用消極訓練(NT),其中一個模型使用互補標簽進行訓練,即“實例不屬于這些互補標簽”。由于選擇真實標簽作為補充標簽的概率較低,NT提供的噪聲信息較少。此外,使用NT訓練的模型能夠將噪聲數據從訓練數據中分離出來。在NT的基礎上,我們提出了一個句子級框架SENT,用于遠距離關系提取。SENT不僅過濾噪聲數據以構建更干凈的數據集,還執行重新標記過程以將噪聲數據轉換為有用的訓練數據,從而進一步提高模型的性能。實驗結果表明,該方法在句子級評價和去噪效果上明顯優于以往的方法。
Introduction
在MIL中,訓練和測試過程在bag-level執行,其中包包含提及相同實體對但可能不描述相同關系的嘈雜語句。使用MIL的研究可大致分為兩類:1)利用軟權重區分每個句子影響的軟去噪方法;2) 硬去噪方法,從袋子中去除嘈雜的句子。
Bag-level labels存在的缺點:
bag-level labels中存在兩種類型的噪音:1)Multi-label noise:每個句子的確切標簽(“出生地”或“雇員”)不清楚;2) Wrong-label noise:包內的第三句話實際上表示“入住”,但不包括在包標簽中。
Contribution
為了總結這項工作的貢獻:
- 我們建議對句子級的DSRE使用消極訓練,這大大保護了模型免受噪聲信息的影響
- 我們提出了一個句子級框架SENT,其中包括一個噪音過濾和一個重新定義遠距離數據的重新標記策略
- 與以往的方法相比,該方法在再利用性能和去噪效果方面都有了顯著的改進。
關鍵詞: 包標簽;消極訓練(NT);句子級框架SENT;噪聲數據;重新標記;
13. 題目:A Span-Based Model for Joint Overlapped and Discontinuous Named Entity Recognition(基于Span的為了處理重疊和不連續命名實體識別的模型)
作者: 李飛(中國武漢大學網絡科學與工程學院航天信息安全與可信計算教育部重點實驗室)
季東紅(中國天津大學新媒體與傳播學院)
代碼
Abstract
重疊和不連續命名實體識別的研究越來越受到人們的關注。以前的大多數工作都集中在重疊或不連續的實體上。在本文中,我們提出了一種新的基于跨度的模型,可以同時識別重疊實體和不連續實體。該模型包括兩個主要步驟。首先,通過遍歷所有可能的文本跨度來識別實體片段,因此,可以識別重疊的實體。其次,我們執行關系分類來判斷給定的一對實體片段是重疊的還是連續的。這樣,我們不僅可以識別不連續的實體,而且可以對重疊的實體進行雙重檢查。總體而言,我們的模型本質上可以看作是一種關系抽取范式。在多個基準數據集上的實驗結果(CLEF、GENIA和ACE05)表明,我們的模型對于重疊和不連續的NER具有很強的競爭力。
Introduction
NER是NLP中的一項基本任務,因為它在信息提取和數據挖掘中有廣泛的應用。傳統上,NER是作為序列標記問題(sequence labeling)提出的,并由基于條件隨機場(CRF)模型解決,但是不能處理重疊和不連續的實體。
例說明序列標記模型和基于跨度的模型之間的差異。在左邊,標有相同編號的單詞片段屬于同一實體。在右側,藍色矩形表示已識別的實體片段,實線表示它們之間的連續或重疊關系(這兩種關系相互排斥)。
關鍵字: 重疊和不連續的命名實體識別; 重疊的實體;不連續的實體;序列標記問題;CRF;基于跨度的模型;文本跨度;雙重檢查; 實體片段識別;片段關系預測;
14. 題目:Capturing Event Argument Interaction via A Bi-Directional Entity-Level Recurrent Decoder(通過雙向實體級循環解碼器捕獲事件參數交互)
作者:于喜祥(北京大學軟件工程國家工程研究中心)
代碼:
Abstract
捕獲事件參數之間的交互是實現健壯的事件參數提取(EAE)的關鍵步驟。然而,現有的這方面的研究有兩個局限性:1)上下文實體的參數角色類型信息主要用作訓練信號,忽略了直接將其作為語義豐富的輸入特征的潛在優點;2) 參數級別的順序語義意味著參數角色在事件提及上的總體分布模式,但沒有很好地描述。為了解決上述兩個瓶頸,我們首次將EAE形式化為類似Seq2Seq的學習問題,其中帶有特定事件觸發器的句子映射到一系列事件參數角色。提出了一種具有新的雙方向的實體級別的重復解碼器(BERD)的神經結構,通過結合上下文實體的參數角色預測(如逐字文本生成過程)來生成參數角色,從而更準確地區分事件中的隱式參數分布模式。
Introduction
EAE:事件參數提取(EAE)是事件提取(EE)的關鍵步驟,其目的是識別作為事件參數的實體,并對它們在事件中扮演的角色進行分類。
例如,鑒于“在巴格達,一名攝影師在美國坦克向巴勒斯坦酒店開火時死亡”一句中的“開火”一詞觸發了襲擊事件,EAE需要確定“巴格達”、“攝影師”、“美國坦克”和“巴勒斯坦酒店”是與地點、目標、工具的爭論,和目標分別作為角色。
關于EAE有兩種范式,深度學習被廣泛使用。本文中的第一個稱為事件間參數交互,集中于在其他事件實例的上下文中挖掘目標實體(候選參數)的信息,比如在同一句話中,受害者對死亡事件的論點通常是攻擊事件的目標論點的證據。
第二種是事件內參數交互,它利用目標實體與同一事件實例中其他實體的關系。本文重點討論第二種范式。盡管已有的捕獲事件內參數交互的方法取得了令人滿意的結果,但它們存在兩個瓶頸。
Contribution
本文的貢獻在于:
- 1.首次將事件參數提取任務形式化為一個類似Seq2Seq的學習問題,其中具有特定事件觸發器的句子映射到一系列事件參數角色。
- 2.我們提出了一種具有雙向實體級循環解碼器(BERD)的新型架構,該架構能夠利用左側和右側上下文實體的參數角色預測,并區分參數角色的總體分布模式。
- 3.大量的實驗結果表明,在廣泛使用的ACE 2005數據集上,我們提出的方法優于幾個有競爭力的基線。如果一句話中有更多的實體,BERD的優勢就更為顯著。
關鍵字: 事件參數提取; 參數角色;順序語義;Seq2Seq;雙方向的實體級別的重復解碼器;深度學習;事件間參數交互; 事件內參數交互
Seq2Seq:Seq2Seq是encoder和decoder結構的; 主要用在機器翻譯上;
15. 題目:Subsequence Based Deep Active Learningfor Named Entity Recognition(基于子序列的深度主動學習的命名實體識別)
作者: Puria Radmard(倫敦大學學院、劍橋大學、Vector AI)
代碼: https://github.com/puria-radmard/RFL-SBDALNER
Abstract
主動學習(AL)已成功應用于深度學習,以大幅減少實現高性能所需的數據量。以前的工作表明,用于命名實體識別(NER)的輕量級體系結構僅需25%的原始訓練數據就可以實現最佳性能。然而,這些方法沒有利用語言的順序性和每個實例中不確定性的異質性,需要對整個句子進行標記。此外,此標準方法要求注釋者在標記時可以訪問完整的句子。在這項工作中,我們通過允許AL算法查詢句子中的子序列,并將它們的標簽傳播到其他句子來克服這些限制。我們在OnNotes5.0上實現了高效的結果,只需要原始訓練數據的13%,而Conll2003只需要27%。與查詢完整句子相比,這分別提高了39%和37%。
Introduction
在NLP中數據集是很重要的,但是標記的成本太高,一般人消受不起; 因此我們提出了主動學習,主動學習策略旨在通過自動識別大量未標記的數據中的最佳訓練示例來有效地訓練模型,這大大減少了人工注釋的工作量,因為需要手動標記的實例要少得多。
Contribution
本文的主要貢獻有:
- 1.通過允許查詢完整句子的子序列,提高了AL-for-NER的效率;
- 2.基于實體的分析表明,子序列查詢策略傾向于查詢更多相關令牌(也就是屬于實體的代幣);
- 3.對完整句子和子序列查詢方法進行的查詢的不確定性分析,表明查詢完整句子會導致選擇更多模型已經確定的標記。
關鍵詞: 主動學習(AL); 語言的順序性; 訪問完整的句子; 子序列; 傳播;
16. 題目:Modularized Interaction Network for Named Entity Recognition(用于命名實體識別的模塊化交互網絡)
作者: 李飛(中國北京理工大學)、王錚(新加坡南洋理工大學)
代碼:
Abstract
現有的命名實體識別(NER)模型雖然取得了良好的性能,但也存在一定的缺陷。基于序列標記的NER模型在識別長實體方面表現不佳,因為它們只關注單詞級信息,而基于段的NER模型關注處理段而不是單個單詞,無法捕獲段內的單詞級依賴關系。此外,由于邊界檢測和類型預測可能會在NER任務中相互協作,因此這兩個子任務通過共享其信息來相互加強也很重要。在本文中,我們提出了一種新的模塊化交互網絡(MIN)模型,該模型利用了段級信息和詞級依賴,并結合了一種交互機制來支持邊界檢測和類型預測之間的信息共享,以提高NER任務的性能。我們基于三個NER基準數據集進行了廣泛的實驗。性能結果表明,所提出的MIN模型優于目前最先進的模型。
Introduction
命名實體識別(NER)是自然語言處理(NLP)中的一項基本任務,它旨在發現和分類文本中命名實體的類型,如人員(PER)、位置(LOC)或組織(ORG)。它已廣泛用于許多下游應用,如關系提取、實體鏈接、問題生成和共指消解。
目前,NER任務有兩種類型的方法。第一種是基于序列標記的方法,其中一個句子中的每個單詞都有一個特殊的標簽(比如有GB-PER或IPER)。這種方法可以捕獲相鄰單詞級標簽之間的依賴關系,并在整個句子中最大化預測標簽的概率。然而,NER是一項段級識別任務。因此,僅關注單詞級信息的基于序列標簽的模型在識別長實體方面表現不佳。最近,基于分段的方法因NER任務而廣受歡迎。它們處理段(也就是多個單詞的跨度)而不是單個詞作為基本單位,并指定一個特殊的標簽發送至各分部。由于這些方法采用段級處理,因此它們能夠識別長實體。但是,段中的字級依賴關系通常被忽略。
Contribution
綜上所述,本文的主要貢獻包括:
- 我們提出了一種新的模塊化交互網絡(MIN)模型,該模型利用基于段的模型的段級信息和基于序列標記的模型的詞級依賴性,以提高NER任務的性能所提出的MIN模型由NER模塊、邊界模塊、類型模塊和交互機制組成。
- 我們建議將邊界檢測和類型預測分為兩個子任務,并結合交互機制以實現兩個子任務之間的信息共享,從而實現最先進的性能我們在三個NER基準數據集(即CoNLL2003、WNUT2017和JNLPBA)上進行了大量實驗,以評估所提出的MIN模型的性能。
- 實驗結果表明,我們的MIN模型達到了最先進的性能,優于現有的基于神經網絡的NER模型
關鍵字: 序列標記的NER;長實體;基于段的NER;單詞間的依賴關系;邊界檢測和類型預測;相互協作;模塊化交互網絡;
總結
以上是生活随笔為你收集整理的论文阅读笔记(二)【ACL2021】知识抽取NER的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android制作相册浏览器_一分钟简单
- 下一篇: treemap怎么保证有序_干货!208