Joint Event and Temporal Relation Extraction with Shared Representations and Structured Prediction
EMNLP_2019 Joint Event and Temporal Relation Extraction with Shared Representations and Structured Prediction
- 摘要
- 介紹
- 相關工作
- 聯合事件抽取模型
- neural SSVM
- SSVM的損失函數為:
- MAP(最大后驗概率)推斷
- 約束條件
- 實施細節
- 數據集
- Baselines
- 端到端事件時序關系提取
- 實驗
- 實驗結果
- 消融實驗
- 總結
論文
摘要
這篇文章主要是解決“事件-事件聯合抽取”問題。與已有工作相比,本文提出的方法有兩個優點:
- 通過允許事件和關系模塊共享相同的上下文嵌入和神經表示學習器來改進事件表示。
- 通過利用結構化推理和學習方法對事件標簽和關系標簽進行聯合分配,避免了在傳統PipeLine模型中的錯誤傳播。
介紹
事件間時間關系的提取是一項重要的自然語言理解(NLU)任務,它可以幫助許多后續任務,如問題回答、信息檢索和敘事生成。該任務可以建模為為給定的文本構建一個圖,圖中的節點表示事件,而邊相應地標記有時間關系。下圖(a)表示出了下面文本的圖結構。
The assassination touched off a murderous rampage by Hutu security forces and civilians,who slaughtered mainly Tutsis but also Hutus who favored reconciliation with the minority. It also reignited the civil war.
這次暗殺引發了胡圖族安全部隊和平民的瘋狂殺戮,他們屠殺的主要是圖西族人,但也有胡圖人支持與少數民族和解。它也重新點燃了內戰。
assassination(暗殺)、slaughtered(屠殺)、rampage(瘋狂)、war、Hutu節點是候選事件,不同類型的邊規定了事件之間不同的時間關系:assassination在rampage之前(BEFORE),rampage包括(INCLUDES)slaughtered,slaughtered和war的關系是模糊(VAGUE)的。由于“Hutu”實際上不是一個事件,因此系統應將“Hutu”與圖中所有其他節點之間的關系注釋為無(NONE,即無關系)。
即事件提取和時間關系分類,并且他們還假設在訓練關系分類器時給出黃金事件(V erhagen等人,2007、2010;Uzzaman等人,2013;Chambers等人,2014;Ning等人,2017;Meng和Rumshisky,2018)。具體地說,他們建立了端到端的系統,首先提取事件,然后預測它們之間的時間關系(如下圖(b))。
在這些PipeLine模型中,事件提取錯誤將傳播到關系分類步驟,之后無法糾正。
-
我們的第一個貢獻是提出了一個同時提取事件和時間關系的聯合模型(見下圖(c))。
其動機是,如果我們訓練的關系分類器沒有非事件之間的關系,那么它就有可能具有糾正事件提取錯誤的能力。例如,在圖(a)中,如果關系分類器高置信度地對(Hutu,War)預測為無,則這時可由事件分類器用來推斷它們中的至少一個不是事件的強信號。 -
我們的第二個貢獻是通過首次在事件提取模塊和時間關系提取模塊之間共享相同的上下文嵌入和神經表示學習器來改進事件表示。在共享嵌入和神經表示學習器的基礎上,該模型產生表示給定句子中的所有事件和關系的圖結構輸出。
在這種情況下,有效的圖預測應該滿足兩個結構約束。 -
兩個非事件之間或一個事件和一個非事件之間的時間關系應該始終為無。
-
對于事件之間的時間關系,由于時間的傳遞性,不應該存在循環(例如,如果A在B之前,B在C之前,那么A必須在C之前)。
圖的有效性是通過求解具有這些結構約束的整數線性規劃(ILP)優化問題來保證的,我們的聯合模型由結構支持向量機(SSVM)以端到端的方式進行訓練。
相關工作
這部分簡要總結事件抽取和時序關系抽取方面的現有工作。據作者所知,目前還沒有關于聯合事件和關系提取的工作,所以回顧聯合實體和關系提取的工作。
-
現有的事件提取方法在時間關系領域,如TempEval3車間工作中(UzZaman等人,2013年),都使用傳統的機器學習模型(邏輯回歸,支持向量機,最大熵)與手工工程特征(例如,ClearTK (Bethard, 2013年)和NavyTime (Chambers, 2013年))。
-
雖然其他領域在使用神經元方法提取事件方面也取得了進展(Nguyen和Grishman, 2015;Nguyen等人,2016;(Feng et al., 2016),但時間關系領域的最新進展更多地集中在提供黃金事件的環境上。
時序關系提取現有工作
-
使用具有人工工程特征的局部兩兩分類:
Mani等人,2006;Verhagen等人,2007;Chambers等人,2007;Verhagen和Pustejovsky,2008 -
使用更好的語言和句法規則進行了改進:
ClearTK(Bethard,2013)、UTTime(Laokulrat等人,2013)、NavyTime(Chambers,2013)和CAEVO(Chambers等人,2014) -
結構化學習:
Yoshikawa等人(2009);Ning等人(2017);Leeuwenberg和Moens(2017) -
神經元方法:
Tourille等人,2017;Cheng和Miyao,2017;Meng等人,2017;Meng和Rumshisky,2018
在實踐中,我們需要從原始文本中提取事件及其之間的時間關系。以上所有工作都將其視為兩個子任務,在PipeLine中求解。就我們所知,目前還沒有關于聯合事件-時間關系提取的工作。然而,在很多著作中都研究了“聯合”的概念來進行實體關系提取。
- Miwa和Sasaki(2014)將他們的聯合模型框定為表格填充任務,利用啟發式規則將表格表示映射為順序預測,并構造全局損失來計算最佳聯合預測。
- Li和Ji(2014)定義了一種用于聯合實體和關系提取的全局結構,基于領域和語言知識對局部和全局特征進行編碼。并利用BEAM-Search(波束搜索)為實體和關系找到全局最優分配。
- Miwa和Bansal(2016)利用LSTM架構聯合預測實體和關系,但在確保預測一致性方面做得不夠。
- Zhang等人(2017)將神經網絡和全局優化的優點與波束搜索相結合。
在這些工作的啟發下,我們提出了一種端到端可訓練的神經結構化支持向量機模型(neural SSVM),該模型能夠同時從文本中提取事件及其關系,并通過ILP約束來確定全局結構。
聯合事件抽取模型
在這一部分中,我們首先概述我們的neural SSVM模型,然后詳細描述我們框架中的每個組件(即多任務神經評分模塊,以及如何進行學習和推理)。我們將所有可能的關系標簽(包括NONE)的集合表示為R,所有事件候選(事件和非事件)表示為E,所有關系候選表示為EE。
neural SSVM
模型架構如下;
使用預訓練BERT作為word emmbedding,Vi表示包含上下文信息的詞向量,(i,j)表示候選關系,表示候選事件,將其輸入到BiLstm層以進一步編碼特定于任務的上下文信息,對于每對(i,j),采取其對應的向前向后隱藏向量fi、bi、fj、bj,再加上原始數據集中提供的簡單語言學特征Lij(token距離、時態和事件極性),然后將其作為輸入,以計算成為事件的可能性或可能的關系的softmax函數的分布。在結構化學習層上,灰色表示被預測為事件的token,時間之間的關系類型有BEFORE、INCLUDES、VAGUE、NONE。這些全局分配被輸入以計算SSVM損失。
SSVM的損失函數為:
其中,φ表示模型參數,n表示索引實例,C和Ce是平衡事件、關系和正則化之間損失的超參數,S是計分函數,設計了一個多任務的神經結構來學習。
表示的是事件的數目和事件關系數目的總和。
分別表示事件對和事件關系的真實結果和預測結果。
表示只是結果和預測結果之間的距離,使用的是漢明距離(Hamming距離)。
分別表示判斷事件與否和判斷事件關系存在與否的得分函數。
本文中的 neural SSVM 與 傳統的 SSVM 的最大區別在于評分功能,傳統的 SSVM 往往采用人工設計的線性函數來計算得分,而本文采用基于RNN的評分函數,并通過訓練整個端到端的結構來訓練。
遞歸神經網絡(RNN)體系結構已被先前的時間提取工作廣泛采用,以編碼上下文信息(Tourille等人,2017;Cheng和Miyao,2017;Meng等人,2017)。在這些工作的啟發下,我們采用了基于RNN的事件和關系預測評分函數,以便以數據驅動的方式學習特征并捕捉輸入中的長期上下文。
MAP(最大后驗概率)推斷
這篇文章是通過最大后驗概率推斷來得到預測結果的,將推斷問題建模為整數線性規劃(ILP)問題,加入了三種約束:
目標函數為:
目標是得到上下文中所有事件和關系候選的最佳標簽分配情況。
其中,
是第k個候選是否為事件的二進制指示符;
是(i,j)之間的關系是否為r的二進制指示符;
分別為事件和關系的打分函數;
控制事件和關系之間權重的參數。
約束條件
緊跟目標函數的一個約束是:
另外引入兩個約束,以保證事件圖的合理性和有效性。
一對輸入token具有正的時間關系,當且僅當兩個輸入token都是事件時。以下全局約束將滿足此屬性:
例如,如果ri,j=BEFORE,則rj,i=AFTER。若圖中存在 ( i ,j) , (j,k) 和 ( i,k ) ,則 (i,k)的關系標簽應該由 ( i,j)和 (j,k)決定。
實施細節
在這一部分中,介紹構建端到端事件時間關系提取系統的基線和我們的四個模型的實現細節,其中重點介紹了結構化聯合模型。通過實驗對它們進行比較,并說明為什么我們提出的結構化節點模型效果最好。
數據集
Baselines
分別在TB-Dense和MATERS數據集上運行了兩個事件和關系提取系統,CAEVO(Chambers等人,2014年)和CogCompTime(Ning等人,2018c)。這兩種方法都是利用基于人工設計特征的傳統學習算法(分別為MaxEnt和average perceptron),分別獲得事件和時間關系的獨立模型,并作為PipeLine進行端到端的關系提取。Chambers等人(2014)沒有給事件和端到端時間關系提取性能,因此我們計算每個實現的分數。
端到端事件時序關系提取
-
Single-Task Model:構建端到端系統的最基本方法是訓練獨立的事件檢測和關系預測模型。也就是說,BiLSTM層不像模型架構圖中那樣是共享的。在驗證和測試時,使用事件檢測模型的輸出構造關系候選,并應用關系預測模型進行最終預測。
-
Multi-Task Model: 與單任務模型相同,不同之處在于BiLSTM層對事件任務和關系任務是共享的。
請注意,單任務和多任務模型都沒有接受過直接處理NONE關系的訓練,它們都依賴于事件模型的預測來將關系標注為正向或NONE關系。 -
Pipeline Joint Model:該模型與多任務模型具有相同的體系結構,不同之處在于,在訓練過程中,使用事件檢測模型的來構造關系候選,訓練關系模型。
如果關系候選的一個元素不是事件,會產生NONE對,將有助于關系模型區分正向關系和負向關系,從而增強對事件預測誤差的魯棒性。在訓練的前幾個批次使用真實事件和關系候選訓練模型,以便獲得一個相對準確的事件模型,然后再按PipeLine模型訓練。 -
Structured Joint Model:與管道聯合模型的區別在于,事件檢測模型和事件關系抽取模型不是序列關系,而是結構化的。
在從頭開始訓練具有SSVM損失的模型時,模型性能下降,這是由于大量的非事件token,模型一開始無法區分它們。因此,采用了兩段式訓練,即采用最佳PipeLine Joint模型,并在SSVM損失情況下對其進行重新優化。為了限制在SSVM損失的ILP推斷中事件的搜索空間,使用事件檢測模型中的預測概率來過濾非事件,因為事件模型具有很強的性能。請注意,這與PipeLine 模型有很大的不同,PipeLine 模型首先預測事件,并用預測的事件構建關系。在這里,我們只利用一個額外的超參數Tevt來過濾掉極不可能發生的事件候選。事件和關系標簽都是在使用ILP進行全局推斷時同時分配的。還過濾掉有POS標簽的tokens(表示在訓練集中沒有出現過),因為TB-Dense數據集中大多數的事件都是名詞或者動詞,MATRES數據集中所有的事件都是動詞。
實驗
實驗結果
消融實驗
關系(G)表示使用真實事件來訓練和評估關系提取,而關系(E)表示端到端的關系提取。?是CAEVO的事件提取和PipeLine關系提取F1得分,57.0(?)是Meng和Rumshisky(2018)此前公布的基于真實事件的時間關系提取的最佳微平均分數。
總結
本文研究構建了一個端到端的事件時序關系抽取系統。提出了一種基于聯合表示學習的神經結構預測模型,同時對事件和時序關系進行預測,避免了PipeLine模型錯誤傳播問題。實驗表明,該模型對端到端事件時序關系抽取是有效的,并且在兩個數據及上實現了SOTA。
總結
以上是生活随笔為你收集整理的Joint Event and Temporal Relation Extraction with Shared Representations and Structured Prediction的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深入浅出kafka原理-2-Kafka为
- 下一篇: 爱奇艺的Java缓存之路,你应该知道的缓