當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Joint Event and Temporal Relation Extraction with Shared Representations and Structured Prediction

發布時間：2024/5/14 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 Joint Event and Temporal Relation Extraction with Shared Representations and Structured Prediction 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

EMNLP_2019 Joint Event and Temporal Relation Extraction with Shared Representations and Structured Prediction

摘要
介紹
相關工作
聯合事件抽取模型
- neural SSVM
- SSVM的損失函數為：
- MAP（最大后驗概率）推斷
- 約束條件
實施細節
- 數據集
- Baselines
- 端到端事件時序關系提取
- 實驗
- - 實驗結果
  - 消融實驗
總結

論文

摘要

這篇文章主要是解決“事件-事件聯合抽取”問題。與已有工作相比，本文提出的方法有兩個優點：

通過允許事件和關系模塊共享相同的上下文嵌入和神經表示學習器來改進事件表示。
通過利用結構化推理和學習方法對事件標簽和關系標簽進行聯合分配，避免了在傳統PipeLine模型中的錯誤傳播。

介紹

事件間時間關系的提取是一項重要的自然語言理解(NLU)任務，它可以幫助許多后續任務，如問題回答、信息檢索和敘事生成。該任務可以建模為為給定的文本構建一個圖，圖中的節點表示事件，而邊相應地標記有時間關系。下圖（a）表示出了下面文本的圖結構。

The assassination touched off a murderous rampage by Hutu security forces and civilians，who slaughtered mainly Tutsis but also Hutus who favored reconciliation with the minority. It also reignited the civil war.
這次暗殺引發了胡圖族安全部隊和平民的瘋狂殺戮，他們屠殺的主要是圖西族人，但也有胡圖人支持與少數民族和解。它也重新點燃了內戰。

assassination（暗殺）、slaughtered（屠殺）、rampage（瘋狂）、war、Hutu節點是候選事件，不同類型的邊規定了事件之間不同的時間關系：assassination在rampage之前（BEFORE），rampage包括(INCLUDES)slaughtered，slaughtered和war的關系是模糊(VAGUE)的。由于“Hutu”實際上不是一個事件，因此系統應將“Hutu”與圖中所有其他節點之間的關系注釋為無(NONE，即無關系)。

即事件提取和時間關系分類，并且他們還假設在訓練關系分類器時給出黃金事件(V erhagen等人，2007、2010；Uzzaman等人，2013；Chambers等人，2014；Ning等人，2017；Meng和Rumshisky，2018)。具體地說，他們建立了端到端的系統，首先提取事件，然后預測它們之間的時間關系(如下圖（b）)。
在這些PipeLine模型中，事件提取錯誤將傳播到關系分類步驟，之后無法糾正。

我們的第一個貢獻是提出了一個同時提取事件和時間關系的聯合模型(見下圖（c）)。

其動機是，如果我們訓練的關系分類器沒有非事件之間的關系，那么它就有可能具有糾正事件提取錯誤的能力。例如，在圖（a）中，如果關系分類器高置信度地對(Hutu，War)預測為無，則這時可由事件分類器用來推斷它們中的至少一個不是事件的強信號。
我們的第二個貢獻是通過首次在事件提取模塊和時間關系提取模塊之間共享相同的上下文嵌入和神經表示學習器來改進事件表示。在共享嵌入和神經表示學習器的基礎上，該模型產生表示給定句子中的所有事件和關系的圖結構輸出。
在這種情況下，有效的圖預測應該滿足兩個結構約束。
兩個非事件之間或一個事件和一個非事件之間的時間關系應該始終為無。
對于事件之間的時間關系，由于時間的傳遞性，不應該存在循環(例如，如果A在B之前，B在C之前，那么A必須在C之前)。

圖的有效性是通過求解具有這些結構約束的整數線性規劃(ILP)優化問題來保證的，我們的聯合模型由結構支持向量機(SSVM)以端到端的方式進行訓練。

聯合事件抽取模型

在這一部分中，我們首先概述我們的neural SSVM模型，然后詳細描述我們框架中的每個組件(即多任務神經評分模塊，以及如何進行學習和推理)。我們將所有可能的關系標簽(包括NONE)的集合表示為R，所有事件候選(事件和非事件)表示為E，所有關系候選表示為EE。

neural SSVM

模型架構如下;

使用預訓練BERT作為word emmbedding，Vi表示包含上下文信息的詞向量，（i,j）表示候選關系，表示候選事件，將其輸入到BiLstm層以進一步編碼特定于任務的上下文信息，對于每對（i,j），采取其對應的向前向后隱藏向量fi、bi、fj、bj，再加上原始數據集中提供的簡單語言學特征Lij（token距離、時態和事件極性），然后將其作為輸入，以計算成為事件的可能性或可能的關系的softmax函數的分布。在結構化學習層上，灰色表示被預測為事件的token，時間之間的關系類型有BEFORE、INCLUDES、VAGUE、NONE。這些全局分配被輸入以計算SSVM損失。

SSVM的損失函數為：

其中，φ表示模型參數，n表示索引實例，C和Ce是平衡事件、關系和正則化之間損失的超參數，S是計分函數，設計了一個多任務的神經結構來學習。

表示的是事件的數目和事件關系數目的總和。

分別表示事件對和事件關系的真實結果和預測結果。

表示只是結果和預測結果之間的距離，使用的是漢明距離（Hamming距離）。

分別表示判斷事件與否和判斷事件關系存在與否的得分函數。

本文中的 neural SSVM 與傳統的 SSVM 的最大區別在于評分功能，傳統的 SSVM 往往采用人工設計的線性函數來計算得分，而本文采用基于RNN的評分函數，并通過訓練整個端到端的結構來訓練。
遞歸神經網絡(RNN)體系結構已被先前的時間提取工作廣泛采用，以編碼上下文信息(Tourille等人，2017；Cheng和Miyao，2017；Meng等人，2017)。在這些工作的啟發下，我們采用了基于RNN的事件和關系預測評分函數，以便以數據驅動的方式學習特征并捕捉輸入中的長期上下文。

MAP（最大后驗概率）推斷

這篇文章是通過最大后驗概率推斷來得到預測結果的，將推斷問題建模為整數線性規劃（ILP）問題，加入了三種約束：

one-label assignment：單標簽分配，事件和事件關系只有是與不是之分，并且只可能是其中一種；

event-relation consistency：事件-事件關系的一致性，只有事件之間才存在事件關系，非事件之間不存在；

symmetry and transitivity：（時序）關系的對稱性和傳遞性。

目標函數為：

目標是得到上下文中所有事件和關系候選的最佳標簽分配情況。
其中，

是第k個候選是否為事件的二進制指示符；

是（i，j）之間的關系是否為r的二進制指示符；

分別為事件和關系的打分函數；

控制事件和關系之間權重的參數。

約束條件

緊跟目標函數的一個約束是：

對于所有的實體和關系，只能分別對其分配一個標簽。

另外引入兩個約束，以保證事件圖的合理性和有效性。

事件-事件關系的一致性：
一對輸入token具有正的時間關系，當且僅當兩個輸入token都是事件時。以下全局約束將滿足此屬性：

關系的對稱性和傳遞性：

例如，如果ri,j=BEFORE，則rj,i=AFTER。若圖中存在 ( i ,j) , (j,k) 和 ( i,k ) ，則 (i,k)的關系標簽應該由 ( i,j)和 (j,k)決定。

實施細節

在這一部分中，介紹構建端到端事件時間關系提取系統的基線和我們的四個模型的實現細節，其中重點介紹了結構化聯合模型。通過實驗對它們進行比較，并說明為什么我們提出的結構化節點模型效果最好。

數據集

Baselines

分別在TB-Dense和MATERS數據集上運行了兩個事件和關系提取系統，CAEVO(Chambers等人，2014年)和CogCompTime(Ning等人，2018c)。這兩種方法都是利用基于人工設計特征的傳統學習算法(分別為MaxEnt和average perceptron)，分別獲得事件和時間關系的獨立模型，并作為PipeLine進行端到端的關系提取。Chambers等人(2014)沒有給事件和端到端時間關系提取性能，因此我們計算每個實現的分數。

端到端事件時序關系提取

Single-Task Model：構建端到端系統的最基本方法是訓練獨立的事件檢測和關系預測模型。也就是說，BiLSTM層不像模型架構圖中那樣是共享的。在驗證和測試時，使用事件檢測模型的輸出構造關系候選，并應用關系預測模型進行最終預測。
Multi-Task Model：與單任務模型相同，不同之處在于BiLSTM層對事件任務和關系任務是共享的。
請注意，單任務和多任務模型都沒有接受過直接處理NONE關系的訓練，它們都依賴于事件模型的預測來將關系標注為正向或NONE關系。
Pipeline Joint Model：該模型與多任務模型具有相同的體系結構，不同之處在于，在訓練過程中，使用事件檢測模型的來構造關系候選，訓練關系模型。
如果關系候選的一個元素不是事件，會產生NONE對，將有助于關系模型區分正向關系和負向關系，從而增強對事件預測誤差的魯棒性。在訓練的前幾個批次使用真實事件和關系候選訓練模型，以便獲得一個相對準確的事件模型，然后再按PipeLine模型訓練。
Structured Joint Model：與管道聯合模型的區別在于，事件檢測模型和事件關系抽取模型不是序列關系，而是結構化的。
在從頭開始訓練具有SSVM損失的模型時，模型性能下降，這是由于大量的非事件token，模型一開始無法區分它們。因此，采用了兩段式訓練，即采用最佳PipeLine Joint模型，并在SSVM損失情況下對其進行重新優化。為了限制在SSVM損失的ILP推斷中事件的搜索空間，使用事件檢測模型中的預測概率來過濾非事件，因為事件模型具有很強的性能。請注意，這與PipeLine 模型有很大的不同，PipeLine 模型首先預測事件，并用預測的事件構建關系。在這里，我們只利用一個額外的超參數Tevt來過濾掉極不可能發生的事件候選。事件和關系標簽都是在使用ILP進行全局推斷時同時分配的。還過濾掉有POS標簽的tokens（表示在訓練集中沒有出現過），因為TB-Dense數據集中大多數的事件都是名詞或者動詞，MATRES數據集中所有的事件都是動詞。

實驗

實驗結果

消融實驗

關系(G)表示使用真實事件來訓練和評估關系提取，而關系(E)表示端到端的關系提取。?是CAEVO的事件提取和PipeLine關系提取F1得分，57.0(?)是Meng和Rumshisky(2018)此前公布的基于真實事件的時間關系提取的最佳微平均分數。

總結

本文研究構建了一個端到端的事件時序關系抽取系統。提出了一種基于聯合表示學習的神經結構預測模型，同時對事件和時序關系進行預測，避免了PipeLine模型錯誤傳播問題。實驗表明，該模型對端到端事件時序關系抽取是有效的，并且在兩個數據及上實現了SOTA。

總結

以上是生活随笔為你收集整理的Joint Event and Temporal Relation Extraction with Shared Representations and Structured Prediction的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：深入浅出kafka原理-2-Kafka为
下一篇：爱奇艺的Java缓存之路，你应该知道的缓