论文浅尝 | Doc2EDAG:一种针对中文金融事件抽取的端到端文档级框架
論文筆記整理:葉宏彬,浙江大學博士生,研究方向為知識圖譜、自然語言處理。
鏈接:https://arxiv.org/pdf/1904.07535.pdf
背景
大多數現有的事件提取(EE)方法僅提取句子范圍內的事件參數。但是,此類句子級的EE方法難以處理來自新興應用領域(例如金融,法律,健康等)的大量文檔,其中事件論元分散在不同的句子中,甚至多個事件實例在同一文檔中同時存在。為了應對這些挑戰,本文提出了一種新穎的端到端解決方案 Doc2EDAG,該解決方案可以有效地生成基于實體的有向無環圖,以實現文檔級事件抽取。
動機
本文的附錄部分展示了中文金融事件抽取的幾個難點,并用之前的 DCFEE模型作了對比分析:1)在多事件任務下,盡管 DCFEE-O 可以正確地識別關鍵語句,但它無法決定此語句表示多少事件,DCFEE-M 會產生多個部分正確的事件,但是 DCFEE-M 的論元補全階段是上下文無關的;2)對于不同的句子多次提及同一事件的環境下,DCFEE 模型的關鍵句子檢測模塊無法有效地區分重復的事件實例,造成抽取事件冗余;3)當一個文檔由多個簡單的句子片段構成時,事件的論元散落在各個句子中,DCFEE 模型無法有效地將這些零碎的信息整合起來識別完整的事件論元及事件角色。
模型
模型分為四個階段的處理流程:
1)預處理模塊:通過詞嵌入矩陣將文檔中的句子序列 [s1; s2; · · · ; sNs ] 轉化為詞向量表示的嵌入矩陣 si ∈ Rdw×Nw,并采用 Transformer 作為上下文編碼器對實體單位進行編碼訓練,hi = Transformer-1(si)。在訓練過程中,使用事件論元的角色信息作為實體標簽,使用經典的BIO(Begin,Inside, Other)方案,并用 crf 層將其封裝起來,以獲得實體識別 Loss 函數。
2)文檔級信息融合模塊:為了有效地解決論元分散的挑戰,必須利用全局上下文來更好地識別一個實體是否扮演特定的事件角色。因此,該文檔級別實體編碼階段的目標是用這樣的上下文對提取的實體提及進行編碼,并為每個實體提到的內容生成大小為dw的嵌入。由于涉及的實體通常包含多個可變長度的令牌,因此采用注意力加權平均(AWA)模塊,為每個實例獲得一個固定大小的嵌入ei∈ Rdw,對于每一個句子,也用另一個AWA模塊來獲得每個句子的固定大小的嵌入ci∈ Rdw。為了提高對文檔級上下文的認識,作者使用了第二個 transformer 模塊,以方便所有實例和句子之間的信息交換。模型中還增加了句子的嵌入位置來指示句子的順序。在轉換器編碼之后,作者還使用一個AWA模塊將相同實例的嵌入聚合到單個嵌入中。在這個階段之后,獲得了文檔級上下文有關的實例和句子表示,并對每種事件類型進行事件觸發分類。
3)文檔級信息記憶模塊:在依次生成基于實體的有向無環圖(EDAG)時,必須同時考慮文檔級上下文和路徑中已經存在的實體。因此,作者設計了一種內存機制,初始化為句子的嵌入向量。更新 EDAG 時需要追加已經識別的實體嵌入或零矩陣向量(假如識別的是NA argument)。
4)路徑擴展模塊:當擴展事件路徑時,對每個實體進行二進制分類,展開(1)或不展開(0),結合當前路徑狀態、歷史上下文和當前角色信息。首先連接記憶張量m和實體張量 ed,然后用event-role-indicator 嵌入它們,并將它們送入第三個 transformer 模塊。然后,從 transformer-3 的輸出中提取出豐富的實體張量 er,并在此基礎上進行路徑擴展分類。
實驗
ChFinAnn 數據集(本文使用的)與 DCFEE 使用的數據集相比,ChFinAnn 要大十倍,其中約 30% 的文檔包含多個事件記錄。文中實驗表明,當面對DEE(文檔級事件抽取)任務時,Doc2EDAG 獲得當前最好的結果。
總結?
本文的貢獻包括:
1)提出了一種新穎的解決方案 Doc2EDAG,該解決方案可以在給定文檔的情況下直接生成事件表,以有效應對 DEE 的獨特挑戰。
2)重新設計了無需觸發詞的 DEE 任務,以簡化基于 DS 的文檔級事件標記。
3)為 DEE 建立了一個大規模的現實世界數據集,它面臨著事件論元分散和多事件的挑戰,并進行廣泛的實驗證明了 Doc2EDAG 的優越性。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | Doc2EDAG:一种针对中文金融事件抽取的端到端文档级框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 基于Universal S
- 下一篇: 论文浅尝 | 利用机器翻译和多任务学习进