19-A Walk-based Model on Entity Graphs for Relation Extraction(句内多对,多关系,多元,2018ACL
文章目錄
- abstract
- 1.introduction
- 2 Proposed Walk-based Model
- 2.1 嵌入層
- 2.2 Bidirectional LSTM Layer
- 2.3 Edge Representation Layer
- 2.4 Walk Aggregation Layer
- 2.5 Classi?cation Layer
- 3.實驗
- 3.1數據集
- 3.2 Experimental Settings
- 5.結果
- 6.相關工作
- 6.總結
Christopoulou, F., et al. (2018). A Walk-based Model on Entity Graphs for Relation Extraction. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics.
- 應用情景:
- 一個句子內存在多個實體
- 實體間有多個關系
- 一個關系可能有多個實體–>還是當做三元組處理
abstract
我們提出了一種新的基于圖的神經網絡模型用于關系提取。我們的模型同時處理句子中的多對,并考慮它們之間的相互作用。句子中的所有實體都作為節點放置在完全連接的圖形結構中。邊緣用實體對周圍的位置感知上下文表示。為了考慮兩個實體之間的不同關系路徑,我們在每對之間構建最多l長度的步行。合并并迭代地使用結果遍歷將邊緣表示更新為更長的行走表示。我們表明,該模型在不使用任何外部工具的情況下實現了與ACE 2005數據集上最先進系統相當的性能。
- Christopoulou, F., et al. (2018)
- 模型:基于圖的walk-based神經網絡
- 用于:句子內存在多個實體對的情況
- 特點:
- 可以同時處理句內多個對的情況
- 考慮他們之間的相互作用
- 構建圖:
- 節點:實體(句子內的所有實體)
- 邊:全聯接的,用實體對周圍的位置敏感上下文(position-aware contexts)表示
- walk
- 步長:1–為了考慮兩個實體間的不同關系路徑
- 擴散迭代
1.introduction
關系提取(RE)是識別句子中已知實體提及之間的類型關系的任務。大多數現有的RE模型單獨處理句子中的每個關系(Miwa和Bansal,2016; Nguyen和Grishman,2015)。但是,句子通常包含實體提及之間的多個關系。RE模型需要同時考慮這些對以模擬它們之間的依賴關系。一對興趣(即“目標”對)之間的關系可以受同一句子中的其他對的影響。圖1所示的例子解釋了這種現象。利息與資本之間的關系可以直接從目標實體中提取,也可以通過合并句子中其他相關對的信息間接提取。人物實體(PER)Toefting通過介詞with隊友直接相關。同樣,隊友通過介詞in與(GPE)capital直接相關。通過隊友或通過隊友間接相關,可以直接關聯托付和資本。實質上,從Toefting到隊友到資本的路徑還可以支持Toefting和資本之間的關系。
- 關系抽取
- 大多:單獨處理目標實體
- 問題:沒有考慮其他實體、關系的影響
- 考慮了其他實體影響的:
- BIO embedding
- 句子內一個關系多個實體的情況
- 本文
- 本文
- 假設:實體間的關系,可以直接獲取,也可通過其他相關對間接獲得(如圖1)
- 例子中實體間以介詞鏈接
- 圖的方法:從已有關系推斷新的關系
- 問題:關系抽取沒有預先定義的關系,
- 建立圖:
- 節點:實體提及
- 邊:有向邊:實體提及的有序對
- 初始化:實體提及+上下文(注意力機制)
- 迭代:聚合得到兩個實體間最多步長1的表示
- 貢獻:
- 提出:基于圖形和walk的神經網絡模型,考慮了同一個句子多個實體對之間的關系
- 迭代算法:邊的構建(聚合得到兩個實體間最多步長1的表示)
- 不使用外部工具下,效果與最新的模型好
- 假設:實體間的關系,可以直接獲取,也可通過其他相關對間接獲得(如圖1)
實體提及之間的句子中1的多個關系可以表示為圖形。基于神經圖的模型已經顯示出在幾個任務中基于傳統特征的方法建模圖的顯著改進。它們最常用于知識圖完成的知識圖(KG)(Jiang等,2017)和知識圖嵌入的創建(Wang等,2017; Shi和Weninger,2017)。這些模型依賴于現有關系之間的路徑,以推斷KG中實體之間的新關聯。然而,對于從句子中提取關系,相關對不是預先定義的,因此需要考慮所有實體對來提取關系。此外,最先進的RE模型有時依賴外部句法工具來構建句子中兩個實體之間的最短依賴路徑(SD等)(Xu et al。,2015; Miwa and Bansal,2016)。這種對外部工具的依賴導致了依賴于域的模型。
- 基于圖的模型:
- 用神經網絡的>于特征的
- 用于
- 用于知識圖完善的KG
- 知識圖嵌入的創建
- 從已有關系的路徑,推斷新的關聯
在本研究中,我們提出了一種基于實體圖的神經關系提取模型,其中實體提及構成節點,有向邊對應于實體提及的有序對。模型的概述如圖2所示。我們從實體提及及其上下文的表示中初始化邊緣的表示(一對有序的實體提及)。通過對上下文單詞采用注意機制來實現上下文表示。然后,我們使用迭代過程將兩個實體之間的最多l長度步行表示聚合成單個表示,這對應于邊緣的最終表示。我們模型的貢獻可歸納如下:
?我們提出了一種基于圖形走的神經模型,該模型考慮了從句子中提取關系的多個實體對。
我們提出了一種迭代算法,用于形成一對實體之間最多1長度步行的單一表示。
我們展示了我們的模型在不使用外部句法工具的情況下與最新技術相媲美。
2 Proposed Walk-based Model
- RE任務
- 輸入:句子、實體提及、語義類型
- 輸出:句子中所有實體對(目標對)有無關系,有何關系
- 本文
- 總目標:通過使用實體對之間的中間關系鏈來支持實體對之間的關系
- 實現
- 輸入:單詞的表示
- 輸出:句子中每對實體對的表示
- 做法:將目標對、上下文單詞、它們相對實體的位置和它們之間的walk結合起來分類(提取關系)
- 結構
- 嵌入層,
- 單詞:嵌入向量w,維度:nwn_wnw?
- 語義實體類型:嵌入向量t,維度:ntn_tnt?—(BIO嵌入??還是什么)
- 相對位置:嵌入向量p,維度:npn_pnp?
- BLSTM層,
- 輸入:word embedding
- 輸出:h(單詞表示,考慮了單詞序列)
- et=[h←t;h→t]e_t=[\stackrel{\leftarrow}{h}_t;\stackrel{\rightarrow}{h}_t]et?=[h←?t?;h→?t?]
- tip:不在BLSTM層編碼目標對依賴信息
- 降低成本(句子數目小于對的數目
- 可在句子對中共享序列層:使模型可以間接地學習同一句子中相對詞之間的隱藏依賴關系
- 邊表示層,
- 實體表示:
- e=1∣I∣Σi∈IeiI是組成實體e的單詞索引的集合e=\frac{1}{|I|}\Sigma_{i\in I} e_i\\I是組成實體e的單詞索引的集合e=∣I∣1?Σi∈I?ei?I是組成實體e的單詞索引的集合
- 實體表示(單詞層面)、類型表示ti和相對位置
- 實體一vi=[ei;ti;pij]實體二vj=[ej;tj;pji]實體一v_i=[e_i;t_i;p_{ij}]\\實體二v_j=[e_j;t_j;p_{ji}]實體一vi?=[ei?;ti?;pij?]實體二vj?=[ej?;tj?;pji?]
- 上下文表示:vijzv_{ijz}vijz?實體i和實體j的第z個上下文
- vijz=[ez;tz;pzi;pzj]v_{ijz}=[e_z;t_z;p_{zi};p_{zj}]vijz?=[ez?;tz?;pzi?;pzj?]
- 組成一個三維的矩陣C(長i,寬j,深度為z)
- attention
- u=qTtanh(Cij)α=softmax(u)cij=CijαTu=q^Ttanh(C_{ij})\\ \alpha=softmax(u)\\ c_{ij}=C_{ij}\alpha^Tu=qTtanh(Cij?)α=softmax(u)cij?=Cij?αT
- !!:該注意機制與關系類型無關。我們將依賴關系的關注作為未來的工作。
- 鏈接:全連接層
- vij(1)=Ws[vi;vj;cij]v_{ij}^{(1)}=W_s[v_i;v_j;c_{ij}]vij(1)?=Ws?[vi?;vj?;cij?](邊,或實體之間長度1的表示)
- 目的:減少向量的維度
- 實體表示:
- 步行聚合層(walk aggregation layer)
- 目標:為兩個目標實體之間的有限數量的不同長度步行生成單個表示
- 有向圖:句子
- 節點:實體
- 邊:實體之間的關系表示vij(1)v_{ij}^{(1)}vij(1)?
- 目標對之間的長度1walk的表示vij(1)v_{ij}^{(1)}vij(1)? ,用于構建塊,一邊在該對之間創建和聚合one-to-l length walk
- 基于walk的算法
- walk 構建
- f(vik(λ),vkj(λ))=σ(vik(λ)⊙(Wbvik(λ))),⊙:逐元素乘法f(v_{ik}^{(\lambda)},v_{kj}^{(\lambda)})=\sigma(v_{ik}^{(\lambda)}\odot(W_bv_{ik}^{(\lambda)})),\odot:逐元素乘法f(vik(λ)?,vkj(λ)?)=σ(vik(λ)?⊙(Wb?vik(λ)?)),⊙:逐元素乘法
- walk的長度變為:2?2λ2-2\lambda2?2λ
- vik(λ)的長度為:1?λv_{ik}^{(\lambda)}的長度為:1-\lambdavik(λ)?的長度為:1?λ
- f(vik(λ),vkj(λ))=σ(vik(λ)⊙(Wbvik(λ))),⊙:逐元素乘法f(v_{ik}^{(\lambda)},v_{kj}^{(\lambda)})=\sigma(v_{ik}^{(\lambda)}\odot(W_bv_{ik}^{(\lambda)})),\odot:逐元素乘法f(vik(λ)?,vkj(λ)?)=σ(vik(λ)?⊙(Wb?vik(λ)?)),⊙:逐元素乘法
- walk 聚合
- vij(2λ)=βvij(λ)+(1?β)Σk≠i,jf(vik(λ),vkj(λ))v_{ij}^{(2\lambda)}=\beta v_{ij}^{(\lambda)}+(1-\beta)\Sigma_{k\neq i,j}f(v_{ik}^{(\lambda)},v_{kj}^{(\lambda)})vij(2λ)?=βvij(λ)?+(1?β)Σk?=i,j?f(vik(λ)?,vkj(λ)?)
- 從λ=1\lambda=1λ=1開始,使用上式,得到λ=2,重復至2λ=l,達到所需最大路徑長度\lambda=2,重復至2\lambda=l,達到所需最大路徑長度λ=2,重復至2λ=l,達到所需最大路徑長度
- 理解:i-j聯合i-k-j的路徑,綜合得到i-j的表示。迭代多次,趨于收斂
- walk 構建
- 最終的分類層
- y=softmax(Wrvij(l)+br),Wr∈Rnb×nry=softmax(W_rv_{ij}^{(l)}+b_r),W_r \in R^{n_b\times n_r}y=softmax(Wr?vij(l)?+br?),Wr?∈Rnb?×nr?
- nb是vij(l)的維度,nr:關系總數n_b是v_{ij}^{(l)}的維度,n_r:關系總數nb?是vij(l)?的維度,nr?:關系總數
- 2r+1個類:考慮雙向+一個無關系
- y=softmax(Wrvij(l)+br),Wr∈Rnb×nry=softmax(W_rv_{ij}^{(l)}+b_r),W_r \in R^{n_b\times n_r}y=softmax(Wr?vij(l)?+br?),Wr?∈Rnb?×nr?
- 嵌入層,
RE任務的目標是給出句子,實體提及及其語義類型,以提取和分類句子中的所有相關實體對(目標對)。所提出的模型由五個堆疊層組成:嵌入層,BLSTM層,邊緣表示層,步行聚合層和最終的分類層。
如圖2所示,模型接收單詞表示并同時產生句子中每對的表示。這些表示將目標對,其上下文單詞,它們與對實體的相對位置以及它們之間的行走組合在一起。在分類期間,它們用于預測每對的關系類型。
2.1 嵌入層
嵌入層涉及創建,,維度向量,這些向量分配給單詞,語義實體類型和目標對的相對位置。我們將所有單詞和語義類型分別映射到實值向量w和t。基于句子中單詞的位置創建目標實體的相對位置。在圖1的示例中,隊友與首都的相對位置是,隊友與Toefting的相對位置是+16。我們將實值向量p嵌入這些位置。
2.2 Bidirectional LSTM Layer
每個句子的單詞表示被饋送到雙向長短期記憶(BLSTM)層,其對每個單詞的上下文表示進行編碼。BLSTM輸出新的詞級表示h(Hochreiter和Schmidhuber,1997),它考慮了單詞的序列。
我們避免在此BLSTM層中編碼目標對依賴信息。這具有兩個優點:(i)計算成本降低,因為基于句子的數量而不是對的數量重復該計算,(ii)我們可以在句子對中共享序列層。第二個優點尤為重要,因為它使模型能夠間接地學習同一句子中相關對之間的隱藏依賴關系。
2.3 Edge Representation Layer
BLSTM的輸出字表示進一步分為兩部分:(i)目標對表示和(ii)目標對特定上下文表示。目標對的上下文可以表示為句子中不屬于實體提及的所有單詞。我們代表如下所述的相關對
目標對包含兩個實體和。如果一個實體由N個單詞組成,我們將其BLSTM表示創建為相應單詞的BLSTM表示的平均值,其中I是在實體e中具有單詞indices的集合。
我們首先為每個對實體創建一個表示,然后我們構造該對的上下文的表示。
然后將每個目標對的上下文單詞表示編譯成具有注意機制的單個表示。遵循Zhou等人提出的方法。 (2016),我們計算目標對的上下文單詞的權重并計算它們的加權平均值,
該注意機制與關系類型無關。我們將依賴關系的關注作為未來的工作。
最后,我們連接目標實體及其上下文的表示()。我們使用完全連接的線性層和來減少結果向量的維數。這對應于節點i和j之間的邊緣或一長度步行的表示:。
2.4 Walk Aggregation Layer
我們的主要目標是通過使用對實體之間的中間關系鏈來支持實體對之間的關系。因此,該層的目標是為兩個目標實體之間的有限數量的不同長度步行生成單個表示。為了實現這一點,我們將句子表示為有向圖,其中實體構成圖節點,并且邊對應于兩個節點之間的關系的表示。目標對之間的一次性步行的表示用作構建塊,以便在該對之間創建和聚合一對一長度步行的表示。基于walk的算法可以看作是一個兩步過程:步行構建和步行聚合。在第一步中,使用修改的雙線性變換組合圖中的兩個連續邊,
在步行聚合步驟中,我們線性組合初始步行(長度為1到λ)和擴展步行
2.5 Classi?cation Layer
我們總共使用2r+1類來考慮每對的兩個方向,即從左到右和從右到左。第一個參數首先出現在從左到右關系的句子中,而第二個參數首先出現在從右到左的關系中。附加類對應于非相關對,即“無關系”類。我們為每個方向選擇最有效的預測,并在預測相互矛盾時選擇正面和最有效的預測。
3.實驗
3.1數據集
我們在ACE 20051上評估我們的模型在關系提取任務中的表現。ACE 2005在命名實體之間包括7種實體類型和6種關系類型。我們遵循Miwa和Bansal(2016)中描述的預處理。
- ACE 2005
- 7種實體+6種關系
- 預處理
- 遵循Miwa和Bansal(2016)
3.2 Experimental Settings
我們使用Chainer庫實現了我們的模型(Tokui等,2015).2該模型使用Adam優化器進行訓練(Kingma和Ba,2015)。
在Jozefowicz等人的工作之后,LSTM層的遺忘偏差被初始化為等于1的值。 (2015年)。我們使用10個句子的批量大小,并將對的表示維度設置為100。我們使用梯度削波,嵌入和輸出層的dropout以及L2正則化而不規范偏差,以避免過度擬合。我們還將早期停止=5起來,以選擇訓練時期和參數平均的數量。我們使用RoBO Toolkit(Klein等,2017)在相應的開發集上調整模型超參數。有關數值,請參閱補充材料。
我們根據它包含的實體數量提取句子中所有可能的對。如果在語料庫中找不到對,則為其分配“無關系”類。我們報告了Miwa和Bansal(2016)以及Nguyen和Grishman(2015)之后的微觀精確度,召回率和F1分數。
- 使用庫:Chainer庫
- 優化器:adam
- 防止過擬合
- 梯度削波,
- 嵌入和輸出層的dropout以及
- L2正則化而不規范偏差
- 調參
- early stopping-5
- RoBO Toolkit(Klein等,2017)
5.結果
- 對比
- SPTree:Miwa和Bansal(2016)
- baseline:Nguyen和Grishman(2015)(CNN)(移除了負例)
- 和最好的系統SPTree比,比不上,但差不多,表明在沒有額外工具下,能夠達到相當的性能
- 句子中實體數目不同情況下的比較
- 句子中實體越多,所需要的步長越大
- 句子中實體越多,所需要的步長越大
我們對結果進行了近似隨機化測試(Noreen,1989)。最佳步行模型與表1中最先進的SPTree模型沒有統計學上的顯著差異。這表明所提出的模型可以在沒有任何外部句法工具的情況下實現相當的性能。
最后,我們將所提出的模型的性能表示為句子中實體數量的函數。表2中的結果表明,對于多對句子,與無步行模型相比,該模型的表現明顯更好,證明了該方法的有效性。另外,觀察到對于更多實體對,似乎需要更長的步行。然而,非常長的步行導致性能降低(l = 8)。
6.相關工作
- 特征方法
- (Hermann和Blunsom,2013; Miwa和Sasaki,2014; Nguyen和Grishman,2014; Gormley等,2015)。
- 神經網絡
- RNN:能夠編碼長單詞序列的語言和句法屬性
- (Cai等,2016; Miwa和Bansal,2016; Xu等,2016; Liu等,2015)
- 分開對待每個實體對
- (dos Santos等,2015; Nguyen和Grishman,2015)
- 未考慮單個句子中多個關系之間的依賴關系
- CNN:
- 基于圖的模型:
- 遠程監督的KB(Zeng等,2017)
- 用圖定義了語義類型
- 本文:圖:在句子中構建了基于實體的圖形
- 其他:句子內多個關系
- Gupta等,2016; Miwa和Sasaki,2014; Li和Ji,2014)
- 無長距離的walk
- 遠程監督的KB(Zeng等,2017)
- RNN:能夠編碼長單詞序列的語言和句法屬性
傳統上,關系提取方法已經結合了多種手工制作的特征來表示相關的實體對(Hermann和Blunsom,2013; Miwa和Sasaki,2014; Nguyen和Grishman,2014; Gormley等,2015)。最近的模型采用神經網絡架構,無需繁重的特征工程即可實現最先進的結果。神經網絡技術可以分為遞歸神經網絡(RNN)和卷積神經網絡(CNN)。前者能夠編碼長單詞序列的語言和句法屬性,使其成為與序列相關的任務的優選,例如,自然語言生成(Goyal et al。,2016),機器翻譯(Sutskever et al。,2014)。
事實證明,最先進的系統在使用RNN的關系提取方面取得了良好的性能(Cai等,2016; Miwa和Bansal,2016; Xu等,2016; Liu等,2015)。然而,大多數方法沒有考慮單個句子中關系之間的依賴關系(dos Santos等,2015; Nguyen和Grishman,2015),并分別對待每一對。當前基于圖的模型應用于遠程監督關系提取的知識圖(Zeng等,2017)。圖形在其方法中定義了語義類型,而我們在句子中構建了基于實體的圖形。其他方法也在句子中處理多個關系(Gupta等,2016; Miwa和Sasaki,2014; Li和Ji,2014),但是他們無法模擬實體提及之間的長距離行走。
6.總結
我們提出了一種新的神經網絡模型,用于同時對相關對的句子級提取。我們的模型利用目標和上下文對特定表示,并創建對表示,這些表示在對的實體之間編碼最多l長度的步行。我們將模型與最先進的模型進行了比較,并在沒有任何外部句法工具的情況下觀察到ACE2005數據集的可比性能。所提方法的特征總結為三個因素:關系之間依賴關系的編碼,以向量形式表示多個步行的能力以及與外部工具的獨立性。未來的工作將致力于構建端到端關系提取系統以及應用于不同類型的數據集。
總結
以上是生活随笔為你收集整理的19-A Walk-based Model on Entity Graphs for Relation Extraction(句内多对,多关系,多元,2018ACL的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java面试题:IO流中read()方法
- 下一篇: 基于ARQ反馈的无人机通信中继自主选择研