论文阅读课2-Inter-sentence Relation Extraction with Document-level (GCNN,句间关系抽取,ACL2019
文章目錄
- abstract
- 1.introduction
- 2.model
- 2.1輸入層
- 2.2構造圖
- 2.3 GCNN層
- 2.4MIL-based Relation Classification
- 3.實驗設置
- 3.1 數據集
- 3.2 數據預處理
- 3.3 基線模型
- 3.4 訓練
- 3.5結果
- 4.相關工作
- 4.1 句子間關系抽取
- 4.2 GCNN
- 5. 結論
- 相關博客
Sahu, S. K., et al. (2019). Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network. Proceedings ofthe 57th Annual Meeting ofthe Association for Computational Linguistics: 4309–4316.
abstract
句間關系抽取處理文檔中大量復雜的語義關系,需要依賴于局部、非局部、句法和語義。現有的方法不能充分利用這種依賴關系。提出了一種基于文檔級圖的標記邊緣圖卷積神經網絡的句子間關系抽取模型。圖是使用各種句間和句內的依賴關系來捕獲局部和非局部依賴關系信息來構造的。為了預測實體對之間的關系,我們使用了雙仿射兩分的多實例學習方法。實驗結果表明,我們的模型在兩個生物化學數據集上的性能與最先進的神經模型相當。我們的分析表明,圖中的所有類型都可以有效地提取句子間的關系。
- 以前
- 不能充分利用依賴關系
- a novel model for inter-sentence RE using GCNN to capture local and non-local dependencies(本文)
- 句間關系抽取
- 基于文檔級圖的標記邊緣GCNN
- a novel inter-sentence relation extraction model that builds a labelled edge graph convolutional neural network model on a document-level graph
- 認為依賴樹無法提取句子間關系
- 構造一個文檔級圖
- 節點-單詞
- 邊-局部或非局部依賴關系
- 由什么建立
- 局部依賴的連接詞(來自語法解析和序列信息)
- 非局部依賴(來自指代消解+其他語義依賴
- 用GCNN進行編碼
- 用MIL進行標簽分類
- 如何推斷關系
- 得分函數:MIL-based bi-affine pairwise scoring function (Verga et al., 2018)
- 用在實體節點表示上
- 得分函數:MIL-based bi-affine pairwise scoring function (Verga et al., 2018)
1.introduction
命名實體之間的語義關系通常跨越多個句子。為了提取句子間關系,大多數方法使用遠程監控來自動生成文檔級語料庫(Peng et al., 2017;Song et al., 2018)。最近,Verga等(2018)引入了多實例學習(multi-instance learning, MIL) (Riedel等,2010;(Surdeanu et al., 2012)處理文檔中多次提到的目標實體。
句子間關系不僅依賴于局部關系,而且依賴于非局部關系。依賴樹經常被用來提取語義關系的局部依賴關系(Culotta和Sorensen, 2004;Liu et al., 2015) in intra-sentence relation extraction (RE)。但是,這種依賴關系不適用于句間RE,因為不同的句子有不同的依賴樹。圖1說明了催產素和低血壓之間的關系。為了捕捉它們之間的關系,有必要將催產素和Oxt這兩個相互關聯的實體聯系起來。RNNs和CNNs,常用于句內RE (Zeng et al., 2014;dos Santos等人,2015;周等,2016b;Lin等人(2016)對較長的序列沒有效果(Sahu和Anand, 2018),因此未能捕獲這種非局部依賴。
我們提出一個新的句子間關系抽取模型,構建一個有標簽邊的(GCNN)模型(Marcheggiani季托夫、2017)在文檔級圖。圖節點對應單詞,邊代表本地和外地他們之間的依賴關系。documentlevel圖是由連接詞與當地依賴從語法解析和順序信息,以及非本地依賴從指代消解和其他語義依賴(Peng et al ., 2017)建立的。我們推斷出實體之間的關系用MIL-based bi-affine成對得分函數(Verga et al ., 2018)在實體節點表示。
-
依賴樹(Sunil Kumar Sahu,2019)
- 一個句子一個依賴樹
- 無法捕捉非局部依賴
- 不適用于句子間關系抽取
-
句子間關系提取
- 依賴于局部和非局部依賴關系
- 使用遠程監控來自動生成文檔級語料庫(Peng et al., 2017;Song et al., 2018)。
- MIL:Verga等(2018)引入了多實例學習(multi-instance learning, MIL) (Riedel等,2010;(Surdeanu et al., 2012)處理文檔中多次提到的目標實體。—關系分類
-
貢獻
- 提出了一種利用GCNN捕獲局部和非局部依賴關系的句子間轉換模型。
- 其次,將該模型應用于兩個生物化學語料庫,并驗證了其有效性。
- 最后,我們從PubMed摘要中開發了一個具有化學反應物-生成物關系的新型遠程監控數據集。
2.model
- 我們將句間文檔級的RE任務制定為一個分類問題
設[w1, w2,···,wn]為t文檔中的單詞,e1和e2為t中感興趣的實體對。關系提取模型以一個三元組(e1、e2、t)作為輸入,并返回這一對的關系(包括無關系類別)作為輸出。我們假設t中的目標實體之間的關系可以基于它們的所有提及進行推斷。因此,我們在t上應用多實例學習來組合所有的mention -level對,并預測目標對的最終關系范疇。
- 關系抽取模型
- 輸入:(e1,e2,t)
- 方法:多實例學習來組合所有的mention -level pairwise
- 預測:目標對的最終關系范疇
- 這里的mention:是實體的文字表述,可以有多種。
- t:一個文檔
- 模型結構
- 輸入:該模型將整個科學文章摘要和兩個目標實體和他們所有的mention作為輸入。
- 構造圖:它構造一個圖結構,
- 節點:其中單詞作為節點,
- 邊:標記了與局部和非局部依賴項相對應的邊。
- GCNN編碼:接下來,它使用一個堆疊的GCNN層對圖結構進行編碼,
- MIL分類:并通過應用MIL (多實例學習)(Verga et al., 2018)對所有提及對表示進行分類,從而對目標實體之間的關系進行分類。
2.1輸入層
在輸入層,我們將每個單詞i及其與第一和第二目標實體的相對位置分別映射到實值向量wi、d1 i、d2 i。由于實體可以有多個引用,我們從最近的目標實體引用計算單詞的相對位置。對于每個單詞i,我們將單詞和位置表示連接到輸入表示中,
- 每個單詞i及其與第一和第二目標實體的相對位置分別映射到實值向量wi、d1i、d2i
- 輸入:xi=[wi;di1;di2]x_i=[w_i;d_i^1;d_i^2]xi?=[wi?;di1?;di2?]
2.2構造圖
- 多種邊
- 句子的句法依賴邊
- 共引用邊
- 相鄰句邊
- 相鄰詞邊
- 自節點邊
- 為了學習到自身的信息
- 節點表示
- 由其鄰居節點和邊緣類型來學習節點表示
為了構建整個摘要的文檔級圖,我們使用以下類別的句間和句內依賴邊,如圖2中不同顏色所示。
- 句子的句法依賴邊緣:句子的句法結構為內部關聯提供了有益的線索(Miwa和Bansal, 2016)。因此,我們在每個句子的詞之間使用標記的句法依賴邊緣,將每個句法依賴標簽視為不同的邊緣類型。
- 共引用邊緣:由于共引用是局部和非局部依賴關系的重要指標(Ma et al., 2016),我們使用共引用類型邊緣將文檔中的共引用短語連接起來。
- 相鄰句邊緣:我們將一個句子的句法根與上一個和下一個句子的根用相鄰的句式邊緣連接起來(Peng et al., 2017),用于相鄰句子之間的非局部依賴關系。
- 相鄰詞邊:為了保持句子中單詞之間的順序信息,我們將每個單詞與其前一個單詞和下一個單詞與相鄰詞類型邊緣連接起來。
- 自節點邊緣:GCNN只根據它的鄰居節點及其邊緣類型來學習節點表示。因此,為了將節點信息本身包含到表示中,我們在圖的所有節點上形成了selfnode類型的邊。
2.3 GCNN層
我們在構建的文檔圖上使用GCNN (Kipf和Welling, 2017;Defferrard等人,2016)獲得每個word的表示。GCNN是CNN用于圖形編碼的高級版本,它學習了圖形節點的語義表示,同時保留了其結構信息。為了學習邊緣類型特定的表示,我們使用一個標記的邊緣GCNN,它為每個邊緣類型保留單獨的參數(Vashishth等,2018)。GCNN迭代更新每個輸入單詞i的表示形式如下:
- 用處:獲得x的表示
- 公式xik+1=f(Σu∈v(i)(Wl(i,u)kxuk+bl(i,u)k))x_i^{k+1}=f(\Sigma_{u\in v(i)}(W_{l(i,u)}^kx_u^k+b_{l(i,u)}^k))xik+1?=f(Σu∈v(i)?(Wl(i,u)k?xuk?+bl(i,u)k?))
- xik+1x_i^{k+1}xik+1?由第k個GCNN -block得到的表示。(共K個)
- l:邊的類型
- 我們將K個GCNN塊堆疊起來,以累積來自遙遠鄰近節點的信息,并使用邊界選通控制來自鄰近節點的信息。–最后一個是最終的)
- 減少參數
- 前n個類型保留單獨的邊的方向參數
- 其余使用相同參數。
- 避免過擬合
與Marcheggiani和Titov(2017)類似,我們為每個邊的方向保留單獨的參數。但是,我們通過僅為前n個類型保留單獨的參數,并為所有剩余的邊緣類型使用相同的參數來調整模型參數的數量,這些邊緣類型稱為“罕見”類型邊緣。這可以避免由于不同邊緣類型的過參數化而導致的可能的過擬合。
2.4MIL-based Relation Classification
- 由于每個目標實體在一個文檔中可以有多個提及,
- MIL:因此我們采用基于多實例學習(multi-instance learning, MIL)的分類方案,
- 得分函數:使用雙仿射兩兩評分來聚合所有目標提及對的預測(Verga et al., 2018)。
- 做法:
- FFNN:首先利用兩層前饋神經網絡(FFNN)將每個詞i投影到兩個獨立的潛在空間中,對應于目標對的第一個(head)或第二個(tail)參數。
- 2個2層
- 公式
- xihead=Whead(1)(ReLU(Whead(0)xiK))x_i^{head}=W_{head}^{(1)}(ReLU(W_{head}^{(0)}x_i^K))xihead?=Whead(1)?(ReLU(Whead(0)?xiK?))
- xitail=Wtail(1)(ReLU(Wtail(0)xiK))x_i^{tail}=W_{tail}^{(1)}(ReLU(W_{tail}^{(0)}x_i^K))xitail?=Wtail(1)?(ReLU(Wtail(0)?xiK?))
- xitail,xihead,d維x_i^{tail},x_i^{head},d維xitail?,xihead?,d維
- 雙仿射得分:然后,通過雙仿射層生成二維水平的兩兩mention配對置信得分,并將其聚合得到實體水平的兩兩配對置信得分。
- score(ehead,etail)=log(Σi∈Ehead,j∈Etailexp((xiheadR)xjtail))R??(d,r,d),r是關系的類目數量Ehead、Etail分別表示ehead和etail實體的一組提及。(mention:同一實體的文字表述,可以有多個)score(e^{head},e^{tail})=log(\Sigma_{i\in E^{head},j \in E^{tail}}exp((x_i^{head}R)x_j^{tail}))\\ R--(d,r,d),r是關系的類目數量\\ Ehead、Etail分別表示ehead和etail實體的一組提及。(mention:同一實體的文字表述,可以有多個)score(ehead,etail)=log(Σi∈Ehead,j∈Etail?exp((xihead?R)xjtail?))R??(d,r,d),r是關系的類目數量Ehead、Etail分別表示ehead和etail實體的一組提及。(mention:同一實體的文字表述,可以有多個)
- FFNN:首先利用兩層前饋神經網絡(FFNN)將每個詞i投影到兩個獨立的潛在空間中,對應于目標對的第一個(head)或第二個(tail)參數。
3.實驗設置
我們首先簡要地描述數據集,在數據集中,對所提出的模型及其預處理進行評估。然后介紹用于比較的基線模型。最后,我們展示了訓練設置。
3.1 數據集
- 化學-疾病關系數據集(CDR):
- CDR數據集是為BioCreative V challenge開發的文檔級、句間關系提取數據集(Wei et al., 2015)。
- CHR數據集
- 來自PubMed摘要和題目名
- 數據集由來自PubMed的12094篇摘要及其標題組成。化學品的注釋是使用語義分面搜索引擎Thalia的后端執行的。化合物是從注釋實體中選擇的,并與圖形數據庫Biochem4j保持一致,Biochem4j是一個免費可用的數據庫,集成了UniProt、KEGG和NCBI分類法等多種資源。如果在Biochem4j中識別出兩個相關的化學實體,則它們將被視為數據集中的陽性實例,否則將被視為陰性實例。
- 總的來說,語料庫包含超過100,000個注釋的化學物質和30,000個反應。
- 如果兩個化學實體在Biochem4j中有關系,我們認為它們是數據集中的積極實例,否則就是消極實例
3.2 數據預處理
表1顯示了CDR和CHR數據集的統計數據。對于這兩個數據集,帶注釋的實體可以有多個關聯知識庫(KB) ID。如果提及之間至少有一個公共知識庫ID,那么我們認為所有這些提及都屬于同一個實體。這種方法可以減少負向配對。我們忽略了沒有基于已知KB ID的實體,并刪除了同一實體之間的關系(自關系)。對于CDR數據集,我們進行了hypernym濾波,類似于Gu等人(2017)和Verga等人(2018)。在CHR數據集中,兩個方向都是為每個候選化學對生成的,因為在交互作用中,化學物質既可以是反應物(第一個參數),也可以是產物(第二個參數)。
我們使用GENIA Splitter4和GENIA tagger (Tsuruoka et al., 2005)處理數據集,分別用于句子拆分和單詞標記。使用帶有謂詞-參數結構的Enju語法分析器(Miyao和Tsujii, 2008)獲得了句法依賴關系。使用Stanford CoreNLP軟件構建指代類型邊緣(Manning et al., 2014)。
- 處理數據集
- mention歸屬哪個實體
- 看對應的是否有相同的KB的id
- 忽略無KB ID的實體,并刪除自關系
- 句子拆分:GENIA Splitter
- 句子標記:GENIA tagger (Tsuruoka et al., 2005)
- 句法依賴:使用帶有謂詞-參數結構的Enju語法分析器(Miyao和Tsujii, 2008)獲得了句法依賴關系。
- 指代消解:使用Stanford CoreNLP軟件構建Coreference類型邊緣(Manning et al., 2014)。
- mention歸屬哪個實體
3.3 基線模型
- CDR
- 得分函數:bi-affine pairwise scoring to detect relations.
- model
- SVM (Xu et al., 2016b),
- ensemble of feature-based and neural-based models (Zhou et al., 2016a),
- CNN and Maximum Entropy (Gu et al., 2017),
- Piece-wise CNN (Li et al., 2018)
- Transformer (Verga et al., 2018)
- CNN-RE, a re-implementation from Kim (2014) and Zhou et al. (2016a)
- RNN-RE, a reimplementation from Sahu and Anand (2018).
3.4 訓練
我們使用在PubMed上培訓的100維嵌入式單詞(Pennington et al., 2014;TH等人,2015)。與Verga等人(2018)不同的是,我們使用預先訓練好的詞嵌入來代替子詞嵌入來與我們的詞圖對齊。由于CDR數據集的大小,我們合并了訓練和開發集來訓練模型,類似于Xu et al. (2016a)和Gu et al.(2017)。我們用不同參數初始化種子的5次運行的平均值來報告性能,包括精度§、回憶?和f1分數。我們使用訓練集中邊緣類型的頻率來選擇2.3節中的top-N邊。關于培訓和超參數設置的細節,請參閱補充資料。
- 100-d embedding(在PubMed上訓練的)(Pennington et al., 2014;TH等人,2015)
- 用預訓練的詞嵌入來代替子詞嵌入來與我們的詞圖對齊。
- dev+train來訓練
- 評估:
- 五次不同種子的初始化平均來報告性能
- P,R,F1
- top-N邊:用邊的類型的頻率來選擇。
3.5結果
表2顯示了我們的CDR和CHR數據集模型的結果。我們報告了最先進的模型的性能,沒有任何額外的增強,如與NER的聯合訓練,模型集成和啟發式規則,以避免任何影響的增強,在比較。我們觀察到,在兩個數據集中,GCNN都優于基線模型(cnn - re /RNN-RE)。然而,在CDR數據集中,GCNN的性能比性能最好的系統(Gu et al., 2017)低1.6個百分點。事實上,Gu等人(2017)將兩種獨立的神經和基于特征的模型分別用于句內和句間配對,而我們對兩對句子都使用單一的模型。此外,GCNN的表現與Li等人(2018)的第二種最先進的神經模型相當,與我們的統一方法不同,該模型需要兩個步驟來進行提及聚合。
圖3展示了我們的模型在CDR開發集上使用不同數量的最頻繁的邊緣類型N時的性能。在對N進行調優時,我們發現前四個邊緣類型的性能最佳,但隨著邊緣類型的增加,性能略有下降。我們在其他實驗中選擇了前4個edge類型。
- top-4最好
我們對CDR數據集進行消融分析,方法是將開發集分為句內對和句間對(分別約占70%和30%的對)。表3顯示了一次刪除邊緣類別時的性能。總的來說,所有的依賴類型對句間RE和整體性能都有積極的影響,盡管自節點和相鄰的句子邊緣對句內關系的性能有輕微的損害。此外,共引用不影響句子內對。
4.相關工作
4.1 句子間關系抽取
近期提出的任務
- 句間關系抽取
* Peng et al.(2017)和Song et al.(2018)將基于圖的LSTM網絡用于n元RE在多個句子中用于蛋白質-藥物-疾病關聯。他們將關系候選詞限制在最多兩句話中。
* Verga等人(2018)考慮了文檔級RE的多實例學習。
* GCNN(Sahu, S. K., et al. (2019)):
* 我們的工作與Verga等人(2018)不同,我們使用GCNN模型替換Transformer,使用非局部依賴(如實體指代消解)進行全抽象編碼。
4.2 GCNN
- GCNN最早由Kipf和Welling(2017)提出,并應用于引文網絡和知識圖數據集。
- 后來它被用于語義角色標記(Marcheggiani和Titov, 2017)、
- 多文檔摘要(Yasunaga等人,2017)和
- 時間關系提取(Vashishth等人,2018)。
- Zhang等人(2018)在插入語RE的依賴樹中使用了一個GCNN。
- 與之前的工作不同,我們在文檔級圖中引入了一個GCNN,在句間RE中包含了句內和句間的依賴關系。
5. 結論
提出了一種新的基于圖元的句子間轉換方法,該方法使用文檔級圖的標記邊緣GCNN模型。圖以單詞為節點,它們之間的多個句內和句間依賴關系作為邊。采用GCNN模型對圖結構進行編碼,并引入MIL對多維度對進行聚類。結果表明,該方法在兩個生物化學數據集上的性能可與最先進的神經模型相媲美。
我們調整了標記邊緣的數量,以保持標記邊緣GCNN中的參數數量。分析表明,所有的邊緣類型對句子間RE都是有效的。雖然該模型適用于生物化學語料庫中的句子間RE,但我們的方法也適用于其他關系提取任務。作為未來的工作,我們計劃合并聯合命名實體識別培訓和子詞嵌入,以進一步提高提出的模型的性能。
相關博客
論文筆記 Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network
總結
以上是生活随笔為你收集整理的论文阅读课2-Inter-sentence Relation Extraction with Document-level (GCNN,句间关系抽取,ACL2019的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最短路径——迪杰斯特拉算法——图的数据结
- 下一篇: 算术逻辑单元设计