【ACL2020】Reasoning with Latent Structure Refinement for Document-Level Relation Extraction
生活随笔
收集整理的這篇文章主要介紹了
【ACL2020】Reasoning with Latent Structure Refinement for Document-Level Relation Extraction
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
1. 問題
- 句間關(guān)系
- 很多
- 約等于文檔級關(guān)系抽取
- 文檔級關(guān)系抽取
- 句子間關(guān)系多
- 生物醫(yī)藥領(lǐng)域尤其多
- 需求/困難
- 整合同一文檔不同句子間的信息
- 處理句間實體復(fù)雜的交互
- 句子間關(guān)系多
2.相關(guān)工作
-
文檔級別關(guān)系抽取
- 結(jié)論:
- 實體mention之間的交互促進推理過程(文檔級關(guān)系抽取中)
- 因而使用MIL
- 實體mention之間的交互促進推理過程(文檔級關(guān)系抽取中)
- MIL
- Verge2018,Jia2019
- 缺點:
* 無法捕捉豐富的非局部交互
- 使用結(jié)構(gòu)信息獲取更好的推理
- 優(yōu)點:可以捕捉到非局部依賴
- 整合不同句子的信息
- 構(gòu)建靜態(tài)的文檔級別圖
- 來源:非結(jié)構(gòu)化文本
- 依賴:規(guī)則和共指消解
- 語義信息
- co-references
- heuristics:啟發(fā)式
- eg
- Peng2017:構(gòu)建依賴圖:句間,多元實體
- Sahu,2019:用共指消解擴展了Peng的圖,構(gòu)建了文檔級別的圖
- Christopoulou,2019利用結(jié)構(gòu)信息基于一組啟發(fā)式構(gòu)建一個異構(gòu)圖,并使用一個特定于邊的模型
- 結(jié)論:
-
句子內(nèi)關(guān)系抽取
-
句子間關(guān)系抽取
- Peng:句間關(guān)系多,尤其是生物醫(yī)藥領(lǐng)域
- 生物醫(yī)藥領(lǐng)域
- l (Quirk and Poon, 2017;
- Gupta et al., 2018;
- Song et al., 2019)
3.本文方法
- 本文模型:LSR
- 構(gòu)建隱式文檔級別圖
- 自動的
- 目的:加強句子間的關(guān)系推理
- 捕捉實體間的非局部交互
- 構(gòu)建:
- 不依賴于規(guī)則和共指消解
- 將圖結(jié)構(gòu)視作隱式的變量,并以端到端的形式引入它
- 基于:結(jié)構(gòu)化的attention
- 使用:矩陣樹理論
- 可以:生成一個任務(wù)特定的依賴結(jié)構(gòu)
- 進一步:迭代的細化策略:
- 目的:使得模型能夠增量地聚合多條推理的相關(guān)信息
- 做到:基于上一次迭代,動態(tài)第構(gòu)建隱式結(jié)構(gòu)
- 組件
- node constructor
- encoder:文檔中的每個句子編碼表示-上下文的表示
- node:最短依賴路徑的mention和tokens的向量表示作為node
- dynamic reasoner
- 生成結(jié)構(gòu):基于被提取的節(jié)點生成文檔級結(jié)構(gòu)
- 更新node表示:
- 基于隱式結(jié)構(gòu)上的信息傳遞
- 迭代細化
- classifier
- 分類:節(jié)點最后的表達被用于計算分類的分數(shù)
- node constructor
- 構(gòu)建隱式文檔級別圖
3.1 Node constructor
- encoder:文檔中的每個句子編碼表示
- node:最短依賴路徑的mention和tokens的向量表示作為node
- mention node
- entity node
- meta dependency paths node(MDP)
- 所有mentions最短依賴路徑的集合
- token–>node
3.1.1 context encoding
- 文檔d,文檔內(nèi)句子did_idi?
- 編碼器:LSTM(BiLSTM)/Bert
- BiLSTM
- hji→=LSTMl(hj+1i←,γji)\overrightarrow{h_j^i}=LSTM_l(\overleftarrow{h_{j+1}^i},\gamma_j^i)hji??=LSTMl?(hj+1i??,γji?)
- hji←=LSTMl(hj?1i→,γji)\overleftarrow{h_j^i}=LSTM_l(\overrightarrow{h_{j-1}^i},\gamma_j^i)hji??=LSTMl?(hj?1i??,γji?)
- j-di中的第j個token
- γ:wordembedding\gamma:word embeddingγ:wordembedding
- hji=[hji←;hji→]h_j^i=[\overleftarrow{h_{j}^i};\overrightarrow{h_{j}^i}]hji?=[hji??;hji??]
- BiLSTM
3.1.2 Node Extraction
- node:最短依賴路徑的mention和tokens的向量表示作為node
- mention node
- entity node
- mentions的平均
- meta dependency paths node(MDP)
- 所有mentions最短依賴路徑的集合
- token–>node
- 構(gòu)建圖
- Sahu:使用一個句子的依賴樹中的所有節(jié)點
- Christopoulou:通過對句子的所有標記求平均來構(gòu)建一個句子級別的節(jié)點
- 或者:使用mention之間的最短依賴路徑上的tokens
- 這個廣泛用于句子級關(guān)系抽取,因為他可以有效使用相關(guān)信息,忽視無關(guān)信息
3.2 Dynamic Reasoner
- structure induction
- 學(xué)習(xí)隱式的文檔級圖結(jié)構(gòu)
- multi-hop reasoning
- 在圖上推理
- 更新節(jié)點表示(基于信息傳遞)
- 迭代
- N blocks
- 為了迭代細化隱式的文檔級圖,為了更好的推理
3.2.1 Structure Induction
- 不依賴于規(guī)則和共指消解
- 將圖結(jié)構(gòu)視作隱式的變量,并以端到端的形式引入它
- 基于:結(jié)構(gòu)化的attention
- 公式
- node:ui,uju_i,u_jui?,uj?上下文表示
- pair-wise unnormalized attention score
- sij=(tanh(Wpui))TWb(tanh(Wcuj))s_{ij}=(tanh(W_pu_i))^TW_b(tanh(W_cu_j))sij?=(tanh(Wp?ui?))TWb?(tanh(Wc?uj?))
- 2個ff
- 1個bilinear transformation
- root scoresir=Wruis_i^r=W_ru_isir?=Wr?ui?–第i個節(jié)點被選作root的概率
- 邊的權(quán)重Pij={0if?i=jexp(sij)otherwiseP_{ij}= \begin{cases} 0& \text{if i=j}\\ exp(s_{ij})& \text{otherwise} \end{cases}Pij?={0exp(sij?)?if?i=jotherwise?
- 拉普拉斯矩陣
- Lij={Σi′=1nPi′jif?i=j?PijotherwiseL_{ij}=\begin{cases} \Sigma_{i'=1}^nP_{i'j} & \text{if i=j}\\ -P_{ij}&otherwise \end{cases}Lij?={Σi′=1n?Pi′j??Pij??if?i=jotherwise?
- variant: Lij^={exp(sir)if?i=1Lijif?i>1\hat{L_{ij}}=\begin{cases} exp(s_i^r)& \text{if i=1}\\ L_{ij}& \text{if i>1} \end{cases}Lij?^?={exp(sir?)Lij??if?i=1if?i>1?
- sij=(tanh(Wpui))TWb(tanh(Wcuj))s_{ij}=(tanh(W_pu_i))^TW_b(tanh(W_cu_j))sij?=(tanh(Wp?ui?))TWb?(tanh(Wc?uj?))
- marinal probability of the dependency edge:
- Aij=(1?δ1,j)Pij[L?1^]ij?(1?δi,1)Pij[L?1^]jiA_{ij}=(1-\delta_{1,j})P_{ij}[\hat{L^{-1}}]_{ij}-(1-\delta_{i,1})P_{ij}[\hat{L^{-1}}]_{ji}Aij?=(1?δ1,j?)Pij?[L?1^]ij??(1?δi,1?)Pij?[L?1^]ji?
- 輸出給下一組件
3.2.2 Multi-hop Reasoning
- GCN
- dense connection
- 捕捉到更多結(jié)構(gòu)信息
- 幫助訓(xùn)練更深的網(wǎng)絡(luò)
- –獲取更豐富的局部和非局部的信息
- uil=Relu(Σj=1nAijWluil?1+bl)u_i^l=Relu(\Sigma_{j=1}^nA_{ij}W^lu_i^{l-1}+b^l)uil?=Relu(Σj=1n?Aij?Wluil?1?+bl)
- dense connection
3.2.3 Iterative Refinement
- structured attention誘導(dǎo)的圖結(jié)構(gòu)不足
- 相對較淺
- 無法建模復(fù)雜的依賴
- 解決:在更新后的表示上細化圖
- 堆疊N個動態(tài)reasoner
- 誘導(dǎo)N次圖
- 早期:更多的是相鄰的信息
- 迭代多了之后,結(jié)構(gòu)獲得了更豐富的非局部信息的交互,因而誘導(dǎo)模塊能夠生成包含更多信息的結(jié)構(gòu)
- 堆疊N個動態(tài)reasoner
3.3 分類器
P(r∣ei,ej)=σ(eiTWeej+be)rP(r|e_i,e_j)=\sigma(e_i^TW_ee_j+b_e)_rP(r∣ei?,ej?)=σ(eiT?We?ej?+be?)r?
4.結(jié)果
- 數(shù)據(jù)集:
- DocRED
- F1:59.05\
- CDR
- GDA
- DocRED
- DocRED結(jié)論
- 該模型可以更準確地發(fā)現(xiàn)句間關(guān)系
- 靜態(tài)的基于文檔圖的模型不能夠捕捉到復(fù)雜的交互
- LSR比動態(tài)的基于局部attention的模型能夠得到更多信息的文檔級結(jié)構(gòu),獲得更好的推理
- 直接編碼整個文檔的模型不能夠捕捉到句間關(guān)系
- 好于Bert:捕捉到了長期依賴,而沒有使用上下文的模型
- 該模型可以更準確地發(fā)現(xiàn)句間關(guān)系
- CDR
- LSR 打不過:
- Spacy在生物領(lǐng)域很弱,所以不行
- 簡化的LSR:去除MDP,使用全連接圖
- 打不過Li2016b:因為他用了額外的無標簽訓(xùn)練數(shù)據(jù)進行co-training
- 本文要是用了的話他也行(他自己說的)
- 打不過Li2016b:因為他用了額外的無標簽訓(xùn)練數(shù)據(jù)進行co-training
- LSR 打不過:
- GDA:
- Christopoulou2019全連接圖的變體:他的句間關(guān)系好于句內(nèi)關(guān)系,因為他忽略了不同句子間的差異(當一個句子處理了)
4.6.1 Latent Structure Matter的有效性
- 相同block num下,效果最好,證明了有效
4.6.2 細化
- 第二次迭代時(2個block)最好,所以細化有效,但是太多次就會過擬合。
4.7 Ablation Study
- Structure Induction
- 去掉這個性能下降最多,且都是句間關(guān)系抽取性能下降的結(jié)果
- 隱式結(jié)構(gòu)有用
4.8 Case Study
總結(jié)
以上是生活随笔為你收集整理的【ACL2020】Reasoning with Latent Structure Refinement for Document-Level Relation Extraction的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【TensorFlow】常用的损失函数及
- 下一篇: 论文学习12-Conditional R