论文浅尝 | Global Relation Embedding for Relation Extraction
鏈接:https://arxiv.org/abs/1704.05958
Introduction
在關系抽取任務中,通常采用遠程監督的方式自動生成數據集。由于實體對間可能存在多關系,生成的數據集往往存在大量噪音。本文對文本中的關系表述(textual relation)和知識庫中的關系(kb relation)進行了共現統計,利用全局統計的信息訓練 embedding,使模型能更加魯棒地應對訓練噪音的問題。
?
Idea
本文的核心思想是:全局的統計信息比局部的統計信息更加魯棒。在傳統的關系抽取訓練中,句子與句子之間是獨立的,基于單句的局部特征訓練模型,受到錯誤標簽的影響比較大。本文提出了一種全局統計的思路,對每個句子,提取它文本中的關系表述(textual relation),并統計該 textual relation 在訓練集中共現的 kb relation 的分布,這個分布可以用來作為 textual relation 的embedding 表示。
比如,對于上述兩個textual relation,分別統計訓練集中包含該textual relation的句子對應的label,可以得到texual relation在kbrelation上的分布如下:
可以看出,表述為born的句子可以被映射到place_of_birth上,雖然訓練集中存在錯誤標簽(place_of_death)的問題,但在全局統計的角度看,錯誤標簽占比比較小。因此,全局共現信息可以有效地突出正確標簽。
本文的思路可以類比 GloVE 對 word2vec 的改進。
?
Methods
1、統計
首先,在語料集上,本文用short dependency path來提取每個關系的texual relation,得到文本的relational fact,以及對應的texualrelation set:。
其次,對于每個texual relation,得到共現的實體對:
每個實體對出現的次數記為。
在知識庫上,relational fact 即為三元組。對于每個三元組,統計出共現的實體對,記做S(rj)。根據關系標簽的映射,我們可以得到textual relation和kb relation的共現信息:
2、Global relation embedding(GloRE)
本文用GRU處理texual relation的路徑,并將輸出結果映射到上一節統計出的共現分布上:
這里用『-』來代表依賴路徑中的方向。目標函數如下:
最終得到 textual relation 的embedding。
?
3、關系抽取增強
本文用GloRE計算關系score,加到原有關系抽取模型的score中。
在實體對的 set level 上,關系抽取模型的score記作E(z|C)。
用GloRE對單句進行預測得到score,再做set內的聚合,和關系抽取的set level對齊:
最終關系抽取的score表示為兩個score加權的和:
Experiments
本文首先在多種關系抽取模型上進行了GloRE的加成測試,效果均有一定提升:
其次,作者用PCNN+ATT+GloRE和一些經典關系抽取數據集進行最終對比:
最后,本文用同樣的PCNN+ATT作為BASE模型,用不同模型作為疊加,證明了GloRE的加成效果最好。
作者還進行了 case study,來分析GloRE的具體效果:
筆記整理:王冠穎,浙江大學碩士,研究方向關系抽取、知識圖譜
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | Global Relation Embedding for Relation Extraction的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微服务设计原则和解决方案
- 下一篇: 论文浅尝 | 基于复杂查询图编码的知识库