论文学习18-Relation extraction and the influence of automatic named-entity recognition(联合实体关系抽取模型,2007)
文章目錄
- abstract
- 1.introduction
- 3.問題形式化
- 4.系統架構
- 5. 命名實體識別
- 6.關系抽取(核方法)
- 6.1global context kernel
- 6.2 local context kernel
- 6.3 shallow linguistic kernel
- 7實驗
Giuliano, C., et al. “Relation extraction and the influence of automatic named-entity recognition.” Acm Transactions on Speech & Language Processing 5(1): 1-26.
http://portal.acm.org/citation.cfm?doid=1322391.1322393
abstract
我們提出了一種從自然語言文檔中提取命名實體之間關系的方法。該方法僅基于淺層語言處理,例如標記化,句子拆分,詞性標記和詞形化。它使用內核功能的組合來集成兩個不同的信息源:(i)有關系出現的整個句子,以及(ii)交互實體周圍的局部上下文。我們介紹了從新聞專線文檔數據集中提取五種不同類型關系的實驗結果,并表明每個信息源都為識別任務提供了有用的幫助。通常,組合內核相對于基本內核會顯著提高精度,有時會以召回率略低為代價。此外,我們進行了一組實驗,以評估命名實體識別的準確性對關系提取算法性能的影響。使用正確的命名實體(即,在語料庫中手動注釋的實體)和嘈雜的命名實體(即,由基于機器學習的命名實體識別器生成的實體)進行此類實驗。結果表明,我們的方法大大改善了先前在同一數據集上獲得的結果。
- 該方法僅基于淺層語言處理
- 使用內核函數(kernel function)集成連個信息源
- 句子
- 交互實體周圍的局部上下文
- 組合內核>基本內核
1.introduction
- ner:使用線性鏈CRFs [Lafferty et al. 2001]來執行NER。
- 關系提取:我們采用了Giuliano等人[2006]的方法(僅僅基于淺層的語言處理)–核
- (i)實體出現的全局上下文和
- (ii)交互實體周圍的本地上下文。
- 組合的核:將上兩步分類器的結果組合起來,輸出與全局概率推斷相結合。
3.問題形式化
我們首先描述一些關于輸入數據的假設。首先,這些實體已經被識別并作為輸入提供給我們。請注意,以下生成過程既適用于自動識別命名實體時,也適用于手動識別它們時(即,取自金本位)。在本文中,我們提供了這兩種情況下的實驗結果。第二,只考慮同一句話內的實體之間的關系;雖然在不同的句子中可能存在實體之間的關系,但在用于評價的語料庫中沒有注釋。因此沒有考慮這個問題。我們將在下面看到,這種假設限制了數據集的大小。第三,我們不考慮自我關系。因為它們在語料庫中沒有注釋。最后,每一種關系類型都是獨立學習的,因此需要在不同的數據集上進行訓練和測試。
- 關系分類中的候選實體:同一句子中的實體的排列組合。—不平衡,有關系的是少數。(有關系+1,無則-1)
- 改進:只考慮組合,不考慮排列(無序)
- 在本例中,如果兩個候選實體之間存在關系,則根據關系的方向將示例標記為1或2;否則,標記為0。
- 關系的兩個實體可分為
- 兩個實體是同類的
- 兩個實體是不同類的
- 滿足頭實體尾實體的類型約束(生成候選實體時)
- 改進:只考慮組合,不考慮排列(無序)
4.系統架構
首先,從指定的帶注釋的語料庫脫機學習兩個模型,一個用于實體識別(參見第5節),另一個用于關系提取(參見第6節)。然后,將這些模型應用到管道中以標記新文檔。
- 管道方法??
- 用實體部分預測的實體標簽來進行關系抽取,而非用標注的標簽(在訓練中也是)
5. 命名實體識別
- CRFs
- 訓練兩個模型
- 實體分類
- 實體提取+分類
- 都用五折交叉驗證
6.關系抽取(核方法)
- 輸入X–》embedding
- kernel function:X,X->R
- 學習算法可以用SVM
- 兩個核函數:global context kernels and local context kernels
6.1global context kernel
- R–關系
where KFB, KB and KBA are n-gram kernels that operate on the Fore-Between, Between and Between-After patterns, respectively.
6.2 local context kernel
候選實體的局部上下文可以為檢測關系的方向以及關系本身的存在提供有用的線索。與實體識別一樣,我們使用以下基本特性來表示每個本地上下文
- L=t-w,…,t0,t1,…tw
where Kleft and Kright are defined by substituting the embedding ofthe left and right local context into Equation (1), respectively.
6.3 shallow linguistic kernel
7實驗
(1) MO|K. The correct entities are used during relation extraction training and testing;
(2) MC|K. The entity predictions given by the MC model are used as input to the relation extraction algorithm when it is run on the test set;
(3) MR&C|K. The entity predictions given by the MR&C model are used as input to the relation extraction algorithm when it is run on the test set.
總結
以上是生活随笔為你收集整理的论文学习18-Relation extraction and the influence of automatic named-entity recognition(联合实体关系抽取模型,2007)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人工智能,装在罐子里
- 下一篇: Nat. Commun.速递:深度学习