论文学习16-Going out on a limb: without Dependency Trees(联合实体关系抽取2017)
文章目錄
- abstract
- 1. Introduction
- 2. 相關工作
- 3. Model
- 3.1 Multi-layer Bi-directional Recurrent Network
- 3.2實體檢測
- 3.3 attention model
- 3.4 關系檢測
- 3.5雙向編碼
- 4.訓練
- 5.實驗
- 5.2 evaluation metrics
- 5.3 基線和以前的模型
- 5.4 超參數
- 6.結果
Katiyar, A. and C. Cardie (2017). Going out on a limb: Joint extraction of entity mentions and relations without dependency trees. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).
abstract
提出了一種新的基于注意的遞歸神經網絡,用于聯合提取實體提及度和關系。我們證明了注意力和長短時記憶(LSTM)網絡可以在不訪問依賴樹的情況下提取實體提及之間的語義關系。在自動內容提取(ACE)語料庫上的實驗表明,我們的模型顯著優于Li和Ji(2014)基于特征的聯合模型。我們還將我們的模型與Miwa和Bansal(2016)的基于端到端樹的LSTM模型(SPTree)進行了比較,結果表明我們的模型在實體提及率1%和關系率2%的范圍內運行。我們的細粒度分析還表明,我們的模型在代理工件關系上表現得更好,而SPTree在物理和部分整體關系上表現得更好。
- 一種新的基于注意的遞歸神經網絡
- l聯合抽取
- 無依賴樹
1. Introduction
- 聯合模型的性能優于管道模型,因為類型化關系的知識可以增加模型對實體提取的信心,反之亦然
遞歸網絡(RNNs) (Elman, 1990)最近成為非常流行的序列標記任務,如涉及一組連續令牌的實體提取。然而,它們識別序列中不相鄰的標記(如兩個實體的頭名詞)之間關系的能力卻很少被研究。對于這些任務,使用樹結構的rns被認為是更合適的。例如,Miwa和Bansal(2016)提出了一個由基于序列的長短時記憶(LSTM)和一個獨立的基于樹的依賴LSTM層組成的RNN來進行實體識別,并使用兩個組件之間的共享參數進行關系分類。因此,他們的模型嚴重依賴于對依賴樹的訪問,將其限制在句子層次提取和存在(好的)依賴解析器的語言。而且,他們的模型并不共同提取實體和關系;它們首先提取所有實體,然后對句子中所有對實體進行關系分類。
- 不相鄰的標記之間的關系—用樹結構的RNNs
在我們之前的工作(Katiyar和Cardie, 2016)中,我們在意見提取上下文中處理了相同的任務。我們基于lstm的公式明確地將實體頭部之間的距離編碼為意見關系標簽。我們的模型的輸出空間是實體和關系標簽集大小的平方,我們沒有明確地標識關系類型。不幸的是,添加關系類型使得輸出標簽空間非常稀疏,使得模型很難學習。
- 本文:a novel RNN-based model,無樹
與其他模型不同,我們的模型不依賴于任何依賴樹信息。我們的基于rnn的模型是一個序列上的多層雙向LSTM。我們從左到右對輸出序列進行編碼。在每個時間步上,我們在前面解碼的時間步上使用一個類似于注意的模型,來標識與當前令牌具有指定關系的令牌。我們還在網絡中添加了一個額外的層來對從右到左的輸出序列進行編碼,并發現使用雙向編碼對關系識別的性能有了顯著的改進。
我們的模型顯著優于Li和Ji(2014)的基于特征的結構化感知器模型,在ACE05數據集的實體和關系提取上都有了改進。與Miwa和Bansal(2016)的基于依賴樹的LSTM模型相比,我們的模型對ACE05數據集的實體和關系的處理效率分別為1%和2%。我們還發現,我們的模型在AGENT-ARTIFACT關系上的表現明顯好于基于樹的模型,而他們的基于樹的模型在物理和部分-整體關系上的表現更好;這兩個模型在所有其他關系類型上的表現是比較的。我們的非樹模型極具競爭力的性能對于在缺乏良好解析器的低資源語言中提取非相鄰實體的關系來說是個好兆頭。
2. 相關工作
RNNs (Hochreiter and Schmidhuber, 1997)最近被應用于許多順序建模和預測任務,如機器翻譯(Bahdanau et al., 2015;Sutskever等,2014),命名實體識別(NER) (Hammerton, 2003),意見挖掘(Irsoy and Cardie, 2014)。已經發現,在LSTMs上添加crf樣目標等變體可以在多個序列預測NLP任務中產生最新的結果(Collobert et al., 2011;黃等,2015;Katiyar和Cardie, 2016)。這些模型在輸出層假設條件獨立,我們不假設條件獨立在輸出層,允許它對輸出序列上的任意分布建模。
- RNN+crf–效果更好
- 以前都假設條件獨立,我們不假設輸出層條件獨立,允許它對輸出序列上的任意分布建模。
關系分類作為一個獨立的任務被廣泛研究,假設關系的參數是預先知道的。已經提出了幾種模型,包括基于特征的模型(Bunescu和Mooney, 2005;和基于神經網絡的模型(Socher et al., 2012;dos Santos等人,2015;橋本等人,2015;徐等,2015a,b)。
聯合提取實體和關系,基于特征的結構化預測模型(Li and Ji, 2014;Miwa和Sasaki, 2014),聯合推理整數線性規劃模型(Yih和Roth, 2007;Yang和Cardie, 2013),卡片金字塔解析(Kate和Mooney, 2010)和概率圖形模型(Yu和Lam, 2010;(Singh et al., 2013)已經被提出。與此相反,我們提出了一種不依賴于諸如詞性(POS)標簽、依賴樹等任何特征的可用性的神經網絡模型。
- 本文:我們提出了一種不依賴于諸如詞性(POS)標簽、依賴樹等任何特征的可用性的神經網絡模型
最近,Miwa和Bansal(2016)提出了一種基于端到端的LSTM序列和樹結構模型。它們通過序列層提取實體,通過最短路徑依賴樹網絡提取實體之間的關系。在本文中,我們嘗試研究遞歸神經網絡,在不使用任何依賴解析樹特征的情況下提取實體提及之間的語義關系。我們還提出了第一個基于神經網絡的聯合模型,該模型可以提取實體提及和關系以及關系類型。在我們之前的工作(Katiyar和Cardie, 2016)中,如前所述,我們提出了一個基于lstm的模型來聯合提取意見實體和關系,但是沒有關聯類型。由于輸出空間變得稀疏,使得模型難以學習,因此不能直接擴展該模型以包含關系類型。
遞歸神經網絡的最新進展是將注意力應用于遞歸神經網絡,以獲得序列模型中令牌的重要性加權的表示。這些模型在問答任務中被頻繁使用(最近的例子見Chen et al.(2016)和Lee et al.(2016)),機器翻譯(Luong et al., 2015;以及許多其他NLP應用。指針網絡(Vinyals et al., 2015)是注意力模型的一種適應,使用這些標記級權重作為指向輸入元素的指針。例如,Zhai et al.(2017)將這些用于神經分塊,Nallapati et al.(2016)和Cheng and Lapata(2016)用于總結。然而,就我們所知,這些網絡還沒有被用來聯合提取實體提及和關系。我們首先嘗試使用這些帶有遞歸神經網絡的注意模型來聯合提取實體提及和關系。
3. Model
該模型由一個多層的雙向遞歸網絡構成,它學習序列中每個令牌的表示。我們使用來自頂層的隱藏表示來進行聯合實體和關系提取。對于序列中的每個標記,我們輸出一個實體標記和一個關系標記。實體標記對應于實體類型,而關系標記是指向相關實體及其各自關系類型的指針的元組。圖1顯示了來自數據集的一個示例句子的注釋。我們將關系標記從實體級轉換為令牌級。例如,我們為獨立電視新聞實體中的每個令牌分別建模關系ORG-AFF。因此,我們分別模擬ITV和Martin Geissler, News和Martin Geissler之間的關系。為了找到每個令牌的關系標記,我們在序列層的頂部使用了一個類似指針的網絡,如圖2所示。在每個時間步驟中,網絡利用前一個時間步驟中所有輸出標記的可用信息來聯合輸出當前令牌的實體標記和關系標記。
- 多層,雙向RNN
- 學習序列每個token的表示,然后用這個來進行聯合實體和關系抽取
- 為了找到每個token的關系標記
- 使用類似指針的網絡
3.1 Multi-layer Bi-directional Recurrent Network
- 多層LSTMs,雙向
- 我們使用多層雙向lstm進行序列標記,因為lstm更能夠捕獲令牌之間的長期依賴關系,這使得它非常適合實體提及和關系抽取。
- xtl=[h→t?1l?1,h←t?1l?1]x_t^l=[\stackrel{\rightarrow}{h}_{t-1}^{l-1},\stackrel{\leftarrow}{h}_{t-1}^{l-1} ]xtl?=[h→?t?1l?1?,h←?t?1l?1?]
- 最終的隱層表示
3.2實體檢測
- BILOU,序列標注任務
- yt=softmax(Uzt′+b)y_t=softmax(Uz_t'+b)yt?=softmax(Uzt′?+b)—找到最有可能的輸出標簽
我們的網絡結構如圖2所示,也包含了從前一個時間步驟的輸出yt-1到當前頂層隱藏層的連接。因此,我們的產出并不是有條件地相互獨立的。為了添加來自yt-1的連接,我們將這個輸出k轉換為一個嵌入bt?1kb^k_{t-1}bt?1k?的標簽。(我們還可以使用前一個時間步驟的關系標簽輸出來添加關系標簽嵌入。)我們表示每種標簽類型k用一個密度表示bkb^kbk
- 我們用貪婪的方式從左向右來解碼輸出序列
3.3 attention model
- 關系抽取:attention model
我們使用注意模型進行關系提取。注意模型,在一個編碼序列的表示z上,可以在這些學習的表示上計算一個軟概率分布p,其中di是解碼序列中的第i個標記。這些概率表示編碼器序列中不同令牌的重要性:
- v是attention scores
- v是注意力的權重矩陣,它將隱藏的表征轉化為注意力得分。
我們在我們的方法中使用了指針網絡(Vinyals等人,2015),這是這些注意力模型的變體。指針網絡將這些pi t解釋為指向輸入t的指針,表示在輸入編碼序列上的概率分布,并使用ui元素。我們可以使用這些指針來對當前令牌和之前預測的令牌之間的關系進行編碼,使其適合于關系提取,如3.4節所述。
3.4 關系檢測
- 看做序列標注任務
我們還將關系提取描述為一個序列標記任務。對于每個令牌,我們希望找到與當前令牌相關的過去令牌及其關系類型。在圖1中,“Safwan”通過關系類型“PHYS”與令牌“Martin”以及“Geissler”相關聯。為簡單起見,我們假設只有一個以前的令牌與當前的令牌在訓練時相關,即,“Safwan”和“Geissler”是通過物理關系聯系在一起的。我們可以擴展我們的方法來輸出多個關系,如第4節所述。
使用3.3的pointer network。在每個時間步,我們堆棧頂部隱藏層表示從以前的時間步驟z<= t 及其相應的標簽嵌入b<= t。我們只壓棧頂部的令牌被預測為隱層表示non-O‘s之前的時間步驟如圖2所示。我們在t時刻的譯碼表示是zt和bt的拼接,注意概率可以計算如下
- p對應到目前為止序列中每個令牌在第t步與當前令牌相關的概率。對于沒有關系的情況,t時刻的令牌與自身相關。
我們還想找出關系的類型。為了實現這一點,我們向v添加了一個額外的維度,該維度與關系類型R空間的大小相對應。因此,ui t不再是一個分數,而是一個R維向量。然后我們對這個大小為O(|z≤t|×R)的向量取softmax,以找到指向相關實體及其關系類型的最可能的指針元組。
3.5雙向編碼
- biLSTMs比單向更好地獲取上下文
- –>在輸出層雙向編碼
- bi-LSTM+另一個隱層,對從右到左的輸出序列編碼–>實體標記和關系標記
基于它們在各種NLP任務上的性能(Irsoy和Cardie, 2014),雙向lstm被發現能夠比普通的從左到右lstm更好地捕獲上下文。此外,Sutskever等(2014)發現,在訓練過程中,他們在機器翻譯任務中的表現隨著輸入句子的倒排而提高。受這些開發的啟發,我們在輸出層試驗了雙向編碼。我們在圖2的Bi-LSTM上添加了另一個頂層隱藏層,它對從右到左的輸出序列進行編碼。除了頂層隱藏層外,這兩種編碼共享相同的多層雙向LSTM。因此,我們的網絡中有兩個輸出層,分別輸出實體標記和關系標記。在推理時,我們使用啟發式來合并兩個方向的輸出。
4.訓練
我們通過最大化正確實體E和關系R標簽序列的logprobability來訓練我們的網絡
我們可以將目標分解為實體序列和關系序列的對數概率和。我們在培訓時使用黃金實體標簽。如圖2所示,在當前時間步長中,我們將之前的時間步長嵌入到頂層隱藏層的標簽與其他循環輸入一起輸入。在訓練過程中,我們將金標簽嵌入到下一個時間步中,這使得我們的模型能夠得到更好的訓練。但是,在測試時,當gold標簽不可用時,我們使用先前時間步驟的預測標簽作為當前步驟的輸入。
因為,我們添加了另一個頂層,按照章節3.5中解釋的相反順序對標記序列進行編碼,所以輸出中可能會有沖突。我們選擇了與Miwa和Bansal(2016)類似的積極和更自信的標簽。
- 貪婪解碼
我們提取關系的方法不同于Miwa和Bansal(2016)。Miwa和Bansal(2016)將每一對實體提交到其關系分類模型中。在我們的方法中,我們使用指針網絡來標識相關實體。因此,對于目前所描述的方法,如果我們只計算目標上的argmax,那么我們將模型限制為每個標記只輸出一個關系標簽。但是,從我們對數據集的分析來看,一個實體可能與句子中的多個實體相關。因此,我們修改目標以包含多個關系。在圖2中,令牌Safwan與實體Martin Geissler的令牌Martin和Geissler都相關,因此我們將概率賦值為0.5送給這兩個token。這可以很容易地擴展為包含來自其他相關實體的令牌,這樣我們就可以分配相等的概率1/N到所有tokens.取決于這些相關令牌的數量N。
-
實體部分的log-probability與我們在第4節中討論的目標相同,但是我們將關系log-probability修改如下
-
ri’系數,因此使用交叉熵目標函數
-
我們也可以使用Sparsemax (Martins and Astudillo, 2016)來代替softmax,后者更適合于稀疏分布。然而,我們把它留給未來的工作。
-
在推理時,我們輸出所有概率值超過一定閾值的標簽。我們根據驗證集調整這個閾值。
5.實驗
5.2 evaluation metrics
為了將我們的系統與之前的系統進行比較,我們報告了與Li和Ji(2014)以及Miwa和Bansal(2016)類似的實體和關系的微觀f1分數、精確度和召回率。如果我們能正確識別實體的頭部和實體類型,則認為實體是正確的。如果我們能夠識別參數實體的頭部和關系類型,則關系被認為是正確的。當參數實體和關系都正確時,我們也報告一個合并的分數。
5.3 基線和以前的模型
我們將我們的方法與前面的兩種方法進行比較。Li和Ji(2014)提出的模型是一種基于特征的結構化感知器模型,具有高效的波束搜索。他們使用基于分段的譯碼器而不是基于符號的譯碼器。他們的模型比之前最先進的流水線模型要好。Miwa和Sasaki (2014) (SPTree)最近提出了一個基于lstm的模型,其中包含一個用于實體識別的序列層,以及一個基于樹的依賴層,該依賴層使用候選實體之間的最短依賴路徑來識別候選實體對之間的關系。我們還使用了之前的方法(Katiyar和Cardie, 2016)來提取意見實體和與此任務的關系。我們發現,與上面提到的兩種方法相比,這種方法的性能并不具有競爭力,在關系上的性能降低了10個百分點。因此,我們不包括表1中的結果。Li和Ji(2014)也表明,聯合模型的性能優于流水線方法。因此,我們不包括任何管道基線。
5.4 超參數
使用300維word2vec (Mikolov et al., 2013)對谷歌新聞數據集進行單詞嵌入訓練。我們的網絡中有3個隱藏層,隱藏單元的維度是100。網絡中的所有權值都是由小的隨機均勻噪聲初始化的。我們基于ACE05開發集調整超參數,并使用它們對ACE04數據集進行培訓。
6.結果
- 我們的聯合模型在實體和關系上都顯著優于聯合結構化感知器模型(Li和Ji, 2014),盡管還缺乏依賴樹、POS標簽等特性。然而,如果我們將我們的模型與SPTree模型進行比較,我們會發現它們的模型在實體和關系上有更好的回憶。
- 我們發現將目標修改為包含多個關系可以提高系統對關系的回憶,從而略微提高系統的整體性能。但是,仔細調整閾值可以進一步提高精度。
- 雙向編碼很有用。
總結
以上是生活随笔為你收集整理的论文学习16-Going out on a limb: without Dependency Trees(联合实体关系抽取2017)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 快捷键记录
- 下一篇: TabError的解决方法