文献阅读课10-Neural Relation Extraction for Knowledge Base Enrichment(提取+嵌入+消歧+规范化联合模型,实体已知,仅关系抽取,多词实体)
文章目錄
- Abstract
- 1.Introduction
- 2. 相關工作
- 2.2 Entity-aware Relation Extraction
- 3.提出的模型
- 3.1 Solution Framework
- 3.1 data collection module
- 3.3 Joint Learning of Word and Entity Embeddings
- 3.4 N-gram Based Attention Model
- 訓練
- 3.5 Triple Generation
- 4.實驗
- 4.1 超參數
- 4.2 models
- 4.3 results
- 5.總結
Trisedya, B. D., et al. (2019). Neural Relation Extraction for Knowledge Base Enrichment. Proceedings ofthe 57th Annual Meeting ofthe Association for Computational Linguistics: 229–240.
code
Abstract
我們研究知識庫(KB)豐富化的關系提取。具體來說,我們旨在以三元組的形式從句子中提取實體及其關系,并以端到端的方式將提取的三元組的元素映射到現有的知識庫。先前的研究集中于提取本身,并依靠命名實體消歧(NED)將三元組映射到KB空間。這樣,NED錯誤可能會導致提取錯誤,從而影響整體精度和召回率。為了解決這個問題,我們提出了一種基于神經編碼器-解碼器模型的知識庫豐富的端到端關系提取模型。我們通過遠程監控與共參考分辨率和復述檢測來收集高質量的培訓數據。我們提出了一種基于n元語法的注意力模型,該模型捕獲句子中的多詞實體名稱。我們的模型采用共同學習的單詞和實體嵌入來支持命名實體消歧。最后,我們的模型使用改進的波束搜索和三重分類器來幫助生成高質量的三重。就兩個真實數據集的F1得分而言,我們的模型分別比最新基準高出15.51%和8.38%。
- 豐富KB
- 原先:提取關系/實體–>消歧來映射到KB
- 實體消歧的錯誤會導致提取錯誤,從而影響整體的精度和召回率
- 本文:n-gram based attention model that captures multi-word entity names in a sentence.
- 提取+嵌入+消歧聯合模型
- 改進的beam search
- 三元組 classifier
- 原先:提取關系/實體–>消歧來映射到KB
1.Introduction
知識庫(KBs)通常以知識圖(KGs)的形式出現,已成為許多任務中必不可少的資源,包括問答系統,推薦系統和自然語言生成。大型KB,例如DBpedia(Auer等,2007),Wikidata(Vrandecic和Krotzsch,2014)和Yago(Suchanek等,2007)包含數以百萬計的有關實體的事實,它們以主題的形式表示。謂語-賓語三元組。但是,這些知識庫遠非完整,需要不斷地進行豐富和管理。
-
大型KB
- DBpedia(Auer等,2007),
- Wikidata(Vrandecic和Krotzsch,2014)和
- Yago(Suchanek等,2007)
- 知識多但不完整,需要不斷地豐富和管理
-
以前的研究工作–豐富知識基礎
- 基于嵌入的模型(Nguyen等人,2018; Wang等人,2015)
- 實體對齊模型(Chen等人,2017; Sun等人,2017; Trisedya等人,2019)。
- 無監督方法
- 一小組手動定義的提取模式開始,以檢測實體名稱和有關輸入文本中關系的短語。
- 這種范例被稱為開放信息提取(Open IE)(Banko等,2007; Corro and Gemulla,2013; Gashteovski等,2017)。
- 在這一系列方法中,實體和謂詞均以其表面形式捕獲而無需規范化。
- 監督方法:
- 訓練統計和神經模型來推斷句子中兩個已知實體之間的關系
- (Mintz等,2009;
- Riedel等,2010,2013;
- Zeng等,2015;
- Lin等,2016)。
- 這些研究大多數采用預處理步驟來識別實體。
- 只有很少的研究通過對現有KB進行邏輯推理來消除提取的實體的歧義,將提取的三元組映射完全整合到唯一標識的KB實體中
- (例如(Suchanek等人,2009;
- Sa等人,2017)。
- 訓練統計和神經模型來推斷句子中兩個已知實體之間的關系
- 多將實體消歧NED作為單獨的一步:
- 缺點:實體消歧的錯誤傳播,導致錯誤的關系被添加
-
本文工作
- 繼序列到序列架構(Bahdanau et al。,2015)成功用于從結構化數據生成句子(Marcheggiani和Perez-Beltrachini,2018; Trisedya et al。,2018)之后,我們采用這種架構進行相反的工作,也就是從句子中提取三元組。
- 輸入:句子
- 輸出:三元組
- 應用情景:h,t為KB中已有實體,r為關系列表中的關系,<h,r,t>不存在于KB中
- 目的:發現h,t中更多的關系
- 要求:三元組中的關系,實體要規范,可以映射到KB中對應的ID上
- 提取+嵌入+消歧(規范化)–從句子到KB的端到端
- 架構:encoder-decoder的translation model
- 標準的encoder-decoder無法處理多詞實體/謂詞
- n-gram attention–得到單詞級的信息
- 基于n-gram的注意力形式,該形式可以計算注意力權重的ngram組合來捕獲語音或名詞短語上下文,從而補充標準注意力模型的單詞級注意力。
- 因此,我們的模型可以更好地捕獲實體和關系的多詞上下文。
- pre-train
- 單詞:skip gram
- 嵌入:TransE
- 優點:
- 首先,嵌入捕獲可單詞和實體之間的關系,這對于命名實體消除歧義至關重要。
- 其次,實體嵌入保留了實體之間的關系,這有助于建立一個高度準確的分類器來過濾無效的提取的三元組。
- 數據不足:遠程監督
- 為了解決缺少完全標記的訓練數據的問題,我們采用了遠程監督來生成對齊的句子對和三對作為訓練數據。
- 增強
- 我們通過co-reference resolution (Clark和Manning,2016)
- co-reference resolution有助于提取帶有隱式實體名稱的句子,從而擴大候選句子的集合以與KB中現有的三元組對齊。
- dictionary-based paraphrase detection(Ganitkevitch等,2013; Grycner和Weikum,2016
- 有助于過濾不表達實體之間任何關系的句子。
- 我們通過co-reference resolution (Clark和Manning,2016)
- 貢獻
- 聯合關系抽取+消歧的model:該模型減少了關系提取和NED之間的錯誤傳播,而現有方法則容易發生這種錯誤傳播。
- 基于n-gram的注意力模型:
- 以有效地將實體及其關系的多詞提及映射到唯一標識的實體和謂詞中。
- 我們建議聯合學習單詞和實體嵌入,以捕獲單詞和實體之間的關系,以消除命名實體的歧義。
- 我們進一步提出一種改進的波束搜索和三元組分類器,以生成高質量的三元組。
- 我們在兩個真實世界的數據集上評估提出的模型。
- 我們將遠程監控與co-reference resolution和dictionary-based paraphrase detection相結合,以獲取高質量的訓練數據。
- 實驗結果表明,我們的模型始終優于神經關系提取(Lin等人,2016)和最新的NED模型(Hoffart等人,2011; Kolitsas等人,2018)的強大基線。
在本文中,我們研究如何通過文本來源中的關聯關系來豐富知識庫。具體來說,我們旨在提取形式為的三元組,其中h是頭實體,t是尾實體,r是實體之間的關系。重要的是,由于KB在實體上的覆蓋范圍通常比關系上的覆蓋范圍要好得多,因此我們假定h和t是KB中的現有實體,r是屬于我們感興趣的一組預先定義的謂詞的謂詞,但該關系沒有存在于KB中。我們旨在發現h和t之間的更多關系,并將它們添加到KB中。
KB的豐富要求通過將提取的三元組的實體和關系映射到其適當的實體和KB中的謂詞ID來規范化它們。表1示出了從句子中提取的三元組的示例。提取的第一個三元組的實體和謂詞(包括NYU,實例大學和私立大學)分別映射到其唯一的ID Q49210,P31和Q902104,以符合KB的語義空間。
以前有關關系提取的研究都采用了無監督和有監督的方法。無監督方法通常從一小組手動定義的提取模式開始,以檢測實體名稱和有關輸入文本中關系的短語。這種范例被稱為開放信息提取(Open IE)(Banko等,2007; Corro and Gemulla,2013; Gashteovski等,2017)。在這一系列方法中,實體和謂詞均以其表面形式捕獲而無需規范化。監督方法訓練統計和神經模型來推斷句子中兩個已知實體之間的關系(Mintz等,2009; Riedel等,2010,2013; Zeng等,2015; Lin等,2016)。這些研究大多數采用預處理步驟來識別實體。只有很少的研究通過對現有KB進行邏輯推理來消除提取的實體的歧義,將提取的三元組映射完全整合到唯一標識的KB實體中(例如(Suchanek等人,2009; Sa等人,2017)。
因此,大多數現有方法都需要使用命名實體消歧(NED)(請參閱Shen等人(2015)的調查)作為單獨的處理步驟。另外,將關系短語映射到KB謂詞上需要另一個映射步驟,通常需要借助復述詞典來進行。這種兩階段體系結構固有地傾向于在其兩個階段中傳播錯誤:NED錯誤可能會導致提取錯誤(反之亦然),從而導致將錯誤的關系添加到KB中。
但是,標準的編碼器-解碼器模型(Bahdanau等,2015)無法捕獲表示謂詞的多詞實體名稱和口頭或名詞短語。為了解決這個問題,我們提出了一種新穎的基于n-gram的注意力形式,該形式可以計算注意力權重的ngram組合來捕獲語音或名詞短語上下文,從而補充標準注意力模型的單詞級注意力。因此,我們的模型可以更好地捕獲實體和關系的多詞上下文。我們的模型利用了預訓練的單詞和實體嵌入,它們是通過skip gram(Mikolov等,2013)和TransE(Bordes等,2013)共同學習的。我們共同學習的嵌入的優點是雙重的。首先,嵌入捕獲單詞和實體之間的關系,這對于命名實體消除歧義至關重要。其次,實體嵌入保留了實體之間的關系,這有助于建立一個高度準確的分類器來過濾無效的提取三元組。為了解決缺少完全標記的訓練數據的問題,我們采用了遠程監督來生成對齊的句子對和三對作為訓練數據。我們通過共同引用分辨率(Clark和Manning,2016)和基于字典的釋義檢測(Ganitkevitch等,2013; Grycner和Weikum,2016)來增強該過程。共參考消解有助于提取帶有隱式實體名稱的句子,從而擴大候選句子的集合以與KB中現有的三元組對齊。復述檢測有助于過濾不表達實體之間任何關系的句子。
2. 相關工作
- Open IE:
- Banko等。 (2007年)介紹了開放信息提取(Open IE)的范例,并提出了一個包括三個階段的管道:學習者,提取者和評估者。
- 學習者使用依賴項解析信息以無監督的方式學習提取模式。
- 提取器通過將名詞短語識別為自變量并將連接短語識別為謂詞來生成候選三元組。
- 評估者根據統計證據為每個候選三元組分配一個概率。
- 缺點:這種方法易于提取不正確的,冗長的和無意義的三元組。
- (Fader等人,2011; Mausam等人,2012; Angeli等人,2015; Mausam,2016)
- 通過添加手工模式或使用遠程監督來提高Open IE的準確性。
- ClausIE:
- Corro and Gemulla(2013)開發了ClausIE,
- 該方法可分析句子中的從句并從該結構中得出三元組。
- MinIE:
- Gashteovski等。 (2017)開發了MinIE,
- 通過使生成的三元組更加簡潔來推進ClausIE。
- Stanovsky等。 (2018)
- 通過將關系提取轉換為序列標簽,
- 提出了一個Open IE的受監督學習器。
- bi-LSTM模型經過訓練,可以預測輸入的每個標記的標簽(實體,謂詞或其他)。
- 與我們最相關的工作是Neural Open IE(Cui等人,2018),
- 它提出了一種具有注意力模型的編碼器/解碼器來提取三元組。
- 但是,這項工作并不適合于提取規范化實體的關系。
- 另一類研究使用神經學習進行語義角色標記(He等人,2018),
- 但此處的目標是識別單個輸入句子的謂詞-論元結構,而不是從語料庫中提取關系。
- 所有這些方法都會生成三元組,其中頭和尾實體以及謂詞保持其表面形式。* 因此,相同實體的不同名稱和短語會導致多個三元組,如果以這種方式添加,將會污染KG。
- 將三元組映射到KG中唯一標識的實體的唯一方法:
- 是通過實體鏈接(NED)方法進行后處理(Shen等,2015)或
- 通過聚類(Gal′arraga等,2014)。
2.2 Entity-aware Relation Extraction
- 受Brin(1998)的啟發,最先進的方法通過利用來自現有KG的種子事實來進行遠程監督(
- Mintz等,2009;
- Suchanek等,2009;
- Carlson等,2010)。
- 這些方法從種子事實中學習提取模式,將這些模式應用于提取新事實候選者,迭代該原理,最后使用統計推斷(例如分類器)來減少誤報率。
- 這些方法中的某些方法基于這樣一個假設,即在同一句子中種子事實的實體的同時出現是表達實體之間語義關系的指標。這是標記錯誤的潛在原因。
- 后續研究(Hoffmann等人,2010; Riedel等人,2010,2013; Surdeanu等人,2012)通過各種方式克服了這一局限性,包括
- 使用特定于關系的詞典和潛在因子模型。
- 盡管如此,這些方法仍通過實體的表面形式來處理實體,而忽略了它們到KG中現有實體的映射。
- Suchanek等。 (2009)和Sa等。 (2017)
- 使用概率邏輯推論來消除誤報,分別
- 基于約束解決方案或
- 概率圖形模型的蒙特卡洛采樣。
- 這些方法將實體鏈接(即NED)集成到其模型中。
- 但是,:
- 兩者都具有很高的計算復雜度,
- 并且都依賴于建模約束和適當的先驗條件。
- 最近的研究使用神經網絡來學習三元組的提取。
- Nguyen和Grish man(2015)提出了具有多尺寸窗口內核的卷積網絡。
- Zeng等。 (2015年)提出了分段卷積神經網絡(PCNN)。
- Lin等。 (2016,2017)通過提出PCNN并在句子層面給予ATTENTION來改進這種方法。
- 這種方法在實驗研究中效果最好;
- 因此,我們選擇它作為我們比較方法的主要基準。后
- 續研究考慮了進一步的變化:
- Zhou等。 (2018)提出了層次注意,
- Ji等。 (2017)合并了實體描述,
- Miwa和Bansal(2016)合并了語法功能,
- Sorokin和Gurevych(2017)使用了背景知識進行語境化。
- 這些模型都不適合于KG enrichment, 因為都沒有實體規范化
3.提出的模型
3.1 Solution Framework
- 三個模塊
- data collection module,
- 在數據收集模塊中(在第3.2節中詳細介紹),
- 我們將現有知識庫中的已知三元組與包含文本語料庫中此類三元組的句子對齊。
- 對齊的句子和三元組對將在以后的神經關系提取模塊中用作訓練數據。
- 這種協調是通過遠程監督來完成的。
- 為了獲得大量高質量的比對,
- 我們使用共指消解擴展了處理過程,
- 以提取具有隱式實體名稱的句子,
- 從而擴大了要對齊的候選句子的集合。
- 我們進一步使用基于字典的釋義檢測來過濾不表達實體之間任何關系的句子。
- 我們使用共指消解擴展了處理過程,
- embedding module
- 在嵌入模塊(在第3.3節中有詳細介紹)中,
- 我們提出了一種結合詞skip-gram和實體嵌入的聯合學習方法(Mikolov等,2013)
- 以skip-gram計算詞嵌入
- 以TransE(Bordes等,2013),計算實體嵌入。
- 聯合學習的目的是捕獲單詞和實體的相似性,以幫助將實體名稱映射到相關的實體ID。
- 此外,結果實體嵌入用于訓練三元組分類器,
- 以幫助過濾由我們的神經關系提取模型生成的無效三元組。
- neural relation extraction module.
- 在神經關系提取模塊(在第3.4節中有詳細介紹)中,
- 我們通過將注意力機制擴展到句子的n-gram標記,
- 提出了一個基于n-gram的注意力模型。
- ngram注意會計算注意權重的n-gram組合,以捕獲補充標準注意模型的單詞級別注意的語言或名詞短語上下文。
- 這種擴展有助于我們的模型更好地捕獲實體和關系的多詞上下文。
- 編碼器-解碼器模型的輸出是實體和謂詞ID的序列,其中每三個ID表示一個三元組。
- 為了生成高質量的三元組,我們提出了兩種策略。
- 第一種策略使用改進的波束搜索,
- 該算法計算提取的實體與輸入句子中實體名稱的表面形式的詞匯相似度,以確保正確的實體預測。
- 第二種策略使用三元分類器,該分類器使用來自聯合學習的實體嵌入進行訓練,以過濾無效的三元組。第3.5節詳細介紹了三重生成過程
- 第一種策略使用改進的波束搜索,
- 為了生成高質量的三元組,我們提出了兩種策略。
- 在神經關系提取模塊(在第3.4節中有詳細介紹)中,
- data collection module,
3.1 data collection module
- 我們的目的:通過提出監督關系提取模型,從句子中提取三元組以豐富知識庫。
* 為了訓練這樣的模型,我們需要大量的帶有完整標簽的訓練數據,這些數據以句子-三元組對的形式出現。
* 根據Sorokin和Gurevych(2017)的研究,我們使用遠距離監督(Mintz等,2009)將Wikipedia中的句子與Wikidata中的三元組對齊(Vrandecic和Kr?otzsch,2014)。 - 將實體-KB條目對應
- 我們通過與實體提及相關聯的超鏈接將句子中的實體提及映射到Wikidata中的相應實體條目(即Wikidata ID),
* 該超鏈接記錄在Wikidata中作為實體條目的url屬性。 - 每對可能包含一個句子和多個三元組。
- 我們根據表示句子中實體之間關系的謂詞復述順序對三元組的順序進行排序。
- 我們通過提取包含Wikidata三元組的頭和尾實體的句子來收集句子三對。
- 為了生成高質量的句子三元組對,我們提出了兩個附加步驟:
* (1)使用共指消解來提取包含隱式實體名稱的句子,以及
* (2)使用 paraphrase detection過濾不表達任何關系的句子。
- 我們通過與實體提及相關聯的超鏈接將句子中的實體提及映射到Wikidata中的相應實體條目(即Wikidata ID),
- 實體與知識庫對應
- 方法:遠程監督
- 連接:超鏈接
- 增強:
- 共指消解:提取包含隱式實體名的句子
- 可以增加候選句子數量
- 將提取的mention換成適當的實體名稱
- 啟發式:
- wikipedia中,文章段落第一句可能包含代詞
- 將代詞–>wikipedia的對應主要是替名稱
- 直覺,他應該與主要實體有關。
- a dictionary based paraphrase detection:去除不表達任何關系的句子。
- 一個關系,可能有多種表達,將這些表達放入到字典中,
- 如果句子中包含這些表達,則保留;否則移除。
- 但移除的句子,也可能包含其他關系的表達—在其他包中保留。
- 共指消解:提取包含隱式實體名的句子
在將句子與三元組對齊之前,在步驟(1)中,我們發現隱式實體名稱以增加要對齊的候選句子的數量。我們將共同引用解析(Clark和Manning,2016)應用于維基百科文章中的每個段落,并將提取的共同引用替換為適當的實體名稱。我們觀察到,維基百科文章中段落的第一句可能包含代名詞,指代主要實體。例如,巴拉克·奧巴馬(Barack Obama)文章中有一個段落以一個句子"He was reelected to the Illinois Senate in 1998".開頭。這可能會導致標準的共同引用解析丟失該段落其余部分的隱式實體名稱。為了解決此問題,如果未提及Wikipedia頁面的主要實體名稱,我們會試探性地替換段落第一句中的代詞。對于前面示例中的句子,我們將"He"–>“Barack Obama”。直覺是,Wikipedia文章包含單個感興趣實體的內容,并且段落第一句中提到的代詞大多與主要實體有關。
在步驟(2)中,我們使用基于字典的復述檢測來捕獲句子中實體之間的關系。首先,我們通過填充三個來源的謂詞復述來創建字典,包括PATTY(Nakashole等,2012),POLY(Grycner和Weikum,2016)和PPDB(Ganitkevitch等,2013),產生540個謂詞和24013個獨特的釋義。
eg:“出生地” {出生于,出生于……}。然后,我們使用該詞典過濾不表達實體之間任何關系的句子。我們使用精確的字符串匹配來查找句子中的語言或名詞短語,這是三元組謂詞的復述。例如,對于三胞胎“巴拉克·奧巴馬(Barack Obama)出生地檀香山”,句子“巴拉克·奧巴馬(Barack Obama)1961年出生于夏威夷檀香山Honolulu”將保留,而句子“巴拉克·奧巴馬(Barack Obama)在2010年訪問檀香山Honolulu”將被刪除(如果還有另一個有效的三元組<Barack Obama, visited, Honolulu>,可以保留該句子。這有助于過濾噪聲以使句子三重對齊。
3.3 Joint Learning of Word and Entity Embeddings
我們的關系提取模型基于編碼器-解碼器框架,該框架已在神經機器翻譯中廣泛用于將文本從一種語言翻譯為另一種語言。在我們的設置中,我們旨在將一個句子翻譯成三元組,因此源輸入的詞匯是一組英語單詞,而目標輸出的詞匯是現有KG中的一組實體和謂詞ID。為了計算源詞匯表和目標詞匯表的嵌入,我們提出了單詞和實體嵌入的聯合學習方法,該方法可有效捕獲單詞和實體之間的相似性,以消除命名實體的歧義(Yamada et al。,2016)。請注意,我們的方法不同于Yamada等人的方法。 (2016)。我們使用聯合學習的方法是結合skip-gram(Mikolov等人,2013)來計算單詞嵌入和使用TransE(Bordes等人,2013)來計算實體嵌入(包括關系嵌入),而Yamada等人(2016)使用不考慮關系嵌入的基于維基百科基于鏈接的度量(WLM)(Milne and Witten,2008)。
- 目的:句子–>三元組
- 框架:encoder-decoder的翻譯框架
- 輸入詞表:英語單詞
- 輸出詞表:KG中的一組實體和謂詞ID
- 提出的方法:Joint Learning of Word and Entity Embeddings
- 效果:捕獲單詞和實體之間的相似性,可以消除命名實體的歧義
- 做法:
- skip-gram:計算單詞嵌入
- Anchor Context Model
- 輸入:
- 原始文本
- 經過修改的wikipeidia錨文本
- 將句子中的實體名稱用相關的實體或謂詞ID替換
- “New York University is a private university in Manhattan”
- “Q49210 is a Q902104 in Q11299”
- 將句子中的實體名稱用相關的實體或謂詞ID替換
- 結合生成文本語料庫
- 方法:用skip-gram計算(把ID一起當做單詞計算)
- 輸入:
- Anchor Context Model
- TransE:計算實體嵌入(包含關系嵌入
- skip-gram:計算單詞嵌入
- 區別:
- (Yamada et al。,2016):WLM方法,不考慮關系嵌入
- 目標函數:
- JE=Σtr∈TrΣtr′∈Tr′max(0,[γ+f(tr)?f(tr′)])Tr={<h,r,t>∣<h,r,t>∈G}??有效的Tr′={<h′,r,t>∣h′∈E}∪{<h,r,t′>∣t′∈E}??反例f(tr)=∣∣h+r?t∣∣??l1?normJ_E=\Sigma_{t_r\in T_r}\Sigma_{t'_r\in T'_r} max(0,[\gamma+f(t_r)-f(t_r')])\\ T_r=\{<h,r,t>|<h,r,t>\in G\}--有效的\\ T_r'=\{<h',r,t>|h'\in E\} \cup \{<h,r,t'>|t'\in E\}--反例\\ f(t_r)=||h+r-t||--l1-normJE?=Σtr?∈Tr??Σtr′?∈Tr′??max(0,[γ+f(tr?)?f(tr′?)])Tr?={<h,r,t>∣<h,r,t>∈G}??有效的Tr′?={<h′,r,t>∣h′∈E}∪{<h,r,t′>∣t′∈E}??反例f(tr?)=∣∣h+r?t∣∣??l1?norm
- 趨向于是正例和反例的差別增大
- JW=1TΣt=1nΣ?c≤j≤c,j≠0logP(wt+j∣wt)P(wt+j∣wt)=exp(vwt+j′Tvwt)Σi=1W(vi′Tvwt)c?上下文窗口尺寸wt目標詞wt+j上下文vwt輸入向量vi′輸出向量W?vocabularysizeJ_W=\frac{1}{T}\Sigma_{t=1}^n\Sigma_{-c\leq j\leq c,j\neq 0} logP(w_{t+j}|w_t)\\ P(w_{t+j}|w_t)=\frac{exp(v_{w_{t+j}}^{'T }v_{w_t})}{\Sigma_{i=1}^W(v_i^{'T}v_{w_t})}\\ c-上下文窗口尺寸\\w_t目標詞\\w_{t+j}上下文\\v_{w_t}輸入向量\\v_i'輸出向量\\W-vocabulary sizeJW?=T1?Σt=1n?Σ?c≤j≤c,j?=0?logP(wt+j?∣wt?)P(wt+j?∣wt?)=Σi=1W?(vi′T?vwt??)exp(vwt+j?′T?vwt??)?c?上下文窗口尺寸wt?目標詞wt+j?上下文vwt??輸入向量vi′?輸出向量W?vocabularysize
- 整體的目標函數:J=JE+JWJ=J_E+J_WJ=JE?+JW?
- JE=Σtr∈TrΣtr′∈Tr′max(0,[γ+f(tr)?f(tr′)])Tr={<h,r,t>∣<h,r,t>∈G}??有效的Tr′={<h′,r,t>∣h′∈E}∪{<h,r,t′>∣t′∈E}??反例f(tr)=∣∣h+r?t∣∣??l1?normJ_E=\Sigma_{t_r\in T_r}\Sigma_{t'_r\in T'_r} max(0,[\gamma+f(t_r)-f(t_r')])\\ T_r=\{<h,r,t>|<h,r,t>\in G\}--有效的\\ T_r'=\{<h',r,t>|h'\in E\} \cup \{<h,r,t'>|t'\in E\}--反例\\ f(t_r)=||h+r-t||--l1-normJE?=Σtr?∈Tr??Σtr′?∈Tr′??max(0,[γ+f(tr?)?f(tr′?)])Tr?={<h,r,t>∣<h,r,t>∈G}??有效的Tr′?={<h′,r,t>∣h′∈E}∪{<h,r,t′>∣t′∈E}??反例f(tr?)=∣∣h+r?t∣∣??l1?norm
為了建立實體和單詞嵌入之間的交互作用,我們遵循Yamada等人提出的Anchor Context Model。 (2016)。首先,我們通過結合原始文本和經過修改的Wikipedia錨文本來生成文本語料庫。這是通過用相關的實體或謂詞ID替換句子中的實體名稱來完成的。例如,將該句子修改為。然后,我們使用skip-gram方法從生成的語料庫中計算單詞嵌入(修改后的錨文本中的實體ID在skip-gram模型中被視為單詞)。給定一個n個單詞的序列,該模型通過最小化以下目標函數來學習單詞嵌入:
3.4 N-gram Based Attention Model
- encoder-decoder
- 輸入:句子
- 輸出:三元組序列(實體ID,關系ID的序列,每三個是一個三元組)
- encoder:
- 輸入:句子
- 輸出:向量
- 使用:LSTM
- decoder:
- 輸入:向量–作為上下文
- 輸出:三元組序列
- 使用:LSTM
- attention:
- 用于re任務,無法捕捉多字實體名稱
- 原因:實體和單詞不對齊(初步調查)
- 即使前文以ID代替實體也不可消除
- 解決:N-gram Based Attention Model
- 根據詞嵌入的n元語法組合計算注意權重
- ctd=[he;Σn=1∣N∣Wn(Σi=1∣Xn∣αinxin)]???上下文向量he:encoder的隱層輸出αin=exp(heTVnxin)Σj=1∣Xn∣exp(heTVnxjn)∣Xn∣:?gram的令牌組合總數W,V??參數矩陣c_t^d=[h^e;\Sigma_{n=1}^{|N|}W^n(\Sigma_{i=1}^{|X^n|}\alpha_i^nx_i^n)]---上下文向量\\ h^e:encoder的隱層輸出\\ \alpha_i^n=\frac{exp(h^{eT}V^nx_i^n)}{\Sigma_{j=1}^{|X^n|}exp(h^{eT}V^nx_j^n)}\\ |X^n|:-gram的令牌組合總數\\ W,V--參數矩陣ctd?=[he;Σn=1∣N∣?Wn(Σi=1∣Xn∣?αin?xin?)]???上下文向量he:encoder的隱層輸出αin?=Σj=1∣Xn∣?exp(heTVnxjn?)exp(heTVnxin?)?∣Xn∣:?gram的令牌組合總數W,V??參數矩陣
訓練
- 在訓練階段
- 使用句子-三元組對輸入
- 還用<實體名,實體id>對輸入
- 這允許模型學習實體名稱和實體ID之間的映射,尤其是對于看不見的實體。
我們提出的關系提取模型以端到端的方式集成了KB富集的提取和規范化任務。為了構建這樣的模型,我們采用編碼器-解碼器模型(Cho等人,2014)將句子翻譯成三元組序列。編碼器將句子編碼為向量,解碼器將其用作上下文以生成三元組序列。因為我們將輸入和輸出視為一個序列,所以我們在編碼器和解碼器中使用LSTM網絡(Hochreiter和Schmidhuber,1997)。
具有注意力模型的編碼器/解碼器(Bahdanau等人,2015)已??用于機器翻譯中。但是,在關系提取任務中,注意力模型無法捕獲多字實體名稱。在我們的初步調查中,我們發現注意模型在單詞和實體之間產生了不對齊的情況。
上面的問題是由于不同實體的名稱中的單詞相同(例如,紐約大學,華盛頓大學等不同大學名稱中的單詞大學)。在訓練期間,模型會更加注意“大學”一詞,以區分名稱相似的不同類型的實體,例如,紐約大學,紐約時報大樓或紐約人壽大廈,但不會區分名稱不同的相同類型的實體(例如,紐約大學和華盛頓大學)。這可能會導致實體對齊出錯,尤其是在預測不在訓練數據中的實體的ID時。即使我們將<Entity-name, Entity-ID>對添加為訓練數據(請參閱“訓練”部分),仍然會發生對齊錯誤。
我們通過提出一個基于n-gram的注意力模型來解決上述問題。此模型計算句子輸入的所有可能n-gram的注意力。注意權重是根據詞嵌入的n元語法組合計算的,因此,解碼器的上下文向量的計算如下。
3.5 Triple Generation
編碼器-解碼器模型的輸出是實體和謂詞ID的序列,其中每三個標記表示一個三元組。因此,要提取一個三元組,我們只需將生成的輸出的每三個標記分組即可。但是,由于實體嵌入(例如,紐約市和芝加哥的嵌入)之間的相似性,貪婪方法(即,選擇解碼器的最后一個softmax層中概率最高的實體)可能導致模型提取錯誤的實體可能相似,因為兩者都是美國的城市)。為了解決這個問題,我們提出了兩種策略:使用經過改進的波束搜索對預測實體進行重新排序,以及使用三元分類器過濾無效的三元組。
修改后的波束搜索重新排名top-k(在我們的實驗中為10)實體ID,這些ID由解碼器通過計算實體名稱(從KB中獲得)與輸入句子的每個n-gram標記之間的編輯距離來預測。直覺是應在句子中提及實體名稱,以便選擇相似度最高的實體作為輸出
- encoder-decoder的輸出–>三元組
- 貪婪策略
- 策略:選softmax中概率最高的
- 缺點:提取錯誤的實體
- 原因:實體嵌入的相似性
- 解決
- 改進的beam search
- 對預測實體沖排序(對top-k)
- 實體ID:
- encoder計算實體名稱(KB的)與輸入句子的每個n-gram之間的編輯距離來預測
- 直覺:句子中的entity mention,則輸出對應的entity(相似度也應是最高的)
- 三元組分類器
- 過濾掉無效的三元組
- 我們的三元組分類器接受了來自聯合學習的實體嵌入訓練(請參見第3.3節)。
- 三元組分類是評估實體嵌入質量的指標之一(Socher等,2013)。
- 我們建立一個分類器來確定三元組的有效性。
- 我們根據合理性分數(計算實體嵌入的分數)訓練二元分類器。
- 我們通過破壞有效的三元組(即用隨機實體替換首尾實體)來創建否定樣本。
- 因而,三元組分類器可有效過濾無效的三元組,例如<New York University, capital of, Manhattan>
- 過濾掉無效的三元組
- 改進的beam search
- 貪婪策略
4.實驗
- 數據集
- WIKI
- GEO
4.1 超參數
- 尋找超參數:grid search
- lstm unit:512
- embedding-dim:64
- dropout:0.5
- adam,lr=0.0002
4.2 models
- 對比
- CNN (the state-of-theart supervised approach by Lin et al. (2016)),
- MiniE (the state-of-the-art unsupervised approach by Gashteovski et al. (2017)),
- ClausIE by Corro and Gemulla (2013).
- NED:
- AIDA (Hoffart et al., 2011)
- NeuralEL (Kolitsas et al., 2018)
- the dictionary based paraphrase detection:
- 映射謂詞–>關系
- 和之前說的一樣的詞典
- 如果正確謂詞的釋義之一出現在抽取的謂詞中,則用id替換它。
- 否則,記為NA
- 注意力的比較
- he Single Attention model (Bahdanau et al., 2015)
- Transformer model (Vaswani et al., 2017).
我們將我們提出的模型3與三個現有模型進行了比較,包括CNN(Lin等人(2016)的最新監督方法),MiniE(Gashteovski等人的最新的無監督方法(2017))。 ),以及Corro和Gemulla(2013)的ClausIE。為了通過這些模型映射提取的實體,我們使用了兩個最新的NED系統,包括AIDA(Hoffart等,2011)和NeuralEL(Kolitsas等,2018)。 AIDA和NeuralEL的精度(在我們的測試數據集中測試)分別為70%和61%。為了映射無監督方法輸出的提取謂詞(關系),我們使用基于字典的釋義檢測。我們使用用于收集數據集的同一詞典(即,三個釋義詞典的組合,包括PATTY(Nakashole等,2012),POLY(Grycner和Weikum,2016)和PPDB(Ganitkevitch等,2013)。 ))。如果正確謂詞的釋義之一(即黃金標準)出現在抽取謂詞中,則我們用正確謂詞ID替換抽取謂詞。否則,我們將提取的謂詞替換為表示無法識別的謂詞。我們還將N-gram注意模型與兩個基于編碼器/解碼器的模型進行比較,包括單注意模型(Bahdanau等,2015)和變形模型(Vaswani等,2017)。
4.3 results
- 本文模型效果最好
- 已經存在的模型+NED
- NED效果好的就好
- 證明它受NED錯誤傳播的影響大
- 無規范化任務的情況下:
- 已經存在的模型的精度挺好
- 可以捕獲多詞實體名稱
- 因為比single-attention和transformer好
- 三元組分類器可以提升precision
- 改進的beam search可以提升recall
- 無法做到:識別來自不同實體的相同名稱
為了進一步顯示錯誤傳播的影響,我們建立了一個沒有規范化任務的實驗(即目標是預測已知實體之間的關系)。通過允許CNN模型訪問正確的實體,我們刪除了NED預處理步驟。同時,我們向我們提出的模型的解碼器提供正確的實體。在這種設置下,我們提出的模型在WIKI和GEO測試數據集上的精度分別達到86.34%和79.11%,而CNN的精度分別達到81.92%和75.82%。
5.總結
我們為KB富集提出了端到端關系提取模型,該模型集成了提取和規范化任務。因此,我們的模型減少了關系提取和現有方法容易發生的NED之間的錯誤傳播。為了獲得高質量的訓練數據,我們采用了遠程監控,并通過共參考分辨率和復述檢測對其進行了增強。我們提出了一種基于n元語法的注意力模型,該模型可以更好地捕獲句子中的多詞實體名稱。此外,我們提出了一種改進的波束搜索和三重分類,以幫助模型生成高質量的三重。
實驗結果表明,我們提出的模型在WIKI和GEO測試數據集上的F1評分分別優于現有模型33.39%和34.78%。這些結果證明我們的模型減少了NED和關系提取之間的誤差傳播。在兩個真實數據集上,我們提出的n-gram注意模型在F1得分方面分別優于其他編碼器-解碼器模型15.51%和8.38%。這些結果證明我們的模型可以更好地捕獲句子中的多詞實體名稱。將來,我們計劃探索基于上下文的相似性,以補充詞法相似性,以提高整體性能
- 需要的改進:
- 同名的不同實體的處理
- 計劃探索基于上下文的相似性,以補充詞法相似性,以提高整體性能
總結
以上是生活随笔為你收集整理的文献阅读课10-Neural Relation Extraction for Knowledge Base Enrichment(提取+嵌入+消歧+规范化联合模型,实体已知,仅关系抽取,多词实体)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 头插法和尾插法创建链表(有无头结点)
- 下一篇: Spring Security使用出现