文献阅读6-Entity-Relation Extraction as Multi-turn Question Answering(实体关系联合抽取,层次标签依赖关系,multi-turn QA)
文章目錄
- abstract
- 1.Introduction
- 3.相關(guān)工作
- 2.2MRC(機(jī)器閱讀理解)
- 2.3 非QA->QA
- 3.數(shù)據(jù)集和任務(wù)
- 3.1別人的數(shù)據(jù)集
- 3.2我們建立的數(shù)據(jù)集RESUME
- 4.Model
- 4.1概述
- 4.2生成問題
- 4.3通過(guò)MRC來(lái)獲取答案范圍
- 4.4 強(qiáng)化學(xué)習(xí)
- 5.實(shí)驗(yàn)
- 5.1RESUME結(jié)果
- 5.2 其他結(jié)果
- 6 Ablation Studies
- 6.2問題生成策略的影響
- 6.2聯(lián)合訓(xùn)練的影響
- 6.3case study
Entity-Relation Extraction as Multi-turn Question Answering
code
abstract
在本文中,我們提出了一種新的實(shí)體關(guān)系提取任務(wù)范式。我們將任務(wù)轉(zhuǎn)換為多回答問題回答問題,即實(shí)體和關(guān)系的提取被轉(zhuǎn)換為從上下文識(shí)別答案跨度的任務(wù)。這種多轉(zhuǎn)QA形式化具有幾個(gè)關(guān)鍵優(yōu)勢(shì):首先,問題查詢?yōu)槲覀兿胍R(shí)別的實(shí)體/關(guān)系類編碼重要信息;其次,質(zhì)量保證提供了一種自然的實(shí)體和關(guān)系建模方式;第三,它允許我們利用完善的機(jī)器閱讀理解(MRC)模型。
- NRE,NER->multi-turn QA
- 問題查詢?yōu)槲覀兿胍R(shí)別的實(shí)體/關(guān)系類編碼了重要信息;
- QA提供了一種自然的實(shí)體和關(guān)系建模方式;
- 它允許我們利用完善的機(jī)器閱讀理解(MRC)模型。
- 數(shù)據(jù)集
- ACE
- CoNLL04
- RESUME(本文構(gòu)建)
- 需要多步推理來(lái)構(gòu)建實(shí)體依賴性。
- a multi-turn QA
- 多次QA
- 實(shí)體和關(guān)系的類型:以question answering template為特征
- 提取關(guān)系和實(shí)體:通過(guò)回答問題
- 用MRC提取實(shí)體、關(guān)系:
- Answers are text spans, extracted using the now standard machine reading comprehension (MRC) framework: predicting answer spans given context (Seo et al., 2016; Wang and Jiang, 2016; Xiong et al., 2017; Wang et al., 2016b).
- eg:為了得到上表,有以下問答
- ? Q: who is mentioned in the text? A: Musk;
- ? Q: which Company / companies did Musk work for? A: SpaceX, Tesla, SolarCity, Neuralink and The Boring Company;
- ? Q: when did Musk join SpaceX? A: 2002;
- ? Q: what was Musk’s Position in SpaceX? A: CEO.
- 優(yōu)點(diǎn):
- 可得到層次依賴
- 問題查詢?yōu)槲覀兙幋a重要的先驗(yàn)信息。
- 類對(duì)QA來(lái)說(shuō)有助于回答問題—這個(gè)可以解決很多問題
- 傳統(tǒng)的方法中類僅僅是索引,并且不編碼類的任何信息
- QA框架提供了一種同時(shí)提取實(shí)體和關(guān)系的自然方式
- 回答問題
- 有答案,則關(guān)系成立,且結(jié)果為我們希望的實(shí)體抽取
- 回答問題
- 兩個(gè)階段
- 1)頭部實(shí)體提取階段
- 2)關(guān)系和尾部實(shí)體提取階段:
- work:
- 生成問題
- 通過(guò)MRC確定答案范圍
- 強(qiáng)化學(xué)習(xí)
- 處理多回合問題的連接
1.Introduction
識(shí)別實(shí)體及其關(guān)系是從非結(jié)構(gòu)化原始文本中提取結(jié)構(gòu)化知識(shí)的先決條件,這些知識(shí)近年來(lái)越來(lái)越受到關(guān)注。給定一大塊自然語(yǔ)言文本,實(shí)體關(guān)系提取的目標(biāo)是將其轉(zhuǎn)換為結(jié)構(gòu)知識(shí)庫(kù)。例如,給出以下文本:
In 2002, Musk founded SpaceX, an aerospace manufacturer and space transport services Company, of which he is CEO and lead designer. He helped fund Tesla, Inc., an electric vehicle and solar panel manufacturer, in 2003, and became its CEO and product architect. In 2006, he inspired the creation of SolarCity, a solar energy services Company, and operates as its chairman. In 2016, he co-founded Neuralink, a neurotechnology Company focused on developing braincomputer interfaces, and is its CEO. In 2016, Musk founded The Boring Company, an infrastructure and tunnel-construction Company.
大多數(shù)現(xiàn)有模型通過(guò)從文本中提取三元組列表來(lái)接近該任務(wù),即REL(),其表示實(shí)體與實(shí)體之間的REL關(guān)系。以前的模型分為兩大類:流水線方法,首先使用標(biāo)記模型來(lái)識(shí)別實(shí)體,然后使用關(guān)系提取模型來(lái)識(shí)別每個(gè)實(shí)體對(duì)之間的關(guān)系;聯(lián)合方法,通過(guò)不同的策略,如約束或參數(shù)共享,將實(shí)體模型和關(guān)系模型結(jié)合起來(lái)。
- 關(guān)系抽取方法
- pipeline
- joint model(通過(guò)參數(shù)共享、約束等策略)
當(dāng)前的ap apaches存在幾個(gè)關(guān)鍵問題,無(wú)論是在任務(wù)形式化還是算法方面。在形式化級(jí)別,REL()三元組結(jié)構(gòu)不足以完全表達(dá)文本背后的數(shù)據(jù)結(jié)構(gòu)。以Musk案例為例,標(biāo)簽之間存在層次依賴關(guān)系:時(shí)間的提取取決于位置,因?yàn)橐粋€(gè)人可以在不同的時(shí)間段內(nèi)在公司中持有多個(gè)職位;職位的提取也取決于公司,因?yàn)橐粋€(gè)人可以為多家公司工作。在算法層面,對(duì)于大多數(shù)現(xiàn)有的關(guān)系提取模型(Miwa和Bansal,2016; Wang等,2016a; Ye等,2017),模型的輸入是一個(gè)帶有兩個(gè)標(biāo)記提及的原始句子,并且輸出是兩個(gè)提及之間是否存在關(guān)系。正如Wang等人所指出的那樣。 (2016a);曾等人。 (2018),神經(jīng)模型很難捕捉到這種形式化中的所有詞匯,語(yǔ)義和句法線索,特別是當(dāng)(1)實(shí)體很遠(yuǎn)時(shí); (2)一個(gè)實(shí)體涉及多個(gè)三胞胎; (3)一個(gè)句子包含多個(gè)相同類型的關(guān)系; (4)關(guān)系跨度有重疊3。
- 以前方法的問題:
- 任務(wù)形式化:標(biāo)簽有層次依賴關(guān)系
- 算法:
- 神經(jīng)模型很難捕捉到這種形式化中的所有詞匯,語(yǔ)義和句法線索,特別是當(dāng)
- (1)實(shí)體很遠(yuǎn)時(shí);
- (2)一個(gè)實(shí)體涉及多個(gè)三元組(重疊關(guān)系);
- (3)一個(gè)句子包含多個(gè)相同類型的關(guān)系; (n-ary)
- (4)關(guān)系跨度有重疊。
- e.g., in text A B C D, (A, C) is a pair and (B, D) is a pair.
- 神經(jīng)模型很難捕捉到這種形式化中的所有詞匯,語(yǔ)義和句法線索,特別是當(dāng)
在本文中,我們提出了一個(gè)新的范例來(lái)處理實(shí)體關(guān)系提取的任務(wù)。我們將任務(wù)形式化為多回答問題回答任務(wù):每個(gè)實(shí)體類型和關(guān)系類型以問答模板為特征,通過(guò)回答模板問題來(lái)提取實(shí)體和關(guān)系。
將實(shí)體關(guān)系提取任務(wù)視為多回合QA任務(wù)具有以下關(guān)鍵優(yōu)勢(shì):
(1)多回合QA設(shè)置提供了捕獲標(biāo)簽的層次依賴性的優(yōu)雅方式。隨著多回合QA的進(jìn)行,我們逐步獲得下一回合所需的實(shí)體。這與多回合插槽填充對(duì)話系統(tǒng)(Williams和Young,2005; Lemon等,2006)非常相似.
(2)問題查詢?yōu)槲覀兿胍R(shí)別的實(shí)體/關(guān)系類編碼重要的先驗(yàn)信息。例如,文本中提到的PER標(biāo)記類的查詢中的信息有助于模型提取相關(guān)的名稱實(shí)體。相反,在傳統(tǒng)的非QA實(shí)體關(guān)系提取模型中,標(biāo)記類或關(guān)系類僅僅是索引(class1,class2,…),并且不編碼關(guān)于類的任何信息。這種信息性可以潛在地解決現(xiàn)有關(guān)系提取模型無(wú)法解決的問題,例如遠(yuǎn)程分離的實(shí)體對(duì),關(guān)系跨度重疊等;
(3)QA框架提供了一種同時(shí)提取實(shí)體和關(guān)系的自然方式:大多數(shù)MRC模型支持輸出特殊的NONE標(biāo)記,表明該問題沒有答案。通過(guò)這個(gè),原始的兩個(gè)任務(wù),實(shí)體提取和關(guān)系提取可以合并為一個(gè)QA任務(wù):如果對(duì)應(yīng)于該關(guān)系的問題的返回答案不是NONE,則關(guān)系成立,并且返回的答案是我們希望的實(shí)體提取。
3.相關(guān)工作
許多早期的實(shí)體關(guān)系提取系統(tǒng)是流水線的(Zelenko等,2003; Miwa等,2009; Chan和Roth,2011; Lin等,2016):實(shí)體提取模型首先識(shí)別感興趣的實(shí)體和關(guān)系然后,提取模型構(gòu)造提取的實(shí)體之間的關(guān)系。雖然流水線系統(tǒng)具有集成不同數(shù)據(jù)源和學(xué)習(xí)算法的靈活性,但它們受錯(cuò)誤傳播的影響很大。
- pipeline
- 靈活,但受錯(cuò)誤傳播影響大
為了解決這個(gè)問題,提出了聯(lián)合學(xué)習(xí)模型。
- 基于約束的:
- 早期的聯(lián)合學(xué)習(xí)方法通過(guò)各種依賴關(guān)系連接兩個(gè)模型,包括
- 通過(guò)整數(shù)線性規(guī)劃解決的約束(Yang和Cardie,2013; Roth和Yih,2007),
- 卡片金字塔解析(Kate和Mooney,2010),以及
- 全局概率圖形模型(Yu和Lam,2010; Singh等,2013)。
- 在后來(lái)的研究中,Li和Ji(2014)使用結(jié)構(gòu)感知器和有效的波束搜索提取實(shí)體提及和關(guān)系,這比基于約束的方法顯著更有效,更省時(shí)。
- Miwa and Sasaki (2014); Gupta et al. (2016); Zhang et al. (2017) 提出了表格填充方法,該方法提供了將更復(fù)雜的特征和算法結(jié)合到模型中的機(jī)會(huì),例如解碼中的搜索順序和全局特征。
- 神經(jīng)網(wǎng)絡(luò)模型也已在文獻(xiàn)中廣泛使用。
- Miwa和Bansal(2016)引入了一種端到端方法,該方法使用具有共享參數(shù)的神經(jīng)網(wǎng)絡(luò)模型提取實(shí)體及其關(guān)系,即使用神經(jīng)標(biāo)記模型提取實(shí)體并使用基于樹LSTM的神經(jīng)多類分類模型提取關(guān)系
- (Wang et al. (2016a)使用多層次關(guān)注CNN提取關(guān)系。
- Zeng等人。 (2018)提出了一種新的框架,它使用序列到序列模型來(lái)生成實(shí)體關(guān)系三元組,自然地結(jié)合了實(shí)體檢測(cè)和關(guān)系檢測(cè)。
- 聯(lián)合實(shí)體和關(guān)系提取模型的另一種方法是使用強(qiáng)化學(xué)習(xí)或最小風(fēng)險(xiǎn)訓(xùn)練,其中訓(xùn)練信號(hào)是基于兩個(gè)模型的聯(lián)合決策給出的。
- Sun等人。 (2018)優(yōu)化全局損失函數(shù),在最小風(fēng)險(xiǎn)培訓(xùn)框架下共同培養(yǎng)這兩個(gè)模型。
- Takanobu等。 (2018)使用分層強(qiáng)化學(xué)習(xí)以分層方式提取實(shí)體和關(guān)系。
2.2MRC(機(jī)器閱讀理解)
- 主流MRC模型(Seo等,2016; Wang和Jiang,2016; Xiong等,2017; Wang等,2016b)在給定查詢的段落中提取文本跨度。文本跨度提取可以簡(jiǎn)化為兩個(gè)多類分類任務(wù),即預(yù)測(cè)答案的開始和結(jié)束位置。
- 類似的策略可以擴(kuò)展到多段落MRC(Joshi等,2017; Dunn等,2017),其中答案需要從多個(gè)段落中選擇。
- 多通道MRC任務(wù)可以通過(guò)連接段落輕松簡(jiǎn)化為單通道MRC任務(wù)(Shen et al。,2017; Wang et al。,2017b)。
- Wang等人。 (2017a)首先對(duì)通道進(jìn)行排名,然后在選定的段落上運(yùn)行單通道MRC。
- Tan等人。 (2017)與閱讀理解模型一起訓(xùn)練通道排名模型。
- 像BERT(Devlin等,2018)或Elmo(Peters等,2018)這樣的預(yù)訓(xùn)練方法已被證明對(duì)MRC任務(wù)非常有幫助。
2.3 非QA->QA
存在將非QA NLP任務(wù)作為QA任務(wù)投射的趨勢(shì)(McCann等,2018)。我們的工作受到Levy等人的高度啟發(fā)。 (2017)。
- Levy et al. (2017) and McCann et al. (2018)專注于識(shí)別兩個(gè)預(yù)定實(shí)體之間的關(guān)系,并且作者將關(guān)系提取的任務(wù)形式化為單轉(zhuǎn)QA任務(wù)。
- 在本文中,我們研究了一個(gè)更復(fù)雜的場(chǎng)景,其中需要對(duì)層次標(biāo)簽依賴關(guān)系進(jìn)行建模,并且單轉(zhuǎn)QA方法不再適用。我們表明,我們的多轉(zhuǎn)QA方法能夠解決這一挑戰(zhàn)并獲得最新的最新結(jié)果。
3.數(shù)據(jù)集和任務(wù)
3.1別人的數(shù)據(jù)集
- 我們使用ACE04,ACE05和CoNLL04(Roth和Yih,2004),這是廣泛使用的實(shí)體關(guān)聯(lián)提取基準(zhǔn),用于評(píng)估。
- ACE04定義了7種實(shí)體類型,包括人員(PER),組織(ORG),地理實(shí)體(GPE),位置(loc),設(shè)施(FAC),武器(WEA)和車輛(VEH)。
- 對(duì)于每對(duì)實(shí)體,它定義了7個(gè)關(guān)系類別,包括物理(PHYS),人 - 社會(huì)(PERSOC),就業(yè) - 組織(EMP-ORG),代理 - 工件(ART),PER / ORG Affliation(OTHER-AFF) ,GPE- Affliation(GPE-AFF)和話語(yǔ)(DISC)。
- ACE05建立在ACE04之上。
- 它保留了ACE04的PER-SOC,ART和GPE-AFF類別,但將PHYS分為PHYS和新的關(guān)系類別PART-WHOLE。
- 它還刪除了DISC,并將EMP-ORG和OTHER-AFF合并為一個(gè)新的EMP-ORG類別。
- 至于CoNLL04,
- 它定義了四種實(shí)體類型(LOC,ORG,PER和OTHERS)和
- 五種關(guān)系類別(LOCATED IN,WORK FOR,ORGBASED IN,LIVE IN)和KILL)。
- 對(duì)于ACE04和ACE05,我們遵循Li和Ji(2014)以及Miwa和Bansal(2016)4中的培訓(xùn)/開發(fā)/測(cè)試分組。
- 對(duì)于CoNLL04數(shù)據(jù)集,我們遵循Miwa和Sasaki(2014)。
3.2我們建立的數(shù)據(jù)集RESUME
- RESUME的新數(shù)據(jù)集。
- 我們從IPO招股說(shuō)明書中描述管理團(tuán)隊(duì)的章節(jié)中提取了841段。
- 每個(gè)段落都描述了一位高管的一些工作經(jīng)歷。
- 我們希望從簡(jiǎn)歷中提取結(jié)構(gòu)數(shù)據(jù)。
- 四種類型的實(shí)體:
- 人(行政人員的姓名),
- 公司(行政人員工作/工作的公司),
- 職位(他/她持有/持有的職位)和
- 時(shí)間(執(zhí)行的時(shí)間段)占據(jù)/占據(jù)那個(gè)位置)。
- 值得注意的是,一個(gè)人可以在不同的時(shí)間段內(nèi)為不同的公司工作,并且一個(gè)人可以在不同的時(shí)間段內(nèi)為同一公司擔(dān)任不同的職位。
- 我們將數(shù)據(jù)集隨機(jī)分為訓(xùn)練(80%),驗(yàn)證(10%)和測(cè)試集(10%)。
4.Model
4.1概述
- (1)頭部實(shí)體提取階段(第4-9行):多圈QA的每一集都由一個(gè)實(shí)體觸發(fā)。為了提取這個(gè)起始實(shí)體,我們使用EntityQuesTemplates(第4行)將每個(gè)實(shí)體類型轉(zhuǎn)換為問題,并通過(guò)回答問題(第5行)來(lái)提取實(shí)體e。如果系統(tǒng)輸出特殊的NONE令牌,則表示s不包含該類型的任何實(shí)體。
- 2)關(guān)系和尾部實(shí)體提取階段(第10-24行):
- ChainOfRelTemplates定義了一系列關(guān)系,我們需要遵循該關(guān)系來(lái)運(yùn)行多轉(zhuǎn)QA。
- 原因是某些實(shí)體的提取取決于其他實(shí)體的提取。例如,在RESUME數(shù)據(jù)集中,執(zhí)行人員持有的職位依賴于他所工作的公司。
- 此外,時(shí)間實(shí)體的提取依賴于公司和職位的提取。
- 提取順序是手動(dòng)預(yù)定義的。
- ChainOfRelTemplates還為每個(gè)關(guān)系定義模板。
* 每個(gè)模板都包含一些要填充的插槽。- 為了生成問題(第14行),我們將先前提取的實(shí)體/實(shí)體插入模板中的插槽/槽。
- REL和尾部實(shí)體e的關(guān)系將通過(guò)回答生成的問題來(lái)共同提取(第15行)。
- 返回的NONE標(biāo)記表示給定句子中沒有答案。
- ChainOfRelTemplates定義了一系列關(guān)系,我們需要遵循該關(guān)系來(lái)運(yùn)行多轉(zhuǎn)QA。
- 值得注意的是,從頭部實(shí)體提取階段提取的實(shí)體可能并非都是頭部實(shí)體。在隨后的關(guān)系和尾部實(shí)體提取階段中,首先假設(shè)來(lái)自第一階段的提取的實(shí)體是頭部實(shí)體,并且將其提供給模板以生成問題。如果從第一階段提取的實(shí)體e確實(shí)是關(guān)系的頭部實(shí)體,則QA模型將通過(guò)回答相應(yīng)的問題來(lái)提取尾部實(shí)體。否則,答案將為NONE,從而被忽略。
對(duì)于ACE04,ACE05和CoNLL04數(shù)據(jù)集,只需要兩次QA轉(zhuǎn)彎。因此ChainOfRelTemplates只包含1的鏈。對(duì)于RESUME,我們需要提取4個(gè)實(shí)體,因此ChainOfRelTemplates包含3個(gè)鏈。
4.2生成問題
每個(gè)實(shí)體類型都與模板生成的類型特定問題相關(guān)聯(lián),如表3所示。有兩種方法可以根據(jù)模板生成問題:自然語(yǔ)言問題或偽問題。偽問題不一定是語(yǔ)法問題。例如,Facility類型的自然語(yǔ)言問題可能是文本中的哪一個(gè)是設(shè)施,而偽問題可能只是實(shí)體:設(shè)施
在關(guān)系和尾部實(shí)體聯(lián)合提取階段,通過(guò)將關(guān)系特定模板與提取的headentity相結(jié)合來(lái)生成問題。問題可能是自然語(yǔ)言問題或偽問題。實(shí)例顯示在表4和表5中。
- 頭實(shí)體提取階段:
- 實(shí)體類型:nlp或pseudo-questions
- 關(guān)系和尾實(shí)體提]階段
- 模板+head-entity來(lái)生成問題
4.3通過(guò)MRC來(lái)獲取答案范圍
已經(jīng)提出了各種MRC模型,例如BiDAF(Seo等人,2016)和QANet(Yu等人,2018)。在標(biāo)準(zhǔn)MRC設(shè)置中,給出一個(gè)問題,其中表示Q中的字?jǐn)?shù),以及上下文,其中表示C中的字?jǐn)?shù),我們需要預(yù)測(cè)答案范圍。對(duì)于QA框架,我們使用BERT(Devlin等,2018)作為主干。BERT使用變換器對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練(Vaswani等,2017),并在SQUAD等MRC數(shù)據(jù)集上實(shí)現(xiàn)SOTA結(jié)果(Rajpurkar等,2016)。為了與BERT框架保持一致,通過(guò)連接列表[CLS,Q,SEP,C,SEP]來(lái)組合問題Q和上下文C,其中CLS和SEP是特殊令牌,Q是標(biāo)記化問題,C是上下文。使用多層變換器獲得每個(gè)上下文令牌的表示。
- QA框架
- 主干:BERT
- concate[CLS,Q,SEP,C,SEP]–為了與bert保持一致,這個(gè)當(dāng)做是個(gè)問題
傳統(tǒng)的MRC模型(Wang和Jiang,2016; Xiong等,2017)通過(guò)將兩個(gè)softmax層應(yīng)用于上下文令牌來(lái)預(yù)測(cè)起始和結(jié)束指數(shù)。這種基于softmax的跨度提取策略僅適用于單答案提取任務(wù),但不適用于我們的任務(wù),因?yàn)槲覀冊(cè)O(shè)置中的一個(gè)句子/段落可能包含多個(gè)答案。為了解決這個(gè)問題,我們將任務(wù)正式化為基于查詢的標(biāo)記問題(Lafferty等,2001; Huang等,2015; Ma和Hovy,2016)。特別地,我們預(yù)測(cè)給定查詢的上下文中的每個(gè)標(biāo)記的BMEO(開始,內(nèi)部,結(jié)束和外部)標(biāo)簽。每個(gè)單詞的表示被饋送到softmax層以輸出BMEO標(biāo)簽。人們可以認(rèn)為我們正在改變兩個(gè)N級(jí)分類任務(wù),即預(yù)測(cè)起始和結(jié)束指數(shù)(其中N表示句子的長(zhǎng)度)到N 5級(jí)分類任務(wù)
- 本文將任務(wù)形式化為:基于查詢的標(biāo)記問題(Lafferty等,2001; Huang等,2015; Ma和Hovy,2016)
- QA:答案是序列標(biāo)注的(BMEO(開始,內(nèi)部,結(jié)束和外部)
- 這兩個(gè)模型都使用標(biāo)準(zhǔn)BERT模型進(jìn)行初始化,并在訓(xùn)練期間共享參數(shù)。在測(cè)試時(shí),基于兩個(gè)目標(biāo)分別提取頭部實(shí)體和尾部實(shí)體。
- 目標(biāo)函數(shù):L=(1?λ)L(head?entity)+λL(tail?entity,rel)L=(1-\lambda)L(head-entity)+\lambda L(tail-entity,rel)L=(1?λ)L(head?entity)+λL(tail?entity,rel)
4.4 強(qiáng)化學(xué)習(xí)
請(qǐng)注意,在我們的設(shè)置中,從一個(gè)回合中提取的答案不僅會(huì)影響其自身的準(zhǔn)確性,還會(huì)確定如何為下游轉(zhuǎn)彎構(gòu)建問題,從而影響以后的準(zhǔn)確性。
- 用強(qiáng)化學(xué)習(xí)解決(多輪對(duì)話中就用強(qiáng)化學(xué)習(xí)解決的這個(gè)問題(Mrkˇsi′c et al., 2015; Li et al., 2016a; Wen et al., 2016)
- 行動(dòng)和策略:
- 在RL環(huán)境中,我們需要制定行動(dòng)和策略。
- 行動(dòng):在多回合QA設(shè)置中,行動(dòng)是在每個(gè)回合中選擇文本范圍。
- 策略:定義了在給定問題和上下文的情況下選擇特定跨度的概率。
- 依賴于上一步的BMEO的標(biāo)注
- 選擇一個(gè)跨度{w1,w2,...,wnw_1,w_2,...,w_nw1?,w2?,...,wn?}的概率–以下的聯(lián)合概率
- w1為Bw_1為Bw1?為B
- w2,...,wn?1為Mw_2,...,w_{n-1}為Mw2?,...,wn?1?為M
- wn為Ew_n為Ewn?為E
- P(answer=y(w1,w2,...,wn)∣s,question)=P(w1=B)×P(wn=E)Πi∈[2,n?1]P(wi=M)P(answer=y(w_1,w_2,...,w_n)|s,question)=P(w_1=B)\times P(w_n=E)\Pi_{i\in [2,n-1]}P(w_i=M)P(answer=y(w1?,w2?,...,wn?)∣s,question)=P(w1?=B)×P(wn?=E)Πi∈[2,n?1]?P(wi?=M)
- s:特定句子
- 在RL環(huán)境中,我們需要制定行動(dòng)和策略。
- Reward:
- 獎(jiǎng)勵(lì):我們使用正確檢索的三元組的數(shù)量作為獎(jiǎng)勵(lì)。
- 我們使用REINFORCE算法(Williams,1992),一種策略梯度方法,找到最優(yōu)策略,最大化預(yù)期獎(jiǎng)勵(lì)Eπ[R(w)]E_\pi[R(w)]Eπ?[R(w)]。通過(guò)從策略π中抽樣來(lái)近似期望,并使用似然比計(jì)算梯度:
- ?E(θ)≈[R(w)?b]?logπ(y(w))\nabla E(\theta)\approx[R(w)-b]\nabla log \pi(y(w))?E(θ)≈[R(w)?b]?logπ(y(w))
- 答案正確r+1
- 最終獎(jiǎng)勵(lì):所有回合的累積
- 策略網(wǎng)絡(luò):利用前面訓(xùn)練的實(shí)體抽取模型
- the experience replay strategy(Mnih等,2015)
- 對(duì)于每個(gè)批次,一半的示例是模擬的,另一半是從先前生成的示例中隨機(jī)選擇的。
- 對(duì)RESUME數(shù)據(jù)集:使用the strategy of curriculum learning (Bengio et al., 2009),
- 我們?cè)谟?xùn)練時(shí)逐漸將turn從2增加到4
對(duì)于多回合QA設(shè)置中的每個(gè)回合,獲得正確答案會(huì)獲得+1的獎(jiǎng)勵(lì)。最終的獎(jiǎng)勵(lì)是所有回合的累積回報(bào)。基線值設(shè)置為所有先前獎(jiǎng)勵(lì)的平均值。我們不會(huì)從頭開始初始化策略網(wǎng)絡(luò),而是使用前一節(jié)中描述的預(yù)先訓(xùn)練的頭部實(shí)體和尾部實(shí)體提取模型。我們還使用the experience replay strategy(Mnih等,2015):對(duì)于每個(gè)批次,一半的示例是模擬的,另一半是從先前生成的示例中隨機(jī)選擇的。
對(duì)于ACE04,ACE05和CoNLL-04,不需要課程學(xué)習(xí),因?yàn)橹挥袃蓚€(gè)回合。
5.實(shí)驗(yàn)
5.1RESUME結(jié)果
答案是根據(jù)人(第一個(gè)轉(zhuǎn)彎),公司(第二個(gè)轉(zhuǎn)彎),位置(第三個(gè)轉(zhuǎn)彎)和時(shí)間(第四個(gè)轉(zhuǎn)彎)的順序提取的,每個(gè)答案的提取取決于之前的答案。
- 基線
- ( tagging+relation).
- As in Zheng et al. (2017),
- entities are extracted using BERT tagging models, and
- relations are extracted by applying a CNN to representations output by BERT transformers.
- 并不適用于本文任務(wù)
- As in Zheng et al. (2017),
- tagging+dependency
- 使用BERT標(biāo)記模型為每個(gè)單詞分配標(biāo)記標(biāo)簽,并修改當(dāng)前SOTA依賴性解析模型Biaffine (Dozat and Manning, 2016)以構(gòu)建標(biāo)記之間的依賴關(guān)系。
- Biaffine依賴模型和實(shí)體提取模型是聯(lián)合訓(xùn)練的。
- ( tagging+relation).
涉及實(shí)體和關(guān)系識(shí)別階段(流水線或聯(lián)合)的現(xiàn)有基線非常適合三重提取,但不適合我們的設(shè)置,因?yàn)樵诘谌喓偷谒妮?#xff0c;我們需要更多信息來(lái)決定關(guān)系而不僅僅是兩個(gè)實(shí)體。例如,要提取職位,我們需要人和公司,并提取時(shí)間,我們需要人,公司和職位。這類似于依賴性解析任務(wù),但是在標(biāo)記級(jí)而不是單詞級(jí)(Dozat和Manning,2016; Chen和Manning,2014)。因此,我們提出了以下基線,它將前一個(gè)實(shí)體+關(guān)系策略修改為實(shí)體+依賴關(guān)系,用標(biāo)記+依賴關(guān)系表示。我們使用BERT標(biāo)記模型為每個(gè)單詞分配標(biāo)記標(biāo)簽,并修改當(dāng)前SOTA依賴性解析模型Biaf fi ne(Dozat和Manning,2016)以構(gòu)建標(biāo)記之間的依賴關(guān)系。Biaf fi ne依賴模型和實(shí)體提取模型是聯(lián)合訓(xùn)練的。
結(jié)果如表6所示。可以看出,標(biāo)記+依賴模型優(yōu)于標(biāo)記+關(guān)系模型。所提出的多轉(zhuǎn)QA模型表現(xiàn)最佳,RL增加了額外的性能提升。特別地,對(duì)于僅需要單匝QA的人員提取,多匝QA + RL模型執(zhí)行與多匝QA模型相同的操作。這也是標(biāo)記+關(guān)系和標(biāo)記+依賴的情況。
5.2 其他結(jié)果
6 Ablation Studies
6.2問題生成策略的影響
在這一小節(jié)中,我們比較了自然語(yǔ)言問題和偽問題的影響。結(jié)果顯示在表8中。我們可以看到自然語(yǔ)言問題導(dǎo)致所有數(shù)據(jù)集中的F1嚴(yán)格改進(jìn)。這是因?yàn)樽匀徽Z(yǔ)言問題提供了更細(xì)粒度的語(yǔ)義信息,可以幫助實(shí)體/關(guān)系提取。相比之下,偽問題提供了非常粗粒度,模糊和隱含的實(shí)體和關(guān)系類型提示,這甚至可能使模型混淆。
- 自然語(yǔ)言問題>偽問題
- 自然語(yǔ)言問題:有更細(xì)粒度的語(yǔ)義信息
- 偽問題:粒度粗,可能讓模型混淆
6.2聯(lián)合訓(xùn)練的影響
- the entity-relation extraction task into two subtasks:
- a multi-answer task for head-entity extraction and
- a single-answer task for joint relation and tail-entity extraction.
- parameters shared,聯(lián)合訓(xùn)練
- ACE05:不同λ的設(shè)置\lambda的設(shè)置λ的設(shè)置
6.3case study
- SOTA MRT model (Sun et al., 2018).
- 無(wú)法識(shí)別遠(yuǎn)距離實(shí)體的關(guān)系,multi-QA可以
- 無(wú)法識(shí)別重疊關(guān)系,multi-QA可以
總結(jié)
以上是生活随笔為你收集整理的文献阅读6-Entity-Relation Extraction as Multi-turn Question Answering(实体关系联合抽取,层次标签依赖关系,multi-turn QA)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Maven:私服Nexus的安装
- 下一篇: 秒懂系列 | 史上最简单的Python