【译】KNOWLEDGE EXTRACTION FROM UNSTRUCTURED TEXTS
原文:?https://blog.heuritech.com/2016/04/15/knowledge-extraction-from-unstructured-texts/
前言
從互聯(lián)網(wǎng)上公開表達(dá)的人的信息中可以獲得不合理的信息量。?在Heuritech,我們使用這些信息來更好地了解人們的需求,他們喜歡哪些產(chǎn)品以及為什么。?這篇文章從科學(xué)角度解釋了什么是知識(shí)提取,并詳細(xì)介紹了一些最新的方法。
什么是知識(shí)提取?
高度結(jié)構(gòu)化的數(shù)據(jù)庫可以很容易推理并用于推斷。?例如在WikiData或YAGO中?,實(shí)體被隔離并且與關(guān)系鏈接在一起。?然而,大多數(shù)人類的知識(shí)表達(dá)形式都是非結(jié)構(gòu)化的文本,從中很難推理和獲得智慧。?考慮這里的例子:
左側(cè)的原始文本以非結(jié)構(gòu)化的方式包含大量有用的信息,例如生日,國籍,活動(dòng)等。?提取這些信息對(duì)應(yīng)于自然語言處理中的一個(gè)具有挑戰(zhàn)性的領(lǐng)域,其可能需要句子解析(將自然語言映射到機(jī)器可解釋的表示),實(shí)體檢測和多參考解析來聚合關(guān)于同一實(shí)體的信息。例如,通過能夠執(zhí)行問題回答任務(wù)的意愿來指導(dǎo)知識(shí)提取:在結(jié)構(gòu)化的知識(shí)庫中,可以進(jìn)行查詢,然后獲取所需的信息。?另一個(gè)應(yīng)用是通過在提取的知識(shí)圖中找到路徑來執(zhí)行任意復(fù)雜的推理。?在知識(shí)提取中,人們可以對(duì)超實(shí)體感興趣,其中實(shí)體包含在其他實(shí)體中,并且人們也可以對(duì)關(guān)系提取感興趣。
這篇博文的目的是回顧從原始文本或從已有的知識(shí)圖譜中獲取和提取結(jié)構(gòu)化信息的方法。更確切地說,我們旨在語義解析文本以提取實(shí)體和/或關(guān)系。?我們?cè)诰渥又袑?span style="border:0px;font-family:inherit;font-weight:inherit;margin:0px;padding:0px;vertical-align:baseline;">三元組定義為兩個(gè)實(shí)體e1和e2之間的關(guān)系r?:(?e1,r,e2?)。?知識(shí)圖?(KG)表示繪制圖的三元組的集合:頂點(diǎn)是實(shí)體并且邊是關(guān)系。?以下大多數(shù)文章都假定實(shí)體被識(shí)別和消歧。?實(shí)際上,這可以使用FACTORIE或斯坦福NER解析器等工具來實(shí)現(xiàn)。知識(shí)圖完成:鏈接預(yù)測
盡管在Heuritech,我們更感興趣的是從原始文本中提取知識(shí),但我們首先快速回顧一下僅依賴KG的技術(shù)(不提供額外的文本語料庫)。?我們要執(zhí)行的任務(wù)是填寫一個(gè)不完整的KG。?在2013年之前,鏈接充滿了圖論理論技術(shù),忽略了我們的圖是KG的事實(shí)。
Bordes等人翻譯用于建模多關(guān)系數(shù)據(jù)的嵌入?。?在2013年是KG完成專用方法的第一次嘗試。?它學(xué)習(xí)實(shí)體和關(guān)系在同一個(gè)低維向量空間中的嵌入。?目標(biāo)函數(shù)是這樣的,它約束實(shí)體e2接近e1?+?r?。?這個(gè)做完了給現(xiàn)有的三元組賦予更高的分?jǐn)?shù),而不是使用負(fù)抽樣獲得的隨機(jī)三元組。?上述模型被稱為TransE?,這項(xiàng)工作與Mikolov的工作有關(guān),其中概念之間的關(guān)系在嵌入空間中自然采用翻譯形式,如圖所示。
然后增加了一些改進(jìn),讓TransH和TransR模型成為例子。?最先進(jìn)的技術(shù)由通過深度學(xué)習(xí):神經(jīng)關(guān)聯(lián)模型進(jìn)行概率推理?。
從原始文本中提取三元組
我們專注于從原始文本中提取三元組(?e1,r,e2?)。?根據(jù)所使用的監(jiān)督類型,這項(xiàng)任務(wù)有幾種不同的形式。
三元組提取可以以純粹無監(jiān)督的方式完成?。?通常首先用幾個(gè)工具(如TreeBank解析器,MiniPar或OpenNLP解析器)分析文本,然后對(duì)實(shí)體之間的文本(以及解析器中的注釋)進(jìn)行聚類并最終簡化。?盡管第一眼看起來很有吸引力,因?yàn)椴恍枰O(jiān)督,但有一些缺點(diǎn)。?首先,它需要很多繁瑣的工作來手工制定依賴于所使用的解析器的規(guī)則。?而且,所發(fā)現(xiàn)的集群包含語義上相關(guān)的關(guān)系,但它們不會(huì)給我們帶來細(xì)粒度的影響。?通常,集群可能包含?is-capital-of?和?is-city-of?,它們是語義上的封閉關(guān)系。?然而,通過無監(jiān)督的方法,我們將不會(huì)發(fā)現(xiàn)?is-capital-of?意味著關(guān)系?is-city-of?而不是相反。
我們將更多地關(guān)注其他類型的監(jiān)督:?監(jiān)督學(xué)習(xí)?,?遠(yuǎn)程監(jiān)督和普遍模式?。?我們首先給出一些定義。?固定模式關(guān)系提取意味著要找到的關(guān)系處于可能關(guān)系的固定列表中。?相反,在開放域關(guān)系抽取中,關(guān)系不受約束。?在這種情況下,如果不是完全合適的話,就沒有固定模式會(huì)限制知識(shí)提取。?然而,在用開放域關(guān)系構(gòu)建的圖中推廣和推斷新關(guān)系要困難得多,因?yàn)榕c各種風(fēng)格有很多關(guān)系。?OpenIE?(開放信息抽取)是一種對(duì)實(shí)體間原始文本進(jìn)行過濾和規(guī)范化以獲得開放域關(guān)系的工具。
基于模式的監(jiān)督式學(xué)習(xí)
在這種情況下,可用數(shù)據(jù)是一個(gè)句子集合,每個(gè)句子用從中提取的三元組進(jìn)行注釋。?這意味著原始文本與文本的KG一致。?最近兩篇論文(均發(fā)表于2016年)為這一問題提供了尖端的解決方案。
在序列和樹結(jié)構(gòu)上使用LSTM進(jìn)行端到端關(guān)系抽取?Miwa和Bansal的文章展示了一種使用兩個(gè)堆疊網(wǎng)絡(luò)的方法:用于實(shí)體檢測的雙向LSTM?(它創(chuàng)建實(shí)體的嵌入)和基于樹的LSTM用于檢測鏈接找到的實(shí)體的關(guān)系。?原始紙張的下圖顯示了使用的架構(gòu)。
他們的方法在原始文本上使用POS標(biāo)記?,該原始文本提供了與雙字原始文本一起饋入雙向LSTM的附加信息。?這種方法的優(yōu)勢(shì)在于端到端,因?yàn)槟P凸餐瑢W(xué)習(xí)檢測實(shí)體和關(guān)系。架構(gòu)非常沉重,作者使用許多技巧來進(jìn)行培訓(xùn)(如時(shí)間表采樣和實(shí)體預(yù)培訓(xùn)?)。?這些技巧顯著提高了訓(xùn)練模型的性能。?此方法優(yōu)于ACE04和ACE05數(shù)據(jù)集上的關(guān)系抽取任務(wù)以及SemEval-2010任務(wù)8開發(fā)集的關(guān)系分類方面的最新技術(shù)結(jié)果。?超過80%的實(shí)體和60%的關(guān)系可以被發(fā)現(xiàn)。
語言到邏輯形式的神經(jīng)注意由董和拉帕塔描述了序列到序列模型。?它將原始語句作為輸入(不需要POS標(biāo)記)并輸出所需的信息。?在我們的例子中,所需的信息是三元組(?e1?,?r?,?e2?),但原始紙張的模型不限于這種特殊情況。?該模型是編碼器 - 解碼器架構(gòu)。?更確切地說,LSTM單元分布在兩個(gè)堆疊層中,并且使用了關(guān)注機(jī)制(?有關(guān)注意機(jī)制的更多細(xì)節(jié),請(qǐng)參閱我們的其他博客文章?)。?關(guān)注機(jī)制可以學(xué)習(xí)自然語言表達(dá)式和固定模式關(guān)系之間的軟對(duì)齊。?在后處理步驟中處理罕見的單詞和數(shù)字:在訓(xùn)練過程中,他們?cè)诤币妴卧~標(biāo)記或數(shù)字標(biāo)記以及唯一標(biāo)識(shí)中被屏蔽。?推斷時(shí),令牌+ ID由單詞或數(shù)字的真實(shí)值代替。?這個(gè)技巧恰巧可以避免有太大的字典。?實(shí)驗(yàn)結(jié)果達(dá)到了最新的結(jié)果,有時(shí)甚至超過它們。?請(qǐng)注意,這些實(shí)驗(yàn)并不是專門針對(duì)三元組提取的,因此我們無法將此方法與Miwa和Bansal的模型進(jìn)行比較。
關(guān)系抽取的監(jiān)督式學(xué)習(xí)與端到端方法很好地結(jié)合(在第二篇文章的情況下,他們甚至不需要POS標(biāo)記)。?然而,這種學(xué)習(xí)受限于標(biāo)簽數(shù)據(jù)的數(shù)量,而網(wǎng)絡(luò)上的原始文本幾乎是無限的。
基于模式的遠(yuǎn)程監(jiān)督
遠(yuǎn)程監(jiān)督也稱為弱監(jiān)督?,即我們希望從文本中提取關(guān)系,并且初始KG可用作三重提取任務(wù)的種子。?我們認(rèn)為,一對(duì)實(shí)體由連接兩個(gè)實(shí)體中的兩個(gè)KG的每個(gè)關(guān)系弱監(jiān)督?。?當(dāng)然,這種監(jiān)督是非常嘈雜的,例如,“巴拉克奧巴馬比米歇爾奧巴馬大3歲”這句話將被(巴拉克奧巴馬,結(jié)婚,米歇爾奧巴馬)與KG(和米歇爾奧巴馬結(jié)婚)所有其他情況都將奧巴馬與他的妻子聯(lián)系在一起),但這兩種關(guān)系明顯不同。?如果我們有很多文本和一個(gè)足夠大的KG(與文本中的實(shí)體具有相同的實(shí)體),我們可以學(xué)習(xí)從KG的原始文本到固定模式關(guān)系的映射。
將語言和知識(shí)庫與用于關(guān)系提取的嵌入模型連接起來?,Weston,Bordes等人。?(2013年)是一個(gè)遠(yuǎn)程監(jiān)督模式。?它假定實(shí)體被發(fā)現(xiàn)并消除歧義,實(shí)體之間的文本使用OpenIE工具以開放域關(guān)系轉(zhuǎn)換。?實(shí)體和關(guān)系的嵌入是在同一個(gè)低維空間中創(chuàng)建的。?openIE文本到固定模式的最可能關(guān)系的映射是通過對(duì)openIE文本的嵌入和固定模式的關(guān)系的相似性度量來計(jì)算的。?該系統(tǒng)受到排名損失的培訓(xùn)(如此處所述)。?給定一個(gè)openIE關(guān)系,這個(gè)想法是給一對(duì)弱標(biāo)簽配對(duì)分配一個(gè)較高的分?jǐn)?shù),而不是一個(gè)帶有隨機(jī)關(guān)系的KB(負(fù)向采樣)。?文章更進(jìn)一步:一旦從文本中提取三元組,模型就會(huì)學(xué)習(xí)實(shí)體和關(guān)系的嵌入。在該嵌入中,我們希望關(guān)系r對(duì)應(yīng)于從e1到e2的翻譯。?這種嵌入不僅可以使用找到的三元組創(chuàng)建,也可以與原始KG的所有可用三元組一起創(chuàng)建。
在上面介紹的所有例子中,所發(fā)現(xiàn)的關(guān)系都在最初提出的固定模式中。?然而,正如前面提到的那樣,不存在固定模式,它完全適合文本在兩個(gè)實(shí)體之間可能表達(dá)的所有可能的關(guān)系。
通用模式
通用模式通過嵌入種子KG(固定模式關(guān)系)和包含在語料庫中的開放域關(guān)系的關(guān)系來構(gòu)建KG。?通用模式的一大優(yōu)點(diǎn)是它不需要遠(yuǎn)程監(jiān)督。?通過學(xué)習(xí)嵌入來為實(shí)體和關(guān)系構(gòu)建語義空間。?固定模式關(guān)系的嵌入對(duì)于開放域關(guān)系是相同的:關(guān)于這兩種關(guān)系的推論成為可能,并且可以改進(jìn)KG完成。
第一篇介紹通用模式的文章是Riedel等人的關(guān)系抽取與矩陣分解和通用模式?。?在本文中,Open-domain關(guān)系是使用OpenIE工具計(jì)算的。?然后創(chuàng)建一個(gè)二進(jìn)制矩陣,其中行對(duì)應(yīng)于實(shí)體和列的對(duì),以連接固定模式關(guān)系和開放域關(guān)系;?矩陣中的1表示實(shí)體之間是否存在關(guān)系。?我們希望預(yù)測矩陣中的缺失值,并產(chǎn)生一個(gè)置信度值(介于0和1之間),如原始論文中的圖片所示。?對(duì)矩陣的考慮使關(guān)系提取的問題接近另一個(gè)領(lǐng)域:協(xié)作過濾。然后可以使用協(xié)作過濾的方法來推斷新的關(guān)系。
可以考慮幾種嵌入方法的參數(shù)化:潛在特征模型,鄰域模型和實(shí)體模型,甚至是它們的組合。?對(duì)于訓(xùn)練,使用貝葉斯個(gè)人排名(BPR)?;?它是一種排名程序,它使觀察到的事實(shí)得分高于隨機(jī)事實(shí)(通過負(fù)面抽樣獲得)。
上述方法的一個(gè)問題是,每個(gè)openIE文本都嵌入到不同的向量中,因此不可能推廣到訓(xùn)練集中缺少的新的openIE文本。
通用模式與深度學(xué)習(xí)
Toutanova等人為文本和知識(shí)庫的聯(lián)合嵌入表示文本?。?(2015)通過在具有卷積神經(jīng)網(wǎng)絡(luò)(ConvNet)的實(shí)體之間嵌入文本來解決推廣到新的開放領(lǐng)域關(guān)系的問題。?而不是使用openIE工具?正如在上面介紹的文章中那樣,ConvNet被用來參數(shù)化兩個(gè)實(shí)體之間的文本(在單詞級(jí)別)。語法依賴分析被用作額外的輸入。?在這里的圖片中,黃色矢量是開放域關(guān)系的嵌入。?請(qǐng)注意,嵌入相似的開放域關(guān)系也可以避免協(xié)同過濾中的冷啟動(dòng)問題。
Verga等人使用Compositional Universal Schema的多語言關(guān)系提取?(2016年)使用同一種架構(gòu)。?他們嘗試了ConvNet和LSTM遞歸神經(jīng)網(wǎng)絡(luò),結(jié)果發(fā)現(xiàn)LSTM網(wǎng)絡(luò)勝過ConvNet。?他們的模型與Toutanova之間還有兩點(diǎn)不同之處。?第一個(gè)原因是開放域關(guān)系的編碼器網(wǎng)絡(luò)被用于推理時(shí),當(dāng)我們想對(duì)文本進(jìn)行概括而不重新訓(xùn)練模型時(shí)。?其次,Verga et al。?不要在原始文本中使用語法依賴分析信息。?Verga等人?更進(jìn)一步,因?yàn)樗麄兊哪P团c多語言數(shù)據(jù)一起工作。?重要的是,他們的方法執(zhí)行多語言轉(zhuǎn)移學(xué)習(xí),通過在文本語料庫中學(xué)習(xí)共享實(shí)體的相同表示,為在KG中沒有實(shí)體的語言提供預(yù)測模型。?下圖給出了要填充的矩陣和參數(shù)化模型的概述。?請(qǐng)注意,不同的編碼器(帶有捆綁重量)用于不同的語言。?有趣的是,聯(lián)合學(xué)習(xí)英語和西班牙語模型提高了英語模式的分?jǐn)?shù)。
文章還強(qiáng)調(diào),通過對(duì)實(shí)體之間的原始文本進(jìn)行過濾和規(guī)范化所獲得的開放領(lǐng)域關(guān)系對(duì)于習(xí)慣表達(dá)式也具有優(yōu)勢(shì),例如當(dāng)文本片段的含義不是它所包含的單詞的組合時(shí)。?在這種情況下,我們不想將慣用表達(dá)式提供給LSTM網(wǎng)絡(luò),但更好地了解它的獨(dú)特嵌入。?在實(shí)踐中,文章表明,由于充分利用了互補(bǔ)方法,所以嵌入?yún)?shù)化(LSTM在詞匯和獨(dú)特嵌入)詞匯的集合非常好。
結(jié)論
我們?cè)谶@里回顧了各種技術(shù)來推斷知識(shí)圖中的新關(guān)系并從文檔中提取關(guān)系。?我們專注于最近的技術(shù),這些技術(shù)依賴于關(guān)系和實(shí)體的嵌入,深度學(xué)習(xí),協(xié)作過濾......對(duì)于我們來說,進(jìn)一步的工作是考慮并不總是提供絕對(duì)和時(shí)間不變的知識(shí)的文本。?例如在社交媒體中,當(dāng)人們表達(dá)自己的意見時(shí),事實(shí)可能會(huì)因人而異,導(dǎo)致知識(shí)庫中的矛盾。?此外,在Heuritech,我們對(duì)多模態(tài)數(shù)據(jù)感興趣,所以我們希望能夠從圖像中提取相關(guān)信息,并將其與文本中的信息放在同一個(gè)KG中。
總結(jié)
以上是生活随笔為你收集整理的【译】KNOWLEDGE EXTRACTION FROM UNSTRUCTURED TEXTS的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【译】Build Knowledge G
- 下一篇: 【译】zkSNARKs in a nut