知识图谱入门知识(一)知识图谱应用以及常用方法概述
學(xué)習(xí)內(nèi)容
搜集各種博客,理解實體識別、關(guān)系分類、關(guān)系抽取、實體鏈指、知識推理等,并且總結(jié)各種分類中最常用的方法、思路。
由于自己剛剛接觸知識圖譜,對該領(lǐng)域的概念和方法的描述還不是很清楚,所以只是簡單的列出框架和添加鏈接,之后會進行補充。
1. 實體識別
原文地址:鏈接
介紹相關(guān)概念的: 鏈接
1.1 方法概述
早期的命名實體識別方法大都是基于規(guī)則的,系統(tǒng)的實現(xiàn)代價較高;
但是進入21世紀后,基于大規(guī)模語料庫的統(tǒng)計方法逐漸成為自然語言處理的主流,一大批機器學(xué)習(xí)方法被成功地應(yīng)用于自然語言處理的各個方面。根據(jù)使用的機器學(xué)習(xí)方法的不同,我們可以粗略地將基于機器學(xué)習(xí)的命名實體識別方法劃分為如下四種:有監(jiān)督的學(xué)習(xí)方法、半監(jiān)督的學(xué)習(xí)方法、無監(jiān)督的學(xué)習(xí)方法、混合方法。
1.2 命名實體識別方法
1.2.1 基于CRF的命名實體識別方法
CRF:條件隨機場; 也是最成功的命名實體識別方法,受到工業(yè)界的廣泛使用。
基于CRF的命名實體識別與前面介紹的基于字的漢語分詞原理一樣,就是把命名實體識別過程看作一個序列標注問題。 基本思路是:將給定的文本首先進行分詞處理,然后對人名、簡單地名和簡單的組織機構(gòu)名進行識別,最后識別復(fù)合地名和復(fù)合組織機構(gòu)名。
1.2.2 基于多特征的命名實體識別方法
在命名實體識別中,無論采用哪一種方法,都是試圖充分發(fā)現(xiàn)和利用實體所在的上下文特征和實體的內(nèi)部特征,只不過特征的顆粒度有大(詞性和角色級特征)有小(詞形特征)的問題。考慮到大顆粒度特征和小顆粒度特征有互相補充的作用,應(yīng)該兼顧使用的問題,提出了基于多特征相融合的漢語命名實體識別方法,該方法是在分詞和詞性標注的基礎(chǔ)上進一步進行命名實體的識別,由詞形上下文模型、詞性上下文模型、詞形實體模型和詞性實體模型4個子模型組成的。其中,詞形上下文模型估計在給定詞形上下文語境中產(chǎn)生實體的概率;詞性上下文模型估計在給定詞性上下文語境中產(chǎn)生實體的概率;詞形實體模型估計在給定實體類型的情況下詞形串作為實體的概率;詞性實體模型估計在給定實體類型的情況下詞性串作為實體的概率。
2.關(guān)系分類
原文地址: 鏈接
2.1 簡介
給定一段自然語言文本以及該文本中出現(xiàn)的若干實體(e1...ene_{1}...e_{n}e1?...en?),關(guān)系分類(relation classification)任務(wù)的目的是識別這些實體(e1...ene_{1}...e_{n}e1?...en?)之間滿足的語義關(guān)系(關(guān)系分類也叫做關(guān)系抽取、關(guān)系識別等)。由于全部可能的關(guān)系集合通常是預(yù)先指定好的(例如知識圖譜中的全部謂詞(邊上的標注/關(guān)系)),因此該任務(wù)可以采用分類方法完成。最基本的關(guān)系分類任務(wù)是判斷文本中同時出現(xiàn)的兩個實體(e1,ene_{1},e_{n}e1?,en?)之間的關(guān)系。
2012年,Google對外發(fā)布了基于知識圖譜(free base)的語義搜索和智能問答服務(wù),并開放了該知識圖譜供工業(yè)界和學(xué)術(shù)界使用。大規(guī)模知識圖譜的出現(xiàn)極大地推動了智能問答研究的發(fā)展。基于此類知識圖譜,斯坦福、Facebook 和微軟等研究機構(gòu)分別構(gòu)建并開放了基于知識圖譜的智能問答評測數(shù)據(jù)集,包括WebQuestions、SimpleQuestions、NLPCC-KBQA等,這些數(shù)據(jù)集涉及的問答任務(wù)需要問答系統(tǒng)能夠針對輸人問題進行準確的關(guān)系分類。由于知識圖譜中包含的關(guān)系(即謂詞)數(shù)目遠超上述關(guān)系分類任務(wù)涉及的關(guān)系數(shù)目,因此近年來出現(xiàn)了很多新型的關(guān)系分類方法。主要包括模板匹配方法、監(jiān)督學(xué)習(xí)方法和半監(jiān)督學(xué)習(xí)方法。
2.2 方法
2.2.1 模板匹配方法
模板匹配方法是關(guān)系分類任務(wù)中最常見的方法。該類方法使用一個模板庫對輸入文本中兩個給定實體進行上下文匹配,如果該上下文片段與模板庫中某個模板匹配成功,那么可以將該匹配模板對應(yīng)的關(guān)系作為這兩個實體之間滿足的關(guān)系。
兩種常用的模板匹配方法: 第一種方法是基于人工模板完成關(guān)系分類任務(wù),第二種方法是基于統(tǒng)計模板完成關(guān)系分類任務(wù)
基于人工模板的關(guān)系分類主要用于判斷實體間是否存在上下位關(guān)系(Hyponymy).
基于人工模板的關(guān)系分類在給定關(guān)系列表的基礎(chǔ)上,從大規(guī)模數(shù)據(jù)中自動抽取和總結(jié)模板,并將抽取出來的高質(zhì)量模板用于關(guān)系分類任務(wù)。該過程無需過多人工干預(yù)
2.2.2 監(jiān)督學(xué)習(xí)方法
監(jiān)督學(xué)習(xí)(supervised learning)方法使用帶有關(guān)系標注的數(shù)據(jù)訓(xùn)練分析分類模型。本節(jié)把該類方法分為三類進行介紹:基于特征的方法、基于核函數(shù)的方法和基于深度學(xué)習(xí)的方法。
2.2.3 半監(jiān)督學(xué)習(xí)方法
基于自舉的方法和基于遠監(jiān)督的方法。
3.實體鏈指
原文地址:鏈接
3.1簡介
實體鏈接,就是把文本中的mention鏈接到KG里的entity的任務(wù)。如下圖所示[1]:
- Knowledge Graph (知識圖譜):一種語義網(wǎng)絡(luò),旨在描述客觀世界的概念實體及其之間的關(guān)系,有時也稱為Knowledge Base (知識庫)。
- 圖譜由三元組構(gòu)成:<實體1,關(guān)系,實體2> 或者 <實體,屬性,屬性值>;
例如:<姚明,plays-in,NBA>、<姚明,身高,2.29m>;
常見的KB有:Wikidata、DBpedia、YAGO。 - Entity (實體):實體是知識圖譜的基本單元,也是文本中承載信息的重要語言單位。
- Mention (提及):自然文本中表達實體的語言片段。
回過頭再看,上面的這個圖中,“喬丹”、“美國”、“NBA”這些藍色的片段都是mention,其箭頭所指的“塊塊”就是它們在圖譜里對應(yīng)的entity。
3.2 方法
- End-to-End:先從文本中提取到實體mention (即NER),對應(yīng)到候選實體,然后將提取到的entities消除歧義,映射到給定的KB中。
- Linking-Only:與第一種方法對比,跳過了第一步。該方法直接將text和mention作為輸入,找到候選實體并消除歧義,映射到給定的KB中。
由于端到端的工作比較少,且NER也沒太多可講的。Linking-Only的相關(guān)技術(shù)方向和工作現(xiàn)在比較火。
3.3 難點以及對應(yīng)的解決方法
EL的工作非常有挑戰(zhàn)性,主要有兩個原因:
- Mention Variations:同一實體有不同的mention。(<科比>:小飛俠、黑曼巴、科鐵、蝸殼、老科。)
- Entity Ambiguity:同一mention對應(yīng)不同的實體。(“蘋果”:中關(guān)村蘋果不錯;山西蘋果不錯。)
針對上述兩個問題,一般會用Candidate Entity Generation (CEG) 和Entity Disambiguation (ED) 兩個模塊[2]來分別解決:
- Candidate Entity Generation:從mention出發(fā),找到KB中所有可能的實體,組成候選實體集 (candidate entities);
- Entity Disambiguation:從candidate entities中,選擇最可能的實體作為預(yù)測實體。
其中,CEG的方法都比較樸素,沒什么可講的,筆者會把重點放在ED上。
詳細請看原文
4. 關(guān)系抽取
原文地址:鏈接
4.1 簡介
信息抽取旨在從大規(guī)模非結(jié)構(gòu)或半結(jié)構(gòu)的自然語言文本中抽取結(jié)構(gòu)化信息。關(guān)系抽取是其中的重要子任務(wù)之一,主要目的是從文本中識別實體并抽取實體之間的語義關(guān)系。比如:
International Business Machines Corporation (IBM or the company) was
incorporated in the State of New York on June 16, 1911.
我們可以從上面這段文本中抽取出如下三元組(triples)關(guān)系:
- Founding-year (IBM, 1911)
- Founding-location (IBM, New York)
為什么要進行關(guān)系抽取?
創(chuàng)建新的結(jié)構(gòu)化知識庫(knowledge base)并且增強現(xiàn)有知識庫
構(gòu)建垂直領(lǐng)域知識圖譜:醫(yī)療,化工,農(nóng)業(yè),教育等
支持上層應(yīng)用:問答,搜索,推理等。比如,對于這樣一個提問:
The granddaughter of which actor starred in the movie “E.T.”?
可以用如下的關(guān)系推理表示:
(acted-in ?x "E.T.") && (is-a ?y actor) && (granddaughter-of ?x ?y)4.2 方法
基于規(guī)則的模式匹配(Using Hand-built Patterns)
基于監(jiān)督學(xué)習(xí)的方法(Supervised Method)
我們可以把關(guān)系抽取當成一個多分類問題,每一種關(guān)系都是一個類別,通過對標簽數(shù)據(jù)的學(xué)習(xí)訓(xùn)練出一個分類器(classifier)即可。主要難點有兩個:特征的構(gòu)建和標簽數(shù)據(jù)的獲取
半監(jiān)督和無監(jiān)督學(xué)習(xí)方法(Semi-supervised && unsupervised)
基于種子的啟發(fā)式算法(Seed--based or bootstrapping approach)
遠程監(jiān)督學(xué)習(xí)(Distant Supervision)
5. 知識推理
原文地址:鏈接
5.1 簡介
OWL本體語言是知識圖譜中最規(guī)范(W3C制定)、最嚴謹(采用描述邏輯)。表達能力最強的語言(是一階謂詞邏輯的子集),它基于RDF語法,使表示出來的文檔具有語義理解的結(jié)構(gòu)基礎(chǔ)。促進了統(tǒng)一詞匯表的使用,定義了豐富的語義詞匯。同時允許邏輯推理
所謂推理就是通過各種方法獲取新的知識或者結(jié)論,這些知識和結(jié)論滿足語義。其具體任務(wù)可分為可滿足性(satisfiability)、分類(classification)、實例化(materialization)。
可滿足性可體現(xiàn)在本體上或概念上,在本體上即本體可滿足性是檢查一個本體是否可滿足,即檢查該本體是否有模型。如果本體不滿足,說明存在不一致。概念可滿足性即檢查某一概念的可滿足性,即檢查是否具有模型,使得針對該概念的解釋不是空集。
分類,針對Tbox的推理,計算新的概念包含關(guān)系
實例化即計算屬于某個概念或關(guān)系的所有實例的集合
5.2 方法
基于Tableaux運算
基于一階查詢重寫的方法
基于產(chǎn)生式規(guī)則的方法
總結(jié)
以上是生活随笔為你收集整理的知识图谱入门知识(一)知识图谱应用以及常用方法概述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 同花顺如何切换k线_K线之形态学:浅谈纸
- 下一篇: 机器人编程与python语言的区别_一分