知识图谱 (1)基本概念
1 . 定義
知識(shí)圖譜是由一些相互連接的實(shí)體和它們的屬性構(gòu)成的,是用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系。
用來(lái)揭示實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò)
- 信息是指外部的客觀事實(shí)。舉例:這里有一瓶水,它現(xiàn)在是7°。
- 知識(shí)是對(duì)外部客觀規(guī)律的歸納和總結(jié)。舉例:水在零度的時(shí)候會(huì)結(jié)冰。
三元組:實(shí)體entity,實(shí)體關(guān)系relation,實(shí)體entity
2. 幾個(gè)過(guò)程
原始數(shù)據(jù)類(lèi)型一般來(lái)說(shuō)有三類(lèi)(也是互聯(lián)網(wǎng)上的三類(lèi)原始數(shù)據(jù)):
- 結(jié)構(gòu)化數(shù)據(jù)(Structed Data):如關(guān)系數(shù)據(jù)庫(kù)
- 半結(jié)構(gòu)化數(shù)據(jù)(Semi-Structed Data):如XML、JSON、百科
- 非結(jié)構(gòu)化數(shù)據(jù)(UnStructed Data):如圖片、音頻、視頻、文本
要做好KG要綜合利用好KR、NLP、Web、ML、DB等多方面的方法和技術(shù)。
2.1 知識(shí)抽取
信息抽取:從各種類(lèi)型的半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)源中提取出實(shí)體、屬性以及實(shí)體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識(shí)表達(dá);
2.1.1 結(jié)構(gòu)化數(shù)據(jù)處理
針對(duì)結(jié)構(gòu)化數(shù)據(jù),通常是關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)清晰,把關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)轉(zhuǎn)換為RDF數(shù)據(jù)(linked data),普遍采用的技術(shù)是D2R技術(shù)。
2.1.2 半結(jié)構(gòu)化數(shù)據(jù)處理
半結(jié)構(gòu)化數(shù)據(jù):具有一定的數(shù)據(jù)結(jié)構(gòu),但需要進(jìn)一步提取整理的數(shù)據(jù)。
eg. 百科的數(shù)據(jù),網(wǎng)頁(yè)中的數(shù)據(jù)等。
包裝器是一個(gè)能夠?qū)?shù)據(jù)從HTML網(wǎng)頁(yè)中抽取出來(lái),并且將它們還原為結(jié)構(gòu)化的數(shù)據(jù)的軟件程序。網(wǎng)頁(yè)數(shù)據(jù)輸入到包裝器中,通過(guò)包裝器的處理,輸出為我們需要的信息。
2.1.3 非結(jié)構(gòu)化數(shù)據(jù)處理
對(duì)于非結(jié)構(gòu)化的文本數(shù)據(jù),我們抽取的知識(shí)包括實(shí)體、關(guān)系、屬性。
- 實(shí)體抽取
也稱為命名實(shí)體識(shí)別,此處的實(shí)體包括概念,人物,組織,地名,時(shí)間等等。 - 關(guān)系抽取
實(shí)體和實(shí)體之間的關(guān)系,也是文本中的重要知識(shí),需要采用一定的技術(shù)手段將關(guān)系信息提取出來(lái)。 - 屬性抽取
也就是實(shí)體的屬性信息,和關(guān)系比較類(lèi)似,關(guān)系反映實(shí)體的外部聯(lián)系,屬性體現(xiàn)實(shí)體的內(nèi)部特征。
2.2 知識(shí)融合
知識(shí)融合,就是將多個(gè)知識(shí)庫(kù)中的知識(shí)進(jìn)行整合,形成一個(gè)知識(shí)庫(kù)的過(guò)程,在獲得新知識(shí)之后,需要對(duì)其進(jìn)行整合,以消除矛盾和歧義,比如某些實(shí)體可能有多種表達(dá),某個(gè)特定稱謂也許對(duì)應(yīng)于多個(gè)不同的實(shí)體等;形成高質(zhì)量的知識(shí)庫(kù)。
知識(shí)融合的目的就是將不同知識(shí)庫(kù)對(duì)實(shí)體的描述進(jìn)行整合,從而獲得實(shí)體的完整描述。主要包括:實(shí)體對(duì)齊,也包括關(guān)系對(duì)齊,屬性對(duì)齊,可以通過(guò)相似度計(jì)算,聚合,聚類(lèi)等技術(shù)來(lái)實(shí)現(xiàn)。
2.3 數(shù)據(jù)模型構(gòu)建
知識(shí)圖譜的數(shù)據(jù)=數(shù)據(jù)模型+具體數(shù)據(jù)
數(shù)據(jù)模型: 知識(shí)圖譜的數(shù)據(jù)組織框架
2.4 知識(shí)推理
對(duì)于經(jīng)過(guò)融合的新知識(shí),進(jìn)一步挖掘隱含的知識(shí)。
知識(shí)推理,根據(jù)已有的數(shù)據(jù)模型和數(shù)據(jù),依據(jù)推理規(guī)則,獲取新的知識(shí)或者結(jié)論,新的知識(shí)或結(jié)論應(yīng)該是滿足語(yǔ)義的。
eg. 比如實(shí)體的分類(lèi)包含關(guān)系,一個(gè)電腦椅是椅子,椅子是家具,可以說(shuō),一個(gè)電腦椅是家具。常識(shí)規(guī)則的推理,一個(gè)男人的孩子是A,一個(gè)女人的孩子是A,可以知道,這個(gè)男人和女人是配偶。
2.5 質(zhì)量評(píng)估
對(duì)最后的結(jié)果數(shù)據(jù)進(jìn)行評(píng)估,將合格的數(shù)據(jù)放入知識(shí)圖譜中。
eg. 對(duì)于公共領(lǐng)域的知識(shí)圖譜,知識(shí)的獲取采用了眾包的方法,對(duì)于同一個(gè)知識(shí)點(diǎn),可能會(huì)有很多人來(lái)完成,如果這個(gè)知識(shí)點(diǎn)只有一個(gè)答案,可以采用的一種策略是,將多人的標(biāo)注結(jié)果進(jìn)行比較,取投票多的結(jié)果作為最終的結(jié)果。
【參考】
[1] 知識(shí)圖譜入門(mén) (一) 知識(shí)圖譜與語(yǔ)義技術(shù)概覽, Pelhans, csdn
總結(jié)
以上是生活随笔為你收集整理的知识图谱 (1)基本概念的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 以太坊知识教程------智能合约的5种
- 下一篇: C++ Primer 5th笔记(10)