知识图谱基础
本系列是學(xué)習(xí)七月算法知識(shí)圖譜課程的筆記。感覺自己完全就是一個(gè)托兒。前面七月算法機(jī)器學(xué)習(xí),七月算法深度學(xué)習(xí)的筆記。現(xiàn)在又來(lái)了知識(shí)圖譜課程的筆記。
文章目錄
- 1 why知識(shí)圖譜
- 2 知識(shí)圖譜前世今生
- 3 知識(shí)圖譜相關(guān)技術(shù)
- 4 知識(shí)圖譜應(yīng)用案例
1 why知識(shí)圖譜
沒有知識(shí)圖譜,計(jì)算機(jī)看到一個(gè)文字的時(shí)候只能是一個(gè)文字。例如看到“Magdalena Carmen Frida Kahlo y Calderón”,不能知道其中文名稱、簡(jiǎn)稱、相關(guān)作品。
我們想要達(dá)到目標(biāo):things not strings
如果做到呢?深度學(xué)習(xí)+目前的知識(shí)圖譜。
見過大世面的AI:需要大量數(shù)據(jù),不可解釋
知識(shí)淵博的AI:需要結(jié)構(gòu)知識(shí)、推理邏輯,少量數(shù)據(jù),可解釋
相結(jié)合之后:就是真實(shí)的AI
可以用:學(xué)而不思則罔,思而不學(xué)則殆 來(lái)理解。
好的知識(shí)圖譜需要具備學(xué)習(xí)能力和思考能力。
目前人們對(duì)于how why的需求越來(lái)越多,希望用知識(shí)圖譜來(lái)解決。
2 知識(shí)圖譜前世今生
- 語(yǔ)義網(wǎng)絡(luò)
1960年的語(yǔ)義網(wǎng)絡(luò):是一些概念節(jié)點(diǎn)和節(jié)點(diǎn)之間的鏈接關(guān)系。更多的是is-a part-of這種關(guān)系。
缺點(diǎn):沒有標(biāo)準(zhǔn),就不利于多個(gè)網(wǎng)絡(luò)的融合。沒有辦法多節(jié)點(diǎn)和邊做定義。
優(yōu)點(diǎn):簡(jiǎn)單,可以理解。
- 1980年引入本體概念
本體表示可以形式化化的:可以被計(jì)算機(jī)理解;是精確的:是共享的
- 1989年萬(wàn)維網(wǎng)
萬(wàn)維網(wǎng)最代表的技術(shù)是超文本標(biāo)記語(yǔ)言。將文本、文檔互聯(lián)。
- 語(yǔ)義網(wǎng)
網(wǎng)頁(yè)之間有鏈接,但不知道為什么鏈接
做到機(jī)器可理解
對(duì)象、數(shù)據(jù)、事物的相互鏈接
比較對(duì)象:之前是比較兩個(gè)網(wǎng)頁(yè)(描述商品信息的網(wǎng)頁(yè)),有了語(yǔ)義網(wǎng)比較的是對(duì)象之間的屬性值。常見的兩種型號(hào)筆記本比較、兩種型號(hào)的車比較。
- 2006年開放數(shù)據(jù)連接
開放數(shù)據(jù)之間的鏈接:更多的數(shù)據(jù)做關(guān)聯(lián)
- 2012年google提出知識(shí)圖譜
google提出知識(shí)圖譜概念:是傳統(tǒng)知識(shí)工程與大數(shù)據(jù)知識(shí)工程之間的分界線
傳統(tǒng)知識(shí)工程:符號(hào)主義,本質(zhì)是符號(hào)的操作和運(yùn)算。解決了一些規(guī)則明確,應(yīng)用封閉的問題。例如蛋白質(zhì)結(jié)構(gòu)的發(fā)現(xiàn),數(shù)學(xué)定理的證明。依靠人工與專家獲取結(jié)構(gòu)化知識(shí)。
大數(shù)據(jù)知識(shí)工程:利用數(shù)據(jù)、算力、模型獲取結(jié)構(gòu)化的知識(shí)。
什么是知識(shí)圖譜:知識(shí)圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu)。由點(diǎn)和邊組成。每個(gè)節(jié)點(diǎn)表示一個(gè)實(shí)體,每條邊表示一個(gè)關(guān)系。
知識(shí)有哪些類型:事實(shí)知識(shí)、概念知識(shí)、詞匯知識(shí)、常識(shí)知識(shí)。
需要知道的開源知識(shí)圖譜:
1 DBpedia 項(xiàng)?始于 2007 年,是?個(gè)多語(yǔ)?知識(shí)圖譜,致?于從 Wikipedia ??中獲取結(jié)構(gòu)化的知識(shí)供?眾使?,可稱作為數(shù)據(jù)庫(kù)版本的Wikipedia。
2 CN-DBpedia是由復(fù)旦?學(xué)知識(shí)?場(chǎng)實(shí)驗(yàn)室(http://kw.fudan.edu.cn/ )研發(fā)并維護(hù)的?規(guī)模通?領(lǐng)域結(jié)構(gòu)化百科,其前身是復(fù)旦GDM中?知識(shí)圖譜 。
3 YAGO
4 CN-Probase是由復(fù)旦?學(xué)知識(shí)?場(chǎng)實(shí)驗(yàn)室研發(fā)并維護(hù)的?規(guī)模中?概念圖譜,包含約1700萬(wàn)實(shí)體、27萬(wàn)概念和3300萬(wàn)isa關(guān)系。
5 WordNet
6 Cyc 常識(shí)知識(shí)庫(kù)
7 ConceptNet 始于 2004 年,最早源于 MIT 媒體實(shí)驗(yàn)室,是?個(gè)?型的多語(yǔ)?常識(shí)知識(shí)庫(kù)。
8 openkg.cn
3 知識(shí)圖譜相關(guān)技術(shù)
1 業(yè)務(wù)理解
有哪些業(yè)務(wù)數(shù)據(jù)?
需要人工標(biāo)注嗎?成本多大?
需要專家接入嗎?有專家嗎?
根據(jù)業(yè)務(wù)數(shù)據(jù)特性選擇存儲(chǔ)的數(shù)據(jù)庫(kù)
工程完成后,能給具體的場(chǎng)景帶來(lái)實(shí)際好處嗎?
回答:做不做?為什么做的問題
2 圖譜設(shè)計(jì)
專家法:自上而下,總體規(guī)劃
歸納法:單點(diǎn)切入,自下而上
混合法:大的方向上用專家法,小的場(chǎng)景下用歸納法
還可以用參照法,在缺乏知識(shí)圖譜經(jīng)驗(yàn)的情況下。 UMLS一體化醫(yī)學(xué)語(yǔ)言系統(tǒng),可以參考其相關(guān)關(guān)系的分類體系
3 知識(shí)抽取
4 知識(shí)表示
RDF/turtle:抽象能力弱,一些知識(shí)是需要附加時(shí)空條件的,不能表達(dá)
5 知識(shí)存儲(chǔ)
https://zhuanlan.zhihu.com/p/63378196
6 知識(shí)鏈接
有了基礎(chǔ)的知識(shí)圖譜,想要加入更多的鏈接
同一個(gè)實(shí)體有不同的mention。
不同實(shí)體有相同的mention
7 知識(shí)融合
4 知識(shí)圖譜應(yīng)用案例
1 用于推薦
2 自動(dòng)生成創(chuàng)意文案
3 智能搜索
4 智能問答
5 智能決策
總結(jié)
- 上一篇: php基础教程(三):变量
- 下一篇: 微型计算机原理与应用彭楚武,微型计算机原