吐血整理!12种通用知识图谱项目简介
作者:王楠 趙宏宇 蔡月
來(lái)源:大數(shù)據(jù)DT(ID:hzdashuju)
通用知識(shí)圖譜大體可以分為百科知識(shí)圖譜(Encyclopedia Knowledge Graph)和常識(shí)知識(shí)圖譜(Common Sense Knowledge Graph)。
百科知識(shí)圖譜是百科事實(shí)構(gòu)成的,通常是“非黑即白”的確定性知識(shí)。早在2010年微軟就開(kāi)始構(gòu)建商用知識(shí)圖譜,應(yīng)用于旗下的搜索、廣告、Cortana等項(xiàng)目。2012年谷歌基于Freebase正式發(fā)布Google Knowledge Graph。
目前微軟和谷歌擁有全世界最大的通用知識(shí)圖譜,臉書(shū)擁有全世界最大的社交知識(shí)圖譜。而阿里巴巴和亞馬遜則分別構(gòu)建了商品知識(shí)圖譜。
相比之下,國(guó)內(nèi)知識(shí)圖譜創(chuàng)業(yè)公司則從智能客服、金融、法律、公安、航空、醫(yī)療等“知識(shí)密集型”領(lǐng)域作為圖譜構(gòu)建切入點(diǎn)。除了上述商業(yè)通用圖譜以外,DBpedia、Yago、Wikidata、BabelNet等開(kāi)放域百科知識(shí)圖譜也蓬勃發(fā)展。
另一種常識(shí)知識(shí)圖譜,則集成了語(yǔ)言知識(shí)和概念常識(shí),通常關(guān)心的是帶有一定的概率的不確定事實(shí),因此需要挖掘常識(shí)圖譜的語(yǔ)言關(guān)聯(lián)或發(fā)生概率。下面,我們將對(duì)兩類知識(shí)圖譜做詳細(xì)介紹。
01 百科知識(shí)圖譜
百科知識(shí)圖譜構(gòu)建模式可以分為兩類。一類是對(duì)單百科數(shù)據(jù)源進(jìn)行深度抽取,典型代表有DBpedia。另一類是結(jié)合了語(yǔ)言知識(shí)庫(kù)(如WordNet)后,出現(xiàn)了一大批兼具語(yǔ)言知識(shí)的百科知識(shí)庫(kù),如Google Knowledge Graph后端的Freebase、IBM Waston后端的YAGO,以及BabelNet。
此外,還有世界最大開(kāi)放知識(shí)庫(kù)WikiData等。下面我們分別進(jìn)行介紹。
1. DBpedia
DBpedia是始于2007年的早期語(yǔ)義網(wǎng)項(xiàng)目,也就是數(shù)據(jù)庫(kù)版本的多語(yǔ)言維基百科。DBpedia采用了嚴(yán)格的本體設(shè)計(jì),包含人物、地點(diǎn)、音樂(lè)、組織機(jī)構(gòu)等類型定義。從對(duì)維基百科條目和鏈接數(shù)據(jù)集中抽取包括abstract、infobox、category等信息。
DBpedia采用了RDF語(yǔ)義框架描述,DBpedia與Freebase、OpenCyc、BioRDF等其他數(shù)據(jù)集也建立了實(shí)體映射關(guān)系,目前擁有127種語(yǔ)言的超過(guò)2800萬(wàn)個(gè)實(shí)體與30億個(gè)RDF三元組。根據(jù)抽樣評(píng)測(cè),RDF三元組的正確率達(dá)到88%[1]。
2. YAGO
YAGO由德國(guó)馬普研究所于2007年研制,集成了維基百科、wordNet和GeoNames三個(gè)來(lái)源的數(shù)據(jù),是IBM沃森大腦的后端知識(shí)庫(kù)之一。YAGO利用規(guī)則對(duì)維基百科實(shí)體的infobox進(jìn)行抽取,通過(guò)實(shí)體類別推斷構(gòu)建“概念-實(shí)體”、“實(shí)體-屬性”間的關(guān)系。
另外YAGO也融合了語(yǔ)言知識(shí),比如將維基百科標(biāo)簽與WordNet中的概念(Synset)進(jìn)行映射,以WordNet概念體系完成百科知識(shí)本體構(gòu)建。很多知識(shí)條目也增加了時(shí)空屬性維度描述。
目前,YAGO擁有10種語(yǔ)言約459萬(wàn)個(gè)實(shí)體,2400萬(wàn)個(gè)知識(shí)三元組。YAGO2包含了100個(gè)以上關(guān)系類型,20萬(wàn)實(shí)體類別,300萬(wàn)實(shí)體和2.2億知識(shí)三元組等。通過(guò)人工評(píng)測(cè),YAGO中三元組的正確率約為95%[2]。
3. Freebase
Freebase是Google Knowledge Graph的早期版本,由MetaWeb公司在2005年建立,通過(guò)開(kāi)源免費(fèi)共享方式眾籌數(shù)據(jù)[3]。
Freebase通過(guò)對(duì)象、事實(shí)、類型和屬性進(jìn)行知識(shí)表示,其中一個(gè)重要的創(chuàng)新在于采用復(fù)合值類型(Compound Value Type,CVT)來(lái)處理多元關(guān)系,也就是說(shuō)一個(gè)關(guān)系包含多個(gè)子二元關(guān)系。這樣采用CVT唯一標(biāo)識(shí)擴(kuò)展了關(guān)系表示的能力。目前Freebase正在向Wikidata上遷移以進(jìn)一步支持谷歌語(yǔ)義搜索。
4. BabelNet
BabelNet是目前世界上最大的多語(yǔ)言百科知識(shí)庫(kù)之一,它本身可被視為一個(gè)由概念、實(shí)體、關(guān)系構(gòu)成的語(yǔ)義網(wǎng)絡(luò)[4]。BabelNet采用類似YAGO的思路,將維基百科頁(yè)面標(biāo)題與WordNet概念進(jìn)行映射,通過(guò)維基百科跨語(yǔ)言頁(yè)面鏈接以及機(jī)器翻譯系統(tǒng),為WordNet提供非英語(yǔ)語(yǔ)種鏈接數(shù)據(jù)。
目前BabelNet共擁有271個(gè)語(yǔ)言版本,包含了1400萬(wàn)個(gè)概念、36.4萬(wàn)個(gè)詞語(yǔ)關(guān)系和3.8萬(wàn)個(gè)鏈接數(shù)據(jù),擁有超過(guò)19億個(gè)RDF三元組。BabelNet中每個(gè)概念包含所有表達(dá)相同含義的不同語(yǔ)言的同義詞。由于BabelNet中的錯(cuò)誤來(lái)源主要在于維基百科與WordNet之間的映射,目前的映射正確率大約在91%。
5. Wikidata
Wikidata顧名思義,與維基百科有著千絲萬(wàn)縷的聯(lián)系。它由維基媒體基金會(huì)發(fā)起和維持,目前是一個(gè)可以眾包協(xié)作編輯的多語(yǔ)言百科知識(shí)庫(kù)。Wikidata中的每個(gè)實(shí)體存在多個(gè)不同語(yǔ)言的標(biāo)簽、別名、描述,通過(guò)三元組聲明表示每一個(gè)條目,比如實(shí)體“London-中文標(biāo)簽-倫敦”。
此外,Wikidata利用參考文獻(xiàn)標(biāo)識(shí)每個(gè)條目的來(lái)源或出處,通過(guò)備注處理復(fù)雜多元表示,刻畫(huà)多元關(guān)系。截至2017年,Wikidata能夠支持近350種語(yǔ)言、2500萬(wàn)個(gè)實(shí)體及7000萬(wàn)個(gè)聲明,支持?jǐn)?shù)據(jù)集的完全下載[5]。
02 常識(shí)知識(shí)圖譜
常識(shí)知識(shí)圖譜除了語(yǔ)言知識(shí)庫(kù)以外,還包括Cyc、ConceptNet、NELL以及Microsoft ConceptGraph。現(xiàn)階段百科和常識(shí)知識(shí)圖譜的融合越來(lái)越多,下面詳細(xì)介紹一下。
6. Cyc
Cyc是1984年由Douglas Lenat創(chuàng)建的,作為知識(shí)工程時(shí)代一項(xiàng)重要進(jìn)展,最初目標(biāo)是建立人類最大的常識(shí)知識(shí)庫(kù)。Cyc知識(shí)庫(kù)主要由術(shù)語(yǔ)和斷言組成,術(shù)語(yǔ)包含概念、關(guān)系和實(shí)體的定義。而斷言用來(lái)建立術(shù)語(yǔ)間關(guān)系,通過(guò)形式化謂詞邏輯進(jìn)行描述,包括事實(shí)描述和規(guī)則描述。
Cyc主要特點(diǎn)是基于形式化語(yǔ)言表示方法來(lái)刻畫(huà)知識(shí),支持復(fù)雜推理,但是也導(dǎo)致擴(kuò)展性和靈活性不夠,現(xiàn)有Cyc知識(shí)庫(kù)包括50萬(wàn)條術(shù)語(yǔ)和700萬(wàn)條斷言。
7. ConceptNet
ConceptNet是一個(gè)大規(guī)模的多語(yǔ)言常識(shí)知識(shí)庫(kù),起源于一個(gè)MIT媒體實(shí)驗(yàn)室眾包項(xiàng)目Open Mind Common Sense(OMCS),其本質(zhì)為一個(gè)描述人類常識(shí)的大型語(yǔ)義網(wǎng)絡(luò)[6]。
ConceptNet側(cè)重于用近似自然語(yǔ)言描述三元組知識(shí)間關(guān)系,類似于WordNet。ConceptNet中擁有如“IsA、UsedFor、CapableOf”等多種固定關(guān)系,允許節(jié)點(diǎn)是自然語(yǔ)言片段或句子,但關(guān)系類型確定有利于降低知識(shí)獲取的難度。
ConceptNet知識(shí)表示框架包含了如下要素:概念、詞匯、短語(yǔ)、斷言和邊。其中斷言描述概念間的關(guān)系,類似于RDF中的聲明,邊類似于RDF中的屬性,一個(gè)概念包含了多條邊,而一條邊可能有多個(gè)來(lái)源和附加屬性。
ConceptNet目前擁有304個(gè)語(yǔ)言的版本,超過(guò)390萬(wàn)個(gè)概念,2800萬(wàn)個(gè)斷言,知識(shí)三元組正確率約為81%,支持?jǐn)?shù)據(jù)集的完全下載。
8. Microsoft ConceptGraph
Microsoft ConceptGraph前身是Probase,以概念層次體系(Taxonomy)為核心,主要包含的是概念間關(guān)系,如“IsA”“isPropertyOf”“Co-occurance”以及實(shí)例(等同于上文中的實(shí)體)。
其中每一個(gè)關(guān)系均附帶一個(gè)概率值,用于對(duì)概念進(jìn)行界定,因此在語(yǔ)義消歧中作用很大。比如說(shuō)概念電動(dòng)汽車,實(shí)體可以為特斯拉,那么通過(guò)IsA關(guān)系描述中“汽車”或“人名”,加上時(shí)間屬性,保證了語(yǔ)義理解的正確性。
目前,Microsoft ConceptGraph擁有500多萬(wàn)個(gè)概念、1200多萬(wàn)個(gè)實(shí)例以及8500萬(wàn)個(gè)IsA關(guān)系(正確率約為92.8%)。支持HTTP API調(diào)用[7]。
9. NELL
NELL(Never-Ending Language Learner)是卡內(nèi)基梅隆大學(xué)基于互聯(lián)網(wǎng)數(shù)據(jù)抽取而開(kāi)發(fā)的三元組知識(shí)庫(kù)。它的基本理念是給定少量初始樣本(少量概念、實(shí)體類型、關(guān)系),利用機(jī)器學(xué)習(xí)方法自動(dòng)從互聯(lián)網(wǎng)學(xué)習(xí)和抽取新的知識(shí),目前NELL已經(jīng)抽取了400多萬(wàn)條高置信度的三元組知識(shí)。
03 中文類知識(shí)圖譜
中文類知識(shí)圖譜對(duì)于中文自然語(yǔ)言理解至關(guān)重要,特別是中文開(kāi)放知識(shí)圖譜聯(lián)盟(OpenKG)的努力,推動(dòng)了中文知識(shí)圖譜普及與應(yīng)用[8]。
OpenKG借鑒了Schema.org知識(shí)眾包模式,搭建了中文知識(shí)圖譜建模、推理、學(xué)習(xí)的可解釋接口規(guī)范cnSchema,構(gòu)建中文知識(shí)圖譜核心數(shù)據(jù)結(jié)構(gòu),包括數(shù)據(jù)(實(shí)體、本體、陳述)、元數(shù)據(jù)(版本管理、信息溯源、上下文),支持RDF邏輯層、JSON-LD存儲(chǔ)層和計(jì)算層三個(gè)層次的知識(shí)表示。
OpenKG技術(shù)平臺(tái)目前已經(jīng)包含了Zhishi.me、CN-DBPedia、PKUBase、XLore,以及常識(shí)、醫(yī)療、金融、城市、出行等15類開(kāi)放中文知識(shí)圖譜。下面我們介紹幾個(gè)常見(jiàn)的中文知識(shí)圖譜項(xiàng)目。
10. Zhishi.me
Zhishi.me是構(gòu)建中文鏈接數(shù)據(jù)的第一份工作,借鑒DBpedia的思路,對(duì)百度百科、互動(dòng)百科和中文維基百科中的信息進(jìn)行抽取,然后對(duì)多源同一實(shí)體進(jìn)行對(duì)齊和鏈接[9]。
此外,結(jié)合社交站點(diǎn)的分類目錄及標(biāo)簽云,Zhishi.me也融合中文模式(Schema),包含三種概念間關(guān)系,即equal、related與subClassOf關(guān)系。Zhishi.me中擁有約40萬(wàn)個(gè)中文概念、1000萬(wàn)個(gè)實(shí)體與1.2億個(gè)RDF三元組,所有數(shù)據(jù)可以通過(guò)在線查詢得到。人工評(píng)測(cè)正確率約為84%,并支持?jǐn)?shù)據(jù)集的完全下載。
11. XLore
XLore是一個(gè)大型的中英文知識(shí)圖譜,它旨在從各種不同的中英文在線百科中抽取并生成RDF三元組,并建立中英文實(shí)體間的跨語(yǔ)言鏈接[10]。目前,XLore大約有246萬(wàn)個(gè)概念、44萬(wàn)個(gè)關(guān)系或?qū)傩浴?600萬(wàn)個(gè)實(shí)體,詳細(xì)情況可以參考其官方網(wǎng)站。
12. CN-DBpedia
CN-DBpedia是目前規(guī)模最大的開(kāi)放百科中文知識(shí)圖譜之一,主要從中文百科類網(wǎng)站(如百度百科、互動(dòng)百科、中文維基百科等)頁(yè)面中提取信息[11]。
CN-DBpedia的概念本體復(fù)用已有成熟的概念體系(如DBpedia、YAGO、Freebase等)。針對(duì)實(shí)體正文內(nèi)容涉及的屬性構(gòu)建一個(gè)抽取器(分類器),從百科文本抽取內(nèi)容,經(jīng)過(guò)濾、融合、推斷等操作后,最終形成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)。
目前CN-DBpedia涵蓋1600萬(wàn)以上個(gè)實(shí)體、2.2億個(gè)關(guān)系,相關(guān)知識(shí)服務(wù)API累計(jì)調(diào)用量已達(dá)2.6億次。
在中文領(lǐng)域,還有上交大發(fā)布的知識(shí)圖譜AceKG,超1億個(gè)實(shí)體,近100G數(shù)據(jù)量,使用Apache Jena框架進(jìn)行驅(qū)動(dòng)[12]。思知平臺(tái)發(fā)布的ownthink通用知識(shí)圖譜[13]。此外,百度公司在過(guò)去多年的實(shí)踐中,內(nèi)部積累通用/領(lǐng)域/多源異構(gòu)類知識(shí)圖譜規(guī)模已經(jīng)達(dá)到億級(jí)實(shí)體和千億級(jí)屬性關(guān)系。
相關(guān)參考:
[1] https://wiki.dbpedia.org/develop/datasets
[2] https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/
[3] https://www.npmjs.com/package/freebase
[4] https://babelnet.org/
[5] https://dumps.wikimedia.org/wikidatawiki/
[6] http://alumni.media.mit.edu/~hugo/conceptnet/
[7] http://concept.research.microsoft.com
[8] http://www.openkg.cn/
[9] http://zhishi.me/
[10] https://xlore.org/
[11] http://kw.fudan.edu.cn/cndbpedia/intro/
[12] http://jena.apache.org
[13] https://www.ownthink.com/
關(guān)于作者:王楠,北京大學(xué)博士,“創(chuàng)青春-中關(guān)村U30”2020年度優(yōu)勝者,先后任教于中國(guó)科學(xué)院、北京信息科技大學(xué)計(jì)算機(jī)學(xué)院。研究方向包括人工智能算法、知識(shí)圖譜、自然語(yǔ)言處理與地球電磁學(xué)等。
趙宏宇,現(xiàn)就職于騰訊看點(diǎn)搜索團(tuán)隊(duì),擔(dān)任算法研究員。有多年NLP、搜索系統(tǒng)、推薦系統(tǒng)的工作經(jīng)驗(yàn),涉及專利、招聘和網(wǎng)頁(yè)搜索等場(chǎng)景。精通PyTorch、TensorFlow等主流深度學(xué)習(xí)框架,擅長(zhǎng)運(yùn)用NLP前沿技術(shù)解決工業(yè)項(xiàng)目難題。
蔡月,清華-深圳灣實(shí)驗(yàn)室聯(lián)合培養(yǎng)博士后,于2017年獲得北京大學(xué)生物醫(yī)學(xué)工程博士學(xué)位。曾擔(dān)任東軟醫(yī)療上海磁共振研發(fā)中心高級(jí)算法研究員。研究方向?yàn)閿?shù)據(jù)科學(xué)、磁共振圖像算法、深度學(xué)習(xí)等,擅長(zhǎng)腦科學(xué)領(lǐng)域數(shù)據(jù)分析、磁共振圖像加速、去噪等算法研究。
本文摘編自《自然語(yǔ)言理解與行業(yè)知識(shí)圖譜:概念、方法與工程落地》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:978-7-111-69830-2)
《自然語(yǔ)言理解與行業(yè)知識(shí)圖譜》
點(diǎn)擊上圖了解及購(gòu)買
轉(zhuǎn)載請(qǐng)聯(lián)系微信:DoctorData
推薦語(yǔ):本部分首先闡述自然語(yǔ)言理解的發(fā)展脈絡(luò)和理解邏輯,主要圍繞語(yǔ)言符號(hào)、處理體系、語(yǔ)義理解等進(jìn)行探討,引出自然語(yǔ)言理解的自動(dòng)分析原理和方法,包括自然語(yǔ)言特征、統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、知識(shí)圖譜等。
劃重點(diǎn)👇
干貨直達(dá)👇
50%企業(yè)數(shù)據(jù)治理失敗!這9大要素才是成功關(guān)鍵
多段實(shí)例代碼詳解7大類Python運(yùn)算符,建議收藏!
4918字,詳解商品系統(tǒng)的存儲(chǔ)架構(gòu)設(shè)計(jì)
人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的關(guān)系,終于有人講明白了
更多精彩👇
在公眾號(hào)對(duì)話框輸入以下關(guān)鍵詞
查看更多優(yōu)質(zhì)內(nèi)容!
讀書(shū)?|?書(shū)單?|?干貨?|?講明白?|?神操作?|?手把手
大數(shù)據(jù)?|?云計(jì)算?|?數(shù)據(jù)庫(kù)?|?Python?|?爬蟲(chóng)?|?可視化
AI?|?人工智能?|?機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?NLP
5G?|?中臺(tái)?|?用戶畫(huà)像?|?數(shù)學(xué)?|?算法?|?數(shù)字孿生
據(jù)統(tǒng)計(jì),99%的大咖都關(guān)注了這個(gè)公眾號(hào)
👇
新人創(chuàng)作打卡挑戰(zhàn)賽發(fā)博客就能抽獎(jiǎng)!定制產(chǎn)品紅包拿不停!總結(jié)
以上是生活随笔為你收集整理的吐血整理!12种通用知识图谱项目简介的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: C#.NET编程----Spring.N
- 下一篇: JPBC库只使用椭圆曲线群,不使用双线性