图谱实战 | 知识图谱构建的一站式平台gBuilder
OpenKG地址:http://openkg.cn/tool/gbuilder
網站地址:http://gbuilder.gstore.cn
知識圖譜能夠讓機器去理解和認知世界中的事物和現象,并解釋現象出現的原因,推理出隱藏在數據之間深層的、隱含的關系,使得知識圖譜技術從最初谷歌用來提升搜索引擎的結果來增強用戶體驗,到現在已經被金融、公安、能源、教育、醫療等領域眾多行業進行大量運用。
知識圖譜作為大數據和人工智能時代的關鍵技術已經讓越來越多的人意識到它的重要性和價值。知識圖譜的應用現在處于“百花齊放”的狀態。
知識圖譜全生命周期分為構建、存儲管理、應用三個階段。
知識圖譜的應用已經受到業內廣泛關注,知識圖譜的存儲管理也有眾多解決方案。例如我們前期研發的開源知識圖譜圖數據庫系統gStore(http://www.gstore.cn/pcsite/index.html#/)就是知識圖譜存儲的工具。gStore在OpenKG上也有介紹?(http://www.openkg.cn/tool/gstore )
然而知識圖譜構建卻鮮有統一化的平臺工具,但是這是知識圖譜生命周期的技術難點之一。
這是由于知識圖譜構建是一項需要花費大量的人力和時間,卻不直接體現價值的工作,但知識圖譜構建卻是最基礎、最關鍵的工作,是解決“巧婦難為無米之炊”窘境的核心手段。
北京大學王選計算機研究所和大數據分析與應用技術國家工程實驗室(北京大學)鄒磊教授團隊通過兩年時間,打造了知識圖譜自動化構建平臺gBuilder。gBuilder基于機器學習、自然語言處理、圖數據庫等技術可以實現對結構化數據和非結構化數據的知識抽取,并轉化為知識圖譜三元組。
Schema設計
無論是結構化項目還是非結構化項目,均需首先設計知識圖譜Schema。知識圖譜Schema一方面可以描述知識圖譜中的實體類型、實體屬性和關系等信息,另一方面也是知識圖譜查詢和分析的重要參考,相當于關系型數據庫的表結構。
同現有的Schema設計方法不一樣的是,gBuilder的Schema設計模塊是一個輕量級的Web平臺,以圖的方式來表述知識圖譜Schema,用戶可以通過拖拽的方式在畫布上設計類、類屬性和關系。
結構化數據抽取
對于結構化項目而言,其知識抽取流程設計就是將結構化表及字段,與Schema中的實體類型、屬性、關系等進行映射,并形成映射文件。
gBuilder自動化構建平臺結構化數據抽取基于D2RQ平臺,讓用戶顯式地、可視化地處理結構化數據抽取的所有步驟,擺脫復雜的映射語言,易于使用。當前gBuilder能從MySQL、Oracle、SQL Server、PostgreSQL、達夢等關系型數據庫中將數據100%準確的映射為RDF三元組數據。
非結構化數據抽取
對于非結構化數據抽取而言是當前知識圖譜圖譜構建的重難點,例如給下圖一段文字,如何將里面的實體以及實體之間的關系準確抽取出來是一個關鍵問題。當前業內對于非結構數據的自動抽取產品還是較為欠缺。
對于非結構化項目而言,需要通過加載數據集、設計構建流程、開始構建、構建結束步驟。在構建流程中gBuilder通過可視化拖拽的方式來自定義構建非結構化數據知識圖譜構建流程。同時gBuilder提供了大量的可選模型,它們有著不同的特性,以及在不同的數據上預訓練,用戶可以根據需求,挑選出最合適的模型作為構建模型,也可以使用自己的數據訓練模型進行圖譜構建。構建過程中可以隨時使用系統自帶的流程檢查功能和測試功能來測試流程的正確性與構造效果。完成構建后,可以查看構建的結果,從非結構化數據集中抽取出了構建知識圖譜所需要的三元組。
具體抽取流程示例如下,用戶首先根據實際業務場景需要通過拖拽算子的方式構建數據抽取流程,然后輸入非結構化數據,最后抽取出RDF三元組數據。例如輸入“小明是小王的爸爸”測試數據,通過流程的一步步運行,最終抽取出“<小明> <父親> <小王> ”三元組數據。
在gBuilder平臺的非結構化數據抽取詳細操作如下面動圖所示:
最后通過gBuilder抽取的RDF三元組數據同gBuilder團隊研發的gStore圖數據庫系統無縫銜接,再加上該團隊研發的面向知識圖譜自然語言問答引擎gAnswer,形成了覆蓋知識圖譜構建、知識圖譜存儲管理和知識圖譜應用的完整生命周期的知識圖譜一體化解決方案。
gBuilder整體采用微服務架構,主要模塊包括可視化Flowline工具庫,數據管理模塊,項目管理模塊、模型庫和任務中心;其中模型庫與任務中心等高負載組件采用多云融合方案,為用戶提供彈性、實時和可擴展的知識圖譜構建服務。
系統框架圖
gBuilder具有可視化、易于使用、高擴展、高延伸、靈活性以及支持多種語言(英語、中文)的特性,有力的支撐知識圖譜的構建,打破“巧婦難為無米之炊”的窘境。后續gBuilder也將支持更多數據模型的知識圖譜構建以豐富知識圖譜構建生態和實際業務需要。也期待更多同行者加入我們一起打造和完善圖譜生態。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的图谱实战 | 知识图谱构建的一站式平台gBuilder的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术动态 | TechKG:一个面向中文
- 下一篇: 论文浅尝 | 基于知识图谱的智能调研方法