知识图谱学习小组学习大纲
(這是為北京知識學習小組第一期 kgbj1 準備的為期4周的學習大綱)
2016年6月3日
鮑捷
這個學習小組的目的,不是按教科書的定義去學習“知識圖譜”,更不是做研究。我們更多是要去解決問題,而不是研究方法。傳統(tǒng)的“知識圖譜”(Knowledge Graph),“鏈接數(shù)據(jù)”(Linked Data),“語義網(wǎng)”(Semantic Web),”知識提取”(Knowledge Extraction),等等技術(shù),到底在實戰(zhàn)中要解決的是什么問題?要解決這些問題是不是可以用相對簡單的方法?能不能用廉價的方法盡可能快地解決有代表性的問題?這是這個學習小組的目的。
知識圖譜是一種結(jié)構(gòu)化數(shù)據(jù)的處理方法,它涉及知識的提取、表示、存儲、檢索等一系列技術(shù)。從淵源上講,它是知識表示與推理、數(shù)據(jù)庫、信息檢索、自然語言處理等多種技術(shù)發(fā)展的融合。在短短的四周內(nèi),顯然不可能涉獵所有上述領(lǐng)域。而且作為一個以自學為主的學習小組(而非集中強化的學習班),也不可能學習太深。所以學習小組更多只是提供一種思路,讓大家覺得知識圖譜并不神秘,不是大公司的專利,自己也可以做一點點小事,不必拘泥于特定的方法。
以應(yīng)用為導向,盡可能降低工程的風險,就決定了我們非常關(guān)注成本,盡可能依賴成熟的技術(shù)。因此,在內(nèi)容選擇上,有人可能會覺得“這也配叫知識圖譜”?但是過去十多年的實踐中,我們已經(jīng)看到太多的工程因為教條而失敗。我們不應(yīng)該盲目追求技術(shù)的先進性或者新穎性,而是應(yīng)以業(yè)務(wù)為目標,用知識圖譜的原則而非具體的教條去解決問題。
因此,在這四周里,我們是要通過一些具體的小問題的學習,來體會知識圖譜的核心理念。我們會優(yōu)先使用傳統(tǒng)的成熟技術(shù),并把它們和前沿(通常也是高風險、不成熟)技術(shù)比較,來比較這些理念不同的實踐路徑。同一個問題,同一個理念,可以根據(jù)實際情況有不同的實現(xiàn)。我們要掌握的,是這些理念,并在今后的實踐中發(fā)現(xiàn)新的實現(xiàn)方法。
這四周的安排,就是依次接觸知識圖譜四個領(lǐng)域的一些核心理念。每周我們會安排線上的自學和一次線下的聚會。在線下聚會上,我們會解答大家的疑問,并邀請領(lǐng)域?qū)<液痛蠹曳窒碓撝茉掝}上的工程實戰(zhàn)經(jīng)驗。
第一周:知識提取
詳細提綱:?第一期w1:知識提取
知識提取是要解決結(jié)構(gòu)化數(shù)據(jù)生成的問題。但是廣義上講,知識提取是數(shù)據(jù)質(zhì)量提升中的一環(huán),各種提升數(shù)據(jù)質(zhì)量的方法,都可以視為某種知識提取。學術(shù)上一般是用自然語言處理的方法,但在實踐中通常是利用規(guī)則。
我們要熟悉的概念和工具有
× 正則表達式
× 中文分詞和詞性標注
× 命名實體識別
作業(yè):綜合分詞工具和正則表達式提取郵件簽名檔
第二周:知識表示
詳細提綱:?第一期w2:知識表示
知識表示是如何組織數(shù)據(jù)的結(jié)構(gòu),以方便推導出新的結(jié)構(gòu)的方法。傳統(tǒng)上屬于邏輯的分支,但在實踐中我們會用很簡單、可讀、可維持的數(shù)據(jù)結(jié)構(gòu)。
× JSON和YAML
× RDF和OWL
× JSON-LD
作業(yè):自己設(shè)計電子郵件的結(jié)構(gòu)化表示
第三周:知識存儲
詳細提綱:?第一期w3:知識存儲
知識存儲解決如何管理大量的結(jié)構(gòu)化數(shù)據(jù)。我們可以用不同的數(shù)據(jù)庫工具。現(xiàn)代的關(guān)系數(shù)據(jù)庫可能可以解決大多數(shù)需要知識圖譜的場合。某些特殊場合,我們需要圖數(shù)據(jù)庫。
× 知識鏈接的方式:字符串、外鍵、URI
× PostgreSQL及其JSON擴展
× 圖數(shù)據(jù)庫 Neo4j和OrientDB
× RDF數(shù)據(jù)庫Stardog
作業(yè):選擇一種數(shù)據(jù)庫存儲自己的電子郵件
第四周:知識檢索
詳細提綱:?第一期w4:知識檢索
知識檢索提供對用戶友好的交互。知識檢索從簡單到復雜可分為六級:關(guān)鍵詞、詞聯(lián)想、詞本體、短程關(guān)系、長程關(guān)系、自由問答。我們會實踐前兩個層次的技術(shù),并了解后面四個層次。
× Gensim實現(xiàn)主題模型
× ElasticSearch
× SearchKit構(gòu)造分面瀏覽器
× IBM Watson的架構(gòu) 作業(yè):瀏覽和檢索自己的電子郵件
(具體的內(nèi)容鏈接和作業(yè)內(nèi)容會在下周細化)
第一期學習小組的班長是杜會芳(中國農(nóng)業(yè)大學,?duhuifang@memect.co?)。有問題可以聯(lián)系我(?baojie@memect.co?) 和班長。
謝謝大家的參與。期待和你度過富有挑戰(zhàn)的四周。
https://github.com/memect/kg-beijing/wiki/%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1%E5%AD%A6%E4%B9%A0%E5%B0%8F%E7%BB%84%E5%AD%A6%E4%B9%A0%E5%A4%A7%E7%BA%B2
總結(jié)
以上是生活随笔為你收集整理的知识图谱学习小组学习大纲的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 直击Titan图数据库:如何提升25%+
- 下一篇: 【译】Advanced Blockcha