知识图谱入门
知識圖譜入門
- 1. 知識圖譜介紹及Neo4J入門教程(含CQL和Python)
- 1.1 概念
- 1.2 知識圖譜技術棧
- 1.3 知識圖譜解決方案
- 知識抽取
- 知識表示
- 知識融合
- 2.
1. 知識圖譜介紹及Neo4J入門教程(含CQL和Python)
推薦參考:https://zhuanlan.zhihu.com/p/343844947
Neo4J實戰:https://zhuanlan.zhihu.com/p/90483686
1.1 概念
知識圖譜中包含的節點:
- 實體: 指的是具有可區別性且獨立存在的某種事物。如某一個人、某一個城市、某一種植物等、某一種商品等等。世界萬物由具體事物組成,此指實體。如上圖的“中國”、“美國”、“日本”等。,實體是知識圖譜中的最基本元素,不同的實體間存在不同的關系。
- 語義類(概念):具有同種特性的實體構成的集合,如國家、民族、書籍、電腦等。 概念主要指集合、類別、對象類型、事物的種類,例如人物、地理等。
- 內容: 通常作為實體和語義類的名字、描述、解釋等,可以由文本、圖像、音視頻等來表達。
- 屬性(值): 從一個實體指向它的屬性值。不同的屬性類型對應于不同類型屬性的邊。屬性值主要指對象指定屬性的值。如上圖所示的“面積”、“人口”、“首都”是幾種不同的屬性。屬性值主要指對象指定屬性的值,例如960萬平方公里等。
- 關系: 形式化為一個函數,它把 k k個點映射到一個布爾值。在知識圖譜上,關系則是一個把k k個圖節點(實體、語義類、屬性值)映射到布爾值的函數。
參考來源:https://baijiahao.baidu.com/s?id=1592653047313321258&wfr=spider&for=pc
1.2 知識圖譜技術棧
其中實現層大概分成六個步驟,分別是知識獲取、知識抽取、知識融合、知識存儲、知識推理、知識建模和知識發現,
知識獲取 是獲取外部數據的方式,包括爬蟲和實時入庫的技術方法;
知識抽取 是對三元組進行知識的抽取,包括實體抽取、關系抽取和屬性的抽取;
知識融合 就是在抽取出來之后,存在很多的數據冗余和噪聲,要去做實體的消歧,數據的整合;
知識存儲 實際是要構建一個三元組RDF的數據結構,如果把所有的頂點和邊構造出來之后,要對他進行圖數據庫的存儲;
知識推理 如果要做一些深層次的知識問答,就要做很多的訓練,無論有監督的還是半監督的;
知識建模 更多的是去理解語義,涉及到屬性的映射,實體的連接;
知識發現 兩大主要的應用是知識的檢索和知識的問答。這些構建了知識圖譜的實現層。
1.3 知識圖譜解決方案
大規模知識庫的構建與應用需要多種智能信息處理技術的支持。通過知識抽取技術,可以從一些公開的半結構化、非結構化的數據中提取出實體、關系、屬性等知識要素。通過知識融合,可消除實體、關系、屬性等指稱項與事實對象之間的歧義,形成高質量的知識庫。知識推理則是在已有的知識庫基礎上進一步挖掘隱含的知識,從而豐富、擴展知識庫。分布式的知識表示形成的綜合向量對知識庫的構建、推理、融合以及應用均具有重要的意義。
知識抽取
知識抽取主要是面向開放的鏈接數據,通過自動化的技術抽取出可用的知識單元,知識單元主要包括實體(概念的外延)、關系以及屬性3個知識要素,并以此為基礎,形成一系列高質量的事實表達,為上層模式層的構建奠定基礎。知識抽取有三個主要工作:
- 實體抽取:在技術上我們更多稱為 NER(named entity recognition,命名實體識別),指的是從原始語料中自動識別出命名實體。由于實體是知識圖譜中的最基本元素,其抽取的完整性、準確、召回率等將直接影響到知識庫的質量。因此,實體抽取是知識抽取中最為基礎與關鍵的一步;
- 關系抽取:目標是解決實體間語義鏈接的問題,早期的關系抽取主要是通過人工構造語義規則以及模板的方法識別實體關系。隨后,實體間的關系模型逐漸替代了人工預定義的語法與規則。
- 屬性抽取:屬性抽取主要是針對實體而言的,通過屬性可形成對實體的完整勾畫。由于實體的屬性可以看成是實體與屬性值之間的一種名稱性關系,因此可以將實體屬性的抽取問題轉換為關系抽取問題。
知識表示
近年來,以深度學習為代表的表示學習技術取得了重要的進展,可以將實體的語義信息表示為稠密低維實值向量,進而在低維空間中高效計算實體、關系及其之間的復雜語義關聯,對知識庫的構建、推理、融合以及應用均具有重要的意義。
知識融合
由于知識圖譜中的知識來源廣泛,存在知識質量良莠不齊、來自不同數據源的知識重復、知識間的關聯不夠明確等問題,所以必須要進行知識的融合。知識融合是高層次的知識組織,使來自不同知識源的知識在同一框架規范下進行異構數據整合、消歧、加工、推理驗證、更新等步驟,達到數據、信息、方法、經驗以及人的思想的融合,形成高質量的知識庫。
其中,知識更新是一個重要的部分。人類的認知能力、知識儲備以及業務需求都會隨時間而不斷遞增。因此,知識圖譜的內容也需要與時俱進,不論是通用知識圖譜,還是行業知識圖譜,它們都需要不斷地迭代更新,擴展現有的知識,增加新的知識。
參考來源:https://www.cnblogs.com/small-k/p/10189165.html
https://zhuanlan.zhihu.com/p/71128505
2.
總結
- 上一篇: PHP函数记录-trim导致的编码异常
- 下一篇: tushare找出箱体突破点