从零学习知识图谱——01(知识图谱技术介绍)
今年研一,導師給的大范圍是知識圖譜。從零開始學習知識圖譜相關知識,內容大多為筆記和心得,僅供參考。歡迎各位大牛來指導。
知識圖譜 (Knowledge Graph,KG) 以結構化的形式描述客觀世界中概念、 實體及其關系,將互聯網的信息表達成更接近人類認知世界的形式,提供了一種更好地組織、 管理和理解互聯網海量信息的能力。知識圖譜給互聯網語義搜索帶來了活力, 同時也在智能問答中顯示出強大威力,已經成為互聯網知識驅動的智能應用的基礎設施。知識圖譜與大數據和深度學習一起,成為推動互聯網和人工智能發展的核心驅動力之一。
知識圖譜技術是指知識圖譜建立和應用的技術,是融合認知計算、知識表示與推理、信息檢索與抽取、自然語言處理與語義 Web、數據挖掘與機器學習等方向的交叉研究。
知識圖譜技術分為三個部分 : 知識圖譜構建技術、知識圖譜查詢和推理技術,以及知識圖譜應用。
知識圖譜在下面應用中已經凸顯出越來越重要的應用價值:
1.知識融合:當前互聯網大數據具有分布異構的特點,通過知識圖譜可以對這些數據資源進行語義標注和鏈接,建立以知識為中心的資源語義集成服務;
2.語義搜索和推薦:知識圖譜可以將用戶搜索輸入的關鍵詞,映射為知識圖譜中客觀世界的概念和實體,搜索結果直接顯示出滿足用戶需求的結構化信息內容,而不是互聯網網頁;
3.問答和對話系統:基于知識的問答系統將知識圖譜看成一個大規模知識庫,通過理解將用戶的問題轉化為對知識圖譜的查詢,直接得到用戶關心問題的答案;
4.大數據分析與決策:知識圖譜通過語義鏈接可以幫助理解大數據,獲得對大數據的洞察,提供決策支持。
知識圖譜構建
1.知識表示與建模
知識表示將現實世界中的各類知識表達成計算機可存儲和計算的結構。 機器必須要掌握大量的知識,特別是常識知識才能實現真正類人的智能。從有人工智能的歷史開始,就有了知識表示的研究。知識圖譜的知識表示以結構化的形式描述客觀世界中概念、實體及其系,將互聯網的信息表達成更接近人類認知世界的形式,為理解互聯網內容提供了基礎支撐。
2.知識表示學習
隨著以深度學習為代表的表示學習的發展,面向知識圖譜中實體和關系的表示學習也取得了重要的進展。 知識表示學習將實體和關系表示為稠密的低維向量,實現了對實體和關系的分布式表示, 可以高效地對實體和關系進行計算、 緩解知識稀疏、有助于實現知識融合,已經成為知識圖譜語義鏈接預測和知識補全的重要方法。由于知識表示學習能夠顯著提升計算效率,有效緩解數據稀疏,實現異質信息融合, 因此對于知識庫的構建、 推理和應用具有重要意義, 值得廣受關注、深入研究。
3.實體識別與連接
實體識別與鏈接是知識圖譜構建、知識補全與知識應用的核心技術。實體識別技術可以檢測文本中的新實體,并將其加入到現有知識庫中。實體鏈接技術通過發現現有實體在文本中的不同出現, 可以針對性的發現關于特定實體的新知識。實體識別與鏈接的研究將為計算機類人推理和自然語言理解提供知識基礎
4.實體關系學習
實體關系學習就是自動從文本中檢測和識別出實體之間具有的某種
語義關系, 也稱為關系抽取。 實體關系抽取分類預定義關系抽取和開放關系抽取。預定義關系抽取是指系統所抽取的關系是預先定義好的, 比如知識圖譜中定義好的關系類別,如上下位關系、國家—首都關系等。開放式關系抽取。開放式關系抽取不預先定義抽取的關系類別,由系統自動從文本中發現并抽取關系。實體關系識別是知識圖譜自動構建和自然語言理解的基礎。
5.事件知識學習
知識圖譜中的事件知識隱含互聯網資源中,包括已有的結構化的語義知識、數據庫的結構化信息、半結構化的信息資源以及非結構化資源,不同性質的資源有不同的知識獲取方法。
知識圖譜查詢與推理計算
1.知識存儲和查詢
知識圖譜以圖(Graph)的方式來展現實體、事件及其之間的關系。知識圖譜存儲和查詢研究如何設計有效的存儲模式支持對大規模圖數據的有效管理, 實現對知識圖譜中知識高效查詢。因為知識圖譜的結構是復雜的圖結構,給知識圖譜的存儲和查詢帶來了挑戰。當前目前知識圖譜多以三元存在的 RDF 形式進行存儲管理,對知識圖譜的查詢支持 SPARQL 查詢。
2.知識推理
知識推理從給定的知識圖譜推導出新的實體跟實體之間的關系。 知識圖譜推理可以分為基于符號的推理和基于統計的推理。在人工智能的研究中,基于符號的推理一般是基于經典邏輯(一階謂詞邏輯或者命題邏輯)或者經典邏輯的變異(比如說缺省邏輯)。基于符號的推理可以從一個已有的知識圖譜推理出新的實體間關系,可用于建立新知識或者對知識圖譜進行邏輯的沖突檢測。基于統計的方法一般指關系機器學習方法, 即通過統計規律從知識圖譜中學習到新的實體間關系。知識推理在知識計算中具有重要作用,如知識分類、知識校驗、知識鏈接預測與知識補全等。
知識圖譜應用
1.通用和領域知識圖譜
知識圖譜分為通用知識圖譜與領域知識圖譜兩類,兩類圖譜本質相同,其區別主要體現在覆蓋范圍與使用方式上。 通用知識圖譜可以形象地看成一個面向通用領域的結構化的百科知識庫,其中包含了大量的現實世界中的常識性知識,覆蓋面廣。領域知識圖譜又叫行業知識圖譜或垂直知識圖譜,通常面向某一特定領域,可看成是一個基于語義技術的行業知識庫,因其基于行業數據構建,有著嚴格而豐富的數據模式,所以對該領域知識的深度、知識準確性有著更高的要求。
2.語義集成
語義集成的目標就是將不同知識圖譜融合為一個統一、 一致、 簡潔的形式,為使用不同知識圖譜的應用程序間的交互提供語義互操作性。 常用技術方法包括本體匹配(也稱為本體 映射)、實例匹配(也稱為實體對齊、對象共指消解)以及知識融合等。語義集成是知識圖譜研究中的一個核心問題,對于鏈接數據和知識融合至關重要。語義集成研究對于提升基于知識圖譜的信息服務水平和智能化程度,推動語義網以及人工智能、數據庫、自然語言處理等相關領域的研究發展,具有重要的理論價值和廣泛的應用前景,可以創造巨大的社會和經濟效益。
3.語義搜索
知識圖譜是對客觀世界認識的形式化表示, 將字符串映射為客觀事件的事務(實體、事件以及之間的關系) 。當前基于關鍵詞的搜索技術在知識圖譜的知識支持下可以上升到基于實體和關系的檢索,稱之為語義搜索。語義搜索利用知識圖譜可以準確地捕捉用戶搜索意圖,借助于知識圖譜,直接給出滿足用戶搜索意圖的答案,而不是包含關鍵詞的相關網頁的鏈接。
4.基于知識的問答
問答系統(Question Answering, QA)是指讓計算機自動回答用戶所提出的問題, 是信息服務的一種高級形式。 不同于現有的搜索引擎,問答系統返回用戶的不再是基于關鍵詞匹配的相關文檔排序,而是精準的自然語言形式的答案。問答系統被看做是未來信息服務的顛覆性技術之一, 被認為是機器具備語言理解能力的主要驗證手段之一。
總結
以上是生活随笔為你收集整理的从零学习知识图谱——01(知识图谱技术介绍)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: VC++每个版本对应的vcredist
- 下一篇: apa引用要在文中吗_【019】写作格式