知识图谱关键技术总览
[1] 馬忠貴,倪潤宇,余開航.知識圖譜的最新進展、關鍵技術和挑戰[J].工程科學學報,2020,42(10):1254-1266.DOI:10.13374/j.issn2095-9389.2020.02.28.001.
文章目錄
- 知識抽取與表示
- 知識融合
- 知識推理與質量評估
- 質量評估
- 知識圖譜應用
- 知識圖譜的挑戰與展望
- 知識融合技術
- 知識推理技術
- 知識的表示、存儲和查詢
知識圖譜全生命周期主要包括3種關鍵技術:
知識抽取與表示
對于知識圖譜首要的問題是:如何從海量的數據提取有用信息并將得到的信息有效表示并儲存,即知識抽取與表示
其主要目的是從樣本源中抽取特定種類的信息,然后以三元組(主語,謂語,賓語)的形式保存。針對信息抽取的種類不同,知識抽取分為實體抽取、關系抽取和屬性抽取,如下是知識圖譜的技術架構:
-
實體抽取(命名實體識別)
從樣本源中識別出命名實體
- 基于規則與詞典的方法
- 基于統計機器學習的方法
- 面向開放域的抽取方法
-
關系抽取
通過實體抽取獲得的實體之間往往是離散且無關聯的,通過關系抽取,簡歷起實體之間的語義鏈接
- 基于模板的關系抽取
- 基于監督學習的關系抽取
- 基于半監督或無監督學習的關系抽取
-
屬性抽取
補全實體信息,通過從樣本源中獲取實體屬性信息或屬性值,實體屬性可以看作是屬性值與實體的一種關系,可以通過關系抽取的解決思路獲得
知識融合
由于知識來源的不同,導致知識質量參差不齊,知識之間存在沖突或者重疊,因此可以利用知識融合技術對多源知識進行處理,一方面提高知識圖譜的質量,另一方面豐富知識的存量。
知識融合方法主要有三個方面:實體消岐、實體對齊和知識合并
-
實體消岐
https://blog.csdn.net/m0_46246301/article/details/122748121
因數據來源復雜,存在著同名異義的實體.例如,名稱為“喬丹”的實體既可以指美國著名籃球運動員,也可以指葡萄牙足球運動員,還可以指某個運動品牌.為了確保每一個實體有明確的含義,采用實體消歧技術來使得同名實體得以區分。
- 根據有無目標知識庫劃分
- 基于無監督聚類的實體消岐
- 基于詞袋模型的聚類
- 基于語義特征的聚類
- 基于社會網絡的聚類
- 基于百科知識的聚類
- 基于多源異構語義知識融合的聚類
- 基于實體鏈接的實體消岐
- 基于知識庫的實體鏈接系統
- 基于知識圖譜的實體鏈接系統
- 基于無監督聚類的實體消岐
- 根據有無目標知識庫劃分
-
實體對齊
在現實生活中,一個事物對應著不止一個稱呼。針對這些同義異名的實體,通過實體對齊可以將這些實體指向同一客觀事物。
- 基于決策樹的自適應屬性選擇的實體對齊方法
- 全自動的實體對齊框架(候選實體生成器、選擇器和清理器,利用搜索引擎)
- 大規模相似性模型
- 同義發現框架
- 基于深度學習的實體對齊方法
- SIF
- RNN
- Attention
- Hybrid
- 基于嵌入表示的實體對齊
- 基于無監督學習的實體對齊
- 多視角的實體對齊
參考文獻:[44-51]
-
知識合并
現存的知識庫或者知識圖譜都是各種機構或者組織根據自己的需求設計創建,其中的知識也存在著多樣性和異構性,并且存在很多知識上的重復和錯誤,因此需要使用知識合并技術。
知識圖譜的合并分為:數據層的合并和模式層的合并
- 基于特征嵌入向量的知識合并
- 基于嵌入的半監督跨語言學習方法
- 多通道圖神經網絡模型
知識推理與質量評估
知識推理技術可以提升知識圖譜的完整性和準確性。
知識推理方法包括:
基于圖結構和統計規則挖掘的推理
基于知識圖譜的圖結構以及挖掘蘊藏在知識圖譜中的規則進行推理
- PRA
- CPRA
- Agent
- Attention
- 深度圖傳播模型
基于知識圖譜表示學習的推理
表示模型將知識圖譜中相應的實體和關系用向量、矩陣或者張量的形式表示
表示后進行運算完成知識推理任務
- 基于距離的推理模型
- TransE
- TransH
- TransR
- TransF
- 基于語義匹配的推理模型
- RESCAL
- DisMult
- Complex
- ANALOGY
基于神經網絡的推理
基于神經網絡的推理方法將知識圖譜中事實元組表示為向量形式送入神經網絡中,通過訓練神經網絡不斷提高事實元組的得分,最終通過輸出得分選擇候選實體完成推理
- NTN(神經張量網絡)
- RCNN
混合推理
結合多種方法的優勢來提升推理效果
- Agent
- ReNN
- IterE
質量評估
通過質量評估技術來對新知識進行篩選,是構建知識圖譜中必不可少的環節
- LDIF
- CQUAL
知識圖譜應用
知識圖譜技術的發展得益于自然語言處理、互聯網等技術的發展,而不斷完善的知識圖譜技術也可以應用到自然語言處理、智能問答系統、智能推薦系統等技術中,進一步促進這些技術的發展。 進一步促進這些技術的發展,而這些技術以及知識圖譜技術又可以進一步應用在諸如醫療、金融、電商等垂直行業或領域內,幫助促進行業發展。
- 構建完備的知識圖譜可以幫助自然語言理解技術發展
- 短文本嵌入表示后送入卷積神經網絡進行分類
- 知識圖譜語言模型
- 智能問答系統可以依靠知識圖譜中的知識來回答查詢
- BERT模型和雙向長短期記憶網絡結合,條件隨機場預測字符標簽
- 知識圖譜可作為外部信息整合至推薦系統中,使得推薦系統獲得推理能力
- 知識圖譜注意力網絡模型
- 在垂直行業或領域內,知識圖譜已開始應用
- 在醫療領域,通過提供更加精確規范的行業數據以及更加豐富的表達,幫助非行業相關人員獲取醫療知識的同時也幫助行業人員更直觀快捷獲取所需醫療知識
- 在金融領域,借助知識圖譜檢測數據的不一致性,來識別潛在的欺詐風險
- 在電商領域,阿里巴巴已經通過應用知識圖譜,建立商品間的關聯信息,為用戶提供更全面的商品信息和更智能化的推薦,從而提升用戶的購物服務與體驗
- 知識圖譜也在教育、科研、軍事等領域中廣泛應用
知識圖譜的挑戰與展望
知識融合技術
目標:將新獲得的知識融人知識圖譜中
挑戰:
- 為了保證融合后知識圖譜的質量,首先要提升知識評估的能力.現存的知識評估方法大都是針對靜態知識進行評估,缺少動態知識評估手段是目前知識評估面臨的一大挑戰
- 要解決由自然語言的特殊性引發的知識冗余和缺失問題.當知識圖譜不能準確將具有同義異名的實體對齊或將同名異義的實體消歧就會導致知識圖譜中出現知識冗余或缺失
- 目前,因自然語言的復雜性,在單一語言的背景下實體對齊和實體消歧的準確率仍然有待提高,針對多語言實體對齊或消歧更是一大挑戰
知識推理技術
目標:通過已知的知識推理獲得新知識來完善知識圖譜
挑戰:
- 知識推理的主要對象多是二元關系,通常處理多元關系的方法是將其拆分為二元關系進行推理,然而將多元關系拆分會損失結構信息,如何盡可能完整地利用多元關系中復雜的隱含信息推理是知識推理的一大挑戰
- 現有的知識推理往往都是基于大量高質量的數據集訓練推理模型,在相應的測試集中測試優化模型來完成推理.除了數據集獲取成本高的問題,通過數據集訓練的模型的泛化能力也極為有限,而現實世界中人類通過少量樣本學習即可完成推理.如何模仿人腦機制實現小樣本或零樣本學習知識推理也是一大挑戰
- 知識圖譜中知識的有效性往往受到時間空間等動態因素約束,如何合理利用知識的動態約束信息完成動態推理也是知識推理的一大挑戰
知識的表示、存儲和查詢
挑戰:
- 目前,應用在行業領域的知識圖譜因為很大程度上依賴人工的參與構建,成本高昂.大多數研究工作主要針對知識圖譜的半自動構建,如何自動構建高質量知識圖譜是知識圖譜應用所面臨的一大挑戰
- 知識擁有指導功能,利用知識圖譜中的知識引導機器學習中的數據學習,從而降低數據依賴打破數據紅利損耗殆盡后的僵局,是知識圖譜應用面臨的一大挑戰
- 利用人類易懂的符號化知識圖譜,解釋各類機器學習特別是深度學習的過程,補足其在可解釋性方面的短板,也是知識圖譜應用面臨的一大挑戰
- 未來,能否應用知識圖譜中的知識,作為已知的經驗,通過訓練構建人工智能層面上的心智模型,同樣是知識圖譜應用的一大挑戰
知識圖譜中的知識引導機器學習中的數據學習,從而降低數據依賴打破數據紅利損耗殆盡后的僵局,是知識圖譜應用面臨的一大挑戰
- 利用人類易懂的符號化知識圖譜,解釋各類機器學習特別是深度學習的過程,補足其在可解釋性方面的短板,也是知識圖譜應用面臨的一大挑戰
- 未來,能否應用知識圖譜中的知識,作為已知的經驗,通過訓練構建人工智能層面上的心智模型,同樣是知識圖譜應用的一大挑戰
總結
以上是生活随笔為你收集整理的知识图谱关键技术总览的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 语法分析:自上而下分析
- 下一篇: 中国输配电设备产业需求形势及运行战略规划