基于知识图谱的行业问答系统搭建分几步?
知識圖譜的概念首先是由谷歌提出,其目的是描述真實世界中存在的各種實體和概念,以及他們之間的關系,在真實的行業中應用時,我們需要先根據業務需求進行領域確定,然后通過正常的知識圖譜構建方式,進行基礎內容的搭建,最后進行實測之后進行優化處理,從而滿足原本的業務需求。
構建過程主要分為:知識體系搭建、知識抽取、知識融合、知識儲存和檢索、知識推理、知識問答等六步。
第一步:知識體系構建
采用什么樣的方式表達知識,其核心是構建一個本體對目標知識進行描述:
在這個本體中需要定義出知識的類別體系;
每個類別下所屬的概念和實體;?
某類概念和實體所具有的屬性以及概念之間、實體之間的語義關系;
同時也包括定義在這個本體上的一些推理規則。
第二步:知識獲取
知識獲取可分為結構化和半結構化數據源中的知識抽取和非結構化文本中實體的知識抽取?。
結構化和半結構化數據源中的知識抽取:因為數據噪聲少,這類數據源的信息抽取方法相對簡單,經過人工過濾后能夠得到高質量的結構化三元組。這是目前工業界常用的技術手段。
非結構化文本中實體的知識抽取:因為涉及到自然語言分析和處理技術,難度較大。但是互聯網上更多的信息都是以非結構化文本的形式存在,而非結構化文本的信息抽取能夠為知識圖譜提供大量高質量的三元組事實,因此是構建知識圖譜的核心技術。這目前也是學術研究的重點
第三步:知識融合
知識融合是對不同來源、不同語言或不同結構的知識進行融合,從而對于已有知識圖譜進行補充、更新和去重。從融合的對象看,知識融合分為知識體系的融合和實例的融合。核心問題是計算兩個知識圖譜中兩個 節點或邊之間的語義映射關系。
第四步:知識存儲和查詢
目前知識圖譜大多是基于圖的數據結構,它的存儲方式主要有兩種形式:RDF格式存儲(以三元組的形式存儲數據)和圖數據庫(比RDF 數據庫更加通用,目前典型的開源圖數據庫是Neo4j)。
第五步:知識推理
目前知識推理的研究主要集中在針對知識圖譜中缺失關系的補足,即挖掘兩個實體之間隱含的語義關系。所采用的方法可以分為兩種:
基于傳統邏輯規則的方法進行推理:研究熱點在于如何自動學習推理規則,以及如何解決推理過程中的規則沖突問題;
基于表示學習的推理:采用學習的方式,將傳統推理過程轉化為基于分布式表示的語義向量相似度計算任務。這類方法優點是容錯率高、可學習,缺點也顯而易見,即不可解釋,缺乏語義約束。
第六步:知識問答(完成最終應用)
看似簡單的六步,卻不知道應該怎么做?!這是現在大多數知識圖譜入門者最頭疼的問題。
很多初學者認為知識圖譜的入門學習比較難,不僅僅是因為知識圖譜的技術棧比較長,還因為涉及到NLP、ML、Database、知識工程等多個學科知識,找不到重點,自己摸索兩個月,回頭看“WC,還是啥也沒明白呀!”,最后越學越累……
深藍學院傾心打磨了《知識圖譜理論與實踐》課程,由于受疫情影響,我們基于以往6期的知識圖譜線下課程,迭代精品線上課程。本課程將理論基礎與實踐相結合,讓你實現基本知識圖譜的問答系統~
實踐項目
1
本體構建
是基于 Java 語言開發的本體開發工具,可以用于類模擬、實例編輯、模型處理與模型交換。課程將手把手教給大家用構建游戲相關的本體。
2
詞向量表示模型
學習如何實現Word2Vec詞向量表示,使用以及訓練自己的Word2Vec模型,了解 Fine - turning 過程以及 hierarchical softmax 和 negative sampling 的優化策略。
3
基于 Bert 的文本分類
首先詳細介紹 Bert 代碼中的 BertEmbeddings 類、 BertEncoder 類和 BertPooler 類這3個模塊的實現,然后講解如何將 Bert 用于構建文本分類器,并以 CoLA 標準數據集為例,用 Bert 實現判斷給定句子是否語法正確的任務,最后給出對于不同數據集,如何在不改變代碼框架基礎上,實現不同的數據預處理。
4
基于 LSTM + CRF 的命名實體識別
學習如何使用 PyTorch 實現 LSTM + CRF 序列標注模型,完成快遞信息抽取任務的命名實體識別,在基本模型的基礎上,完成 BiLSTM + CRF 模型。在實踐過程中,大家可以對比 CRF 模型與 BiLSTM + CRF 模型在命名實體識別任務的表現。
5
基于 CNN 與 multi - head selection 的實體關系抽取
利用 CNN 表示句子級特征,進而進行實體關系的分類,對比位置向量對模型提升的效果;進一步講解基于 multi - head selection 的關系分類,及其在語言與智能技術競賽中數據集上的 Pytorch 實現。
6
D2RQ關系數據庫轉 RDF?
首先講解將關系型數據轉成 RDF 的多種方式,比如直接映射、R2RML映射、D2RQ映射,然后重點講解D2RQ如何將關系型數據庫當作虛擬的 RDF 圖數據庫進行訪問的。
7
圖數據庫 Jena?
介紹圖數據庫 Jena 的基本使用方法,學習知識圖譜本體構建,掌握如何將關系數據庫( MySQL )中的表轉換成圖數據庫中的 RDF 三元組。
8
基于規則的推理
基于 Jena 數據庫,講解規則的語法以及規則文件的配置,最后通過 SPARQL 查詢,查詢數據庫中的喜劇演員名單。
9
基于分布式表示的推理
學習如何實現知識圖譜分布式表示模型 TransE ,講解 TransE 的關鍵模型的代碼實現。
10
基于知識圖譜的醫藥領域的問答系統
熟悉知識圖譜應用的開發流程。對于醫藥領域的問答系統,將教給大家從數據爬蟲開始,通過本體構建、RDF生成、問句解析、 SPARQL查詢以及答案生成等步驟搭建完成的問答系統。
課程大綱
搶占優惠名額啦
掃碼添加深藍學院-子書
備注【圖譜】,快速通過好友哦!
總結
以上是生活随笔為你收集整理的基于知识图谱的行业问答系统搭建分几步?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中央空调哪个牌子好,有哪些品牌呢?
- 下一篇: 不懂就问,创远防火电线的“防火”性能怎么