系统架构设计师与系统分析师历年实体分析与解答下载_医疗知识图谱问答系统探究(一)...
1、項目背景
為通過項目實戰增加對知識圖譜的認識,幾乎找了所有網上的開源項目及視頻實戰教程。
果然,功夫不負有心人,找到了中科院軟件所劉煥勇老師在github上的開源項目,基于知識圖譜的醫藥領域問答項目QABasedOnMedicaKnowledgeGraph。
項目地址:https://github.com/liuhuanyong/QASystemOnMedicalKG
用了兩個晚上搭建了兩套,Mac版與Windows版,哈哈,運行成功!!!
從無到有搭建一個以疾病為中心的一定規模醫藥領域知識圖譜,以該知識圖譜完成自動問答與分析服務。該項目立足醫藥領域,以垂直型醫藥網站為數據來源,以疾病為核心,構建起一個包含7類規模為4.4萬的知識實體,11類規模約30萬實體關系的知識圖譜。 本項目將包括以下兩部分的內容:
1、基于垂直網站數據的醫藥知識圖譜構建2、基于醫藥知識圖譜的自動問答
2、項目環境
2.1 windows系統
搭建中間有很多坑,且行且注意。
配置要求:要求配置neo4j數據庫及相應的python依賴包。neo4j數據庫用戶名密碼記住,并修改相應文件。
安裝neo4j,neo4j 依賴java jdk 1.8版本以上:
java jdk安裝方法可參考:windows系統下安裝JDK8,下載地址:https://download.oracle.com/otn-pub/java/jdk/8u201-b09/42970487e3af4f5aa5bca3f542482c60/jdk-8u201-windows-x64.exe安裝neo4j可參考博文:windows安裝neo4j,下載地址:https://go.neo4j.com/download-thanks.html?edition=community&release=3.4.1&flavour=winzip
安裝python可參考:Windows環境下安裝python2.7
根據neo4j 安裝時的端口、賬戶、密碼配置設置設置項目配置文件:answer_search.py & build_medicalgraph.py (github下載項目時根據個人需要也可使用git)
數據導入:python build_medicalgraph.py,導入的數據較多,估計需要幾個小時。
python build_medicalgraph.py導入數據之前,需要在該文件main函數中加入:
build_medicalgraph.py啟動問答:python chat_graph.py
2.2 Mac系統
mac本身自帶python、java jdk環境,可直接安裝neo4j圖數據庫,項目運行步驟與windows基本一樣。
問題解答:
安裝過程中如遇問題可聯系Wechat: dandan-sbb。2.3 Neo4j數據庫展示
2.4 問答系統運行效果
3、項目介紹
該項目的數據來自垂直類醫療網站尋醫問藥,使用爬蟲腳本data_spider.py,以結構化數據為主,構建了以疾病為中心的醫療知識圖譜,實體規模4.4萬,實體關系規模30萬。schema的設計根據所采集的結構化數據生成,對網頁的結構化數據進行xpath解析。
項目的數據存儲采用Neo4j圖數據庫,問答系統采用了規則匹配方式完成,數據操作采用neo4j聲明的cypher。
項目的不足之處在于疾病的引發原因、預防等以大段文字返回,這塊可引入事件抽取,可將原因結構化表示出來。
3.1 項目目錄
.3.2 知識圖譜的實體類型
3.3 知識圖譜的實體關系類型
3.4 知識圖譜的屬性類型
3.5 問答項目實現原理
本項目的問答系統完全基于規則匹配實現,通過關鍵詞匹配,對問句進行分類,醫療問題本身屬于封閉域類場景,對領域問題進行窮舉并分類,然后使用cypher的match去匹配查找neo4j,根據返回數據組裝問句回答,最后返回結果。
問句中的關鍵詞匹配:
根據匹配到的關鍵詞分類問句
問句解析
查找相關數據
根據返回的數據組裝回答
3.6 問答系統支持的問答類型
4、項目總結
基于規則的問答系統沒有復雜的算法,一般采用模板匹配的方式尋找匹配度最高的答案,回答結果依賴于問句類型、模板語料庫的覆蓋全面性,面對已知的問題,可以給出合適的答案,對于模板匹配不到的問題或問句類型,經常遇到的有三種回答方式:
1、給出一個無厘頭的答案;2、婉轉的回答不知道,提示用戶換種方式去問;
3、轉移話題,回避問題;
例如,本項目中采用了婉轉的方式回答不知道:
基于知識圖譜的問答系統的主要特征是知識圖譜,系統依賴一個或多個領域的實體,并基于圖譜進行推理或演繹,深度回答用戶的問題,基于知識圖譜的問答系統更擅長回答知識性問題,與基于模板的聊天機器人有所不同的是它更直接、直觀的給用戶答案。對于不能回答、或不知道的問題,一般直接返回失敗,而不是轉移話題避免尷尬。
整個問答系統的優劣依賴于知識圖譜中知識的數量與質量。也算是利弊共存吧!知識圖譜圖譜具有良好的可擴展性,擴展了知識圖譜也就是擴展了問答系統的知識庫。如果問句在射程范圍內,可輕松回答,但如果不幸脫靶,則體驗大打折扣。
從知識圖譜的角度分析,大多數知識圖譜規模不足,主要原因還是數據來源以及技術上知識的抽取與推理困難。
http://weixin.qq.com/r/qS_uto-EP9JArcvV93q7 (二維碼自動識別)
個人博客:http://www.bobinsun.cn題圖總結
以上是生活随笔為你收集整理的系统架构设计师与系统分析师历年实体分析与解答下载_医疗知识图谱问答系统探究(一)...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 8086汇编4位bcd码_51单片机用汇
- 下一篇: 赛微电子市场竞争力 国内市场需要进一步拓