开源开放 | 细粒度可循证医学文档知识融合表示和推理(CCKS2021)
OpenKG地址:http://openkg.cn/dataset/mdo-dataset
開放許可協議:GPL 3.0
貢獻者:武漢科技大學(高峰、龔珊珊、顧進廣、徐芳芳)
摘要
本開放資源在醫學文檔知識的基礎上,使用知識圖譜相關技術,解決了現有醫學知識本體模型存在過于關注概念體系構建、深層次醫學知識及關聯缺失、無法循證和難以跨病種和學科等不足,提出了一種支持全文內容與結構細粒度知識和知識論證與循證關系表示的醫藥學融合知識表示模型及其推理機制,且構建了一個面向高血壓專病的醫藥知識圖譜來驗證這一方法。結果表明,該模型能全面、一致的表達醫藥學文獻、文檔中的細粒度知識,同時支持醫藥學知識的可循證查詢和推理。
1. 前言:知識圖譜與醫學知識表示
知識圖譜及相關技術的出現為領域知識的結構化提供了全新手段,該技術現已經運用到醫療、教育等領域。如國際疾病分類(International Classification of diseases ,ICD)系統、統一醫學語言系統(Unified Medical Language System,UMLS)等,但這些資源主要關注臨床術語體系構建,未能對醫學文檔中除概念樹以外的知識內容、知識結構及其內在關聯的細粒度醫學知識進行表達。
而一些研究者基于常見的醫學文檔如醫學指南文獻和藥品說明書文檔構建醫學本體模型時忽略了非重點知識和深層次知識,同時知識也無法循證。所以提出一種新的建模方式對常見的兩類醫學文檔元數據進行本體建模,主要貢獻如下:
針對以上不足,使用了一種全新的建模方式,即用細粒度知識表示方式將醫學指南和藥品說明書中的醫藥知識全面完整、細粒和可循證表示。同時針對模型內容給出三個方面的推理規則并舉例,最后使用IAA標準對模型進行檢測,結果表明該模型能融合、一致和可循證地表示醫藥學知識。
2. 資源構建及概況
2.1?圖譜構建
本次構建的細粒度可循證醫藥知識本體模型包括醫學指南知識、藥學知識和醫學術語這三部分。其中醫學指南文獻知識表示指南句子類別,指南句子按照語意可分為定義、描述和事件三類,由于定義類句子和事件類句子有較為固定的表述框架,而描述類句子描述話題廣泛、表達方式靈活,因此為實現描述類句子詞語級語義細粒度知識靈活且簡潔的表示,創新性的使用了RDF(RDF Reification)具化方案來對指南文獻中的知識進行表達,即使用有描述知識屬性將不同的描述類句子與一個三元組(rdf:Statement)集合進行關聯,三元組集合中每一個三元組就是具化后的詞語級語義細粒度醫學知識,而且這一做法也能兼顧指南知識表示的靈活性與規范性。
對各模塊本體概念分析后得到的本體概念示例圖如下圖1-圖3所示。
圖1?醫學指南知識主要概念和關聯
圖2 藥學知識主要概念和關聯
圖3 醫學術語關聯圖例
在構建細粒度醫藥知識的同時,也可增加醫藥學知識的循證性。醫藥知識循證分為信息來源追溯和醫學循證兩部分,因為醫學循證較復雜,所以本文增加了循證評估類和循證體系類來對醫學循證進一步說明,下圖4為醫藥知識循證示例。
圖4 醫藥知識循證示例
2.2?知識推理
構建醫藥知識時,由于醫藥知識體系龐大且且知識之間也存在著關聯,因此很多知識可由規則推理得來。本節分別介紹詞語級語義細粒度推理、結構細粒度推理和可循證知識推理三部分共9條推理規則。
(1)詞語級語義細粒度知識推理
詞語級語義細粒度知識作為本體模型中最詳細的知識點,包含了豐富的醫學知識,針對詞語級細粒度知識的特點,給出表1所示規則。
表1??詞語級細粒度知識推理規則
(2)結構細粒度知識推理
醫學文檔中所含有的結構細粒度知識是承接整篇文檔和詞語級語義細粒度知識的橋梁,關于結構細粒度推理如表2規則所示。
表2??結構細粒度知識推理規則
(3)可循證知識推理
醫學循證旨在用證據解答臨床問題,可以很好的彌補經驗醫學所帶來的問題,是不同于傳統醫學的新醫學思維模式和臨床醫學研究方法。相關可循證推理規則如表3所示。
表3??可循證知識推理規則
需要指出的是,醫學知識的規則和推理遠不止下表中所述部分,本文只針對MDO所支持的代表性推理規則進行列舉以說明其對于醫藥文獻的詞語級細粒度語義知識、結構細粒度知識和可循證知識的表達和推理能力,以上各類規則可在醫學專家的輔助下進行擴展。
表4展示了圖譜中每類三元組的數量。
表4??各類知識統計表
3. 資源用途
對于構建后的資源,我們可以從以下幾個方面進行利用:
(1)查詢醫學相關知識。可在該圖譜中查詢指南細粒度知識、文獻循證知識、藥品基本信息知識、藥品相互作用知識、藥品不良反應知識、藥品禁忌知識和藥學知識點循證知識等7類知識。
(2)對醫學知識進行推理。由推理規則可以推理出額外的醫學知識,擴大了知識的延展性,也豐富了圖譜知識內容。
(3)用于專業醫護人員。現有的醫藥知識過于分散且復雜,通常情況下很難充分利用起來,對于醫學專業人員而言,由于關鍵醫學知識不夠直觀,且連篇累牘的醫學指南在查閱時不便記憶且耗時。那么可以使用該圖譜資源進行醫學知識的查詢。
(4)用于病患及家屬查詢用藥知識。專業醫學術語對非醫學專業人員在了解疾病時是累贅且無效的,再者查看文字篇幅長、專業化程度高、非結構化的醫學文檔存在一定的困難,不能夠及時有效提取出其中的信息,使用本資源則能快速、方便地得到細粒、簡潔且全面知識。
4.?總結
在本開放資源中,我們在構建醫學知識模型時增加醫學術語模塊、RDF具化方案等方法,使用詞語級三元組表示醫學知識,對醫學、藥學知識中的專業醫學知識進行具體靈活表示,增加了醫學循證對指南文獻的循證知識進行分析與處理,使醫學指南文獻和藥品說明書文檔中的醫藥知識都能細粒、一致和可循證的表示。同時介紹了詞語級語義細粒度、結構細粒度和循證三個方面的推理規則。我們希望此開放資源,可以更好地為知識圖譜技術與醫學知識的研究提供一定的支持。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的开源开放 | 细粒度可循证医学文档知识融合表示和推理(CCKS2021)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | BoxE:一种基于Box的
- 下一篇: 开源开放 | 开源立体化漏洞情报知识图谱