医疗数据治理——构建高质量医疗大数据智能分析数据基础
醫療數據治理——構建高質量醫療大數據智能分析數據基礎
阮彤,邱加輝,張知行,葉琪 華東理工大學計算機科學與技術系,上海 200237
?
摘要:以專病真實世界研究為背景,分析了醫療數據治理和數據可用性存在的各種問題。從醫院數據治理出發,延伸到區域數據治理、??坡撁藬祿卫硪约搬t療標注數據與知識型數據的治理,總結了不同層次、不同層面數據治理的共性方法與個性方法。在此基礎上,進一步探討了數據治理中的主數據管理、元數據管理、數據質量控制等關鍵技術和關鍵環節。最后,給出了醫療大數據標準的基本框架,并基于現有的數據治理評估標準,對醫療大數據治理的現狀進行了評估。
關鍵詞:?醫療數據治理 ; 數據可用性 ; 元數據 ; 主數據
論文引用格式:
阮彤, 邱加輝, 張知行, 葉琪. 醫療數據治理——構建高質量醫療大數據智能分析數據基礎. 大數據[J], 2019, 5(1): 12-24
RUAN T, QIU J H, ZHANG Z X, YE Q. Medical data governance: building the data foundation for intelligent analysis of high quality medical big data. Big data research[J], 2019, 5(1): 12-24
1 引言
醫療健康大數據與人工智能呈蓬勃發展的態勢。一方面,醫院互聯互通、國家與省市大數據中心的建設,為醫療健康大數據奠定了良好的基礎;另一方面,個性化診斷、疾病預測與輔助決策支持系統等各類醫療人工智能應用也在不斷涌現。
國家對發展醫療大數據和人工智能非常重視,近幾年頒布了一系列指導意見和措施。國辦發〔2016〕47號《國務院辦公廳關于促進和規范健康醫療大數據應用發展的指導意見》提出建設全民健康保障信息化工程一期項目。作為該項目的前期工程, 2015年國家衛生和計劃生育委員會統計信息中心啟動了十省互聯互通項目,開展相關技術的驗證工作。截至2016年,該項目已經接入上海、湖南、湖北、江蘇、浙江、福建、重慶、內蒙古、遼寧、北京10個省級健康醫療大數據平臺,目前已完成所有省級健康醫療大數據平臺的接入。為深入貫徹落實國辦發〔2016〕47號文件精神,加快國家健康醫療大數據中心及產業園建設試點項目對接工作,2016年10月,福建、江蘇以及福州、廈門、南京、常州被確定為健康醫療大數據中心與產業園建設國家試點工程第一批試點省市。2017年12月,健康醫療大數據中心第二批國家試點啟動。根據部署,健康醫療大數據中心第二批國家試點已在山東、安徽、貴州3個省開展,并與第一批試點的江蘇、福建一起作為東、南、西、北、中5個健康醫療大數據區域中心建設及互聯互通試點省。目前,醫療領域已經積累了大規模臨床數據,并有了國家級別的數據采集和匯聚方案,保障了持續的數據增加和更新,并且為人工智能應用提供了基礎。
然而,在利用前期基于醫院或國家衛生健康委員會的區域平臺數據進行臨床科研和人工智能應用開發的過程中,即使在病人數量足夠的情況下,數據的可用性依然存在問題。這里既有數據本身的問題,也有數據流程管理問題和數據使用權限問題。例如,若研究特定治療方案對心衰與大腸癌的影響,需要從電子病歷中分別構建心衰隊列和大腸癌隊列。對于心衰隊列,入組條件是電子健康檔案中患有心衰疾病的病人,控制變量是是否吃了與心衰治療相關的中藥,終點事件是180天再入院率。對于大腸癌隊列,入組條件是電子健康檔案中患有大腸癌的病人,控制變量是是否手術,終點事件是復發或3~5年生存期。在構建隊列的過程中存在以下問題。
數據完整性不夠。例如,診斷心衰需要心臟彩超數據,診斷大腸癌需要病理和死亡數據。對于醫院來說,心臟彩超數據和病理數據是有的,但這些數據被分散在不同的檢查系統中,需要將這些數據集成在臨床專病庫中。此外,與終點事件相關的死亡信息和再入院率數據存在缺失的情況。如果病人不是在醫院死亡的,系統就無法知道病人的生存狀態,因此死亡信息無法被獲取。病人也有可能到其他醫院就診,這樣就無法統計再入院率這個數據了。如果是區域平臺,各省只有檢驗數據,沒有檢查數據。
數據精準度不夠。例如,心衰與心功能分級有關,而腫瘤需要分期,在電子健康檔案數據里面,很多病人的心功能分級數據或腫瘤分期數據是沒有的。
數據一致性不夠。以患者基本信息和時間信息為例,由于填錯或者其他原因,患者的基本信息在不同系統中可能是不一樣的,而不同系統的時間格式也可能是不一致的。
數據準確性不夠。病人的很多ICD編碼不在國家衛生健康委員會編碼規范里,此外,很多疾病名稱與ICD編碼系統中的疾病名稱不一致。
綜上所述,隨著醫療大數據與人工智能技術的深入發展,數據可用性已經成為制約醫療健康大數據智能分析應用發展的瓶頸。數據存在各種各樣的問題,具體如下。
原始數據在錄入過程中有數據錯漏、數據不完整等問題。
由于缺乏統一的元數據標準,數據融合困難。
由于缺乏統一的主數據管理,病人、醫生等醫療應用中的核心數據實體難以被唯一標識并實時更新。
數據清洗缺乏統一的策略,導致數據被多次清洗,使用代價高。
由于缺乏元數據和主數據標準,即使數據被勉強放在一起,數據可達性也很差,無法知曉每個字段的確切含義和具體取值范圍,難以基于簡單的查詢找到需要的數據。
大量醫療數據以文本、影像、圖像等非結構化的方式存儲,增加了管理和整合的難度。
另外,無論是在規劃層面還是在操作層面,數據隱私管理、數據使用的權限與流程都缺乏指導性的技術標準和規范,由此導致雖然采集、存儲了很多數據,但不知道誰可以用、應采用什么樣的方法用。
總體來說,要讓醫療大數據應用生根發芽,讓數據驅動的醫療人工智能技術與應用落地,就必須從源頭解決數據質量問題,解決在什么樣的情況下可以用什么樣的數據的問題,解決數據錄入、采集、融合與使用過程中多個環節的數據監督與控制問題,這些問題都屬于醫療數據治理問題。
2 醫療數據治理的概念、分類與階段
2.1 醫療數據治理的內涵與外延
維基百科將數據治理定義為組織機構遵循的一個既定的流程,以確保整個生命周期中的數據質量。國際數據管理協會(Global Data Management Community, DAMA)在《DAMA數據管理知識體系指南》中將數據治理定義為數據資產管理的權威性和控制性活動,是對數據管理的高層計劃與控制,包括在數據管理和使用層面進行規劃、監督和強 制執行。我國電子工業標準化技術協會信息技術服務分會(Information Technology Service Standards,ITSS)基礎標準工作組認為,數據治理包括:對信息利益相關者的需要評估;確保有效助力業務的決策機制和方向;確保對合規和績效的監督。
根據上述定義可知,數據治理需要一個權威的組織機構,這個組織機構需要對數據資產制定權威性的計劃,并控制活動。對于企業內部的數據治理,企業可以建立自己的數據治理機構,對數據行 使治理的權力。但是,醫療數據相對復雜和分散。一方面,醫院、國家衛生健康委員會、體檢機構、醫療科研、保險機構、互聯網健康機構以及病人都存有數據;另一方面,醫療數據所有權難以明確,數據治理的權威機構缺乏規定。
為此,國家衛生健康委員會在2018年9月研究制定了《國家健康醫療大數據標準、安全和服務管理辦法(試行)》(以下簡稱《管理辦法》)。在《管理辦法》的第二條中規定:我國公民在中華人民共和國境內所產生的健康和醫療數據,國家在保障公民知情權、使用權和個人隱私的基礎上,根據國家戰略安全和人民群眾生命安全需要,加以規范管理和開發利用。《管理辦法》明確了國家和政府機構對數據的使用權力,指明了數據治理的權威機構是國家衛生健康委員會,國家衛生健康委員會和相關部門負責統籌規劃、指導、評估、監督全國健康醫療大數據的標準管理、安全管理和服務管理工作??h級以上衛生健康行政部門和相關部門負責本行政區域內健康醫療大數據的管理工作,是本行政區域內健康醫療大數據安全和應用管理的監管單位。各級各類醫療衛生機構和相關企事業單位是健康醫療大數據安全和應用管理的責任單位。
2.2 醫療數據治理的分類
本文的數據治理主要圍繞醫院和區域衛生管理機構擁有的數據展開。將醫療數據治理按管理機構分為3類:一是醫院數據治理;二是區域數據治理;三是??坡撁?專科醫聯體/專病中心的數據治理。此外,還有醫療標注數據與知識型數據治理。
2.2.1 醫院數據治理
醫院數據治理被定義為:醫院對其數據資產的管理和控制,支撐并保障數據被安全、高效地交換與使用。圖1展示了醫院數據治理體系。
圖1???醫院數據治理體系
(1)組織與人員機構管理
醫院需要成立專門的數據管理部門,完成流程和規范制訂、數據質量保證和質量控制、流程審批等工作,并對數據使用方和IT設施建設方進行管理。目前,諸多醫院已經專門成立了大數據部門承擔這項工作,也有醫院將這項工作放在信息科或病案管理室。
(2)規范管理
規范管理包括流程管理與支撐規范、信息規范與數據規范。流程管理規范規定了何人在何種應用場景下,通過何人的審批可以操作何種類型的數據。首先,流程管理規范規定了人員或是角色的配置與管理,確定數據標準、更新維護、數據質量跟蹤等內容由誰完成。其次,規定了各種審批流程。
相比數據采集、加工與存儲的流程,數據使用流程的制度管理更為重要。部分醫院依據確定的審批流程管理數據的使用,臨床科室可以作為數據使用方提交數據使用要求,大數據管理部門以及其他數據管理方進行審批。但是,目前審批過程缺乏詳細的附加規范,比如何種職責的科室和醫生在什么情形下可以導出數據、數據能否離院、應由哪一級來審批決定,這些都需要具體規定。除管理規范外,不同角色的人員如何協作互動完成既定的工作,也可通過制定流程支撐規范實現。比如,科研流程不是簡單的數據導出和使用過程,通常可能需要多次的數據字段確認和細化、數據清洗和融合,因此,需要面向特定任務建立流程支撐規范,確保信息科、數據管理部門以及臨床醫生的有效協同。
信息規范包含隱私、數據權限管控規范和質量評估規范等。數據規范包括不同業務系統,如電子病歷數據規范、醫院信息系統數據規范。對于數據整合過程和整合后的系統來說,需要主數據和元數據規范以及相關的數據質量規范。
以上規范的制定有助于完成以下目標:數據有明確和準確的定義;數據有明確的責任方;數據有清晰的存儲方式與合理的時間期限;數據加工方法明晰;數據訪問方式與控制明確;數據內容符合標準要求與質量要求。
(3)平臺、工具與關鍵技術
數據治理需要有相應的平臺與工具支持,數據清洗過程需要抽取—轉換—加載(extract-transform-loa d,ETL)工具、文本結構化工具等。大數據管理需要支持多種存儲機制,管理平臺需要包含元數據管理、主數據管理、數據權限管理、審批流程管理、數據質量評估、數據質量監控等工具。此外,數據的使用需要各種統計模型和人工智能算法。
(4)數據智能化分析應用
整個數據治理應該是應用驅動的。治理可以圍繞臨床科研、醫院管理、輔助診療以及各種人工智能應用展開。
2.2.2 區域數據治理
區域數據治理與醫院數據管理內容相似,但實施起來難度更高,具體體現在以下幾點。
(1)主數據管理和元數據管理的復雜度高
病人基礎數據是臨床醫療信息的主數據。區域數據來源于多家醫院,每家醫院病人用的身份標識不一樣,病人基礎信息也會有差異。需要通過統一標識來統一病人的主數據,并關聯病人在不同醫院的就診記錄。另外,每家醫院的健康檔案的數據結構、疾病、檢驗、癥狀的名稱也有差異。如果希望做統一元數據管理,不僅涉及醫療信息系統設計問題,也涉及醫學語言的表達能力以及??浦g的差異問題,目前還沒有哪個區域能比較好地解決這個問題。
(2)數據安全性管理更嚴格,審批和流程管理更復雜
由于區域數據量比較大,病人的就診數據在時序上更完整,因此數據泄露帶來的嚴重性更大,區域對數據安全管理的要求更嚴格。另外,區域衛生管理機構只是行使數據管理權,數據使用者很多是醫療機構,在管理機構對醫療機構的數據使用申請進行約束和審批的過程中,由于無法了解醫療機構的真實意圖,因此需要通過更嚴格的審批和管理流程,保障數據的合理與安全使用。
2.2.3 ??坡撁???漆t聯體/專病中心的數據治理
??坡撁?專科醫聯體/專病中心的數據治理問題更復雜。??坡撁艘话阌蓹嗤t療機構牽頭,但是其牽頭單位并沒有行政權力,聯盟單位之間的協作共享完全是一種自愿的行為。因此,??坡撁诵问降尼t聯體除了要解決區域醫聯體中碰到的技術問題外,還要解決數據共享后的利益分享問題,確保醫聯體每個成員能在數據共享活動中受益。這項工作有部分醫療信息廠商正在做探索性的研究,主要通過區塊鏈確立數據來源,并通過智能合約實現臨床科研上利益的共享。專病中心可以看作專科醫聯體建立的數據中心,數據中心需要解決醫聯體成員對專病信息匯聚的技術問題。為了形成高質量的數據中心,部分專病中心嘗試采用了制定復雜的數據入庫規則、定時數據獲取制度、規范化科研病例報告表單定義等措施。
2.2.4 醫療標注數據與知識型數據治理
除了上述3類管理機構的數據治理問題之外,還有醫療標注數據與知識型數據的治理問題。數據治理主要面向的對象是病人數據,但在醫院協作共享過程中,知識型數據也必不可少。在面向人工智能的應用時,需要大量的標注數據,這些數據的管理和利用也應該屬于數據治理的范疇。
標注數據主要是針對電子病歷文本、影像等非結構化數據進行實體、屬性、關系等標注得到的數據,標注數據的質量對訓練深度學習或神經網絡模型起著決定性作用。為了實現對標注數據的治理,應該針對不同粒度的實體建立一套完整的標注規范,對標注過程的各要素進行規范化管理,并對標注結果進行交叉驗證等。
由于不同機構對知識型數據的表示各不相同,且知識之間存在復雜的關系,因此需要對知識型數據進行統一的表示,明確知識型數據之間的關系。此外,知識還會不斷地增長,需要建立知識管理機制,確保知識型數據能夠動態地擴充。
3 醫療數據治理工具平臺與關鍵技術
建立臨床數據治理需要平臺和工具,也要攻克一系列的關鍵技術。醫療數據治理工具平臺應包含數據存儲子系統、元數據管理子系統、主數據管理子系統、數據質量管控子系統以及患者數據脫敏工具等。為了構建這樣的工具平臺,需探討知識圖譜、數據融合算法、數據自動一致性檢測等多種技術。本文主要探討與醫療數據關系最密切的3項技術:元數據管理、主數據管理以及數據質量監 控與管理。
3.1 元數據管理
目前醫院信息系統中存在數據模式描述文檔不全、系統之間數據關聯不清晰、系統值域標準不統一等問題,這對數據的集成造成了極大的困擾。在區域層面,這些問題更嚴重。因此,需要通過元數據管理獲取業務系統中數據的含義,輔助數據理解,增加分析的敏捷性。元數據管理可以提高數據的可訪問性、一致性及可用性,為多種來 源數據的整合搭建了橋梁。
相比利用傳統字典表以及數據字段名稱的元數據初級表示方法,完整的元數據管理有完整的字段定義、與數據源的對應關系以及不同數據來源元數據之間的映射關系。
具體而言,元數據管理子系統主要由采集層、標準層、分析層和應用接口層組成。采集層從各種醫療信息系統內獲取元數據,查看元數據的變化和更新。標準層保存了元數據的標識信息、內容信息與模式信息等。由于醫院信息系統各異,標準層實現了將元數據映射到標準集合以及將不同的元數據進行互操作的功能。分析層主要提供了對元數據的管理、分析與查詢。元數據庫與數據源存在對應關系,當用戶通過統一入口提交查詢服務時,可以根據元數據庫提供的特征找到對應的信息資源,重組之后呈現給用戶。因此,應用接口層除了提供元數據訪問的限制和保護外,同時還服務于各個應用程序。
與其他領域相比,醫療領域的元數據規范相對比較成熟,如原衛生部頒布的《國家衛生計生委辦公廳關于印發住院病案首頁數據填寫質量規范(暫行)和住院病案首頁數據質量管理與控制指標(2016版)的通知》(國衛辦醫發〔2016〕24號)、《病歷書寫規范》(衛醫政發〔2010〕11號)、《電子病歷基本規范》(衛醫政發〔2010〕24號)、《衛生信息基本數據集編制規范》(WS 370-2012)、《衛生管理基本數據集》(WS374-2012)與《電子病歷基本架構與數據標準》(衛辦發〔2009〕130號)等。在數據值編碼標準方面,國際上有疾病分類編碼ICD-10、手術操作編碼ICD-9以及SNOMED術語庫,國內有國家標準《衛生機構(組織)分類與代碼表》(WS2182002)、《社會保險藥品分類與代碼》(LD/T90-2012)和《中醫病證分類與代碼》(GB/T15657-1995)。
然而,在使用過程中,這些標準會根據應用進行不同程度的刪減和擴充,甚至出現錯誤的使用。因此,基于標準建立一個元數據管理機制,可方便地在標準上擴充,并可以關聯不同的應用。從技術角度來說,這個管理機制可以基于知識圖譜技術建立。圖譜可以方便地給出元數據的定義,包括概念、概念層次、屬性、屬性值類型、關系、關系定義域概念集以及關系值域概念集,并且可以通過添加規則或公理來表示模式層更復雜的約束關系。借助知識圖譜圖結構的表達能力,可以表達關聯關系、同義關系、上下位關系與實例關系等,從而建 立更加靈活的數據約束條件,從而方便地表達和擴充元數據。借助于圖譜已有的模式對齊、實體匹配與沖突檢測算法,可以在語義層次對圖譜進行維護,在此基礎上實現自動的數據融合算法。圖2給出了疾病“心力衰竭”的部分知識圖譜,包括該疾病名稱的同義詞:心功能不全、心衰、心臟衰竭、心力衰竭等,所屬部位是“心臟結構”。
圖2???疾病“心力衰竭”的部分知識圖譜
利用該圖譜還能較好地實現電子病歷的標準化。如圖3所示,將電子病歷中不規范的文本進行標準化,例如將疾病名稱“心衰”標準化為“心功能不全”或“心力衰竭”,將“腦梗死”標準化為“腦梗塞”,將藥物“異舒吉”映射到標準藥物名“硝酸異山梨酯”等。
圖3???利用知識圖譜實現電子病歷的標準化
3.2 主數據管理
醫療數據的主數據主要有病人信息和醫生信息兩類。本文以病人信息為例,說明主數據管理的問題和難點。目前,在醫院層面,各業務系統對病人的信息分別進行存儲,但大型醫院都建立了臨床數據中心(clinical data repository,CDR),為了唯一標識一個病人,需要通過構建病人主索引號(enterprise master patient index, EMPI)將存儲于不同系統的病人關聯在一起。這里有兩個問題需要解決。第一,如何構建EMPI。識別不同系統中同一個病人不同ID之間的映射關系十分困難,特別是在區域平臺上每個系統都有獨立的ID,導致這個問題更復雜了。雖然這個問題可以通過匹配醫??ㄌ柌糠纸鉀Q,但由于有些病人沒有醫???#xff0c;有醫??ǖ囊膊皇敲看味加冕t???#xff0c;因此,要求病人通過身份證和手機號進行實名認證是必要的。第二,一個病人的基礎信息(如年齡、性別等)可能同時存在于醫院信息系統(hospital information system,HIS)、實驗室信息管理系統(laboratory information management system,LIS)和影像存儲與傳輸系統(picture archiving and communication system,PACS)等系統中。而各系統的側重點不同,難免會造成數據填寫質量不一致或數據未及時更新等問題。
為此,需要在定義系統主數據的情況下,構建主數據管理中央庫,解決主數據碎片問題。可以從各業務系統抽取數據,并進行數據融合,形成完備的主數據信息,然后再將主數據信息分發給各業務系統,保證各業務系統中這些信息的準確性和完整性。這樣就形成了公共的重要屬性由主數據管理系統管理、各業務系統的特色 屬性由各系統獨立管理的模式。
在構建主數據管理庫時,首先需要從多個異構的業務子系統中以ETL的方式抽取關鍵數據,然后,利用元數據庫 對其中的編碼、描述進行標準化。接著,由于多個業務系統的數據可能不一致,還需要通過匹配算法完成對數據的錯誤消除和信息融合。對于匹配不到的孤立信息,要加以監控跟蹤,進行人工處理。同時,以增量學習的方式不斷改進匹配算法。最后,將歸整好的主數據信息存入主數據庫。
以病人信息為例,病人的出生年月、性別等信息在各系統中都有,但由于HIS是從身份證讀取的信息,因而相比其他系統采用人工錄入的方式來說更準確。然而,病人的血型信息通常在LIS中是更準確的,甚至可能在門診/急診工作站中也沒有這些信息。通過主數據管理系統,可以從各系統中分別獲取信息,根據可靠性、一致率等進行信息校驗融合,最后形成該病人的完備信息,然后再將完備信息下發到各業務系統。
在這些主數據管理的基礎服務之上,還可以提供諸如患者畫像等高級功能。目前患者就診時,醫生僅能夠通過患者自述的方式快速了解慢性病史、過敏史等信息。盡管可以查閱歷史檔案,但對于醫生來說很不方便。而通過對診斷等數據的分析,可以形成患者慢性病、過敏史的標注信息,將這些信息合并到病人的主數據中形成患者畫像?;颊呔驮\時醫生可以直接從醫生工作站上讀取到這些標注信息,從而準確、快速地獲取這些必要信息。此外,在多家醫院之間實現主數據共同管理之后,還可以打通醫院之間的信息壁壘。若患者在A醫院診斷出患有某慢性病,當他下次去B醫院就診時,醫生也能快速得知該患者的這個信息,從而使就診更高效、更準確。
3.3 數據質量管控子系統
從數據產生過程來看,醫療數據質量問題主要來源于3個方面。
一是原始信息采集有誤差。在醫療系統內數據采集主要通過手工方式錄入,在醫生或護士輸入信息的過程中,可能會有意或無意地將數據錯誤引入系統。
二是數據融合過程發生問題。在對不同來源的數據進行融合時,數據格式和語義可能會有誤差或不一致,導致融合結果有錯 。
三是與數據的應用場景不匹配。例如,如果要進行病例統計,現有臨床電子病歷數據就能滿足統計場景的需求。但如果要做大腸癌療效分析,現有臨床電子病歷數據就難以滿足分析場景的要求,還需補充病理數據。
因此,在醫療數據治理流程中,需要了解最終的使用場景,也需要從業務系統的數據源頭控制質量,并保證每個融合和加工過程的正確性。另外,當發現錯誤的時候,可以實現自動或半自動的修正。因此,質量管控平臺包括了數據質量實時監控、數據質量后評估以及數據的自動修正。數據質量實時監控主要針對從業務系統抽取的或是從外部傳送的接口數據,通常從及時性、有效性和完整性等幾個指標監測接口內容本身的數據質量問題,還需要對采集程序進行監控,如接口采集程序是否正常啟動、是否正常結束等。數據質量后評估是指對融合后的數據進行質量評估。首先從確定評價對象和范圍著手,然后選取數據質量維度及評價標準,確定質量測度及評價方法,之后按照配置的評估指標執行評估,產生權重化的評估結果,最后生成質量結果和報告。數據的自動修正是指對于有錯誤或不一致的數據,部分數據可以進行自動化的探測和更正。例如,時間的表達可以是DD/MM/YY,也可以是YY/MM/DD,可以通過智能算法探測原始系統的表達方式,制定映射規則,實現日期格式的一致性。
除了上述內容之外,大數據存儲的便利性與查詢速度、醫療數據脫敏、流程管理工具、數據訪問權限管理、 數據的防復制等也是非常重要的問題,此處不再詳述。
4 醫療大數據治理標準與醫療數據治理能力評估
在單獨的業務系統以及數據互聯互通方面,國家衛生健康委員會已建立了相應的標準。但是,在醫療大數據方面,還缺乏專門的標準?!秶医】滇t療大數據標準、安全和服務管理辦法(試行)》指定,國家衛生健康委員將負責全國健康醫療大數據標準的制定工作,省級衛生健康行政部門將負責大數據標準的落地工作。從整體規范體系來看,需要制定的標準眾多,應該包含圖1中的流程標準、數據標準以及信息標準。需要特別指出的是,數據標準包含病人、醫生、醫院等主數據標準,也包含檢查、疾病、用藥等數據值標準。數據標準還需要對不同的醫療行為(如就診、診斷、治療等)進行標準化的描述。為了便于人工智能應用,對于文本數據和影像數據,也應有相應的標注規范。由于不同??菩枰臄祿侄斡胁顒e,有可能會進一步制定專科規范??偠灾?#xff0c;標準體系包含了相互關聯的多個標準,覆蓋面廣,種類眾多,標準的建設不是一蹴而就的。
除了醫療大數據治理標準外,值得一提的是醫療數據治理能力評估規范。數據治理能力評估規范可以考察企業對數據的管理能力,通過對企業的評估,可以逐步提高企業的數據治理能力。該評估標準經過修改后也可以用在醫療領域。
2010年,IBM公司發布的《IBM數據治理統一流程》描述了企業數據能力成熟度評價模型,將數據能力分為5個等級和11個功能域。2014年,能力成熟度模型整合(capability maturity model integration,CMMI)協會發布了企業數據管理成熟度(data management maturity,DMM)模型,該模型規定了6個職能域和25個過程域。
國內最早啟動相關研究的機構是全國信息技術標準化技術委員會,該機構于2014年開始開展相關的研究,并在2018年3月15日頒布了國家標準《數據管理能力成熟度評估模型》(GB/T 36073-2018)。該標準可以用于評估不同行業的企業的數據管理制度、手段、方法以及相關能力。標準從8個關鍵過程域考察了企業管理數據的能力。過程域和過程項包括:數據戰略(數據戰略框架、數據戰略實施、數據戰略評估、數據任務效益評估)、數據治理(數據治理組織、數據制度建設、數據治理溝通)、數據架構(組織數據模型、數據分布與整合、數據共享與應用服務、元數據管理)、數據應用(數據分析、數據開放共享、數據服務)、數據安全(數據安全策略、數據安全保護、數據安全審計)、數據質量(數據質量需求、數據質量檢查、數據質量分析、數據質量提升)、數據標準(業務術語、參考數據和主數據、數據元、指標數據)、數據生命周期(數據需求、數據設計與開發、數據運維、數據退役)。評價方法主要采用評價問卷和調研訪談兩種。評價問卷是根據數據能力成熟度模型定義每個域的評價指標,并對各個指標進行加權平均,計算自評結果。調研訪談則是根據重點問題,對相關單位人員進行輸入了解,準備評估數據能力的真實情況。
上述成熟度評價模型都將成熟度定義為5個等級。以國家標準GB/T 36073-2018為例,5個等級被定義為:初始級、受管理級、穩健級、量化管理級和優化級。其中,初始級是指對數據需求的管理主要在項目級體現,沒有統一的管理流程,是一種被動的管理;受管理級是指組織已經意識到數據是資產,根據管理策略的要求制定了管理流程,指定了相關人員進行初步管理;穩健級是指數據已經被當作實現組織績效目標的重要資產,在組織層面制定了系列標準化管理流程,促進數據管理的規范化;量化管理級是指數據被認為是獲取競爭優勢的重要資源,數據管理的效率能夠被量化分析和監控;優化級是指數據被認為是組織生存的基礎,相關管理流程能夠實時優化,能夠在行業內進行最佳實踐的分享。
參照國家標準對成熟度評價的5個等級,結合醫療數據管理的現狀,對醫療行業的數據治理能力進行分析和評估后發現,目前大多數醫療機構的數據治理能力至多在受管理級,即把數據當作重要資產,進行了初步的數據集成工作,制定了一定的管理流程。但是,還遠遠未達到穩健級,目前的數據管理流程還遠遠沒有達到標準化階段,無法滿足數據管理及應用能結合組織的業務戰略需求、經營管理需求以及監管需求,甚至很多醫院并沒有人專門管理數據。
5 結束語
醫療數據治理是一個“修高速公路”的過程,人工智能和大數據挖掘應用是“跑車”。修路是一個基礎設施建設,需要大量的投入,而且不會快速產生效果。但是,若沒有成功的數據治理,數據可用性就會有問題,現有的人工智能和大數據挖掘算法的效率和有效性就會打折扣。因此,各級醫療機構和醫療管理部門應投入人力物力,建立有效的數據治理機制,保障國家人工智能和大數據戰略的有效實施。
作者簡介
阮彤(1973- ),女,博士,華東理工大學計算機技術研究所教授、所長,主要研究方向為數據治理、自然語言處理、知識圖譜等。
張知行(1996- ),男,華東理工大學計算機科學與技術系碩士生,主要研究方向為信息提取、自然語言 處理和知識圖譜。
邱家輝(1995- ),男,華東理工大學計算機科學與技術系碩士生,主要研究方向為自然語言處理、知識 圖譜等。
葉琪(1976- ),女,博士,華東理工大學計算機科學與技術系講師,主要研究方向為數據治理、知識圖 譜等。
《大數據》期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
往期文章回顧
新工科背景下的計算機類專培養探討
基于主動學習和克里金插值的空氣質量推測
從數據的屬性看數據資產
數據安全治理的幾個基本問題
“全息數字人”——健康醫療 大數據應用的新模式
總結
以上是生活随笔為你收集整理的医疗数据治理——构建高质量医疗大数据智能分析数据基础的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: bash-shell高级编程--引用
- 下一篇: bash-shell高级编程--退出和退