医疗数据典型特征及架构发展方向研究
前言
醫療健康產業目前呈高速發展狀態,處在互聯網對醫療行業賦能的關鍵階段,由于醫療行業數據的隱私性較強,通過傳統方式很難獲取公開的醫療健康數據進行研究,根據阿里云天池比賽賽題設置研究及提供的脫敏數據集著手進行分析是比較理想的手段。本文的目的在于對醫院的信息系統流程進行思考,結合公開數據集對于醫療健康數據特征進行分析,從而得出未來醫療健康產業數據架構模式的發展方向。
醫療健康數據特征
首先看一下天池比賽近期的兩場比賽,都是針對醫療數據進行研究并進行挖掘的,采用脫敏數據,數據來源于實際病例因此參考價值較高:
分析兩個比賽提供的數據集形式,可以明顯感到醫療數據集的特征為數據異構,即因為醫療檢測手段的關系,數據圖像化比例較高,但是因為訓練數據集需要根據患者其他特征包括性別、年齡、身高、體重等進行統籌分析,因此也包含了一部分結構化數據,因此醫療數據集是典型的非結構化數據和結構化數據并存的異構數據集。
常用預測算法分析
醫療數據所需要的預測結果一般為分類,由于結果的主要目的并非直接作出定性結論而更多的是為醫生提供參考因此二分類(即是或不是)和多分類(分為幾類)都有實際價值。
從宮頸癌風險智能診斷比賽要求結果看,初賽惡性細胞檢測算法屬于二分類問題,而復賽宮頸癌惡性細胞檢測分類算法屬于多分類問題即需要將檢測結果分類成5類典型宮頸癌。
數據處理方面,需要結合訓練集圖像輸入和醫生的手工標注信息和患者特征信息,因此深度學習算法的普遍使用成為必然,由于單張CT圖片和標注信息只能屬于一個患者因此JSON文件被采用作為記錄文件形式是非常合適的,單張CT文件對應單個JSON文件相比結構化表單能夠更好的記錄數據。
從數據量大小分析,數千份宮頸癌細胞學圖片和對應異常鱗狀上皮細胞位置標注,每張數據在20倍數字掃描儀下獲取,大小300~400M。因此以訓練集包含800張圖片計算訓練數據集大小約為273G,非結構化數據占了絕大部分。
從心電人機智能大賽比賽要求結果看,心電異常事件分類屬于多分類問題即需要將檢測結果分類成訓練集中的異常事件種類。4萬個醫療心電樣本。每個樣本有8個導聯,分別是I,II,V1,V2,V3,V4,V5和V6。單個樣本采樣頻率為500 HZ,長度為10秒,單位電壓為4.88微伏(microvolts)。因此在檢測設備輸出時已經將數據結構化,相比CT圖片的特征提取和數據處理并不需要采用深度學習算法,常規數據預處理手段即能滿足需求。
從算法角度進行分析,針對圖片進行計算需要用到深度學習算法,各類神經網絡中RNN即卷積神經網絡被使用頻率較高,也是目前圖像識別的主流算法。對兩個比賽中選手公開的算法進行統計,宮頸癌風險智能診斷比賽所采用的算法幾乎全部為基于神經網絡的深度學習算法,差異無非是所采用的深度學習框架不同和基于神經網絡衍生的算法采用不同。代表數據科學界對于未來非結構化醫療數據所采用的算法大方向上是統一的。心電人機智能大賽采用算法為機器學習分類算法,目前基于決策樹的分類算法占據絕對主導地位,在決策樹的基礎上衍生的機器學習算法如RF即隨機森林算法、GBDT算法和LIGHTLGBM算法又占了多數,LIGHTLGBM算法最普遍被使用。
從交叉驗證集調參和測試集驗證效果評估來說,面向癌癥算法和其他如心臟異常情況算法需要關注的角度不一樣,癌癥因為檢測結果對于病員包括家屬心理沖擊很大,因此對于測準率和召回率的平衡問題需要非常關注,防止算法過擬合而造成的草木皆兵情況,同時也加大了醫生復核的工作量。而心臟異常算法或是其他普通生化指標數據,則過擬合的問題沒有那么嚴重,因為數據的體量到了一定的程度根據大數定理即使過擬合也會逐步的傾向于往較為準確的趨勢發展。特別對于心臟異常情況判斷,高測準率極其重要,因為數據的實時性強并且隨時間變化價值下降速度較快,即使過擬合而誤報,能讓病員或家屬重視總是沒有錯的。
醫療數據處理架構方案
根據以上對于醫療健康數據特征、所采用的數據挖掘算法分析結果,對于醫療數據處理所用的架構方案進行研究。
醫療數據結構化和非結構化并存的特征造成需要使用CPU和GPU結合的異構計算。從醫院現實條件來說,非結構化數據的來源主要為放射性檢查設備等產生的圖像,如CT每張圖片的大小就約為350M,而生化指標包括心電指標能夠以結構化數據呈現。非結構化數據的處理需要消耗大量GPU計算力,無法在現實情況下要求醫院對于本地IDC機房進行大規模擴容并增加GPU集群。因此從架構上來說云-霧-邊協同會是比較理想的架構方式。
1 邊緣計算節點
各類檢測設備附近的計算節點(包括設備自帶的和醫生查看結果的PC機)構成協同體系內邊緣計算節點,但是現有技術條件下邊緣計算的計算力相對偏弱,無法要求邊緣節點進行大規模圖像識別計算,因此邊緣計算節點的主要任務是數據清洗并負責向霧端傳送,由于醫院的檢查種類較多,各種報告和圖像信息數據格式并不統一,因此預先在邊緣端進行數據清洗有助于霧端和云端降低計算壓力并幫助醫院未來實現統一數據中臺可能。
2 霧計算節點
醫院現有本地IDC機房可以考慮作為霧計算節點,霧計算節點目前對于醫療行業尤其重要,雖然5G技術在時延上和傳輸速度上都滿足大規模數據傳輸要求但是由于醫院的環境較為復雜,如果邊緣計算節點的數據需要直接傳送到云端則在網絡層會極其依賴無線通信手段,而無線通信特別是5G較高的頻率在全方位全覆蓋性的邊緣計算節點與云端通信過程中是否會對醫療設備產生干擾和其他預料之外的問題需要在實際應用中再研究,短期內,邊緣計算節點數據通過有線通信手段傳送到霧計算節點是最合適的方法。
霧計算節點的現實作用非常多,如集中邊緣計算節點數據和區分應用場景并進行計算,特別如果個別醫院本地IDC服務器集群配置較強則可以就地對于結構化數據進行挖掘、訓練模型并進行預測工作而不必傳送到云端。此外從通信角度,霧端作為統一數據出口向云端無線傳輸數據可以最大可能避免無線信號對于醫療設備可能的干擾作用。短期5G未普及情況或者費用較高的情況下可以采用本地IDC與云端專線通信方式作為過渡手段。
在具有多個院區的醫院中,不同地域的本地IDC作為霧端能夠進行異地容災建設。多個本地IDC機房在不同地域互為災備,確保單一節點故障能夠及時遷移確保業務不中斷及存儲數據的可用性和完整性。
3 云端
云計算平臺能夠很好的解決醫院異構數據計算需求大但又短時間無法配置大規模GPU集群的現實情況,CT等放射性檢查設施產生的高清圖像文件及其他需要采用深度學習算法的數據可以統一通過霧端傳輸到云端進行計算,云計算彈性伸縮的優勢在面對醫院計算力需求隨患者數量呈時間性波動的情況時也可以最大可能的減小醫院異構計算成本,GPU集群的配置通過彈性伸縮在醫院計算力需求大時自動擴充計算節點,而需求小時自動減小集群內虛擬機規模。
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的医疗数据典型特征及架构发展方向研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 编码规范 | Java函数优雅之道(上)
- 下一篇: 这群程序员疯了!他们想成为IT界最会带货