匿名电子病例信息不全?深度学习能更好的判断出种族(代码开源)
匿名電子病歷(EMR)是越來越受歡迎的研究數據來源。然而,這些數據集通常缺少人種和種族信息。這給人類疾病的研究人員造成了困擾,因為人種和種族對許多健康風險和治療結果有著重要的影響,另外也跟人口特異性遺傳變異密切相關。
為此,來自普林斯頓大學的Ji-Sung Kim,以及來自芝加哥大學的Andrey Rzhetsky共同展開了一項新的研究,并把研究工具RIDDLE進行了開源。
RIDDLE是一個開源的Python2庫,用于使用深度學習方式在匿名電子病歷中估算人種和種族信息。
Kim和Rzhetsky使用了來自芝加哥和紐約的EMR數據集,總共描述了超過150萬名患者,約有1.5萬個特征,包括:性別、年齡、臨床事件觀察(編號為ICD9代碼)。
在這個研究中,他們發現深度神經網絡比其他方法(例如邏輯回歸、隨機森林)能更準確的補全缺失的人種和民族信息,在所有考察標準上都得到了更好的分類性能:精度、交叉熵損失(誤差)等。
實驗結果表明,RIDDLE的平均精度為0.671,最高的兩個準確度為0.865,測試數據的交叉熵損失為0.849,這個結果顯著優于邏輯回歸和隨機森林分類器。
他們用這些訓練過的神經網絡模型來識別、量化和可視化預測人種和種族的醫學特征,并使用這些特征來進行人種和種族差異性疾病模式的系統比較。事實上,臨床病史對人種和種族的估算信息可能反映出:
- 跨越種族和族裔的藍領、白領職業的偏態分布
- 可能的生活習慣變化,例如飲食習慣
- 易患疾病的遺傳背景和變異差異
RIDDLE通過運行并行化的TensorFlow/Theano后端來高效訓練模型,以及使用預處理數據和分批訓練的方式來避免內存溢出。
RIDDLE使用Keras來指定和訓練潛在的深度神經網絡,并用DeepLIFT來計算“特征到類別”的貢獻值。
目前的RIDDLE Python模塊與TensorFlow和Theano一起作為Keras的后端。默認架構是一個深度的多層感知器(深度MLP),使用二進制編碼的特征和目標。當然,你可以自己編寫model_module文件來指定任何神經網絡架構和數據格式。
想要進一步了解RIDDLE,可以訪問如下地址:
https://github.com/jisungk/riddle
相關論文可以訪問這個地址查看:
https://arxiv.org/pdf/1707.01623.pdf
【完】
本文作者:問耕 原文發布時間:2017-07-10總結
以上是生活随笔為你收集整理的匿名电子病例信息不全?深度学习能更好的判断出种族(代码开源)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大白话说Java泛型:入门、使用、原理
- 下一篇: 如何用点云对车辆和行人进行识别分类?这是