Nhanes临床数据库挖掘教程1----数据库下载
美國國家健康與營養調查( NHANES, National Health and Nutrition Examination Survey)是一項基于人群的橫斷面調查,旨在收集有關美國家庭人口健康和營養的信息。
 地址為:https://wwwn.cdc.gov/nchs/nhanes/Default.aspx
 
 數據庫有5個信息欄:DEMO:人口統計學DIET: 飲食EXAM: 檢查 LAB: 實驗室指標Q: 問卷調查
 
 我以論文Zhang RH, Zhou JB, Cai YH, Shu LP, Simó R, Lecube A. Non-linear association between diabetes mellitus and pulmonary function: a population-based study. Respir Res. 2020 Nov 4;21(1):292.為參照(糖尿病與肺功能之間的非線性關聯:一項基于人群的研究)為參照,
 
 對數據進行下載,作者取的是2007-2012年的數據,我這里取的是2007-2008的數據。下載nhanes數據庫有兩種方法,1是直接從頁面下載,2是通過R包nhanesA下載。頁面下載為:
 點擊:Questionnaires, Datasets, and Related Documentation,再點擊2007-2018
 
 然后從右邊選擇需要的數據
 
 根據文章Non-linear association between diabetes mellitus and pulmonary function: a population-based study. Respir Res. 2020 Nov 4;21(1):292.的基線資料表列出的數據
 
 需要找到年齡、性別、種族、體重指數、血糖、FVC等相關指標,這是一個花時間的過程,需要慢慢找,先把人口統計數據下載下來看看,使用haven包的函數把數據打開
 
 使用R包下載也是一樣的,要記住數據的標識
 
 mydata1<- nhanes(‘DEMO_E’)
 
 
 對照變量說明提取需要的變量
 
 我做演示,隨便抽取一些
 還需要關鍵的血糖和肺功能的指標,血糖應該在化驗室指標那里,這次我們使用nhanesA包來下載
 先查看血糖文檔編號:GLU_E
 
數據小的話還是很快的
 
 對數據進行提取,序列號都要提取,等下對數據進行合并用的
同理依次取糖化血紅蛋白、肺功能數據
tanghuadb <- nhanes('GHB_E') tanghuadb1<- tanghuadb %>% select(SEQN, # 序列號LBXGH #糖化血紅蛋白 feihuoliang <- nhanes('SPXRAW_E ') feihuoliang1<- feihuoliang %>% select(SEQN, # 序列號SPXNFEV1, #FEV1:第一秒用力呼氣量SPXNFVC #FVC:用力肺活量,ml(估計肺容量))處理好數據以后把數據合并就好了
hdata<-join_all(list(dat1, xuetang1,tanghuadb1,feihuoliang1), by = 'SEQN', type = 'full')
 我們把它保存起來,今后的操作將在這個數據展開
 參考文獻:
總結
以上是生活随笔為你收集整理的Nhanes临床数据库挖掘教程1----数据库下载的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 浅析json_encode
 - 下一篇: 欧洲人“家里蹲”,差点把美国互联网搞“瘫