临床数据库挖掘系列3-手把手教你使用R语言对seer数据库清洗
 從seer數(shù)據(jù)庫下載到數(shù)據(jù)后,部分人會感到無從下手,這是因為數(shù)據(jù)還沒有經(jīng)過清洗整理,不能變成我們統(tǒng)計軟件識別的形式,不能進行分析。今天我們手把手教你使用R語言進行seer數(shù)據(jù)庫清洗,讓數(shù)據(jù)變?yōu)槲覀兯谩?br /> 首先導(dǎo)入我們需要的R包,需要foreign,car,和stringr,需先下載好。
 
 然后我們把我們下載好的數(shù)據(jù)導(dǎo)入R,有20多萬條,靠手工更改是不可能完成的。
 查看一下數(shù)據(jù)的名字和形式還有變量
 head(be)
 names(be)
 
 
 感覺太亂了,有些名字很長,全部給它改下名字
我們重新查看一下數(shù)據(jù)集,這回清爽多了
 
 我們發(fā)現(xiàn)一共有14個變量,其中Lymph.Invasion都是缺失數(shù)據(jù),根本不能分析,只能刪掉,這就是公共數(shù)據(jù)庫的無奈
 很多數(shù)據(jù)中變量都是字符串,不符合要求,我們要把它們變成數(shù)字
 OK,轉(zhuǎn)換得差不多了,我們來看一下,rezult沒有用,我們不理他,等下刪掉,我們需要的是rezult1
 
 Ajcc我們沒有轉(zhuǎn)換,因為暫時還不需要用,等我們講到探索交互效應(yīng)分析的時候再說它,現(xiàn)在先不理他先,你如果有強迫癥的話也可以按我們上面的代碼轉(zhuǎn)換它
 OK,現(xiàn)在完成了?不還沒有,還有一個重要的變量沒有生成,就是競爭風險的結(jié)局
 我們現(xiàn)在來生成它
最后數(shù)據(jù)出來啦
 
 把它輸出為1.csv
最后打開1.csv,整理一下,這就是我們要發(fā)表的數(shù)據(jù)啦
 
 20多萬條數(shù)據(jù),發(fā)個中文核心或者低分SCI還不是輕輕松松,玩一樣。
 如果想更詳細了解數(shù)據(jù)挖掘過程,請關(guān)注我的科研教程
 更多精彩文章請關(guān)注公眾號:零基礎(chǔ)說科研
 
總結(jié)
以上是生活随笔為你收集整理的临床数据库挖掘系列3-手把手教你使用R语言对seer数据库清洗的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: SaaS(软件即服务)架构设计
- 下一篇: 鸿蒙之主的武器,各职业武器使用介绍 各职
