2022-TCGA数据库重大更新后RNASeq的STAR-Counts数据的下载与整理
TCGA?|?GEO?|?文獻閱讀?|?數據庫?|?理論知識
R語言?|?Bioconductor?| 服務器與Linux
最近有粉絲留言,TCGA數據庫發生更新,下載的數據和之前的不一樣。比如轉錄組,之前是HTSeq流程的數據,現在是STAR-Counts的數據。具體的數據信息參考:
https://docs.gdc.cancer.gov/Data/Release_Notes/Data_Release_Notes/#data-release-320
下載后的數據,打開是這樣的。都放在了一個文件中。
這里分享一下怎么提取數據。
數據的下載和之前的教程一樣【14-TCGA數據庫下載整理】。只不過這里選擇的是STAR-Counts了。加入購物車后下載下面的文件。
我先寫2個函數,一個是處理讀入json文件的函數,該文件包括文件信息和樣本barcode的關系。
processingJsonFiles <- function(jsonFile){library(rjson)metadata_json_File <- fromJSON(file=jsonFile)json_File_Info <- data.frame(filesName = c(),TCGA_Barcode = c())for(i in 1:length(metadata_json_File)){TCGA_Barcode <- metadata_json_File[[i]][["associated_entities"]][[1]][["entity_submitter_id"]]file_name <- metadata_json_File[[i]][["file_name"]]json_File_Info <- rbind(json_File_Info,data.frame(filesName = file_name,TCGA_Barcode = TCGA_Barcode))}rownames(json_File_Info) <- json_File_Info[,1]json_File_Info <-json_File_Info[-1]return(json_File_Info) }jsonFile是下載的json文件的完整路徑。
下面的函數是提取數據的函數。
filepath?是下載的數據路徑。通過dir等類似的函數獲取的路徑向量。比如,我們下載的數據是一個壓縮包,解壓后,將文件名重新命名為data。
filepath = dir(path = "./data",pattern = "counts.tsv$",full.names = T,recursive = T)jsonFileInfo是processingJsonFiles函數獲取的結果。
data_type是下面中的一種。
"unstranded";
"stranded_first";
"stranded_second";
"tpm_unstranded";
"fpkm_unstranded";
"fpkm_uq_unstranded"
對應文件中的信息
下面就可以獲取數據了,想要什么就獲取什么。一般就是TPM和FPKM。
原來TCGA數據庫的下載,使用TCGAbiolinks包是否還可以處理數據,我還沒有試,但下載數據應該是沒有問題的。
對于之前版本的數據。我之前文章【數據庫數據 | TCGA數據庫33種癌癥的 transcriptome profiling (RNA-Seq) 數據】有已經處理好的數據,大家可以下載。
最后,有用的給個贊賞!
經? ? 典? ? 欄? ? 目
總結
以上是生活随笔為你收集整理的2022-TCGA数据库重大更新后RNASeq的STAR-Counts数据的下载与整理的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 微信pc内嵌二维码的自定义样式更改
 - 下一篇: cgo 数据_华测数据处理软件CGO(C