TCGA样本命名详解
在TCGA中,一個患者可能會對應多個樣本,如TCGA-A6-6650可以得到3個樣本數據:
TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
大家知道一般在做TCGA數據分析的時候樣本名實際上只保留到前四個元素(以”-“分割),例如TCGA-A6-6650-01。所以實際上上示3個樣本一般只保留一個,那該怎么取舍呢?
在取舍之前,當然要先搞清楚樣本命名方式:
我們將此示圖以”-“分割,具體拆開解讀一下:
TCGA:Project, 所有TCGA樣本名均以這個開頭,標志
A6:Tissue source site,組織來源編碼,如A6就表示來源于Christiana Healthcare中心的結腸癌組織。更多編碼所代表的意義詳見:
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes
6650:Participant, 參與者編號
01:Sample, 這兩個數字可以說是最關鍵、最被大家注意的,其中編號01~09表示腫瘤,10~19表示正常對照,如下:
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes
所以在TCGA樣本名中,這個位置最常見的就是01和11,當然偶爾也會有其他的數字
A:Vial, 在一系列患者組織中的順序,絕大多數樣本該位置編碼都是A; 很少數的是B,表示福爾馬林固定石蠟包埋組織,已被證明用于測序分析的效果不佳,所以不建議使用-01B的樣本數據:
所以命名至此,已經可以開始用于區別不同的樣本了,以下將是更細節的描述:
11:Portion, 同屬于一個患者組織的不同部分的順序編號,同一組織會分割為100-120mg的部分,分別使用
R:Analyte, 分析的分子類型,對應關系如下所示:
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/portion-analyte-codes
1774:Plate, 在一系列96孔板中的順序,值大表示制板越晚
07:Center, 測序或鑒定中心編碼,更多編碼詳見:
https://tcga-data.nci.nih.gov/datareports/codeTablesReport.htm?codeTable=center
一個借鑒的圖片:
更多內容詳見:
https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode
http://docs.cavatica.org/docs/tcga-grch38-metadata
所以現在看這三個樣本:
TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
其區別就在于,前兩個使用的是患者的冰凍組織做的測序,而第三個用的是福爾馬林固定石蠟包埋組織;而前兩個樣本的區別在于同一組織后續使用了不同的96孔板。
理解了命名規則及三者命名上的主要區別后,現在可以重點解決如何從一個患者的多個樣本中挑選樣本的問題了,首先排除TCGA-A6-6650-01B-02R-A277-07,因為是-01B,福爾馬林固定石蠟包埋組織!剩下的兩個:
TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
先看看GDAC firehose遇到這種情況怎么解決,總結起來就是:
1、對RNA數據來說,Analyte為R的優先級最該,其次是R和T,而對于DNA層面的分析來說,D的優先級最高。
2、如果Analyte相同,那就選擇Portion和/或Plate值更大的。
所以按照GDAC firehose的方法,最終保留TCGA-A6-6650-01A-11R-A278-07,因為其相對于TCGA-A6-6650-01A-11R-1774-07的板號(Plate)更晚:
https://github.com/BioinformaticsFMRP/TCGAbiolinks/issues/163
雖然看起來可能這么選比較準確,但是稍微有些麻煩~
然后是cBioPortal中的處理方式:
隨機選擇了一個,理由很簡單啊,來源于同一個患者的癌組織樣本差別不大,小編隨機測試了兩個樣本,表達相關性值是大于0.8的。
---------------------
作者:Mr番茄蛋
來源:CSDN
原文:https://blog.csdn.net/qq_35203425/article/details/80851862
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!
轉載于:https://www.cnblogs.com/nkwy2012/p/10112581.html
總結
以上是生活随笔為你收集整理的TCGA样本命名详解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: php设计模式 -- 工厂模式
- 下一篇: 关于CATALINA_BASE