typescript获取数据库数据_肿瘤药敏多组学数据库(GDSC)的数据介绍和获取
????????在第一期的GDSC數據總覽中,我們根據數據庫的模塊進行總體的介紹。今天我們再深入了解GDSC所包含的數據及其獲取的方法,也就是GDSC的數據下載模塊。
??????? GDSC數據下載的模塊,分為4個模塊,分別是ANOVA results、drug data、genetic features和bulk data。在分析中常用藥物篩查IC50數據和多組學數據,故核心下載部分為bulk data。
1.ANOVA結果下載
在ANOVA結果下載頁面,下方預覽展示下載的內容(不同的列代表不同的項目,如藥物ID、藥物名、藥物的別名、藥物靶向的通路、藥物的靶點和藥物在pubmed中的ID),既可以下載pancancer的分析結果,也可以通過下拉菜單設置過濾條件下載特定的結果。但是在絕大部分情形下,我們主要是獲取藥敏信息IC50數據,結合基因組學信息,進行個性化的研究分析。
2. 藥物數據下載
在藥物數據下載頁面,下方預覽展示下載的內容(不同的列代表不同的項目,如藥物ID、藥物名、藥物的別名、藥物靶向的通路、藥物的靶點和藥物在pubmed中的ID),既可以下載pancancer的內容,也可以通過下拉菜單設置過濾條件下載特定的內容。
3. 基因特征下載
根據基因特征下載頁面,可以下載不同細胞系中的突變特征。但是這里涉及到的基因突變特征較少,不建議從該頁面下載基因突變特征。
4. bulk data下載
bulk data是下載數據的核心界面,該頁面提供了藥物篩查試驗的數據和細胞系基因組學數據。
GDSC儲存了細胞系的藥物敏感性數據: 包括藥物-細胞系反應的原始數據和IC50數據(半抑制濃度,凋亡細胞與全部細胞數之比等于50%時所對應的藥物濃度,反應細胞對藥物的耐受程度。IC50值越低,則說明細胞對藥物越敏感)。在后續的探究中,最常見的做法就是下載藥物-細胞系的IC50數據。
GDSC儲存了細胞系基因組學數據: 包括全外顯子測序、轉錄組測序、芯片測序(人類腫瘤細胞系1000)、拷貝數變異、DNA甲基化、融合數據等原始及部分處理過的數據。點擊對應的鏈接,將會跳轉至數據貯存的頁面。
(一)存貯于cell medel passport的多組學數據:
- 也就是突變數據和拷貝數下載的鏈接Download from Cell Model Passport。
- 通過該頁面便可以下載處理后的基因組學數據,包括突變數據、表達數據、拷貝數數據、融合數據和CRISPR KO data(探究腫瘤的基因依賴性)。
- 突變數據和拷貝數原始數據存貯在EGA(European Genome-phenome Archive),但是下載原始數據需要權限才能進行下載。WTSI CGP Data access committee數據獲取委員會負責數據的獲取,如果需要下載原始數據進行探究的小伙伴可以通過網頁提供的聯系方式進行訪問。
(二)存貯于GDSC1000資源的多組學數據 :
GDSC1000資源主要是來自文獻A landscape of pharmacogenomic interactions in cancer [Iorio et al, Cell 2016] ,故這些數據的處理過程需要參考原文文獻。參考此文獻:
- (A)基于11289個來自患者腫瘤識別到的CFEs(癌癥功能事件:腫瘤基因的突變、拷貝數變異和甲基化事件);
- (B)結合1001個來自COSMIC中的人腫瘤細胞系基因組學數據;
- (C)篩選出人腫瘤細胞系中的CFEs;
- (D)對人腫瘤細胞系進行265個藥物的敏感性篩查試驗;
- (E)最后使用3種不同的分析方法探索CFEs對藥敏敏感性的預測作用。
- (E1)ANOVA分析單個CFE對藥物敏感性的預測作用;
- (E2)logic模型探索提高藥物敏感性預測性能的組合CFEs;
- (E3)機器模型評估不同數據類型(基因突變、拷貝數變異、甲基化和基因表達數據)對藥物敏感性變異的解釋程度。
基于對文獻的認識,能夠明確GDSC1000資源[https://www.cancerrxgene.org/gdsc1000/GDSC1000_WebResources/Home.html]中存儲的數據類型(注意區分腫瘤數據和細胞系數據):基因突變數據、拷貝數數據、甲基化數據、表達數據、藥物篩查結果和多種數據類型的組合分析結果(如體細胞突變與拷貝數突變數據的組合)。
5. 小結
本小節主要向大家介紹了GDSC中存貯的bulk數據和GDSC1000數據的認識和下載,有助于大家更輕松獲取目的數據。祝大家在腫瘤藥敏數據庫學習和使用的路上越走越遠,越走越輕松。
6. 參考文獻
[1]. Iorio, F., et al., A Landscape of Pharmacogenomic Interactions in Cancer. Cell, 2016. 166(3): p. 740-754.
編輯:呂瓊
校審:羅鵬
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的typescript获取数据库数据_肿瘤药敏多组学数据库(GDSC)的数据介绍和获取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python q切换指定目录_Pytho
- 下一篇: 大数据实效_全流程监督 让大数据督查取得