maftools|TCGA肿瘤突变数据的汇总,分析和可视化
之前介紹了使用maftools | 從頭開始繪制發表級oncoplot(瀑布圖) R-maftools包繪制組學突變結果(MAF)的oncoplot或者叫“瀑布圖”,以及一些細節的更改和注釋。
本文繼續介紹maftools對于MAF文件的其他應用,為更易理解和重現,本次使用TCGA下載
數據部分
#載入R包和數TCGA-LIHC的maf數據 library(maftools) laml.maf = read.csv("TCGA.LIHC.mutect.maf.csv",header=TRUE)#本次只展示maf的一些統計繪圖,只讀入組學數據,不添加臨床數據 laml = read.maf(maf = laml.maf) #查看數據的基本情況 laml An object of class ?MAF ID summary ? Mean Median1: ? ? ? ? ? ? NCBI_Build ? ? ? 1 ? ? NA ? ? NA2: ? ? ? ? ? ? ? ? Center ? ? ? 1 ? ? NA ? ? NA3: ? ? ? ? ? ? ? ?Samples ? ? 364 ? ? NA ? ? NA4: ? ? ? ? ? ? ? ? nGenes ? 12704 ? ? NA ? ? NA5: ? ? ? ?Frame_Shift_Del ? ?1413 ?3.893 ? ? ?36: ? ? ? ?Frame_Shift_Ins ? ? 551 ?1.518 ? ? ?17: ? ? ? ? ? In_Frame_Del ? ? 277 ?0.763 ? ? ?08: ? ? ? ? ? In_Frame_Ins ? ? 112 ?0.309 ? ? ?09: ? ? ?Missense_Mutation ? 28304 77.972 ? ? 63 10: ? ? ?Nonsense_Mutation ? ?1883 ?5.187 ? ? ?4 11: ? ? ? Nonstop_Mutation ? ? ?45 ?0.124 ? ? ?0 12: ? ? ? ? ? ?Splice_Site ? ?1051 ?2.895 ? ? ?2 13: Translation_Start_Site ? ? ?65 ?0.179 ? ? ?0 14: ? ? ? ? ? ? ? ? ?total ? 33701 92.840 ? ? 75#可以將MAF文件的gene ,sample的 summary 的信息,輸出到laml前綴的summary文件
laml_geneSummary.txt
laml_sampleSummary.txt
分析,可視化
1,繪制MAF文件的整體結果圖
2,繪制oncoplot圖
#oncoplot for top 20?genes. oncoplot(maf = laml, top = 20)添加SCNA信息,添加P值信息,添加臨床注釋信息,更改顏色等可參考 maftools | 從頭開始繪制發表級oncoplot(瀑布圖)
3,繪制Oncostrip
可以使用 oncostrip 函數展示特定基因在樣本中的突變情況,此處查看肝癌中關注較多的'TP53','CTNNB1', 'ARID1A'三個基因,如下:
oncostrip(maf = laml, genes = c('TP53','CTNNB1', 'ARID1A'))4 Transition , Transversions
titv函數將SNP分類為Transitions_vs_Transversions,并以各種方式返回匯總表的列表。匯總數據也可以顯示為一個箱線圖堆積條形圖顯示每個樣本中的轉換比例
5 Rainfall plots
使用rainfallPlot參數繪制rainfall plots,展示超突變的基因組區域。detectChangePoints設置為TRUE,rainfall plots可以突出顯示潛在變化的區域.
rainfallPlot(maf = laml, detectChangePoints = TRUE, pointSize = 0.6)6 Compare mutation load against TCGA cohorts
通過tcgaComapre函數實現laml(自有群體)與TCGA中已有的33個癌種隊列的突變負載情況的比較。
#cohortName 給輸入的隊列命名 laml.mutload = tcgaCompare(maf = laml, cohortName = 'LIHC-2')7 Genecloud
使用 geneCloud參數繪制基因云,每個基因的大小與它突變的樣本總數成正比。
geneCloud(input = laml, minMut =?15)8 Somatic 交互性
癌癥中的許多引起疾病的基因共同發生或在其突變模式中顯示出強烈的排他性。可以使用somaticInteractions函數使用配對Fisher 's精確檢驗來分析突變基因之間的的co-occurring 或者exclusiveness。
#exclusive/co-occurance event analysis on top 10 mutated genes. Interact <- somaticInteractions(maf = laml, top = 25, pvalue = c(0.05, 0.1)) #提取P值結果 Interact$gene_sets? ? ? ? ? ? ? ? ?gene_set? ? ? ?pvalue
?1:? ?AXIN1, TP53, CTNNB1 0.0001359059
?2:? TP53, CTNNB1, ARID1A 0.0017044866
?3:? ? ?AXIN1, TP53, APOB 0.0083559763
?4:? ? ? AXIN1, TP53, ALB 0.0166487594
?5: AXIN1, CTNNB1, ARID1A 0.0354069454
?6:? ? ? AXIN1, ALB, APOB 0.0503831670
可以看到TP53和CTNNB1之間有較強的exclusiveness,也與文獻中的結論一致。
9 兩個隊列比較(MAFs)
由于癌癥的突變模式各不相同,因此可是 mafComapre參數比較兩個不同隊列的差異突變基因
#輸入另一個 MAF 文件 Our_maf <- read.csv("Our_maf.csv",header=TRUE) our_maf = read.maf(maf = Our_maf)#比較最少Mut個數為5的基因 pt.vs.rt <- mafCompare(m1 = laml, m2 = our_maf, m1Name = 'LIHC', m2Name = 'OUR', minMut = 5) print(pt.vs.rt)result部分會有每個基因分別在兩個隊列中的個數以及P值和置信區間等信息。
SampleSummary 會有兩個隊列的樣本數。
1) Forest plots
比較結果繪制森林圖
forestPlot(mafCompareRes = pt.vs.rt, pVal = 0.01, color = c('royalblue', 'maroon'), geneFontSize = 0.8)10 Oncogenic 通路
OncogenicPathways 功能查看顯著富集通路
OncogenicPathways(maf = laml) #會輸出統計結果 Pathway alteration fractionsPathway ?N n_affected_genes fraction_affected1: ? ?RTK-RAS 85 ? ? ? ? ? ? ? 68 ? ? ? ? 0.80000002: ? ? ? ?WNT 68 ? ? ? ? ? ? ? 55 ? ? ? ? 0.80882353: ? ? ?NOTCH 71 ? ? ? ? ? ? ? 52 ? ? ? ? 0.73239444: ? ? ?Hippo 38 ? ? ? ? ? ? ? 30 ? ? ? ? 0.78947375: ? ? ? PI3K 29 ? ? ? ? ? ? ? 24 ? ? ? ? 0.82758626: Cell_Cycle 15 ? ? ? ? ? ? ? 11 ? ? ? ? 0.73333337: ? ? ? ?MYC 13 ? ? ? ? ? ? ? 10 ? ? ? ? 0.76923088: ? TGF-Beta ?7 ? ? ? ? ? ? ? ?6 ? ? ? ? 0.85714299: ? ? ? TP53 ?6 ? ? ? ? ? ? ? ?5 ? ? ? ? 0.8333333 10: ? ? ? NRF2 ?3 ? ? ? ? ? ? ? ?2 ? ? ? ? 0.6666667可以對上面富集的通路中選擇感興趣的進行完成的突變展示:
好了,以上就是使用maftools包對MAF格式的組學數據的匯總,分析,可視化。
?生信寶典后臺回復“maf文件”即可獲得示例的maf文件和代碼
【覺得不錯,右下角點擊賞個“在看”,轉發就是贊賞,謝謝!】
GEO/TCGA數據
UCSC XENA - 集大成者(TCGA, ICGC)
ICGC數據庫使用
TCGA數據庫在線使用
BROAD開發的TCGA分析平臺,強大的下載功能
cBioPortal功能強大的TCGA再分析平臺
這是數據更新最實時的TCGA網站,功能強大
不懂R,如何進行GEO數據庫表達譜的差異分析、富集分析、蛋白互作、可視化?
典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集
典型醫學設計實驗GEO數據分析 (step-by-step) - 數據獲取到標準化
這個只需一步就可做富集分析的網站還未發表就被CNS等引用超過350次
一個逆天的small RNA-seq數據挖掘神器
用了這么多年的PCA可視化竟然是錯的!!!
生信工具
OrthoMCL鑒定物種同源基因 (安裝+使用)
微生物組學數據分析工具綜述 16S+宏基因組+宏病毒組+宏轉錄組
39個轉錄組分析工具,120種組合評估(轉錄組分析工具哪家強-導讀版)
39個轉錄組分析工具,120種組合評估(轉錄組分析工具大比拼 (完整翻譯版))
無參轉錄組分析工具評估和流程展示
Graphpad,經典繪圖工具初學初探
維恩(Venn)圖繪制工具大全 (在線+R包)
別人的電子書,你的電子書,都在bookdown
Rfam 12.0+本地使用 (最新版教程)
輕松繪制各種Venn圖
ETE構建、繪制進化樹
psRobot:植物小RNA分析系統
生信軟件系列 - NCBI使用
掌握這個網站,萬方、維普、CNKI等眾多數據庫文獻統統可以免費下載!
拿到基因兩眼一抹黑?沒關系,先做個基因富集分析吧!
科研小萌新,掌握這些技巧,輕松玩轉各個基因!
引起相變的無序結構域(IDRs)怎么預測?跟蹤熱點,提升文章檔次!
如果你經常用PubMed,那么這個插件將非常好用!
基于人工智能的文獻檢索,導師查找,更聰明
GeenMedical:文獻查詢、篩選、引用排序、相似文獻、全文下載、雜志分區、影響因子、結果導出、雜志評述、直接投稿,一站服務
如何快準狠地找到相關領域的經典文獻?
Excel改變了你的基因名,30% 相關Nature文章受影響,NCBI也受波及
這些基因的名字太有才了,研究一下都可以發10分文章
文獻檢索新姿勢,教你如何直搜文中的科研圖片!
Endnote X8云同步:家里單位實時同步文獻筆記,有網隨時讀文獻
還在慌?Endnote的個性化文獻引用助畢業論文一臂之力
參考文獻中雜志名字格式混亂問題一次解決 - 修改style是沒用的
參考文獻中雜志名字格式混亂問題一次解決
實用網站和在線工具推薦
在線瀏覽器,在線PS,在線AI,在線編程 …
Gephi輕松繪制超美網絡圖
微生物組間差異分析神器-STAMP簡明教程?中文幫助文檔
微生物網絡構建:MENA, LSA, SparCC和CoNet??
FUNGuild:真菌功能注釋
在線RaxML構建系統發育樹
MetaboAnalyst 4.0,代謝組學研究利器的升級
RepeatMasker:基因組重復序列注釋
基因組注釋?1重復序列?2非編碼和編碼基因3功能注釋Prokka
去東方,最好用的在線GO富集分析工具
超簡便的國產lncRNA預測工具
LGC簡單漂亮的在線生信繪圖工具
MicrobiomeAnalyst:可視化微生物組網頁工具
NAR:MicrobiomeAnalyst微生物組分析師——統計、可視化和元分析微生物組數據的網頁工具
Docker的基本使用-Ubuntu18.04
Linux命令screen—終端切換,工作環境保存,畫面同步,防斷網
Bioconda軟件安裝神器:多版本并存、環境復制、環境導出
CIRCOS圈圖繪制 - circos安裝
QIIME2中文教程-把握分析趨勢
9個模塊+40余款軟件+老司機辣評 16S信息分析流程軟件和數據庫合集
擴增子分析神器USEARCH?簡介?v11新功能v11命令大全OTU表抽平otutab_rare核心OTU鑒定otutab_core
擴增子分析神器VSEARCH?分析流程?2.8.1中文幫助文檔
往期精品
畫圖三字經?生信視頻?生信系列教程?
心得體會?TCGA數據庫?Linux?Python?
高通量分析?免費在線畫圖?測序歷史?超級增強子
生信學習視頻?PPT?EXCEL?文章寫作?ggplot2
海哥組學?可視化套路?基因組瀏覽器
色彩搭配?圖形排版?互作網絡
自學生信?2019影響因子?GSEA?單細胞?
后臺回復“生信寶典福利第一波”獲取教程合集
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的maftools|TCGA肿瘤突变数据的汇总,分析和可视化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 无法在web.xml或使用此应用程序部署
- 下一篇: iMeta宏基因组生物信息期刊-创刊背景