单个基因集富集分析泡泡图绘制
富集分析是生物信息分析中快速了解目標(biāo)基因或目標(biāo)區(qū)域功能傾向性的最重要方法之一。其中代表性的計(jì)算方式有兩種:
一是基于篩選的差異基因,采用超幾何檢驗(yàn)判斷上調(diào)或下調(diào)基因在哪些GO或KEGG或其它定義的通路富集。假設(shè)背景基因數(shù)目為t,背景基因中某一通路pathway中注釋的基因有m個(gè);上調(diào)基因有k個(gè),上調(diào)基因中落于通路pathway的數(shù)目為q。簡(jiǎn)單來(lái)講就是比較q/k是否顯著高于m/t,即上調(diào)基因中落在通路pathway的比例是否高于背景基因在這一通路的比例。(實(shí)際計(jì)算時(shí),是算的odds ratio的差異,q/(k-q) vs (m-q)/(t-k-m+q))。這就是常說(shuō)的GO富集分析或KEGG富集分析,可以做的工具很多,GOEAST是其中一個(gè)最好用的在線功能富集分析工具,數(shù)據(jù)庫(kù)更新實(shí)時(shí),操作簡(jiǎn)單,并且可以直接用之前介紹的方法繪制DotPlot。
另一種方式是不硬篩選差異基因,而是對(duì)其根據(jù)表達(dá)量或與表型的相關(guān)度排序,然后判斷對(duì)應(yīng)的基因集是否傾向于落在有序列表的頂部或底部,從而判斷基因集合對(duì)表型差異的影響和篩選有影響的基因子集。這叫GSEA富集分析,注釋信息可以是GO,KEGG,也可以是其它任何符合格式的信息。GSEA富集分析 - 界面操作詳細(xì)講述了GSEA分析的原理、可視化操作和結(jié)果解讀。
具體原理解釋見(jiàn)我們?cè)贐站的免費(fèi)視頻:易生信轉(zhuǎn)錄組高級(jí)課程系列節(jié)選
GOEAST結(jié)果繪制富集分析泡泡圖?
單個(gè)基因集富集結(jié)果展示?
在去東方,最好用的在線GO富集分析工具一文中介紹了一款高引用、操作簡(jiǎn)單、數(shù)據(jù)庫(kù)每周同步更新的在線富集工具GOEAST,很受好評(píng)。美中不足的是,這個(gè)工具不能輸出泡泡圖。下面我們展示下如何用GOEAST輸出的富集結(jié)果表格自行篩選條目繪制富集分析泡泡圖。
GOEAST輸出的表格內(nèi)容如下 (geneIDs ? ?symbols 列內(nèi)容較長(zhǎng),此處沒(méi)用到,故未展示):
GOID Ontology Term Level q m t k log_odds_ratio p GO:0006730 biological_process one-carbon metabolic process 4 34 57 45240 13378 1.012309306 0.001481151 GO:0007154 biological_process cell communication 2 2169 6843 45240 13378 0.100137585 0.007326261 GO:0007165 biological_process signal transduction 5 1955 6136 45240 13378 0.107606604 0.006325629 GO:0023052 biological_process signaling 1 2100 6613 45240 13378 0.102820905 0.006590727 GO:0044700 biological_process single organism signaling 2 2100 6613 45240 13378 0.102820905 0.006590727 GO:0050896 biological_process response to stimulus 1 3251 10438 45240 13378 0.074846633 0.012472089 GO:0005515 molecular_function protein binding 1 3299 10399 45240 13378 0.101392361 3.32E-05 GO:0005794 cellular_component Golgi apparatus 6 611 1835 45240 13378 0.171200701 0.057432963 GO:0012505 cellular_component endomembrane system 2 1521 4648 45240 13378 0.146146563 0.000353056 GO:0071944 cellular_component cell periphery 2 2059 6559 45240 13378 0.086204434 0.065663723我們先看下其中幾列的含義是什么:
q: 用于分析的基因集中匹配到該通路的基因數(shù)目
m: 背景基因集中落在該通路的基因數(shù)目
t: 背景基因集中總的基因數(shù)目
k: 用于分析的基因集中總的基因數(shù)目
p: 富集顯著性值(FDR,多重假設(shè)檢驗(yàn)校正后的p-value)
log_odds_ratio: 富集比,具體見(jiàn)上面基礎(chǔ)部分
富集分析泡泡圖實(shí)際是一種散點(diǎn)圖,這個(gè)圖怎么繪制需要我們先理解這個(gè)圖每一部分的含義。理解了圖,剩下的就是把對(duì)應(yīng)列的信息賦值到圖上。
我們先把數(shù)據(jù)導(dǎo)入平臺(tái)http://www.ehbio.com/Cloud_Platform/front/#/analysis?page=b%27MTA%3D%27,
選擇一些參數(shù),體會(huì)下它們?cè)趫D上的體現(xiàn)和意義。
然后選擇參數(shù)
log_odds_ratio列作為橫軸(X-axis)信息
Term列作為縱軸(Y-axis)信息
這兩列就確定了點(diǎn)的分布,下面三個(gè)參數(shù)是給點(diǎn)的屬性賦值
統(tǒng)計(jì)顯著性p列作為Color variable,給每個(gè)點(diǎn)根據(jù)數(shù)值大小進(jìn)行上色,從顏色上區(qū)分富集顯著性
q列用于設(shè)置點(diǎn)的大小Point size variable,點(diǎn)越大表示目標(biāo)基因集中落在對(duì)應(yīng)通路的基因越多
Neg log10 transform variable是指定哪個(gè)變量進(jìn)行對(duì)數(shù)轉(zhuǎn)換,這是可選參數(shù),但通常我們會(huì)對(duì)p-value列做這個(gè)轉(zhuǎn)換。
轉(zhuǎn)換后越小的p-value值就會(huì)變得越大
提交后,獲得結(jié)果圖如下:
圖中每個(gè)點(diǎn)代表一個(gè)富集的條目,在Y軸有對(duì)應(yīng)標(biāo)記。這些條目按其log_odds_ratio的值排序后展示,log_odds_ratio高的條目在Y軸上方展示;每個(gè)點(diǎn)的大小代表用于分析的基因集中匹配到該通路的基因數(shù)目,顏色代表富集程度。
但這個(gè)圖中,點(diǎn)的大小有些太分散,顏色是綠色飽和度越高表示富集越顯著,可能跟常規(guī)認(rèn)知不同。修改兩個(gè)參數(shù):
Variable for be transformed in square root way選擇q,通過(guò)平方根降低數(shù)據(jù)之間的差距
設(shè)置顏色 Manual color vector (color set)為OrRd
獲得結(jié)果如下
往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)
機(jī)器學(xué)習(xí)
后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的单个基因集富集分析泡泡图绘制的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 挖掘PubMed数据库,获取报道的或推测
- 下一篇: 人类为啥比小鼠发育更慢?同日两篇《科学》