Volcano plot | 别再问我这为什么是火山图
火山圖是散點(diǎn)圖的一種,它將統(tǒng)計(jì)測試中的統(tǒng)計(jì)顯著性量度(如p value)和變化幅度相結(jié)合,從而能夠幫助快速直觀地識別那些變化幅度較大且具有統(tǒng)計(jì)學(xué)意義的數(shù)據(jù)點(diǎn)(基因等)。常應(yīng)用于轉(zhuǎn)錄組研究,也能應(yīng)用于基因組,蛋白質(zhì)組,代謝組等統(tǒng)計(jì)數(shù)據(jù)。
所以關(guān)注火山圖(其它類型圖也是),先理解每個(gè)點(diǎn)是什么(點(diǎn)代表基因、樣品、通路或其它的,這個(gè)認(rèn)識可以來自于常識,更準(zhǔn)確的是看作者的描述),然后看橫軸代表什么、縱軸代表什么,再看圖例中展示的其他信息,如顏色、大小和形狀分別代表什么。這些都理順了,圖理解就不難了。
如圖一:
-
每個(gè)點(diǎn)代表一個(gè)檢測到的基因。
-
橫軸和縱軸用于固定點(diǎn)在空間的位置。
-
一般橫軸是Log2(fold change),點(diǎn)越偏離中心,表示差異倍數(shù)越大。
-
縱軸是-Log 10 (adjusted P-value),點(diǎn)越靠圖的頂部表示差異越顯著。
-
點(diǎn)的大小和顏色也可以表示更多的屬性,如下圖中點(diǎn)的顏色標(biāo)記其對應(yīng)的基因是上調(diào),?下調(diào)還是無差異。
大小也可用于展示基因表達(dá)的平均豐度,一般我們關(guān)注表達(dá)水平較高且差異較大的基因用于后續(xù)的分析和驗(yàn)證。
圖一(圖源:易生信PPT)
火山圖理解常見的幾個(gè)問題
但沒想到,在我們易生信培訓(xùn)過程中,對火山圖的問題還是比較多的,我們一個(gè)個(gè)的說一下。
什么是**fold change?**
翻譯成中文是差異倍數(shù),簡單來說就是基因在一組樣品中的表達(dá)值的均值除以其在另一組樣品中的表達(dá)值的均值。所以火山圖只適合展示兩組樣品之間的比較。
為什么要做**Log 2轉(zhuǎn)換?**
兩個(gè)數(shù)相除獲得的結(jié)果 (fold change)要么大于1,要么小于1,要么等于1。這是一句正確的廢話吧?那么對應(yīng)于基因差異呢?簡單說,大于1表示上調(diào)(可以描述為上調(diào)多少倍),小于1表示下調(diào)(可以描述為下調(diào)為原來的多少分之多少)。大于1可以到多大呢?多大都有可能。小于1可以到多小呢?最小到0。用原始的fold change描述上調(diào)方便,描述下調(diào)不方便。繪制到圖中時(shí),上調(diào)占的空間多,下調(diào)占的空間少,展示起來不方便。所以一般會做Log 2轉(zhuǎn)換。默認(rèn)我們都會用兩倍差異 (fold change == 2 | 0.5)做為一個(gè)篩選標(biāo)準(zhǔn)。Log2轉(zhuǎn)換的優(yōu)勢就體現(xiàn)出來了,上調(diào)的基因轉(zhuǎn)換后Log2 (fold change)都大于等于1,下調(diào)的基因轉(zhuǎn)換后Log2 (fold change)都小于等于-1。無論是展示還是描述是不是都更方便了。
**P-value**都比較熟悉,統(tǒng)計(jì)檢驗(yàn)獲得的是否統(tǒng)計(jì)差異顯著的一個(gè)衡量值,約定成俗的P-value<0.05為統(tǒng)計(jì)檢驗(yàn)顯著的常規(guī)標(biāo)準(zhǔn)。
什么是**adjusted P-value?**
這里面就涉及到一個(gè)統(tǒng)計(jì)學(xué)問題了。做差異基因檢測時(shí),要對成千上萬的基因分別做差異統(tǒng)計(jì)檢驗(yàn)。統(tǒng)計(jì)學(xué)家認(rèn)為做這么多次的檢驗(yàn),本身就會引入假陽性結(jié)果,需要做一個(gè)多重假設(shè)檢驗(yàn)校正。
這個(gè)校正怎么做呢?最簡單粗暴的方法是每一次統(tǒng)計(jì)檢驗(yàn)獲得的P-value都乘以總的統(tǒng)計(jì)檢驗(yàn)的次數(shù)獲得adjusted P-value?(這就是Bonferroni correction)。
但這樣操作太嚴(yán)苛了,很容易降低統(tǒng)計(jì)檢出力,找不到有差異的基因。后續(xù)又有統(tǒng)計(jì)學(xué)家提出相對不這么嚴(yán)苛的計(jì)算方法,如holm,?hochberg,?hommel,?BH,?BY,?fdr等。BH是我們比較常用的一個(gè)校正方法,獲得的值是假陽性率 FDR?(false discovery rate)。
FDR篩選時(shí)就可以不用遵循0.05這個(gè)標(biāo)準(zhǔn)了。我們可以設(shè)置FDR<0.05表示我們?nèi)菰S數(shù)據(jù)中存在至多5%假陽性率;FDR<0.1表示我們對假陽性率的容忍度至多是10%。當(dāng)然如果說我們設(shè)置FDR<0.5,即數(shù)據(jù)中最多可能有一半是假陽性就說不過去了。
同樣為什么做**-Log 10轉(zhuǎn)換呢?**
因?yàn)镕DR值是0-1之間,數(shù)值越小越是統(tǒng)計(jì)顯著,也越是我們關(guān)注的。-Log 10 (adjusted P-value)轉(zhuǎn)換后正好是反了多來,數(shù)值越大越顯著,而且以10為底很容易換算回去。
理解完這些之后,再來看火山圖。
-
整體來看,基因有上調(diào)就有下調(diào),圖整體是以X=0的垂線左右對稱的。如果數(shù)據(jù)中大部分點(diǎn)都是上調(diào)或下調(diào),成偏態(tài)分布時(shí),需考慮標(biāo)準(zhǔn)化步驟沒有處理好,或數(shù)據(jù)存在批次效應(yīng),導(dǎo)致數(shù)據(jù)存在系統(tǒng)偏差。
-
圖的左上角和右上角是差異基因集中的地方,也是我們關(guān)注的重點(diǎn)。
-
圖一中左側(cè)的火山圖還展示了基因表達(dá)的平均豐度,即基因在所有樣品中表達(dá)的均值。一般變化倍數(shù)大、平均表達(dá)也比較高的基因會更可信,更適合后期實(shí)驗(yàn)檢測,否則就算變化倍數(shù)再大,表達(dá)低的基因也難以被檢測到。
番外:
差異倍數(shù)fold change還有另外一種處理方式。假如有兩個(gè)樣品A和B。如果某個(gè)基因在A中表達(dá)比較高,則計(jì)算fold change是用A/B; 。如果某個(gè)基因在B中表達(dá)比較高,則計(jì)算fold change是用B/A,然后乘以-1;?gtools::foldchange是這么操作的。
adjusted P-value,?q value,?fdr一般代表相同的含義,都是多重假設(shè)檢驗(yàn)校正后的P-value,可能的區(qū)別就在于校正算法的不同。
幾個(gè)代表性火山圖
火山圖雖然用的多,但其實(shí)能提供的信息算不上多,一般是在上面標(biāo)記一些關(guān)注的基因的名字,然后在正文中做下描述。標(biāo)記基因名字的方式也比較多,圖二中左圖的顏色標(biāo)示是一個(gè)不錯(cuò)的選擇。
圖二(圖源:易生信PPT)
圖二右圖來自2017年發(fā)表在Cell的一篇文章-Epigenetic Therapy Ties MYC Depletion to Reversing Immune Evasion and Treating Lung Cancer。
- https://www.sciencedirect.com/science/article/pii/S0092867417312448
一排火山圖放在一起是不是很有氣勢,更主要的是展示了5種疫苗誘導(dǎo)的差異基因數(shù)目顯著不同,在圖上紅點(diǎn)多少展示出的視覺沖擊還是優(yōu)于圖標(biāo)中的數(shù)字表示的,更容易留下直觀的印象。個(gè)人覺得是一個(gè)很有特色的火山圖案例。
圖三
圖三來自文章Edwards, J., et al. (2015). PNAS Fig. 2A。
- http://www.pnas.org/content/112/8/E911.short
這是一篇16S分析文章較系統(tǒng)的作品,兩年被引用147次,推薦閱讀。上面的火山圖展示了水稻根不同生態(tài)位相對于土壤中顯著差異的OTU,橫坐標(biāo)是相對豐度平均值(Log10?轉(zhuǎn)換),縱坐標(biāo)是Log10(fold change),整體類似于圖一中的左圖,只是轉(zhuǎn)換了X和Y軸變量。
圖四
火山圖就是散點(diǎn)圖,點(diǎn)的顏色可展示代表性屬性。
圖四來源—?https://arxiv.org/pdf/1103.3434.pdf?:
第6號染色體上的探針/基因用紅色標(biāo)記,在基因注釋中帶有“細(xì)胞因子”的探針/基因用藍(lán)色標(biāo)記。
增強(qiáng)火山圖之在基本火山圖的基礎(chǔ)上,標(biāo)注有變量-基因名。
上圖共有64102個(gè)變量,綠色的點(diǎn)的|log2FC|>1,藍(lán)色的點(diǎn)是P value <0.0001。紅色的點(diǎn)是滿足了以上兩點(diǎn)要求的變量。
如有雷同數(shù)據(jù),可大膽參照模仿,更多增強(qiáng)火山圖見:
傳送門(代碼)??
- 增強(qiáng)火山圖,要不要試一下?
火山圖繪制
最簡單的繪制方法是使用我們的在線網(wǎng)站——imageGP(http://www.ehbio.com/ImageGP/)。
總結(jié)
以上是生活随笔為你收集整理的Volcano plot | 别再问我这为什么是火山图的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 眼液蛋白水平或许可预测阿尔茨海默症
- 下一篇: 不怕贼偷,就怕贼惦记!