simplifyEnrichment,一个对GO富集结果进行聚类和可视化的工具
在前一篇博文中,我介紹了我的一個新的Bioconductor包cola,在這篇博文中,我繼續介紹另一個新的R包simplifyEnrichment。Bioconductor上的鏈接為https://bioconductor.org/packages/simplifyEnrichment/,論文鏈接為https://www.biorxiv.org/content/10.1101/2020.10.27.312116v1。
對基因的功能富集分析是生物信息學中的一個基本的分析方法,通常用戶會得到成百上千個顯著富集的功能。那么下一步就是如何將這成百上千個功能減少到一個適當的值,這樣用戶可以很方便的閱讀,并且不會丟失重要的信息。
simplifyEnrichment主要針對于GO富集分析的結果,為了對富集出來的GO列表進行簡化,我們首先要得到GO和GO之間的相似性,然后基于此,把GO劃分到幾個類中。一般來說,我們用基于語義學的GO相似性度量,例如使用GoSemSim包,在得到GO相似性矩陣后,simplifyEnrichment提供了一個新方法,稱之為binary cut,用來對GO相似性矩陣進行劃分。
下圖是一個對GO相似性矩陣進行劃分后的結果,同時對每個GO cluster,我使用word cloud作為對應的annotation,這樣可以很容易的知道每個GO cluster所對應的功能。
simplifyEnrichment的使用方法也很簡單,用戶提供一個GO列表,使用GO_similarity()函數計算相似性矩陣,然后使用simplifyGO()對GO進行聚類并生成圖。
library(simplifyEnrichment) mat?=?GO_similarity(go_id) df?=?simplifyGO(mat)對GO相似性矩陣進行聚類看似是一個簡單的問題,其實在實踐中會存在幾個問題,使得某些相似GO無法被聚在一起,或者一個較大的GO類中的異質性還是很高。下面一張圖顯示了一些不同的聚類方法對同一個GO相似性矩陣進行劃分的結果,可見,一些方法生成了太多的聚類(如第一行第三列),而另外一些方法無法將大的聚類劃分為更小的聚類(如第三行第二列)。相比而言,binary cut (第一行第一列)能夠很好的將GO劃分為類,并且同時能夠劃分出大的聚類和小的聚類。
GO、GSEA富集分析一網打進
一個R包完成單細胞基因集富集分析 (全代碼)
無需寫代碼的高顏值富集分析神器
這個只需一步就可做富集分析的網站還未發表就被CNS等引用超過350次
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
?
(請備注姓名-學校/企業-職務等)
總結
以上是生活随笔為你收集整理的simplifyEnrichment,一个对GO富集结果进行聚类和可视化的工具的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 扩增子和宏基因组数据分析流程和可视化方案
- 下一篇: 导师没有教你的“潜规则”