这个只需一步就可做富集分析的网站还未发表就被CNS等引用超过350次
Metascape 專門為生物學者設計的基因富集分析網站
一、Metascape簡介
Metascape(http://metascape.org/) 是一個功能強大的基因功能注釋分析工具,能幫助用戶將當前流行的生物信息學分析方法應用到批量基因和蛋白質的分析中,以實現對基因或蛋白功能的認知。只需在Metascape網頁幾步簡單的操作,就可以對大批量的基因或蛋白質進行注釋、富集分析以及構建蛋白質-蛋白質互作網絡。并且構建的蛋白互作網絡還可以直接導出給Cytoscape使用,繪制美觀、可發表的蛋白互作網絡圖。
-
更新快:每月更新一次,保證了數據的可靠性;
-
覆蓋廣:整合了GO、KEGG、Uniprot等多個權威的功能數據庫;同時Metasacape不僅可以分析人類(H. sapien)的數據,還包括很多其他物種數據,如 M. musculus, R. norvegicus, D. rerio, D. melanogaster, C. elegans, S. cerevisiae, A. thaliana, and P. falciparum等;
-
易操作:“CAME”流程操作,簡單易上手,不僅可以單獨分析一個基因集,還可以同時分析多個基因集;得到的結果報告顏值極高,往往能達到發表文章的級別!
-
不收錢!!!
2019年3月4日,Matascape團隊總結了Metascape的使用就發表了一篇Nature communications,可見這個軟件的被認可程度。其中提到Metascape網站在文章發表之前就已經被350多篇論文引用,其中不乏《自然》,《科學》,《細胞》等雜志。有趣的是約三分之二的引用文章直接使用了Metascape生成的圖表。
a)摘自Lotan et al. Molecular Psychiatry (2018) 78:865中的Figure 5; b)摘自Dong et al. Genome Biol (2018) 19:31中的Figure 3。
二、Metascape的工作流程
Metascape采用的是一種稱為“CAME”的通用分析工作流程,概述如下:
-
ID轉換 (Conversion)——將用戶輸入的基因標識符自動轉換為目標物種的Entrez gene IDs;
-
注釋 (Annotation)——為基因列表添加注釋列,包括基因的描述、功能和蛋白質分類等;
-
歸類 (Membership)——獲取感興趣的基因集。例如,獲取被歸為以“cancer”作為關鍵字的GO生物過程分類的基因。
-
富集 (Enrichment)——對基因列表的功能富集分析,識別具有統計意義的通路。最新的版本還包括蛋白質網絡分析,可以用來識別和獲取具有緊密連接的蛋白質網絡元件 (如Oct4、Sox2和Nanog網絡)。
新版本的Metascape可以分析多種模式生物的基因,用戶只需輸入基因或蛋白質名稱?(很多基因名均可識別),就可以借助Metascape網站快速獲得基因注釋、基因功能、基因分類、富集的通路以及蛋白質相互作用網絡(可導入Cytoscape再處理)。這對于大多數的日常分析需求來說已經足夠了。
三、Metascape的使用
數據上傳
在Metascape主頁,用戶可以在1處粘貼一個由逗號、冒號、空格、制表符或行分隔符組成的基因列表(基因名可以是:Entrez Gene ID、Ensembl ID、RefSeq、Symbol、UniProt ID、UCSC ID等等),或者在2可以選擇本地的一個電子表格文件(xlsx、xls、csv或txt),其中的一列必須包含基因名稱列。其它的數據列是可選的,在分析期間會被忽略。
圖2 Metascape Home
-
如果在上傳文件中提供了多個列,而基因只是其中的一列,注意使用下拉菜單確保正確選擇含有基因名稱的列。
-
txt格式基本上與csv格式相同,只不過前者使用tab作為字段分隔符;txt格式不支持任何非標準的規則。
-
Metacape會將分析后的基因注釋等結果加在輸入基因的列表后面。
-
使用Excel表時需要注意,Excel文件雖非常常用,但其有時不能很好地引用基因symbols,因為某些基因symbols可能被錯誤地轉換成日期和數字。例如“Mar1”、“Marc1”和“March1”都可能被Excel轉換為3月1日,而基因符號“201E9”則可能被視為一個大整數。其他的例子如“1/6”、“12-14-90”、“2-Oct”、“9830125E18”等等,因此這些基因symbols不能被映射到Entrez gene IDs中,因而在分析過程中會被漏掉。為防止基因symbols被轉換成日期或數字,可以用單引號來對符號進行前綴,例如,輸入’Mar1。因此最好不要依賴于在xls或xlsx格式中使用基因symbols,而應使用諸如RefSeq之類的其他ID格式。Excel改變了你的基因名,30% 相關Nature文章受影響,NCBI也受波及?但是,如果使用.csv或.txt格式,就可隨意使用基因symbols。
-
Metascape主頁包含所支持格式的文件模板(在“Upload File Format”下,見圖3);可以下載下來并依照這些例子載入數據。想要測試Metascape的運行,可以點擊single list,將上傳一個人類基因列表。點擊Test Identifiers下的任何鏈接,就會自動粘貼指定格式的列表基因ID。
-
注意:基因列的名稱開頭不能有下劃線,下劃線是為Metascape保留的。用戶提供的列的名稱的任何下劃線都將被自動刪掉。
圖3 數據格式舉例
富集分析
粘貼或上傳好基因數據后,在圖Step2中先選擇Input as species,如果有對應物種的基因就選擇對應物種,如果沒有可以選擇括號中數字最大的物種 (說明可以進行轉換的基因比較多),選擇Analysis as species也遵循上述原則。
選擇好物種后點擊Express Analysis即可進行快速分析。此時下方會顯示一個進度條,之后會顯示一個Analysis Report按鈕,點擊后會打開一個報告頁面。
快速分析(Express Analysis)包括最流行的注釋源和基因本體 (Gene ontology)分類 (結果如下圖)。對于經驗豐富的用戶,或希望對分析選項有更大控制權的用戶,可使用自定義分析Custom Analysis。設置其中的一些選項能夠更好地控制CAME分析流程。
a) Metascape去除功能冗余的富集通路,用簡單明了的bargraph顯示出最主要的實驗結果;b)富集生物通路可以以網絡方式表現,這更利于理解通路或生物過程之間的關系;c)Metascape自動抽取提交列表中蘊含的蛋白質互作用網絡;d)為了更容易理解這一網絡,Metascape采用成熟的MCODE算法尋找網絡中的密集聯結的蛋白質群,并對每個群的生物功能進行注釋。
分析結果
-
先看到的是如圖5的富集總結,橫坐標是對p-values取以10為底的對數值并取負值;縱向是不同的富集通路,已按照-log10§的值排序。越排在上面的-log10§值越大,p-values就越小,富集就越顯著(顏色也越深)。
-
在富集的通路中包括CORUM、Ractome和GO等數據集,展示的結果直觀、豐富。可點擊下方的PDF下載。
圖5 ?Heatmap of enriched terms across input gene lists, colored by p-values.
- 在下圖的表格中包含上圖中富集分析的具體信息,如Count(即用戶輸入的基因有多少個落在這個通路中)和Log10(q)(是經多重假設驗證校正的p-value)。
圖6 Pathway and Process Enrichment Analysis
蛋白蛋白互作
下圖展示了在用戶輸入的基因中發現的蛋白——蛋白互作網絡。其數據來源于BioGrid、InWeb_IM和OmniPath等數據庫。點擊CYS?圖標可以下載這個網絡并可以用Cytoscape軟件打開,可以進一步調整圖形布局或加入基因表達等信息。
-
Cytoscape教程1
-
Cytoscape之操作界面介紹
-
新出爐的Cytoscape視頻教程
-
Cytoscape制作帶bar圖和pie圖節點的網絡圖
-
Cytoscape: MCODE增強包的網絡模塊化分析
圖7 Protein-protein Interaction Enrichment Analysis
多基因列表聯合分析
當代的多組學實驗往往生成多個基因列表,目前的網絡工具很少能同時分析并整合多基因列表,而這恰恰是Metascape的長處之一。其實Metascape的”meta”就是來源于多列表的meta-analysis。下圖以三組過去獨立發表的流感宿主因子列表為例進行說明。
a) Metascape用heatmap讓三組數據集共享的和獨特的生物通路一目了然。b)富集通路也可以以網絡呈現。由于每一組宿主因子用一個獨特的顏色表示,我們可以很清楚的發現Viral gene expression是共享的而Regulation of cell development主要只存在于綠色對應的實驗中。
四、定制分析
五、作者自評
很多學者還在采用DAVID做富集通路分析。富集通路分析結果完全依賴于背后數據庫的質量。DAVID曾經有六年的時間(2010-2016)沒有維護數據庫,最近的更新也已經兩年半了。獨立研究表明使用兩年舊的Gene ontology數據庫,用戶平均要丟失20%的最新的生物知識。所以定期更新數據庫的重要性非同小可。可惜現實是目前大家常使用富集分析工具中僅有40%被正常維護,不知讀者目前使用的工具是否屬于幸運的一類。Metascape每月更新背后的40多個數據庫,以確保提供最準確的結果。
Metascape沒有學習使用的壁壘,因為沒有比一鍵Express Analysis更簡單了。雖然好用,Metascape實現的主要功能卻是不折不扣。作者由于多年來在自己的科研項目中都要花大量的時間進行這些生物信息分析,所以決定把長期發表文章中體會到的best practices實現在Metascape中。由于常用的基因列表的分析工具僅限于提供單一通路富集分析,這就不幸給研究人員造成了列表分析就是等同于知識驅動的富集分析的誤解。而數據驅動的蛋白質互作用網絡分析就鮮有網站支持。其實除了以上描述的Metascape提供的林林總總的分析功能之外,其還有非常強大的對上千個基因進行注釋或者利用知識庫進行成員分析的功能,這些對于后續的基因篩選及其重要,詳情請見文章或網站文檔。要實現Metascape的這些分析功能對于生物信息人員都是有難度的。
總結
以上是生活随笔為你收集整理的这个只需一步就可做富集分析的网站还未发表就被CNS等引用超过350次的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学习生信的系列教程 | 留言您是如何学习
- 下一篇: 积微论坛--用微生物组时序数据重现生物膜