推荐几个常用的生物通路数据库
生物信息學習的正確姿勢
NGS系列文章包括NGS基礎、高顏值在線繪圖和分析、轉錄組分析?(Nature重磅綜述|關于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細胞測序分析?(重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程)、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step))、批次效應處理等內容。
生物通路是細胞內分子之間的一系列相互作用,會導致細胞內的產生某種產物或某種改變。這種通路可以觸發新的分子如脂肪或蛋白質的組裝。通路也可以開啟或關閉基因,或者刺激細胞移動。一些最常見的生物通路涉及到代謝、基因表達調控和信號傳導。通路在基因組學的高級研究中起著關鍵作用。
通路信息可以從大量數據庫獲得,包括從專業校對過的高質量數據庫和通過對文章摘要進行自然語言處理和文本挖掘產生的大量假定通路的數據庫(生信寶典之傻瓜式 (五) - 文獻挖掘查找指定基因調控網絡)。由于不同數據庫大小、質量和屬性不同,用戶需要根據自己目的選擇使用正確的數據庫。
KEGG
KEGG (Kyoto Encyclopedia of Genes and Genomes) (http://www.kegg.jp/)是由京都大學生物信息學中心和東京大學人類基因組中心共同開發的一系列數據庫。正如名字百科全書所暗示的,數據庫包括系統理解生物學所必需的信息,如基因組序列和化學信息。KEGG許可證由path Solutions Inc.出售(http://www.pathway.jp/)。
KEGG的獨特之處在于其對酵母、小鼠和人類代謝通路的關注和覆蓋。目前,細胞周期和凋亡的信號通路正在擴展。閱讀和總結相關文獻的專業人士持續更新通路信息。數據庫以KEGGML的格式存儲。由于通路隨后顯示為GIF文件,用戶無法輕松編輯通路信息。但可以借助第三方工具如 Pathview包:整合表達譜數據可視化KEGG通路進行編輯和展示。
BioCyc
BioCyc是SRI國際提供的通路數據庫(http://www.biocyc.org/)。該數據庫最初由SRI國際生物信息學研究小組建立,是一個專注于代謝通路的高質量數據庫。與BioCyc相關的有EcoCyc、MetaCyc、HumanCyc數據庫。許可證對學術和非營利組織都是免費的。人類和大腸桿菌是主要的生物體,還有其他各種生物體。EcoCyc主要是大腸桿菌代謝通路的數據庫,用化學方程式的形式顯示。EcoCyc也包含少量的信號通路。策展人從文獻中提取了通路知識。使用專用格式描述通路。
此外,還列出了代謝通路上游的基因調控信息。提供了代謝通路與基因編碼的酶及其調節因子之間的聯系。通路圖根據對細節關注的不同分開顯示。在最詳細的層面上,代謝產物以化學方程式的形式顯示出來。
Reactome
Reactome數據庫包含細胞代謝和信號通路(http://www.reactome.org/)。冷泉港實驗室、歐洲生物信息學研究所和基因本體聯合會是該項目的主要開發者。以人類相關數據為主,同時包含22種其他物種的數據,比如小鼠和大鼠。Reactome的通路和化學反應可以通過網頁瀏覽器查看但不能編輯。雖然存儲格式是專有的,但大量的通路可以導出為多種格式。沒錢買KEGG怎么辦?REACTOME開源通路更強大
WikiPathways
WikiPathways是一個致力于貢獻和維護生物通路內容的社區資源。任何維基通路的注冊用戶都可以貢獻,任何人都可以成為注冊用戶。貢獻是由一組管理員監控的,但是大部分的同行評審、編輯管理和維護是用戶社區的責任。WikiPathways是使用MediaWiki軟件、一個自定義的圖形通路編輯工具(PathVisio)和涵蓋主要基因、蛋白質和代謝物系統的BridgeDb數據庫構建的。
商業通路數據庫
Ingenuity Pathways Knowledge Base
Ingenuity Pathways Knowledge Base (IPKB)是Ingenuity Systems Inc (http://www.ingenuity.com/)創建的通路數據庫。所有的許可,包括學術許可和非營利性許可,都需要付費。該數據庫包括基因調控和信號通路。專業人士文獻中提取信息更新次數據庫,該數據庫目前包含人類、小鼠和大鼠的遺傳信息。
ResNet
ResNet (http://www.ariadnegenomics.com/)是由Ariadne基因組公司創建的pathway數據庫。學術和商業執照都需要付費。ResNet的通路主要包括基因調控通路和信號轉導通路。與其他數據庫不同,ResNet是通過計算機分析構建的。換句話說,這些通路和網絡是通過對相關文獻進行自然語言處理而形成的。MedScan用于這個自然語言處理過程。數據庫主要是由PubMed中的摘要構建的,但也有一些條目使用了全文。此外,還有少量由專業人士認證的通路。由MedScan創建的通路數據可以通過查看工具pathwayStudio查看。與其他數據庫類似,MedScan使用自己的專有格式。
Meta-datadatabases
Meta-data數據庫實現了對各種數據庫中所包含的知識的整合。
PathGuide (http://www.pathguide.org/)是一個互作和通路相關資源的綜合匯總,目前在它的Meta-數據庫中列出了超過702個資源。
PathwayCommons和Consensus PathDB是存放整合的生物通路數據庫的例子。特別是前者,從不同的數據庫收集數據,并以標準化的格式進行存儲。
這些Meta-data數據庫特別適合合并通路信息進行分析。
生物數據庫的局限性
雖然數據的組織和存儲對數據庫至關重要,但還有其他需要注意的。首先,數據庫集成存在本體層次上的不一致性;因此,非標準化的命名法需要一種變通方法,這就需要不斷映射。另一個主要問題是,數據可能是不完整的、模棱兩可的、包含錯誤、冗余或與文獻不一致。隨著新知識的發現,可能還需要定期更新。專用數據庫的問題包括通路數據庫中的通路圖,通常在本質上是靜態的,只代表生物學的一個快照。重要的是,在某種程度上評估和考慮這種可變性,以便數據庫的終端用戶能夠從中獲益。
結論
通路數據庫還處于早期階段,需要不斷的完善和更新。但不能因為不完善就不去做,事情總是需要從0到1,從1到10不斷去積累的。你的數據也可以-兩篇NAR的數據庫
參考:https://omicstutorials.com/introduction-to-biological-pathway-databases/
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
?
總結
以上是生活随笔為你收集整理的推荐几个常用的生物通路数据库的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: R包ggseqlogo |绘制序列分析图
- 下一篇: 送书 | 师妹越多,团队集体智慧越高,当