NAR:脑疾病研究的“金牌助手”:BrainBase
腦是人體的神經系統中樞,也是最復雜的人體器官,不僅控制思想、記憶、語言、運動,也調節許多其它器官的功能。阿爾茲海默癥、膠質瘤、帕金森綜合征、抑郁癥等腦疾病嚴重威脅人類生命健康。國內外已開展實施多項“腦研究計劃”,如中國“腦科學與類腦研究”、美國“BRAIN Initiative”、歐盟“Human Brain Project”等,旨在加深人類對腦疾病、結構和功能的理解,加速在腦健康、類腦計算及智能技術方面的應用。
為促進腦疾病知識整合、組學數據挖掘與再利用,中國科學院北京基因組研究所(國家生物信息中心)國家基因組科學數據中心發布了腦疾病知識庫BrainBase(https://ngdc.cncb.ac.cn/brainbase),以“BrainBase: a curated knowledgebase for brain diseases”為題于2021年10月在國際學術期刊《核酸研究》(Nucleic Acids Research)在線發表。
BrainBase主頁
BrainBase致力于提供腦疾病-基因關聯知識,注釋藥物-基因互作信息,鑒定腦“特異”表達基因,挖掘膠質瘤的特征基因并提供多組學數據可視化圖譜,為揭示腦疾病的發生發展機制提供重要數據資源。
數據庫核心功能及操作演示
BrainBase提供檢索、瀏覽、可視化等功能,方便用戶通過不同腦疾病、基因進行檢索和瀏覽,在單基因頁面展示了所有相關注釋與分析結果,并以模塊化的結構突出不同研究主題。
1.單基因頁面
在主頁搜索基因Symbol,如EGFR,跳轉到基因頁面。該頁面包含以下信息:基因基本信息(Summary)、腦疾病-基因關聯知識(Diseases)、藥物-基因互作信息(Drugs)、腦“特異”表達基因(Specific Gene)、膠質瘤多組學知識注釋(Omics Signature)和可視化圖譜(Omics Profiles)。
EGFR基因頁面——基因基本信息
“Diseases”展示EGFR-腦疾病的關聯知識,顯示多篇文獻報道EGFR與膠質瘤發生發展有關;“Drugs”則列出了腦疾病研究中EGFR作為藥物靶點關聯的藥物和腦疾病。
EGFR基因頁面——腦疾病-基因關聯知識和藥物-基因互作信息
“Specific Gene”方便用戶了解基因在腦組織、腦區域、腦脊液、腦細胞水平上的“特異”表達情況。下圖顯示,EGFR在腦脊液和單細胞層面均表現出“特異”表達模式,點擊號可查看詳細信息。例如,單細胞測序分析表明EGFR可作為神經元細胞的“cell marker”,點擊文章鏈接可了解詳細內容。
EGFR基因頁面——腦“特異”表達基因
為促進腦疾病致病機制的深入研究,“Omics Signature”對已發表的膠質瘤高質量文章進行了系統的多組學水平注釋,詳細介紹該基因在基因組變異、表觀修飾、RNA和蛋白表達等方面的研究結果。其中“Molecular Role”表格列出分子水平變化、描述信息、相關通路、對腫瘤進程影響;“Regulation Axis”圍繞該基因的下游靶基因和上游調控因子闡述調控機制;“Experimental Sample”列出了相關研究的實驗樣本和臨床信息。
EGFR基因頁面——膠質瘤多組學水平注釋
目前已積累大量膠質瘤組學數據,可為挖掘潛在的膠質瘤分子標志物和診療靶點提供數據支持。“Omics Signature”整合21組公開發表的膠質瘤多組學數據集,圍繞不同分子層面、膠質瘤類型、臨床組別、生存差異,提供多場景多維度的基因分子特征可視化圖譜。在此基礎上,鑒定四組重要的特征基因(可從“Featured Genes”模塊獲得)。
EGFR基因頁面——膠質瘤多組學分子特征可視化圖譜
2.模塊內容
除了以基因為核心的單基因頁面展示形式,BrainBase針對腦疾病-基因關聯知識、藥物-基因互作信息、腦“特異”表達基因、膠質瘤多組學知識注釋以及可視化圖譜,分別建立了單獨的模塊,便于每個主題下基因間或疾病間的比較分析。
疾病模塊(“Diseases”)包括123種腦疾病的7,175條疾病-基因關聯信息。用戶可以通過選擇腦疾病的大類來獲得相關腦疾病的條目,可以點擊腦疾病名稱跳轉到疾病詳細頁面,查看與該疾病相關的所有基因和藥物信息,也可以按照基因類型進行篩選。
疾病模塊
藥物模塊(“Drugs”)包含8種腦疾病、2,118種藥物/化合物與623個基因的16,591條藥物-基因關聯信息。用戶可通過點擊腦疾病、基因和藥物名字來瀏覽相關條目。
藥物模塊
腦“特異”表達基因模塊(“Specific Genes”模塊,同時也可在“Genes”模塊獲取)包括了腦組織、腦區域、腦脊液、腦細胞水平上的“特異”表達基因。例如,“Brain-Specific Genes”頁面展示了639個腦特異表達基因,用戶可以通過選擇感興趣的基因類型獲得對應的腦特異基因列表。“τ-value”值越接近1表明特異性越強,“Expression Breadth”表示該基因在多少組織中表達,“1”表示只在腦組織中表達。
腦“特異”表達基因模塊
為了更簡潔清晰地展示上述模塊的綜合信息,BrainBase建立了基因模塊(“Genes”)。用戶可以通過搜索基因名以及疾病名來查詢對應的信息,也可以在腦疾病、藥物靶點以及5類腦“特異”基因內容前勾選“??”以瀏覽感興趣的基因列表。
基因模塊
膠質瘤多組學知識審編模塊(“Omics Signatures”)提供膠質瘤多組學水平的文獻注釋信息,目前共涉及363個基因相關的656個條目。用戶可以在多組學水平上瀏覽與膠質瘤發生發展密切相關的“hot genes”,了解這些基因參與的通路、生物學過程,以及膠質瘤標記物類型。此外,針對某個基因,可在單基因頁面了解相關信息。
膠質瘤多組學知識審編模塊
膠質瘤多組學可視化圖譜模塊(“Omics Profiles”)圍繞不同膠質瘤亞型、臨床組別以及生存差異,在基因組、轉錄組和表觀組水平提供基因的組學分子特征的可視化圖譜。用戶可以選擇組學類型,在搜索框中輸入基因Symbol獲得對應的組學圖譜。
膠質瘤多組學可視化圖譜模塊
為進一步挖掘膠質瘤關鍵基因,BrainBase開發了特征基因模塊(“Featured Genes”),提供4組對臨床研究有指示作用的特征基因:多組學水平上普遍表現出顯著差異(P<0.001,FDR<0.01)的基因(UDGs),以及在表達/DNA甲基化/CNV水平上具有顯著差異(P<0.001,FDR<0.01)的基因(DEGs/DMGs/DCGs)。不同國家/地區的數據集用不同的顏色進行了標記,以便于用戶查看基因在不同人群中的異質性。用戶可以在感興趣的組別前選擇“??”,查看該組特征基因在不同場景(如腫瘤/正常、膠質瘤級別、IDH突變狀態等)下的表現。這些特征基因將為膠質瘤研究提供重要參考。例如,課題組通過深入分析膠質瘤多組學數據集,發現歸屬于UDGs的基因PRKCG是一個腦特異表達基因,它在膠質瘤診斷、預后生存以及臨床用藥方面都有潛力發揮作用,暗示該基因與腦的健康狀況緊密相關,是膠質瘤的一個候選標記物。
膠質瘤特征基因模塊
BrainBase提供所有相關注釋信息與分析結果的FTP下載,有望成為腦疾病研究的重要數據資源和共享平臺。
北京基因組所(國家生物信息中心)特別研究助理(博士后)劉琳,博士研究生張陽及牛廣藝為本文共同第一作者,馬利娜副研究員與章張研究員為共同通訊作者。該研究得到了中科院戰略性先導科技專項、國家重點研發計劃、中科院青促會等項目資助。
參考文獻
1.Liu L, Zhang Y, Niu G, Li Q, Li Z, Zhu T, Feng C, Liu X, Zhang Y, Xu T, Chen R, Teng X, Zhang R, Zou D, Ma L, Zhang Z. BrainBase: a curated knowledgebase for brain diseases. Nucleic Acids Res. 2021 Oct 30:gkab987. doi: 10.1093/nar/gkab987. Epub ahead of print. PMID: 34718720.
2.Liu L, Wang G, Wang L, Yu C, Li M, Song S, Hao L, Ma L, Zhang Z. Computational identification and characterization of glioma candidate biomarkers through multi-omics integrative profiling. Biol Direct. 2020 Jun 15;15(1):10. doi: 10.1186/s13062-020-00264-5. PMID: 32539851.
歡迎聯系定制:生物大數據時代,如何做好數據管理和再利用,發IF10+的數據庫文章?
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的NAR:脑疾病研究的“金牌助手”:BrainBase的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: iMeta:高颜值高被引绘图网站imag
- 下一篇: Inception代码解读