深度综述|基因与疾病关系研究的百年进展
點擊【醫學方】 ?關注我們
今天為大家介紹今年4月份發表在Briefings in Bioinformatics(IF=8.99)的綜述,作者對43個基因-疾病數據庫和工具的來源、更新情況以及能否應用于臨床研究進行了詳細的探討,有助于科研人員針對感興趣的疾病選擇正確的基因數據庫,從而深化基因-疾病因果關系的研究。
一、基因與疾病
基因這個詞匯的出現已經有100多年的歷史。隨著科技的進步,基因組領域發生了巨大的變革,尤其是在基因圖譜、數據庫、疾病圖譜、CRISPR/Cas9、大數據和下一代測序等方面。醫學的發展建立在疾病治療和臨床試驗的基礎上,而基因研究有助于為每個人量身定制治療方案,幫助醫生了解哪些人群有患糖尿病、高血壓或癌癥等重大疾病的風險。
絕大多數(~62%)的人類基因組由基因區間組成,過去將非編碼基因稱為垃圾DNA。而近幾年的基因組研究解釋了非編碼基因的獨特功能,說明每個基因都具有其重要性。遺傳學的主要目標是了解哪些基因可能導致疾病,大多數情況是由于基因多態性,即錯誤的堿基位置改變基因功能,從而使蛋白質功能失常,最終導致疾病。第一個被完全鑒定的哺乳動物基因是編碼球蛋白多肽血紅蛋白基因(HBB),單基因缺陷使血紅蛋白結構異常,最后導致鐮狀細胞性貧血。
人類疾病是基因組學、生物信息學、系統生物學和醫學研究的核心。了解疾病之間的相互關系,對于認識疾病分類、病因和發病機理是十分重要的。世界上有許多數據庫聲稱可以提供基因信息,并按相關疾病分類。作者對其中的43個數據庫在疾病-基因相關研究中的應用進行了詳細的探討(如圖1:43個數據庫信息見https://academic.oup.com/view-large/203657246)。
二、遺傳學史
1869年,瑞士生化學家Johann Miescher發現了DNA。而在Miescher的發現三年前,Gregor Mendel發表了豌豆育種實驗的結果,將遺傳性狀定義為某些可能導致性狀差異的細胞內物質。1909年Wilhelm Johannsen用基因這個詞來描述遺傳單位。從那時起,人們對基因的結構、定位、數量和功能的探索已經進行了一百多年。直到1944年Avery MacLeod McCarty提出,導致細胞轉化的物質是DNA而不是蛋白質,闡明了基因的化學性質。隨后歐文提出DNA堿基配對的概念, Watson and Crick提出 DNA雙螺旋結構。Marshal Nirenberg將DNA遺傳密碼定義為20種氨基酸。與此同時,核蛋白一詞被引入來定義遺傳物質。
研究人員通過遺傳研究和染色體標記發現了第一個與疾病相關的單基因(Huntington‘s disease gene,HTT),位于人類4號染色體上。1955年Joe Hin確認人體細胞有46條正常染色體后,Jerome Lejeune發現唐氏綜合征由21染色體三拷貝引起。1985年,第8屆人類基因組圖譜會上討論了人體的831個基因。人類基因組計劃的目的是確定DNA序列,識別和繪制人類基因組圖譜。經過世界各國科學家多年的努力,1995年第一個完全測序的流感嗜血桿菌基因組發表。六年后人類基因組發表,是遺傳研究領域的一個里程碑。2003年HGSC完成了人類參考基因組,使破譯基因組功能成為可能。
三、基因測序
DNA序列是破譯遺傳密碼的關鍵。隨著電泳技術的發展,早期使用Southern blotting技術來檢測特定DNA片段。然而,電泳只能分離不同大小的DNA片段,無法進行測序。隨后在Sanger測序法的基礎上,發展出在DNA合成過程中加入雙脫氧核苷酸(DNA末端),通過電泳進行測序的方法。Sanger測序被廣泛應用40多年,并幫助科學家完成了人類基因組的第一個序列,但耗時耗力。硫酰化酶/熒光素酶系統進行的鏈終止反應實現了實時測序。1955年Arthur Kornberg分離出的DNA復制酶和DNA聚合酶是下一代測序(NGS)的一個重要里程碑。焦磷酸測序(光檢測)步驟簡單,耗時短,開創了高通量測序的新時代。
最新一代的測序技術降低了對DNA擴增的要求,使單分子測序(SMS)成為可能,避免了擴增相關的偏差。多年來,測序方案、分子生物學和自動化的創新提高了測序的能力,同時成本不斷降低。隨著全基因組測序(WGS)的不斷發展和完善,以及大規模基因注釋項目的啟動,新的基因組序列數據不斷應用的到醫學研究中。隨之而來的大量基因組數據,讓海量數據向基因組功能或相關臨床信息的轉化成為了新的挑戰。
隨著各種基因測序數據的積累,許多公共數據庫成立并沿用至今。Margaret Dayhoff開發了第一個生物信息學軟件COMPROTEIN,利用Edman測序數據確定蛋白質的一級結構,然后創建了第一個蛋白質數據庫 (PDB)。Roger Staden于1979年發表了第一個專門用于分析Sanger測序數據的軟件。隨著2003年人類基因組計劃的完成,這些基因數據庫的基礎數據源終于建立起來。第二代測序以及相關分析工具的出現,標志著生物大數據分析時代的到來。
四、基因到疾病數據庫和工具
大數據分析的一個關鍵挑戰是對NGS數據的分析,即如何識別出疾病相關的候選基因。癌癥基因組的變異數量可能非常高,但只有少數基因變異對腫瘤的發展是至關重要的。隨著遺傳變異與疾病的聯系的發現,基于個體基因組變異的疾病風險預測和個性化醫療的精準治療已成為一個大趨勢。
目前已有大量的數據庫提供有關基因、疾病、變異、蛋白質和通路的信息。最早的基因和表型數據庫是1966年建立OMIM和1982年建立的GenBank。2014年Nucleic Acids Research報道網上公開的數據庫共有1552個。隨著生物數據庫數量的不斷增加,用戶必須從一個數據庫導航到另一個數據庫,使得基因分析既費時又低效。作者篩選了43個基因疾病數據庫和9個工具,評估了它們進行基因搜索的簡潔和易用性,以方便研究人員的研究分析(圖3,藍色表示是,紅色表示否)
五、ClinVar數據庫
ClinVar數據庫包括任何種系和體細胞變異大小、類型和基因組位置信息。數據由臨床檢測實驗室、研究實驗室、locus-specific數據庫、OMIM、GeneReviewsTM和UniProt提交。ClinVar允許用戶輸入一個基因名稱,例如BRCA1,并將檢索到所有相關的變異和條件的名字,以及它們的狀態。結果主要來自三個方面:臨床試驗、研究和文獻。由于缺少足夠的方法來衡量臨床試驗結果的準確性,一些信息可能是不明確的。
六、CNVD 數據庫
CNVD是關于拷貝數變異及相關疾病的系統、全面的數據庫,所有數據均提取自CNV相關文章的實驗數據,是研究疾病相關拷貝數變化的可靠資源。它收錄了251697條記錄,包含183219個CNV片段,844種相關疾病和46348個基因,CNV分析可用于全基因組及關聯性狀分析。CNVD允許用戶以多種方式搜索數據庫:根據基因名稱、疾病名稱、染色體位置或拷貝數變異區域。在查詢結果中,包含物種、染色體、CNV的起始和結束位點、相關疾病、CNV區域基因和源文章PubMed ID等信息。但是,它并不對冗余的數據進行分組,這意味著即便是不同的來源也會產生同樣的結果。
七、Disease Ontology數據庫
DO與GO數據庫類似,通過參照MeSH,ICD等疾病分類標準,對人類的常見疾病與罕見病進行了歸納整理,提供了一個統一的,標準化的疾病分類系統。DO是一個疾病研究的專業網站,其中還包括每種疾病的ICD代碼。但它們與基因沒有關聯,必須對每種疾病分別進行搜索(圖2C)。由于它不是一個特定于基因研究的網站,無法執行多個輸入的搜索和相對較小的基因庫是一個相對不利的方面。
八、DISEASES數據庫
DISEASES數據庫集成了現有數據庫中的疾病-基因關聯、癌癥突變數據和全基因組研究的數據挖掘結果。搜索BRCA1等基因主要生成一個包括名稱、類型和ID的匹配結果。點擊基因名生成基因與疾病關聯信息的詳細頁面。DISEASES因其獨特的數據收集方法和海量數據,有助于數據挖掘工作。
九、Gene2Function數據庫
G2F用于繪制人類和常見模型生物的標準基因圖譜,通過G2F可以輕易調查物種信息。G2F支持基因或疾病術語的搜索。使用基因ID進行搜索,將顯示其他物種的預測同源基因、基因同源關系可信度以及總結。對于人類疾病,結果會顯示每個疾病相關基因的詳細信息。
文章還詳細介紹了DiseaseEnhancer、Genetic and Rare Diseases Information Center、miR2Disease、Orphanet、DisGeNET、The Human Gene Mutation Database、SwissVar、eDGAR和GeneCardSuite等數據庫的數據內容和使用優劣(https://doi.org/10.1093/bib/bbz038.)。
十、總結
人類基因組計劃的完成,為人類基因組到個體化醫療的研究奠定了基礎。生物數據的爆發式增長,數據庫和工具的數量不斷增加。在這里,作者主要針對那些可以進行基因到疾病搜索的數據庫的進行了回顧性分析。大多數數據庫只關注收集和存儲不同類型的數據,而不是定向而簡潔地向用戶展示數據。本綜述旨在概述公共資源中基因疾病關聯數據庫的現狀,以克服用戶在搜索特定疾病和基因信息時所面臨的困難。
有些數據庫基于簡單的文獻網站,比如OMIM。這些數據庫并不能直觀地提供相應的疾病信息,需要用戶在不同的頁面和選項間不斷切換來尋找最合適的結果。DISEASES、eDGAR和GeneAlaCart搜索基因可以直接輸出相關的疾病,但只是間接地討論了基因和疾病之間的關系。ClinVar利用變異(variations)將疾病和相關基因聯系起來,CNVD使用拷貝數變異,miR2Diseasea使用miRNAs,DiseaseEnhancer使用增強子,HGMD著眼于胚系突變, SwissVar的重點是蛋白質變異,而GARD和Orphanet主要關注罕見疾病。大多數數據庫或工具有多個數據來源,這有時也是一把雙刃劍。一方面,更多的數據源豐富了數據庫的資源,另一方面,過多的數據源會導致不確定或錯誤的數據增多。
數據庫是檢索人類基因注釋數據的重要資源,有些數據庫基于文獻、基因、蛋白質和突變數據庫,但并非所有數據庫都用Ensembl基因ID標注基因。同時,沒有一個數據庫可以直接將基因ID與目前基于疾病表型的國際疾病統計分類(ICD)和相關健康問題代碼關聯起來。將基因定位到疾病,同時將疾病關聯到準確的ICD編碼,有助于對疾病進行更有效的治療。隨著基因變異數據的指數級積累,將其應用于醫療從而對臨床數據進行映射已經變得至關重要。目前有諸如GenCode和Ensembl等內參基因注釋數據庫,但還沒有對應的基因-疾病關聯標準。
這是一個大數據時代,與人類相關的生物數據庫數量不斷增長,在數據存儲、處理、交流和管理方面都面臨著前所未有的挑戰。為研究和醫療人員提供高效、友好、簡單的導航和免費的訪問的數據庫平臺是非常重要的,可以通過預測診斷、精確評估、定制治療和定制藥物管理,促進精準醫療的發展。許多研究結果表明,基因組學和相關數據庫可以有效地納入醫療與臨床實踐中。通過整合代謝組學、轉錄組學、蛋白質組學和表觀基因組學,揭示基因組變異的功能,不僅有助于疾病治療,還將徹底改善醫療行業。盡管已經有許多重要的基因遺傳學發現,但對像癌癥這樣的復雜疾病的具體發病機制仍有待深入研究。對個體基因組進行個性化分析,研究新的預防和治療方法是更為科學的思路。基于基因的藥物設計、對促癌因子的精確靶向、預測個體對疾病的易感性、對精神疾病的診斷和治療,將是未來十年的研究重點。為此,對基因數據庫庫和資源的深入了解是至關重要的。
參考文獻:Zeeshan S, Xiong R, Liang BT, et al. 100 Years of evolving gene-diseasecomplexities and scientific debutants. Brief Bioinform, 2020, 21(3): 885-905.
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
?
(請備注姓名-學校/企業-職務等)
總結
以上是生活随笔為你收集整理的深度综述|基因与疾病关系研究的百年进展的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 39个工具,120种组合深度评估 (转录
- 下一篇: cover-letter