人群频率 | gnomAD数据库简介 (一)
人群變異頻率的重要性
? 從孟德爾的豌豆到人類的遺傳病中提到的,在遺傳病患者中,根據(jù)人群頻率(Frequency in unselected individuals)篩選候選變異是發(fā)現(xiàn)致病變異(Causal variants)的任何一種數(shù)據(jù)分析流程中關(guān)鍵的一步,并且這種篩選的效果取決于所使用的參考數(shù)據(jù)的大小和族群的多樣性(Nature, 2016, Monkol Lek)。
從孟德爾的豌豆到人類的遺傳病
Nature, 2020,?Karczewski.
The mutational constraint spectrum?quantified from variation in 141,456 humans
? 因此我們希望這個參考數(shù)據(jù)庫:納入的個體數(shù)量足夠大、患病比例的偏差足夠低、族群的多樣性足夠好、測序深度足夠高、最終記錄的位點(diǎn)數(shù)足夠多。
? 如果是外顯子組,理想的記錄的位點(diǎn)個數(shù)約為3,000萬,即覆蓋全部蛋白編碼區(qū)域。這正是基因組聚合數(shù)據(jù)庫(Genome Aggregation Database, gnomAD)和千人基因組(1000 Genome, 1000G)計(jì)劃等數(shù)據(jù)庫的主要目標(biāo)之一。
? 如果說OMIM可以報(bào)告一個疾病權(quán)威的致病位點(diǎn),ClinVar可以幫助我們篩選更多的致病或可能的致病位點(diǎn),那么gnomAD數(shù)據(jù)庫則可以提供一個更全的(未來希望是任何)變異位點(diǎn)的人群變異頻率(可能均未被OMIM和ClinVar收錄)。這些數(shù)據(jù)庫均可對變異位點(diǎn)的篩選與最終的確定帶來幫助。
gnomAD數(shù)據(jù)庫簡介
? 基因組聚合數(shù)據(jù)庫 (Genome?Aggregation?Database,?gnomAD)是一個致力于從各種大規(guī)模測序項(xiàng)目中收集和協(xié)調(diào)外顯子組和基因組測序數(shù)據(jù),并為更廣泛的科學(xué)界提供匯總數(shù)據(jù)的研究者聯(lián)盟。
? 外顯子組聚合聯(lián)盟 (Exome Aggregation Consortium, ExAC)是gnomAD的前身(第一個發(fā)布版),包含了大量自有的人類外顯子組數(shù)據(jù)。
? gnomAD項(xiàng)目由Heidi Rehm和Mark Daly作為聯(lián)合理事(co-directors)共同監(jiān)督,指導(dǎo)委員會成員包括Daniel MacArthur(實(shí)驗(yàn)室主頁:https://macarthurlab.org/,會發(fā)布很多有關(guān)gnomAD的信息), Benjamin Neale, Michael Talkowski, Anne O'Donnell-Luria, Konrad Karczewski, Grace Tiao, Matthew Solomonson和Samantha Baxter。
Ability to understand genomes scales up
https://www.nature.com/articles/d41586-020-01485-4
gnomAD(v3.1.1)基于GRCh38,其中短變異(short variant)數(shù)據(jù)集涵蓋了76,156個互不相關(guān)個體的基因組測序數(shù)據(jù),是各種疾病特異性研究和群體遺傳研究的一部分。
gnomAD(v2.1.1)基于GRCh37,其中短變異數(shù)據(jù)集涵蓋了125,748個外顯子和15,708個基因組,這些基因組來自作為各種疾病特異性研究和群體遺傳研究的一部分的不相關(guān)的個體,總計(jì)141,456個。
gnomAD的網(wǎng)址:
1.?http://www.gnomad-sg.org/
2.?http://gnomad.broadinstitute.org/
博德研究所的這個站點(diǎn)在國內(nèi)似乎經(jīng)常無法訪問。其GATK相關(guān)站點(diǎn)有時也訪問不了,暫不清楚是什么問題。上面gnomAD的兩個網(wǎng)站的數(shù)據(jù)是否等價(jià)也暫不清楚??傊谝粋€網(wǎng)站使用時看不出來有什么問題,也被很多人使用。
gnomAD v3.1.1
http://www.gnomad-sg.org/variant/11-5227002-T-A?dataset=gnomad_r3
gnomAD v2.1.1
http://www.gnomad-sg.org/variant/11-5248232-T-A?dataset=gnomad_r2_1
有關(guān)最新版本的詳細(xì)信息,可參閱gnomAD v3.1博客文章。
https://gnomad.broadinstitute.org/news/2020-10-gnomad-v3-1-new-content-methods-annotations-and-data-availability/
gnomAD博客中以前版本(v3.0, v2.1)的詳細(xì)信息。
https://gnomad.broadinstitute.org/news/
gnomAD結(jié)構(gòu)變異(SV)v2.1數(shù)據(jù)集基于GRCh37,涵蓋了10,847個不相關(guān)個體的基因組,這些個體的測序也是各種疾病特異性研究和群體遺傳研究的一部分。它大部分(但不是全部)與用于gnomAD短變異釋放的基因組集合重疊。
gnomAD刪除了已知罹患重癥兒科疾病的個體,以及他們的一級親屬,所以這些數(shù)據(jù)集可以作為對重癥兒科疾病研究有用的等位基因頻率(Allele Frequencies, AF)參考集。然而仍需注意,一些患重癥疾病的人仍然可能存在于數(shù)據(jù)集中,盡管其頻率可能相當(dāng)于或低于普通人群的頻率。
來自這些項(xiàng)目的所有原始數(shù)據(jù)都通過等價(jià)的分析流程(equivalent pipelines)、平行的變異檢測(jointly variant-called)進(jìn)行了再處理,以增加項(xiàng)目與項(xiàng)目之間的一致性(consistency across projects)。這一點(diǎn)非常重要,處理起來也有一定難度,否則QC時由于各個樣本測序深度和測序質(zhì)量等的影響,合并的樣本越多記錄的位點(diǎn)可能越少。
gnomAD的數(shù)據(jù)處理流程是用WDL工作流程定義語言編寫(WDL workflow definition language, https://software.broadinstitute.org/wdl/)的,并使用了Cromwell執(zhí)行引擎進(jìn)行計(jì)算。Cromwell執(zhí)行引擎是用于在多個平臺上大規(guī)模定義和執(zhí)行基因組分析工作流的開源項(xiàng)目。
https://support.terra.bio/hc/en-us/articles/360037487871-Execute-
https://cromwell.readthedocs.io/en/stable/
gnomAD經(jīng)過了質(zhì)量控制(QC),并使用Hail開源框架(https://hail.is/)進(jìn)行分析,以確??蓴U(kuò)展的遺傳分析(這一點(diǎn)也非常重要,因?yàn)槊看螖?shù)據(jù)庫更新時樣本量都可能增加)。
Hail開源框架
gnomAD數(shù)據(jù)集包含使用多種外顯子組捕獲方法和測序化學(xué)方法來測序的個體,因此覆蓋范圍因個體和不同位點(diǎn)而異。測序覆蓋范圍內(nèi)的每個變異均被整合,并參與變異頻率的計(jì)算。
gnomAD的SV檢測算法。gnomAD通過整合四種已發(fā)表的SV算法(Manta、DELLY、MELT和cn.MOPS)來識別7個突變類的SV,并在所有基因組中聯(lián)合過濾、基因分型、解析和注釋這些SV。gnomAD的SV檢測流程的軟件組件可以作為公共的共享方法,使用專用的Docker映像。gnomAD的SV論文的補(bǔ)充信息中提供了這一過程的廣泛技術(shù)細(xì)節(jié)(Nature, 2020. A structural variation reference for medical and population genetics)。?可引用這篇論文以便使用SV數(shù)據(jù)。
gnomAD變異集(call set)的生成主要是由博得研究所(也開發(fā)了GATK等基因組分析工具集)資助的,這里的數(shù)據(jù)是為了使更廣泛的生物醫(yī)學(xué)界獲益而公開發(fā)布的。對這些數(shù)據(jù)沒有出版限制或禁運(yùn)(embargoes),也不受知識共享零公共領(lǐng)域奉獻(xiàn)(Creative Commons Zero Public Domain Dedication)的限制。這意味著可以將其用于任何目的,而無需在法律上給出歸屬。但需要積極承認(rèn)并給予gnomAD項(xiàng)目的歸屬,并盡可能鏈接回相關(guān)頁面。支持未來發(fā)布其他數(shù)據(jù),也減少了“孤兒數(shù)據(jù)(orphaned data)”的數(shù)量,幫助保留到權(quán)威來源的鏈接。
對于這些數(shù)據(jù)的任何使用,可引用gnomAD的旗艦(flagship )論文:
The mutational constraint spectrum quantified from variation in 141,456 humans.?Nature,?2020.?
https://www.nature.com/immersive/d42859-020-00002-x/index.html
https://www.nature.com/articles/s41586-020-2308-7#citeas
gnomAD的主要研究人員和小組的列表,為當(dāng)前的版本提供了數(shù)據(jù)和分析:
更多人類遺傳學(xué)知識、文獻(xiàn)和分析技術(shù)
請關(guān)注和星標(biāo)聊生信、生信寶典
總結(jié)
以上是生活随笔為你收集整理的人群频率 | gnomAD数据库简介 (一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于SegNet和UNet的遥感图像分割
- 下一篇: Resnet的pytorch官方实现代码