人群频率 | gnomAD数据库 (二) 后台数据的获取及质量评估
? 在gnomAD數(shù)據(jù)庫(kù)簡(jiǎn)介(一)中,我們簡(jiǎn)單介紹了基因組學(xué)遺傳分析中人群變異頻率的重要性,以及gnomAD數(shù)據(jù)庫(kù)的一些背景。
? 本篇主要側(cè)重gnomAD的后臺(tái)數(shù)據(jù)下載和簡(jiǎn)單評(píng)估。
gnomAD后臺(tái)數(shù)據(jù)下載
gnomAD數(shù)據(jù)下載的幾個(gè)方式:
測(cè)試一下gsutil命令:
pip install gsutilcd /home/shw/public/gnomADgsutil?ls?gs://gcp-public-data--gnomad/release/ gsutil?ls?gs://gcp-public-data--gnomad/release/2.1.1/liftover_grch38/vcf/exomes為了簡(jiǎn)便一些,我們還是使用熟悉的wget命令下載:
后臺(tái)數(shù)據(jù)簡(jiǎn)單測(cè)試
查看上述獲取的gnomAD(exomes,?v2.1.1, LiftOver)VCF文件記錄的變異位點(diǎn)個(gè)數(shù):
zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | wc -l # 17205543gnomAD的這個(gè)外顯子組數(shù)據(jù)共收錄了約1,720萬(wàn)個(gè)變異位點(diǎn)!要知道人類(lèi)總的外顯子組位點(diǎn)數(shù)約為3,000萬(wàn)。這個(gè)比例依然很難得。隨便找個(gè)基因的外顯子序列,其中一半以上的核苷酸都能在gnomAD查到人群變異頻率!
在該VCF文件中隨機(jī)選擇一個(gè)位點(diǎn)進(jìn)行比較和測(cè)試,例如:rs1479269360
gnomAD后臺(tái)數(shù)據(jù)(VCF文件的第5000行)
# 查看VCF文件的表頭: zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | head -n 5000 | grep -v '##' | head -n 1# 查看VCF文件某一個(gè)變異位點(diǎn)的人群頻率: zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | head -n 5000 | tail -n 1(人群變異頻率)AF=7.44679e-06
另外注釋有:轉(zhuǎn)錄本ID、密碼子變化、(反式)調(diào)控位點(diǎn)注釋等信息
gnomAD在線檢索(AF完全匹配)
另有人群的亞群頻率、年齡分布、基因型質(zhì)量、測(cè)序深度、IGV等展示信息
dbSNP在線檢索(發(fā)現(xiàn)居然沒(méi)有該位點(diǎn)的AF)
另有臨床意義等其它信息:
提取gnomAD的人群變異頻率
從剛才的gnomAD(exomes, v2.1.1, LiftOver)VCF文件中提取AF信息:
nohup?zcat?gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz?|?sed?'s/AF=/\t/g'?|?cut?-f?9?|?sed?'s/;/\t/g'?|?cut?-f?1?>?gnomad.exomes.r2.1.1.sites.liftover_grch38.AF.txt zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | cut -f 1-7 > gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.1-7col.txt & #?按列合并: paste gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.1-7col.txt gnomad.exomes.r2.1.1.sites.liftover_grch38.AF.txt | grep -v '##' > gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt測(cè)試鐮刀型貧血癥的致病HBB的致病變異位點(diǎn):rs334
grep?-w?rs334?gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txtchr11? ?5227002 rs334? ?T? ? ? ?A? ? ? ?2136270.15? ? ? PASS? ? 3.47958e-03
完全匹配dbSNP網(wǎng)站上Frequency中的GnomAD_exome,且后者具有最大的人群基數(shù):
https://www.ncbi.nlm.nih.gov/snp/rs334
使用gnomAD(v2.1.1)在線檢索:
令人驚喜的是,gnomAD在線檢索結(jié)果也提供了SIFT, Polyphen等in-sillico有害性預(yù)測(cè),以及ClinVar相關(guān)注釋信息:
關(guān)于ClinVar的詳細(xì)介紹,及其對(duì)rs334注釋,請(qǐng)查看:ClinVar數(shù)據(jù)庫(kù)詳解。
繼續(xù)使用gnomAD(v3.1.1)在線檢索:rs334(大小寫(xiě)敏感!)。結(jié)果中居然還有CADD和REVEL(In Silico Predictors)打分:
關(guān)于gnomAD的總的變異位點(diǎn)數(shù)
上述操作中,從gnomAD(exomes, v2.1.1, LiftOver)的VCF文件提取了AF(等位基因人群頻率)信息,下面是其總的位點(diǎn)數(shù):
wc -l gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt # 17,201,297 gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt當(dāng)然,我們更想了解所有3,000萬(wàn)個(gè)位點(diǎn)的變異頻率。因?yàn)檎f(shuō)不準(zhǔn)哪天我們自己的外顯子組測(cè)序數(shù)據(jù)就測(cè)到了一個(gè)導(dǎo)致氨基酸變異的位點(diǎn),但恰好未被gnomAD收錄(這種情況是存在的),此時(shí)由于不知道其AF,按照通常的思路只好考慮將其舍棄:只保留gnomAD中收錄的、且AF<5%的位點(diǎn)。
那么gnomAD未收錄的位點(diǎn)均被舍棄。也就是說(shuō),最終致病位點(diǎn)只能限制在gnomAD所收錄的位點(diǎn)中(這依賴于gnomAD,是比較被動(dòng)的)。此為“過(guò)分的舍棄”。
另一個(gè)思路,只過(guò)濾掉gnomAD中收錄的、且AF>10%變異的位點(diǎn),但保留下來(lái)的某些位點(diǎn)仍然可能在人群中存在高頻變異(AF>10%),而這些位點(diǎn)有可能是耐受的、良性的或非致病的位點(diǎn)。此為“過(guò)多的保留”。
因此一些研究或高水平文獻(xiàn)中不止參考了gnomAD,也參考了1000 Genomes和Bale database等數(shù)據(jù)庫(kù)中收錄的位點(diǎn),目的就是盡量減少“過(guò)分的舍棄”和“過(guò)多的保留”。
因此我們還是希望gnomAD能覆蓋到全部外顯子序列(~3,000萬(wàn)個(gè)位點(diǎn)),這無(wú)疑是一個(gè)巨大挑戰(zhàn)。
更多人類(lèi)遺傳學(xué)知識(shí)、文獻(xiàn)和分析技術(shù)
請(qǐng)關(guān)注和星標(biāo)聊生信
總結(jié)
以上是生活随笔為你收集整理的人群频率 | gnomAD数据库 (二) 后台数据的获取及质量评估的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。