国际千人基因组计划数据库怎么用起来?
從公共數據庫中下載基因組或外顯子組數據,一般需注意以下幾項:
1.?使用權限
2. 物種及參考基因組版本
3. 數據來源及引用:GEO、千人基因組計劃等
4. 表型:種族、健康狀況、性別、年齡和家系信息
5. 數據類型:遺傳變異、體細胞變異;SNV、InDel或SNV;基因芯片或測序(測序儀、單雙端及讀長)
6. 文件類型:fastq、bam、vcf或gvcf
國際千人基因組計劃
項目起始。人類基因組計劃耗費10多年后在2003年繪出人類的完整基因組圖譜。作為某種延續,也得益于測序通量的提高,國際千人基因組計劃(The 1000 Genomes Project, 1000G/1KGP)從2008年啟動,到2012年即獲得了超過1000人的基因組數據,是科學界首次實現千人規模以上的基因組對比分析(2012年)。
1000G建立的人類遺傳變異資源由國際基因組樣本資源(The International Genome Sample Resource, IGSR)維護和共享。IGSR官網:
http://www.internationalgenome.org/
項目規劃。1000G旨在繪制當時(2012年)最為詳盡、最有醫學應用價值的人類基因組遺傳多態性圖譜。其后數據不斷擴充,分析結果不斷更新和迭代。目前已經有超過2500個人的基因組。2500個人的全部基因組可產生50TB(5萬GB)的數據量,包含8萬億個DNA堿基對。
參與單位。華大基因是1000G的主要發起單位之一,承擔了非洲人群和400個黃種人的全基因組測序。其它單位有英國桑格研究所和美國國立人類基因組研究所等。
人群分布。每個亞群一般包含幾十到一百多個健康人。例如:尼日利亞伊巴丹區域的約魯巴人;肯尼亞Webuye的Luhya人和Kinyawa的Maasai人;居住于美國西南部的非洲人后裔;居住于東京的日本人;居住于北京的中國人;居住于丹佛的中國人;意大利的Toscani居民;美國猶他州的北歐和西歐人后裔;美國休斯頓的Gujarati印第安人;美國洛杉磯的墨西哥人后裔。項目后期的人群多樣性有大幅增加。
1000G數據庫的應用
任何兩個人在基因水平上99%是一樣的,小部分的基因組序列因人而異。每個看起來很健康的人其實都攜有數百個罕見的基因變異,其中有些基因變異已證實與某些疾病風險有關。這些基因變異究竟在什么情況下才會實質性地增加患病風險,目前不得而知(聊生信:我們會關注相關的研究與應用進展)。
發現罕見的基因變異。1000G可以幫助發現一些攜帶者占總人口比例不到1%的基因變異。這些罕見基因變異或許與疾病有關,例如可能增加心臟病或癌癥的患病風險。對基因變異進行研究有助于開發預防、治療相關疾病的方法。
作為人群對照。可以幫助研究者不再泛泛地找一些人的基因組(幾個或幾十個)用于對比,而是直接調閱他們長期生活區域的人群基因組數據,開展更加有針對性的比較。
應用匯總。發現疾病發病機理、疾病的易感性、對藥物和環境因素的反應性;常見疾病的診斷、個性化預測、預防和治療;在大的范圍內定位人群突變基因、幫助發現人類遺傳疾病的相關基因、鑒定特定遺傳病人群中的罕見致病基因、更精確地定位已發現的遺傳風險因素、挖掘出更多未知的致病遺傳因素;藥物基因組學、人類群體遺傳學、人類進化史。
樣本列表的選擇和下載
1000G包含的個體主要是來自不同人群的(自我聲稱)健康的樣本(people who declared themselves to be healthy),可方便地下載到原始數據。但作為對照時需要注意:只有少部分樣本進行了深度測序,大部分數據都是低深度測序。
主要數據組成:
Pilot:? ? 試點,比對到NCBI36
Phase1:約1000例,低深度和外顯子數據,GRCh37
Phase2:約1700例,分析方法有更新
Phase3:約3000例,GRCh37,2504例的樣本信息公開
1000 Genomes on GRCh38:約2700例樣本
GRCH38的不同版本(GRCH38.p1, GRCH38.p2等)是對GRCH38的修補(patch),坐標系不會改變。
數據入口(data portal):
https://www.internationalgenome.org/data-portal/sample
先選擇測序技術:
另有全基因組、小RNA、Nanopore、PacBio和單細胞測序,及基因型芯片數據
再選擇人群:
最后選擇數據集合:
先選擇了外顯子組(Exome);人群:CHB(北京,n=103);CHS(南方漢族人群,n=113);數據集合:30x on GRCh38。最終有216個樣本符合。
點擊Download the list下載得到樣本名稱:
需要根據這些樣本列表從1000G數據庫下載感興趣的各類變異文件,我們后續的推文再介紹。
撰寫:宋紅衛
校對:宋紅衛
更多人類遺傳學知識、文獻和分析技術
請關注和星標聊生信
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的国际千人基因组计划数据库怎么用起来?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 转:Python Shell 清屏方法
- 下一篇: 转:如何调用另一个python文件中的代