ANNOVAR region-based annotation-上篇
歡迎關注"生信修煉手冊"!
通過gene-based annotation 可以得到變異位點與基因之間的關系,除了與基因的關系之外,變異位點在基因組上某些特征區域的分布(比如轉錄因子結合區域,啟動子區,增強子區等)更引人關注,這一功能通過region-based annotation 來實現。
在進行區域相關注釋時,需要各種數據庫,不同的特征區域對應的數據庫不同。annovar支持下列多種數據庫
1. 物種間保守區域
對人,小鼠,大鼠等5個脊椎動物的基因組序列進行多序列比對,然后采用phastCons軟件識別在不同物種間保守的基因組區域。在識別保守區域時,軟件會對每個保守區域進行打分。
第一步: 下載phastConsElements46way數據庫,命令如下
annotate_variation.pl -build hg19 -downdb phastConsElements46way humandb/
NOTICE: Web-based checking to see whether ANNOVAR new version is available ... Done NOTICE: Downloading annotation database http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/phastConsElements46way.txt.gz ... Done NOTICE: Uncompressing downloaded files NOTICE: Finished downloading annotation files for hg19 build version, with files saved at the 'humandb' directory數據庫文件內容如下,第二列到第四列代表保守區域在基因組上的位置,第五列代表保守區域的名字,第六列代表該保守守區域的打分score值。
585 ? ? chr1 ? ?12002 ? 12085 ? lod=33 ?343 585 ? ? chr1 ? ?12170 ? 12232 ? lod=123 483 585 ? ? chr1 ? ?12594 ? 12702 ? lod=219 545 585 ? ? chr1 ? ?12994 ? 13054 ? lod=101 462第二步,執行注釋,命令如下
annotate_variation.pl -regionanno -build hg19 -out ex1 -dbtype phastConsElements46way ex1.avinput humandb/
NOTICE: Output file is written to ex1.hg19_phastConsElements46way NOTICE: Reading annotation database humandb/hg19_phastConsElements46way.txt ... Done with 5163775 regions NOTICE: Finished region-based annotation on 21 genetic variants輸出文件的后綴為hg19_phastConsElements46way, 在輸入文件的前面新增了兩列,內容如下
phastConsElements46way ? ?Score=300;Name=lod=22 phastConsElements46way ? ?Score=387;Name=lod=50 phastConsElements46way ? ?Score=420;Name=lod=68 phastConsElements46way ? ?Score=385;Name=lod=49 phastConsElements46way ? ?Score=395;Name=lod=54 phastConsElements46way ? ?Score=545;Name=lod=218第一列為對應的數據庫的名字,第二列為基因組上保守區域的得分和名字。
2. TFBS
TFBS是Transcription factor binding site的縮寫,代表轉錄因子結合位點。在UCSC網站上,提供了轉錄因子結合位點的數據庫。
第一步:下載tfbsConsSites數據庫,命令如下
annotate_variation.pl -build hg19 -downdb tfbsConsSites humandb/
NOTICE: Web-based checking to see whether ANNOVAR new version is available ... Done NOTICE: Downloading annotation database http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/tfbsConsSites.txt.gz ... Done NOTICE: Uncompressing downloaded files NOTICE: Finished downloading annotation files for hg19 build version, with files saved at the 'humandb' directory數據庫文件內容如下,第二列到第四列代表轉錄因子在基因組上的結合位置,第五列代表轉錄因子的名字
591 ? ? chr1 ? ?894640 ?894654 ?V$P300_01 ? ? ? 842 ? ? - ? ? ? 1.68 591 ? ? chr1 ? ?894641 ?894657 ?V$ELK1_01 ? ? ? 898 ? ? - ? ? ? 2.7 591 ? ? chr1 ? ?894644 ?894654 ?V$CETS1P54_01 ? 971 ? ? - ? ? ? 2.22第二步,進行注釋,命令如下
annotate_variation.pl -regionanno -build hg19 ?-dbtype tfbsConsSites
ex1.avinput humandb/
輸出文件的后綴為hg19_tfbsConsSites, 在輸入文件的前面新增了兩列,內容如下
tfbsConsSites ? Score=767;Name=V$PAX5_02 tfbsConsSites ? Score=880;Name=V$CEBPA_01 tfbsConsSites ? Score=878;Name=V$FREAC3_01第一列為對應的數據庫的名字,第二列為轉錄因子結合區域的得分和對應的轉錄因子的名字。
3. cytoband
UCSC提供了cytoband的數據庫。
第一步,下載cytoBand數據庫,命令如下
annotate_variation.pl -build hg19 -downdb cytoBand ?humandb/
NOTICE: Web-based checking to see whether ANNOVAR new version is available ... Done NOTICE: Downloading annotation database http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/cytoBand.txt.gz ... Done NOTICE: Uncompressing downloaded files NOTICE: Finished downloading annotation files for hg19 build version, with files saved at the 'humandb' directory數據庫文件內容如下
chr1 ? ?0 ? ? ? 2300000 p36.33 ?gneg chr1 ? ?2300000 5400000 p36.32 ?gpos25 chr1 ? ?5400000 7200000 p36.31 ?gneg chr1 ? ?7200000 9200000 p36.23 ?gpos25第二步,進行注釋,命令如下
annotate_variation.pl -regionanno -build hg19 -dbtype cytoBand ?ex1.avinput
humandb/
輸出文件的后綴為hg19_cytoBand, 在輸入文件的前面新增了兩列,內容如下
cytoBand ? ?1p36.33 cytoBand ? ?1p36.33 cytoBand ? ?1p36.31 cytoBand ? ?1q23.3 cytoBand ? ?1p31.1第一列為對應的數據庫的名字,第二列為對應的cytoband區域的名字。
4. ?microRNA和snoRNA
UCSC提供了microRNA和snoRNA在基因組上的位置,叫做wgRna,通過這個數據庫,可以查看變異位點是否位于microRNA和snoRNA對應的基因組區域上。
第一步,下載數據庫,命令如下
annotate_variation.pl -build hg19 -downdb wgRna ?humandb/
NOTICE: Web-based checking to see whether ANNOVAR new version is available ... Done NOTICE: Downloading annotation database http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/wgRna.txt.gz ... Done NOTICE: Uncompressing downloaded files NOTICE: Finished downloading annotation files for hg19 build version, with files saved at the 'humandb' directory數據庫中文件內容如下:
585 ? ? chr1 ? ?30365 ? 30503 ? hsa-mir-1302-2 ?0 ? ? ? + ? ? ? 0 ? ? ? 0 ? ? ? miRNA 593 ? ? chr1 ? ?1102483 1102578 hsa-mir-200b ? ?0 ? ? ? + ? ? ? 0 ? ? ? 0 ? ? ? miRNA 799 ? ? chr1 ? ?28160911 ? ? ? ?28161077 ? ? ? ?ACA35 ? 0 ? ? ? + ? ? ? 0 ? ? ? 0 ? ? ? scaRna 804 ? ? chr1 ? ?28833876 ? ? ? ?28834083 ? ? ? ?U17a ? ?0 ? ? ? + ? ? ? 0 ? ? ? 0 ? ? ? HAcaBox 804 ? ? chr1 ? ?28835069 ? ? ? ?28835274 ? ? ? ?U17b ? ?0 ? ? ? + ? ? ? 0 ? ? ? 0 ? ? ? HAcaBox第二步,進行注釋,命令如下
annotate_variation.pl -regionanno -build hg19 -dbtype wgRna ?ex1.avinput humandb/
NOTICE: Output file is written to ex1.avinput.hg19_wgRna NOTICE: Reading annotation database humandb/hg19_wgRna.txt ... Done with 1341 regions NOTICE: Finished region-based annotation on 21 genetic variants輸出文件的后綴為hg19_wgRna, 在輸入文件的前面新增了兩列,內容如下
wgRna ? Name=hsa-mir-1302-2 wgRna ? Name=hsa-mir-1290 wgRna ? Name=HBII-420第一列為對應的數據庫的名字,第二列為micoRNA/snoRNA的名字。
5. microRNA binding sites
UCSC給出了TargetScanHuman網站預測的microRNA結合位點。
第一步,下載targetScanS數據庫,命令如下
annotate_variation.pl -build hg19 -downdb targetScanS ?humandb/
NOTICE: Web-based checking to see whether ANNOVAR new version is available ... Done NOTICE: Downloading annotation database http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/targetScanS.txt.gz ... Done NOTICE: Uncompressing downloaded files NOTICE: Finished downloading annotation files for hg19 build version, with files saved at the 'humandb' directory數據庫中文件內容如下:
591 ? ? chr1 ? ?879822 ?879830 ?SAMD11:miR-504 ?90 ? ? ?+ 591 ? ? chr1 ? ?900599 ?900606 ?KLHL17:miR-299/299-3p ? 26 ? ? ?+ 591 ? ? chr1 ? ?900605 ?900612 ?KLHL17:miR-124/506 ? ? ?7 ? ? ? + 591 ? ? chr1 ? ?900933 ?900941 ?KLHL17:miR-19 ? 82 ? ? ?+ 591 ? ? chr1 ? ?901054 ?901061 ?KLHL17:miR-137 ?14 ? ? ?+第二步,進行注釋,命令如下
annotate_variation.pl -regionanno -build hg19 -dbtype targetScanS ?ex1.avinput humandb/
NOTICE: Output file is written to ex1.avinput.hg19_targetScanS NOTICE: Reading annotation database humandb/hg19_targetScanS.txt ... Done with 54199 regions NOTICE: Finished region-based annotation on 21 genetic variants輸出文件的后綴為hg19_targetScanS, 在輸入文件的前面新增了兩列,內容如下
targetScanS ? ? Score=90;Name=SAMD11:miR-504 targetScanS ? ? Score=82;Name=KLHL17:miR-19第一列為對應的數據庫的名字,第二列為結合區域的打分和對應的基因和microRNA的名字。
6. segmental duplications
基因組上的重復序列區域,這部分序列在比對時由于同源性,會存在比對情況不正確的情況。
第一步,下載genomicSuperDups 數據庫,命令如下
annotate_variation.pl -build hg19 -downdb genomicSuperDups ?humandb/
NOTICE: Web-based checking to see whether ANNOVAR new version is available ... Done NOTICE: Downloading annotation database http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/genomicSuperDups.txt.gz ... Done NOTICE: Uncompressing downloaded files NOTICE: Finished downloading annotation files for hg19 build version, with files saved at the 'humandb' directory數據庫文件列數較多,截取了前5列,內容如下:
585 ? ? chr1 ? ?10000 ? 87112 ? chr15:102446355 585 ? ? chr1 ? ?10000 ? 20818 ? chr12:84886 585 ? ? chr1 ? ?10000 ? 19844 ? chrY:59352887 585 ? ? chr1 ? ?10000 ? 19844 ? chrX:155249881 585 ? ? chr1 ? ?10464 ? 40733 ? chr2:114330297第二步,進行注釋,命令如下
annotate_variation.pl -regionanno -build hg19 -dbtype genomicSuperDups ?ex1.avinput humandb/
NOTICE: Output file is written to ex1.avinput.hg19_genomicSuperDups NOTICE: Reading annotation database humandb/hg19_genomicSuperDups.txt ... Done with 51599 regions NOTICE: Finished region-based annotation on 21 genetic variants輸出文件的后綴為hg19_genomicSuperDups, 在輸入文件的前面新增了兩列,內容如下
genomicSuperDups ? ?Score=0.905283;Name=chr1:1439902 genomicSuperDups ? ?Score=0.99612;Name=chr1:13142561 genomicSuperDups ? ?Score=0.991956;Name=chr15:102446355第一列為對應的數據庫的名字,第二列為重復區域的名字和打分。
7. structural variants
DGV數據庫中存儲了基因組結構變異的信息,annovar利用這個數據庫來分析變異位點是否在已發表的結構變異區間上。
第一步,下載dgvMerged數據庫,命令如下
annotate_variation.pl -build hg19 -downdb dgvMerged ?humandb/
NOTICE: Web-based checking to see whether ANNOVAR new version is available ... Done NOTICE: Downloading annotation database http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/dgvMerged.txt.gz ... Done NOTICE: Uncompressing downloaded files NOTICE: Finished downloading annotation files for hg19 build version, with files saved at the 'humandb' directory數據庫文件列數較多,截取了前5列,內容如下:
9 ? ? ? chr1 ? ?0 ? ? ? 2300000 nsv482937 585 ? ? chr1 ? ?10000 ? 127330 ?nsv7879 585 ? ? chr1 ? ?10000 ? 22118 ? dgv1n82 585 ? ? chr1 ? ?10190 ? 10281 ? nsv958854 73 ? ? ?chr1 ? ?10376 ? 1018704 esv2758911第二步,進行注釋,命令如下
annotate_variation.pl -regionanno -build hg19 -dbtype dgvMerged ?ex1.avinput humandb/
NOTICE: Output file is written to ex1.avinput.hg19_dgvMerged NOTICE: Reading annotation database humandb/hg19_dgvMerged.txt ... Done with 392583 regions NOTICE: Finished region-based annotation on 21 genetic variants輸出文件的后綴為hg19_dgvMerged, 在輸入文件的前面新增了兩列,內容如下
dgvMerged ? ?Name=nsv832536,nsv545407 dgvMerged ? ?Name=nsv830937,dgv235n100 dgvMerged ? ?Name=nsv1243 dgvMerged ? ?Name=nsv584699 dgvMerged ? ?Name=esv3638608第一列為對應的數據庫的名字,第二列為DGV數據庫中結構變異的ID。
8. GWAS
分析變異位點是否在之前的GWAS研究中報導過。
第一步,下載gwasCatalog數據庫,命令如下
annotate_variation.pl -build hg19 -downdb gwasCatalog ?humandb/
NOTICE: Web-based checking to see whether ANNOVAR new version is available ... Done NOTICE: Downloading annotation database http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/gwasCatalog.txt.gz ... Done NOTICE: Uncompressing downloaded files NOTICE: Finished downloading annotation files for hg19 build version, with files saved at the 'humandb' directory數據庫文件列數較多,截取了前5列,內容如下:
590 ? ? chr1 ? ?780396 ?780397 ?rs141175086 591 ? ? chr1 ? ?894572 ?894573 ?rs13303010 592 ? ? chr1 ? ?1005805 1005806 rs3934834 593 ? ? chr1 ? ?1079197 1079198 rs11260603 593 ? ? chr1 ? ?1173610 1173611 rs6697886第二步,進行注釋,命令如下
annotate_variation.pl -regionanno -build hg19 -dbtype gwasCatalog ?ex1.avinput humandb/
NOTICE: Output file is written to ex1.avinput.hg19_gwasCatalog NOTICE: Reading annotation database humandb/hg19_gwasCatalog.txt ... Done with 75593 regions NOTICE: Finished region-based annotation on 21 genetic variants輸出文件的后綴為hg19_gwasCatalog, 在輸入文件的前面新增了兩列,內容如下
gwasCatalog ? ?Name=Crohn's disease gwasCatalog ? ?Name=Chronic inflammatory diseases第一列為對應的數據庫的名字,第二列與該變異位點存在關聯的疾病或者形狀的名字。
在region-based annotation中,相關的數據庫非常多,本篇只介紹上述幾個數據庫,剩余的數據庫在后續文章中在進行介紹。
掃描關注微信號,更多精彩內容等著你!
總結
以上是生活随笔為你收集整理的ANNOVAR region-based annotation-上篇的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 互相关函数python实现的三种方法
- 下一篇: 爬取网页图片链接并下载保存