ANNOVAR gene-based annotation
歡迎關注"生信修煉手冊"!
通過基因相關注釋,可以知道變異位點在基因組上的位置和對蛋白質編碼的影響。在進行注釋之前,首先需要下載物種對應的數據庫,以human為例,命令如下
annotate_variation.pl -downdb -buildver hg19 -webfrom annovar refGene humandb/
下載成功后,humandb的文件列表如下
├── annovar_downdb.log ├── hg19_refGeneMrna.fa ├── hg19_refGene.txt └── hg19_refGeneVersion.txt數據庫準備好之后,就可以進行注釋了,命令如下
annotate_variation.pl —geneanno ?-buildver hg19 ?ex1.avinput humandb
運行過程中的log信息如下
NOTICE: Output files were written to ex1.avinput.variant_function, ex1.avinput.exonic_variant_function NOTICE: Reading gene annotation from humandb/hg19_refGene.txt ... Done with 63481 transcripts (including 15216 without coding sequence annotation) for 27720 unique genes NOTICE: Processing next batch with 21 unique variants in 21 input lines NOTICE: Reading FASTA sequences from humandb/hg19_refGeneMrna.fa ... Done with 15 sequences WARNING: A total of 405 sequences will be ignored due to lack of correct ORF annotation會輸出兩個文件,后綴分別為.variant_function和.exonic_variant_function。
1. variant_function
這個文件在輸入文件的前面,新加了兩列,第一列代表變異位點在基因上的區域,比如外顯子,內含子,基因間區等;第二列給出對應的基因。示例如下
UTR5 ? ?ISG15(NM_005101:c.-33T>C) UTR3 ? ?ATAD3C(NM_001039211:c.*91G>T) intronic ? ? ? ?DDR2 intronic ? ? ? ?DNASE2B intergenic ? ? ?UBIAD1(dist=43968),DISP3(dist=135699) exonic ?IL23R exonic ?ATG16L1annovar將基因組劃分成了9種區間
exonic
splicing
ncRNA
UTR5
UTR3
intronic
upstream
downstream
intergenic
exonic特指編碼蛋白的外顯子區;UTR5和UTR3特指不翻譯蛋白的外顯子區;splicing指的是位于內含子邊界(默認2bp以內)的區域;ncRNA指的是非編碼蛋白的基因區域;intronic指的是內含子區;upstream指的是轉錄起始位點上游1Kb以內的區域;downstream指的是轉錄終止位點下游1kb以內的區域;intergenic值的是基因間區。
在判斷一個變異位點所處區域時,以上9種區間的優先級是不同的,下圖中列出了每種區間的優先級,數字越小,優先級越高。
如果一個變異位點位于某個基因區域時,第二列會給出對應的基因名稱,如果有多個基因名稱,則逗號分隔,比如
exonic ?ATG16L1
如果一個變異位點位點不在基因區域,第二列會給出上下游最近的基因的名字和距離,比如
intergenic ?UBIAD1(dist=43968),DISP3(dist=135699)
2. exonic_variant_function
這個文件只對位于exonic區間的變異位點,給出對應的氨基酸變化信息。在輸入文件的基礎上新增了3列,第一列代表行數,第二列代表變異類型,第三列代表氨基酸的變化情況,示例如下
line9 ? nonsynonymous SNV ? ? ? IL23R:NM_144701:exon9:c.G1142A:p.R381Q,annovar提供了以下幾種變異類型
frameshift insertion
frameshift deletion
frameshift block substitution
stopgain
stoploss
nonframeshift insertion
nonframeshift deletion
nonframeshift block substitution
nonsynonymous SNV
synonymous SNV
unknown
在定義變異類型時,首先基于4種基本的變異類型,SNV, insertion, deletion, block substitution, 再結合其對蛋白編碼的影響。對于SNV而言,引起了蛋白質變化的就是synonymous SNV, 蛋白質沒有變化的就是
nonsynonymous SNV;對于剩下的3種基本變異類型,在考慮對蛋白質的影響時,分為了移碼frameshift和非移碼nonframeshift 兩種。stopgain指的是突變之后,原本的密碼子變成了終止密碼子,stoploss指的是突變之后,原本的終止密碼子變成了普通密碼子,導致翻譯情況變化較大。unknown代表不清楚該變異對蛋白的影響。
和分析變異位點所處區間類似,評估變異類型時也有優先級的區分,優先級如下
在表示蛋白質的影響時,annovar采用的是自己定義的表示規則,如果想要使用HGVS定義的規則,只需要在運行時添加-hgvs參數,示例如下
annotate_variation.pl —geneanno ?-buildver hg19 -hgvs ?ex1.avinput humandb
添加這個參數之后,exonic_variant_function文件的第三列示例如下
IL23R:NM_144701:exon9:c.1142G>A:p.R381Q
可以看到,采用的是HGVS的命名方式。
在使用annovar注釋時,還有一個小技巧。因為只需要輸入文件的前5列,當我們只有基因區間文件,比如bed格式的文件時,可以將4,5列用0填充,這樣的格式annovar也是可以識別的,這樣就可以對基因組上的區間進行基因相關的注釋了。
掃描關注微信號,更多精彩內容等著你!
總結
以上是生活随笔為你收集整理的ANNOVAR gene-based annotation的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: wineHQ安装VC6
- 下一篇: 【百度AI语音合成】会员到访门店语音提醒