生信:1:vcf格式文件解读
第二章:生物信息分析
第一節:解讀vcf格式文件
1,vcf格式說明
VCF格式:Variant Call Format,用于記錄variants (SNP / InDel)的文件格式,關于其說明,詳見:http://gatkforums.broadinstitute.org/discussion/1268/how-should-i-interpret-vcf-files-produced-by-the-gatk 
 VCF是用于描述SNP,InDel和SV結果的文本文件。VCF格式在GATK軟件中得到很好的支持。
2,vcf文件結構
VCF文件分為兩部分內容:以“#”開頭的注釋部分和沒有“#”開頭的主體部分。(注釋部分和主題部分);注釋部分有很多對VCF的介紹信息;主體部分包含10列數據。主題部分每一行代表一個variant的信息。
主體部分10列的范例: 
 chrM 150 . T C 7766.77 PASS AC=2;AF=1.00;AN=2;DP=199;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=49.78;QD=32.91;SOR=0.904 GT:AD:DP:GQ:PL 1/1:0,175:175:99:7795,531,0
3,主體部分的10列分別代表的意義
CHROM : 參考序列名稱 
 POS : variant所在的left-most位置(1-base position)(發生變異的位置的第一個堿基所在的位置) 
 ID : variant的ID。同時對應著dbSNP數據庫中的ID,若沒有,則默認使用‘.’ 
 REF : 參考序列的Allele,(等位堿基,即參考序列該位置的堿基類型及堿基數量) 
 ALT : variant的Allele,若有多個,則使用逗號分隔,(變異所支持的堿基類型及堿基數量)這里的堿基類型和堿基數量,對于SNP來說是單個堿基類型的編號,而對于Indel來說是指堿基個數的添加或缺失,以及堿基類型的變化 
 QUAL : variants的質量。Phred格式的數值,代表著此位點是純合的概率,此值越大,則概率越低,代表著次位點是variants的可能性越大。(表示變異堿基的可能性) 
 FILTER : 次位點是否要被過濾掉。如果是PASS,則表示此位點可以考慮為variant。 
 INFO : variant的相關信息 
 FORMAT : variants的格式,例如GT:AD:DP:GQ:PL 
 SAMPLES : 各個Sample的值,由BAM文件中的@RG下的SM標簽所決定,這些值對應著第9列的各個格式,不同格式的值用冒號分開,每一個sample對應著1列;多個samples則對應著多列,這種情況下列的數多余10列。
4,vcf文件的基因型信息
VCF文件的主體部分的第9列是基因型信息的多個標簽,這些標簽之間以冒號分割,其對應的值位于第10列,同樣以冒號分割,表示第一個樣品的基因型結果。若有多個樣品,則VCF文件超過10列,且第10列后的每一列表示一個樣品的基因型結果。第9列各個標簽的意義展示如下:
GT : genotype
樣品的基因型(genotype),兩個數字中間用‘/’分開,這兩個數字表示雙倍體的sample的基因型。0表示樣品中有ref的allele(可初步理解為和ref的堿基相同,即和REF相同);1表示樣品中的variant的allele(可以理解為和variant變異后的堿基相同,即和ALT相同);2表示有第二個variant的allele(和ALT的第二種堿基相同)對于SNP是指單個堿基類型相同而對于Indel是指堿基類型及個數均相同
因此根據GT的結果得出以下結論: 
 0/0表示sample中該位點為純合位點,和REF的堿基類型一致 
 0/1表示sample中該位點為雜合突變,有REF和ALT兩個基因型(部分堿基和REF堿基類型一致,部分堿基和ALT堿基類型一致) 
 1/1表示sample中該位點為純合突變,總體突變類型和ALT堿基類型一致 
 1/2表示sample中該位點為雜合突變,有ALT1和ALT2兩個基因型(部分和ALT1堿基類型一致,部分和ALT2堿基類型一致)
AD和DP
AD(Allele Depth)為sample中每一種allele(等位堿基)的reads覆蓋度,在diploid(二倍體,或可指代多倍型)中則是用逗號分隔的兩個值,前者對應REF基因,后者對應ALT基因型; 
 DP(Depth)為sample中該位點的覆蓋度,是所支持的兩個AD值(逗號前和逗號后)的加和;例如: 
 1/1:0,175:175—GT:AD(REF),AD(ALT):DP 
 0/1:79,96:175 
 1/2:0,20,56:76 
 這里的三種類型對應的DP值均是其對應的AD值的加和,1/1的175是0+175,0/1的175是79+96,1/2的76是0+20+56
GQ(基因型存在的概率)
基因型的質量值(Genotype Quality)。Phred格式(Phred_scaled)的質量值,表示在該位點該基因型存在的可能性;該值越高,則Genotype的可能性越大;計算方法:Phred值=-10*log(1-P),P為基因型存在的概率。(一般在final.snp.vcf文件中,該值為99,為99時,其可能性最大)
PL(likelihood genotypes)
指定的三種基因型的質量值(provieds the likelihoods of the given genotypes);這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。該值越大,表明為該種基因型的可能性越小。Phred值=-10*log(P),P為基因型存在的概率。最有可能的genotype的值為0。 
 例如: 
 0/1:889,0,216 
 0/1:94,0,940 
 1/1:269,18,0 
 1/1:580,54,0 
 1/2:3365,1522,1357,1842,0,1706 
 1/2:307,190,178,117,0,104 
 (0/0型3個數字,第一個為0 
 0/1型3個數字,中間為0 
 1/1型3個數字,最后一個為0 
 1/2型6個數字,倒數第二個為0)
5,vcf文件第8列信息
第8列的信息包括18種,都是以“TAG=Value”,并使用分號分隔的形式,其中很多的注釋信息在VCF文件的頭部注釋中給出,下面對常用的TAG進行解釋:
AC,AF和AN
AC(Allele Count)表示基因型為與variant一致的Allele(等位堿基)的數目;AF(Allele Frequency)表示Allele的頻率,AF值=AC值/AN值;AN(Allele Number)表示Allele的總數目。比如:對2個sample的雙倍體進行測序,則AN值為4。若REF上位點堿基為A,而2個sample在該位點分別為A/T和T/G,則AC值為2,1;AF值為0.50,0.25。AC:variant數目,AF:頻率,AN:總數目
DP(reads覆蓋度)
表示reads被過濾后的覆蓋度
FS
FisherStrand的縮寫,表示使用Fisher’s精確檢驗來檢測strand bias而得到的Fhred格式的p值,該值越小越好;如果該值較大,表示strand bias(正負鏈偏移)越嚴重,即所檢測到的variants位點上,reads比對到正負義鏈上的比例不均衡。一般進行filter的時候,推薦保留FS<10~20的variants位點。GATK可設定FS參數。
ReadPosRandSum
Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias.當variants出現在reads尾部的時候,其結果可能不準確。該值用于衡量alternative allele(變異的等位基因)相比于reference allele(參考基因組等位基因),其variant位點是否匹配到reads更靠中部的位置。因此只有基因型是雜合且有一個allele和參考基因組一致的時候,才能計算該值。若該值為正值,表明和alternative allele相當于reference allele,落來reads更靠中部的位置;若該值是負值,則表示alternative allele相比于reference allele落在reads更靠尾部的位置。 
 進行filter的之后,推薦保留ReadPosRankSum>-1.65~-3.0的variant位點
MQRankSum
該值用于衡量alternative allele上reads的mapping quality與reference allele上reads的mapping quality的差異。若該值是負數值,則表明alternative allele比reference allele的reads mapping quality差。進行filter的時候,推薦保留MQRankSum>-1.65~-3.0的variant位點。
總結
以上是生活随笔為你收集整理的生信:1:vcf格式文件解读的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 解决数码视讯Q5使用USB_Burnin
- 下一篇: Ebistrategy亦策软件提升仙婷贸
