从bam文件的内容来学习Phred quality score /QUAL/Cigar/等常用概念
參考文獻:
sam文件詳解?https://genome.sph.umich.edu/wiki/SAM
mapping quality的算法?https://genome.sph.umich.edu/wiki/Mapping_Quality_Scores
博客參考?https://blog.csdn.net/xcaryyz/article/details/79257604
首先看一下,在bam文件中常用的一些列名稱
QNAME:這里指得是查詢序列的名稱,也就是我們的reads名稱
FLAG: 以10進制或者16進制數的形式來代表一些比對的意義,如下圖所示,,2代表完全匹配,4代表沒有匹配,16代表反向匹配,1024代表duplicate,而這些數字是可以相加的,例如2+1024是1026,代表完全匹配但是是個duplicate
這里有一個比較詳細的關于flag的說明:
https://www.jianshu.com/p/f67702926928
以及一個比較消息的中文說明圖表
圖片來源:https://www.jianshu.com/p/31dc18837d4b?
RNAME:代表參考序列的名稱,一般指染色體編號
POS:位置信息
MAPQ:mapping quality比對質量值
CIGAR:一段字符,用于表示比對的情況,例如3M1I3M3D140M,代表reads的前3個匹配加1個堿基插入加3個匹配再加3個缺失再加140個匹配
RNEXT:對于雙端測序而言,指的是另一條配對的reads的比對位置,如果比對到了同一個模板上(染色體上)則是=,如果比對到了其他的染色體(參考序列)上就是一個染色體編號,如果沒有則是*。
PNEXT:對于雙端測序而言,另一條reads匹配到的位置
TLEN:查詢序列模板的長度(存有疑問)
SEQ:reads的序列信息
QUAL:這個指的是堿基質量值,它的算法如下:
?
?這里p指得是堿基判斷錯誤的概率,英文:base-calling error probabilities ,這里在加33之前的值叫Pred quality score
之所以要加33是為了對應ascii碼中的可見字符,如果一個堿基的質量為0,那么對應的就是ascii碼中的33,也就是!
?除去11個必選字段以外,還有一些可選的字段,但是對于這些可選字段的介紹好像不太好找解釋,目前先寫到這里,等我搞清楚了可選字段以后再寫。
總結
以上是生活随笔為你收集整理的从bam文件的内容来学习Phred quality score /QUAL/Cigar/等常用概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第三方支付平台漏洞多 消费者1个月内被1
- 下一篇: 基于微信小程序的网上电影购票的设计与实现