SAM文件格式
幫朋友處理sam各式文件,又記不住sam各式每列代表的什么內(nèi)容,干脆轉(zhuǎn)個帖子留著以后查詢。
在SAM輸出的結果中每一行都包括十二項通過Tab分隔,從左到右分別是:
1 序列的名字
2 概括出一個合適的標記,各個數(shù)字分別代表
-
1? 序列是一對序列中的一個
-
2? 比對結果是一個pair-end比對的末端
-
4? 沒有找到位點
-
8? 這個序列是pair中的一個但是沒有找到位點
-
16? 在這個比對上的位點,序列與參考序列反向互補
-
32? 這個序列在pair-end中的的mate序列與參考序列反響互補
-
64 序列是 mate 1
-
128 序列是 mate 2
假如說標記為以上列舉出的數(shù)目,就可以直接推斷出匹配的情況。假如說標記不是以上列舉出的數(shù)字,比如說83=(64+16+2+1),就是這幾種情況值和。
3? 參考序列的名字
4 在參考序列上的位置
5? mapping qulity?? 越高則位點越獨特
bowtie2有時并不能完全確定一個短的序列來自與參考序列的那個位置,特別是對于那些比較簡單的序列。但是bowtie2會給出一個值來顯示出 這個段序列來自某個位點的概率值,這個值就是mapping qulity。Mapping qulity的計算方法是:Q=-10log10p,Q是一個非負值,p是這個序列不來自這個位點的估計值。
假如說一條序列在某個參考序列上找到了兩個位點,但是其中一個位點的Q明顯大于另一個位點的Q值,這條序列來源于前一個位點的可能性就比較大。Q值的差距越大,這獨特性越高。
Q值的計算方法來自與SAM標準格式,請查看SAM總結。
6 代表比對結果的CIGAR字符串,如37M1D2M1I,這段字符的意思是37個匹配,1個參考序列上的刪除,2個匹配,1個參考序列上的插入。M代表的是alignment match(可以是錯配)
7? mate 序列所在參考序列的名稱
8 mate 序列在參考序列上的位置
9? 估計出的片段的長度,當mate 序列位于本序列上游時該值為負值。
10 read的序列
11 ASCII碼格式的序列質(zhì)量
12 可選的區(qū)域
-
AS:i? 匹配的得分
-
XS:i? 第二好的匹配的得分
-
YS:i? mate 序列匹配的得分
-
XN:i? 在參考序列上模糊堿基的個數(shù)
-
XM:i? 錯配的個數(shù)
-
XO:i? gap open的個數(shù)
-
XG:i? gap 延伸的個數(shù)
-
NM:i? 經(jīng)過編輯的序列
-
YF:i? 說明為什么這個序列被過濾的字符串
-
YT:Z
-
MD:Z? 代表序列和參考序列錯配的字符串
也可以查看這個,也比較詳細
https://blog.csdn.net/u014182497/article/details/51691743 ?
轉(zhuǎn)載于:https://www.cnblogs.com/zhanmaomao/p/9281646.html
總結
- 上一篇: Android_(菜单)选项菜单
- 下一篇: Vue状态管理vuex