fastq质量值_fastq 数据格式解析
概念介紹
Read 讀段
Read 中文翻譯: 讀段,來自測序儀的raw data
一個Read 可能由多個片段組成, Read的索引是測序時的順序
Sequencing quality 測序質量
測序儀在測序的時候,每次測出來的結果可能都不一樣(儀器誤差 序列長度等各方面因素), 所以往往需要多測幾次,最后開決定是哪一個堿基。
Phred_Figure_1.jpg
Sequencing quality 是度量測序儀測序質量的指標。
測序質量指標有很多種 , 最常用的的是Phred quality score。
Sequencing quality metrics can provide important information
about the accuracy of each step in this process, including library
preparation, base calling, read alignment, and variant calling. Base
calling accuracy, measured by the Phred quality score (Q score), is the
most common metric used to assess the accuracy of a sequencing
platform. It indicates the probability that a given base is called
incorrectly by the sequencer.
Phred quanlity score 測序質量分數
概念
Q scores are used to measure base calling accuracy, one of the most
common metrics for assessing sequencing data quality. Low Q scores
can lead to increased false-positive variant calls, resulting in inaccurate
conclusions and higher costs for validation experiments.
測序質量分數
Q Phred quality scores
P base-calling-error probabilities
簡單來說 Q越大 就說明測序質量越好
Paste_Image.png
Paste_Image.png
格式
不同的測序儀采用不同的測序標準, 取值范圍不同
在存入Fastq格式的時候往往需要將數值轉換為單個字符,要將數值范圍映射到ASCII碼上
對于每個堿基的質量編碼標示,不同的軟件采用不同的方案,目前有5種方案:
Sanger,Phred quality score,值的范圍從0到92,對應的ASCII碼從33到126,但是對于測序數據(raw read data)質量得分通常小于60,序列拼接或者mapping可能用到更大的分數。
Solexa/Illumina 1.0, Solexa/Illumina quality score,值的范圍從-5到63,對應的ASCII碼從59到126,對于測序數據,得分一般在-5到40之間;
Illumina 1.3+,Phred quality score,值的范圍從0到62對應的ASCII碼從64到126,低于測序數據,得分在0到40之間;
Illumina 1.5+,Phred quality score,但是0到2作為另外的標示,詳見http://solexaqa.sourceforge.net/questions.htm#illumina
Illumina 1.8+
測序儀產生的數據格式
不同測序儀,不同版本號,產出的數據格式不一定相同
測序平臺
文件格式
說明
454測序
FASTA / FASTAQ
Illumina/Solexa
FASTQ
SOLiD
CSFASTA / QV.qual質量文件
測序結果包含峰值
下面的這四行就是一行Read(這里我們以FASTQ格式為例)
fastq 格式說明
@HWI-ST507:4:75:4291:2239#0/1
AAGCTTGTTGAAGGCTACCAAAAACGATTACAAGCTGTAATTTCTGCTAAAG
+HWI-ST507:4:75:4291:2239#0/1
ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]
第一行: @文件識別標志 + Read ID
HWI-ST507:4:75:4291:2239#0/1
說明
數據
含義
說明
HWI-ST507
測序儀的唯一編號
-
4
測序通道
說明這批數據是在測序儀的第四通道測出來的
75
Read讀長
代表每個Read的長度都是75bp
4291:2239
測序儀中的坐標數
#0
多樣本測序時候的索引
#0 代表單樣本測序
/1
?
每對paired-end 或者mate-pair的reads中的第一個
第二行:序列
第三行: + 文件標識標識 + Read ID
第三行的+后面的跟第一行相同, 可以省略, 但是+不可省略
第四行:質量分數
ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]
對應到到該儀器版本所采用過的phred標準,對應的ascall碼范圍求得整數質量分數值
總結
以上是生活随笔為你收集整理的fastq质量值_fastq 数据格式解析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PHP添加php-java-brideg
- 下一篇: myeclipse mysql 乱码_M