统计测序数据reads数和碱基数的几种方法
生活随笔
收集整理的這篇文章主要介紹了
统计测序数据reads数和碱基数的几种方法
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
很簡單的問題,卻被常常問起。記錄一個帖子。文末有福利。
手動寫一個FASTQ格式的測試數(shù)據(jù)
cat <<END >sample.fq @ESX1 CAGGAGGAGTACGTGTTTTTTTTTTGCAGTACTGTACGGCGCAGTAC + FFFFFFFFFFFFFFEEFFFFFFFFFFFFFFFFFFFFFEEEFFFFFFF @ESX2 CAGGAGGAGTACGTGTTTTATTTTTGCAGTACTGTACGGCGCAGTAC + FFFFFFFFFFFFFFEEFFFFFFFFFFFFFFFFFFFFFEEEFFFFFFF @ESX3 CAGGAGGAGTACGTGTTTTTTTTTTGCAGTACTGTACGGCGCAGTAC + FFFFFFFFFFFFFFEEFFFFFFFFFFFFFFFFFFFFFEEEFFFFFFF END利用seqkit統(tǒng)計
更詳細的介紹和安裝見推文seqkit:序列梳理神器-統(tǒng)計、格式轉(zhuǎn)換、長度篩選、質(zhì)量值轉(zhuǎn)換、翻譯、反向互補、抽樣、去重、滑窗、拆分等30項全能。
可以同時統(tǒng)計單個或多個fastq文件,結(jié)果輸出為表格形式
seqkit stat sample.fq # 結(jié)果如下 # num_seq:總序列數(shù) # sum_len: 總堿基數(shù) file format type num_seqs sum_len min_len avg_len max_len sample.fq FASTQ DNA 3 141 47 47 47# 統(tǒng)計多個文件 seqkit stat sample.fq sample.fq file format type num_seqs sum_len min_len avg_len max_len sample.fq FASTQ DNA 3 141 47 47 47 sample.fq FASTQ DNA 3 141 47 47 47# 統(tǒng)計多個壓縮文件 seqkit stat *.fq.gz用Linux命令統(tǒng)計
awk的介紹見常用和不太常用的awk命令
# 統(tǒng)計單個文件 # awk運算 # %取余數(shù) # 為什么除以4,又除以1000000?cat sample.fq | awk 'BEGIN{OFS="\t"}{if(FNR%4==0) base+=length}END{print FNR/4/1000000 " million", base/10^9 "G";}' # 3e-06 million 1.41e-07 G# 統(tǒng)計多個文件 for i in *.fq; do cat sample.fq | awk -v name=${i} 'BEGIN{OFS="\t"}{if(FNR%4==0) base+=length}END{print name, FNR/4/1000000 " million", base/10^9 " G";}' done# sample.fq 3e-06 million 1.41e-07 G# 統(tǒng)計多個壓縮文件 for i in *.fq.gz; do zcat sample.fq.gz | awk -v name=${i} 'BEGIN{OFS="\t"}{if(FNR%4==0) base+=length}END{print name, FNR/4/1000000 " million", base/10^9 " G";}' done我們的論壇建好了,測試了一段時間,用起來也正常了。在上次的調(diào)查中,大部分老師也提議通過論壇交流,一來問答清晰,二來便于追蹤記錄,后續(xù)遇到問題直接搜索下就可以有答案,網(wǎng)址是http://www.ehbio.com/Esx/ (微信掃碼就可以登錄)
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的统计测序数据reads数和碱基数的几种方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 5.12 边缘检测
- 下一篇: 转录组+微生物组联合解密困扰50年的丛枝