fastp—数据过滤质控
一、fastp的安裝及使用
1)conda安裝:conda install fastp
2)源代碼安裝:軟件下載地址 https://github.com/OpenGene/fastp#get-fastp
二、常見用法
過濾
1)質量過濾 : -q/--qualified_quality_pherd 高于此值才算數,默認15;-u/--unquantified_percent_limit允許unqualified的堿基百分比,默認40%
2)長度過濾:長度過濾默認開啟,可通過-L取消,-l/--length_required定義需要的最短長度,默認為15;--length_limit定義接受的最長長度,默認為0表示沒有限制
3)低復雜度過濾:默認不開啟,可通過-y開啟,通過-Y定義過濾條件
Adapter
1)SE數據:-a
2)PE數據:--adapter_sequence指定read1的adapter序列 --adapter_sequence_r2指定read2的adapter序列;也可以--detect_adapter_for_pe開啟illumina系列adapter自動檢測功能
##per read cutting by quality score
目前數據illumina測序質量較好,該功能一般用不上,可參考https://github.com/OpenGene/fastp#get-fastp
global trimming
從序列開頭或結尾去除一定數量的堿基:
-f/--trim_front1表示從read1的開頭去除,-t/--trim_tail1從read1的尾部去除;-F -T則分別表示從read2去除
-b/--max_len1 表示read1經trim之后最長的長度 -B則指read2的相應情況
polyX trimming
-x/--trim_poly_x實現polyX的去除,默認長度為10
--poly_x_min_len指定polyX的長度,默認為10
unique molecular identifier(UMI) processing
常用于duplication的消除和錯誤糾正,常用于如線粒體DNA等深度測序,普遍用于illumina平臺,可分為index和read兩部分,使用-U/--umi來開啟此功能,--umi_loc指定UMI的位置如index1 index2 read1 read2,若UMI指定在read上,則--umi_len用于指定UMI的長度
個人常用代碼fastp -f 10 -F 10 --detect_adapter_for_pe -x -i R1.fq.gz -I R2.fq.gz -o R1.out.fq.gz -O R2.out.fq.gz
其優缺點個人總結如下:
優點:
1)集質控和數據過濾于一體,使用方便
2)在序列trim方面處理速度遠快于cutadapt等
3)可實現polyx的除去
缺點:
1)大部分參數使用較麻煩,不能直接用單字母實現功能
2)生成的fastp文件不會根據處理的樣品自動命名,需手動依次更改
在質控方面,與fastqc相比,其在計算duplication level和overrepresented sequence上的統計略有不同,統計結果的呈現方面也不如fastqc直觀(可能由于使用習慣導致)。且fastqc的報告文件可由multiqc進行統計,fastp不知是否也可以?
總結
以上是生活随笔為你收集整理的fastp—数据过滤质控的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 辐射发射测试软件,辐射发射(Radiat
- 下一篇: 【Matlab】绘制EEG脑电头皮地形图