當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

fastp—数据过滤质控

發布時間：2023/12/31 编程问答 67 豆豆

生活随笔收集整理的這篇文章主要介紹了 fastp—数据过滤质控小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、fastp的安裝及使用
1）conda安裝：conda install fastp
2）源代碼安裝：軟件下載地址 https://github.com/OpenGene/fastp#get-fastp

#從GitHub下載源代碼（也可下載后上傳） git clone https://github.com/OpenGene/fastp.git ubzip fastp-master.zip cd fastp-master #編譯 make sudo make install（需sudo權限）

二、常見用法
過濾
1）質量過濾 : -q/--qualified_quality_pherd 高于此值才算數，默認15；-u/--unquantified_percent_limit允許unqualified的堿基百分比，默認40%
2）長度過濾：長度過濾默認開啟，可通過-L取消，-l/--length_required定義需要的最短長度，默認為15；--length_limit定義接受的最長長度，默認為0表示沒有限制
3）低復雜度過濾：默認不開啟，可通過-y開啟，通過-Y定義過濾條件
Adapter
1）SE數據：-a
2）PE數據：--adapter_sequence指定read1的adapter序列 --adapter_sequence_r2指定read2的adapter序列；也可以--detect_adapter_for_pe開啟illumina系列adapter自動檢測功能
##per read cutting by quality score
目前數據illumina測序質量較好，該功能一般用不上，可參考https://github.com/OpenGene/fastp#get-fastp
global trimming
從序列開頭或結尾去除一定數量的堿基：
-f/--trim_front1表示從read1的開頭去除，-t/--trim_tail1從read1的尾部去除；-F -T則分別表示從read2去除
-b/--max_len1 表示read1經trim之后最長的長度 -B則指read2的相應情況
polyX trimming
-x/--trim_poly_x實現polyX的去除，默認長度為10
--poly_x_min_len指定polyX的長度，默認為10
unique molecular identifier(UMI) processing
常用于duplication的消除和錯誤糾正，常用于如線粒體DNA等深度測序，普遍用于illumina平臺，可分為index和read兩部分，使用-U/--umi來開啟此功能，--umi_loc指定UMI的位置如index1 index2 read1 read2，若UMI指定在read上，則--umi_len用于指定UMI的長度

個人常用代碼fastp -f 10 -F 10 --detect_adapter_for_pe -x -i R1.fq.gz -I R2.fq.gz -o R1.out.fq.gz -O R2.out.fq.gz
其優缺點個人總結如下：
優點：
1）集質控和數據過濾于一體，使用方便
2）在序列trim方面處理速度遠快于cutadapt等
3）可實現polyx的除去
缺點：
1）大部分參數使用較麻煩，不能直接用單字母實現功能
2）生成的fastp文件不會根據處理的樣品自動命名，需手動依次更改

在質控方面，與fastqc相比，其在計算duplication level和overrepresented sequence上的統計略有不同，統計結果的呈現方面也不如fastqc直觀（可能由于使用習慣導致）。且fastqc的報告文件可由multiqc進行統計，fastp不知是否也可以？

總結

以上是生活随笔為你收集整理的fastp—数据过滤质控的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

数据
fastp

上一篇：辐射发射测试软件,辐射发射（Radiat
下一篇：【Matlab】绘制EEG脑电头皮地形图

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

fastp—数据过滤质控

總結