gauscoor软件怎么用_比对软件STAR的简单使用
第一次聽說START這款比對軟件是因為其是ENCODE計劃的御用軟件,ENCODE計劃(ENCyclopedia Of DNA Elements)又稱人類基因組DNA元件百科全書計劃,是2003年在人類基因組計劃完成之后緊接著的又一個大型國際科研項目。
第二次聽說則的由于Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis這篇發表于2017年的文章,主要是針對轉錄組各個分析流程的不同分析工具的比較,里面針對mRNA的比對方法總結了基于參考基因組的三款比對軟件:TopHat,STAR和HASAT2。其中講到STAT相比較其他兩款軟件有較高的唯一比對率;STAR會將沒有paired mapping上的reads都剔除,避免single reads比對到基因組上;并且STAR對lower-quality(包括more soft-clipped和錯配堿基)比對有較高的容忍度
第三次聽說也是由于恰好需要使用GATK對RNA-Seq Call Variants,因而在GATK剛好查到一篇教程Calling variants in RNAseq
將reads比對至Reference上是采用STAR的STAR 2-pass模式,所以為了學習該教程,必須先學習如何使用STAR了 #### STAR的下載及安裝
下載STAR,無須編譯即可使用
wget https://github.com/alexdobin/STAR/archive/2.5.3a.tar.gz
tar -xzf 2.5.3a.tar.gz
cd STAR-2.5.3a
STAR的使用
作為一款比對軟件,建index肯定是必不可少的一步
STAR --runThreadN 6 --runMode genomeGenerate \
--genomeDir ~/reference/index/STAR/mm10/ \
--genomeFastaFiles ~/reference/genome/mm10/GRCm38.p5.genome.fa \
--sjdbGTFfile ~/annotation/mm10/gencode.vM13.annotation.gtf \
--sjdbOverhang 100
這個命令參數也很好理解:
--runThreadN :設置線程數
--genomeDir :index輸出的路徑
--genomeFastaFiles :參考基因組序列
--sjdbGTFfile :參考基因組注釋文件
--sjdbOverhang :這個是reads長度的最大值減1,默認是100
然后進行比對
STAR --runThreadN 20 --genomeDir ~/reference/index/STAR/mm10/ \
--readFilesIn SRR3589959_1.fastq SRR3589959_2.fastq \
--outSAMtype BAM SortedByCoordinate \
--outFileNamePrefix ./SRR3589959
--readFilesIn :paired reads文件
--outSAMtype :表示輸出默認排序的bam文件,類似于samtools sort(還有--outSAMtype BAM Unsorted和--outSAMtype BAM Unsorted SortedByCoordinate)
--outFileNamePrefix :輸出文件路徑即前綴
結果文件:
SRR3589959Aligned.sortedByCoord.out.bam
SRR3589959Log.final.out
SRR3589959Log.out
SRR3589959Log.progress.out
SRR3589959SJ.out.tab
可以通過samtools view SRR3589959Aligned.sortedByCoord.out.bam |less -S來查看對應文件的每列信息
前面12列一般也是規范的sam格式,最后一列attributes信息的話,STAR默認是輸出NH HI AS nM attributes,這里需要注意的是HI,其表示多重比對的reads的起始位置,默認是以1開始算的,但是如果下游分析需要用到Cufflinks or StringTie的話,需要用--outSAMattrIHstart設置為0比對軟件STAR的使用—高通量測序數據處理學習記錄(一)
SRR3589959SJ.out.tab則是Splice junctions的一些信息,其中需要注意的是:對于junction的位置信息,STAR則是按照intron的起始和終止位置來定,而其他的一些軟件則是按照exon的位置來決定的;至于每列代表的含義可以看mannul,很好理解
STAR 2-pass mode
為了發現更加靈敏的new junction,STAR建議使用2-pass mode,其能增加檢測到的new junction數目,使得更多的splices reads能mapping到new junction。因此STAR先用一般參數做一遍mapping,收集檢測到的junction信息,然后利用這已經annotated junction來做第二次mapping
STAR對于2-pass mode有新舊兩種方式,比如original 2-pass 方法:
首先做一遍常規的比對,結果中會生成一個SJ.out.tab文件,如上面所提到的SRR3589959SJ.out.tab。然后用--sjdbFileChrStartEnd參數將所有樣品的SJ.out.tab文件作為輸入的annotated junction進行第二次建index
STAR --runThreadN 20 --runMode genomeGenerate
--genomeDir ~/reference/index/STAR/mm10/index_2-pass/ \
--genomeFastaFiles ~/reference/genome/mm10/GRCm38.p5.genome.fa \
--sjdbGTFfile ~/annotation/mm10/gencode.vM13.annotation.gtf \
--sjdbFileChrStartEnd SRR3589959SJ.out.tab SRR3589960SJ.out.tab SRR3589961SJ.out.tab SRR3589962SJ.out.tab \
--sjdbOverhang 100
然后用第二次建立的index再一次對每個樣品進行STAR比對,以SRR3589959為例
STAR --runThreadN 20 --genomeDir ~/reference/index/STAR/mm10/index_2-pass/ \
--readFilesIn SRR3589959_1.fastq SRR3589959_2.fastq \
--outSAMtype BAM SortedByCoordinate \
--outFileNamePrefix ./SRR3589959_2-pass
上述方法original方法適用于多樣本和單個樣本的處理,但是如果是per-sample(單個樣本?)的2-pass mapping,可以直接用--twopassMode Basic參數將第兩步mapping中的make index省去,直接再mapping
STAR --runThreadN 20 --genomeDir ~/reference/index/STAR/mm10/ \
--twopassMode Basic \
--readFilesIn SRR3589959_1.fastq SRR3589959_2.fastq \
--outSAMtype BAM SortedByCoordinate \
--outFileNamePrefix ./SRR3589959
這個比常規的結果還多2個臨時產生的文件夾(SRR3589959_STARgenome,SRR3589959_STARpass1)
至于bam文件則是跟上述的original 2-pass
STAR還有其他一些不太常用的參數,可以參看manual,Download后即可查看
總結
以上是生活随笔為你收集整理的gauscoor软件怎么用_比对软件STAR的简单使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 入门黑客必看书籍
- 下一篇: ESP32黑客帝国数字雨动画,矩阵它来了