rsem比对_RSEM方法比对和表达量计算
分析模塊,封裝了Trinity程序包中的“align_and_estimate_abundance.pl”腳本,進(jìn)行原始數(shù)據(jù)與轉(zhuǎn)錄本序列的比對(duì)和表達(dá)量計(jì)算。其中,核心程序?yàn)?#xff0c;Bowtie或Bowtie2進(jìn)行原始數(shù)據(jù)與轉(zhuǎn)錄本序列的比對(duì),RSEM根據(jù)比對(duì)結(jié)果進(jìn)行表達(dá)量的計(jì)算。核心程序相關(guān)參數(shù)為,Bowtie:'--all --best --strata -m 300 --chunkmbs 512'。Bowtie2:'--no-mixed --no-discordant --gbar 1000 --end-to-end'。RSEM:默認(rèn)參數(shù)。
分析模塊,輸入構(gòu)建好索引的轉(zhuǎn)錄本參考文件(由分析模塊“Build Transcript Reference Index”生成),以及轉(zhuǎn)錄組測(cè)序原始數(shù)據(jù)(fastq文件)。這里,推薦測(cè)序原始數(shù)據(jù),先通過(guò)分析模塊“Trimmomatic PE/SE”進(jìn)行去接頭污染和質(zhì)量控制。
分析模塊,將轉(zhuǎn)錄組測(cè)序原始數(shù)據(jù)(fastq文件數(shù)據(jù))比對(duì)回轉(zhuǎn)錄本參考序列,生成bam格式的比對(duì)結(jié)果文件,轉(zhuǎn)錄本水平表達(dá)結(jié)果文件,基因水平表達(dá)結(jié)果文件。
注:bam文件,可以利用IGV軟件打開(kāi),查看比對(duì)結(jié)果。
IGV安裝和使用,包含Windows桌面版和iPad版,官方網(wǎng)站提供了詳細(xì)的文檔。參考網(wǎng)站:(http://www.broadinstitute.org/igv/)。
輸入測(cè)序數(shù)據(jù)分兩種模式(SE/PE):
選擇Paire-End時(shí),分析模塊處理雙末端測(cè)序數(shù)據(jù),需提供2個(gè)fastq原始數(shù)據(jù)文件,分別對(duì)應(yīng)左端和右端測(cè)序結(jié)果。
選擇Single-Single時(shí),分析模塊處理單末端測(cè)序數(shù)據(jù),需提供1個(gè)fastq原始數(shù)據(jù)文件。
輸入:
1、構(gòu)建好索引的轉(zhuǎn)錄本參考文件,由分析模塊“Build Transcript Reference Index”生成。
2、fastq格式的測(cè)序原始數(shù)據(jù)文件。
示例:
@ecoli_section_9642_10205_3:0:0_1:0:0_0/1
CCCGCCATCTCTTGCAGAAGCGCCTGTTGCTGTACATGGTGCATTCGCATCCCCATCCCTACGCGGCTTC
+
2222222222222222222222222222222222222222222222222222222222222222222222
如果,轉(zhuǎn)錄組是鏈特異性建庫(kù)測(cè)序,則需要設(shè)置鏈特異性文庫(kù)類(lèi)型。
PE測(cè)序,FR表明paired-reads與轉(zhuǎn)錄本一致,RF表明paired-reads與轉(zhuǎn)錄本反向互補(bǔ)鏈一致。
SE測(cè)序,F表明read與轉(zhuǎn)錄本對(duì)應(yīng),R表明read對(duì)應(yīng)轉(zhuǎn)錄本反向互補(bǔ)鏈。
輸出:
1、bam格式的比對(duì)結(jié)果文件。
關(guān)于Bowtie輸出的BAM/SAM格式介紹,參考:(http://bowtie-bio.sourceforge.net/manual.shtml#sam-bowtie-output)。
關(guān)于Bowti2輸出的BAM/SAM格式介紹,參考:(http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml#sam-output)。
2、RSEM轉(zhuǎn)錄本水平表達(dá)結(jié)果文件。
其中,每一列的含義如下所示:
ltranscript_id,transcript name of this transcript.
lgene_id,gene name of the gene which this transcript belongs to.
llength,this transcript's sequence length.
leffective_length,counts only the positions that can generate a valid fragment.
lexpected_count,the sum of the posterior probability of each read comes from this transcript over all reads.
lTPM,Transcripts Per Million. It is a relative measure of transcript abundance. The sum of all transcripts' TPM is 1 million.
lFPKM,Fragments Per Kilobase of transcript per Million mapped reads.
lIsoPct,It is the percentage of this transcript's abandunce over its parent gene's abandunce. If it’s parent gene has only one isoform, this field will be set to 100.
3、RSEM基因水平表達(dá)結(jié)果文件。
其中,一些列的含義如下所示:
lgene_id,gene name of the gene
ltranscript_id(s),a comma-separated list of transcript_ids belonging to this gene.
lLength,weighted average of its transcripts' lengths (weighted by 'IsoPct').
leffective_length,weighted average of its transcripts' effective lengths (weighted by 'IsoPct').
lexpected_count、TPM、FPKM,為對(duì)應(yīng)基因包含的所有轉(zhuǎn)錄本的數(shù)值求和。
后續(xù)的下游分析,如,差異表達(dá)分析、熱圖、PCA等。通常情況下,基于expected_count和FPKM的數(shù)值進(jìn)行分析,即基因原始片段數(shù)估算結(jié)果和FPKM數(shù)值估計(jì)結(jié)果。
分析模塊引用了Trinity v2.0.6程序包中的“align_and_estimate_abundance.pl”腳本(https://github.com/trinityrnaseq/trinityrnaseq/wiki)。
分析模塊引用了Bowtie-0.12.7軟件(http://bowtie-bio.sourceforge.net/index.shtml)。
分析模塊引用了Bowtie2-2.1.0軟件(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)。
分析模塊引用了RSEM-1.2.26軟件(http://deweylab.github.io/RSEM/)。
相關(guān)文獻(xiàn)如下所示:
Haas BJ, Papanicolaou A, Yassour M, Grabherr M, Blood PD, Bowden J, Couger MB, Eccles D, Li B, Lieber M, Macmanes MD, Ott M, Orvis J, Pochet N, Strozzi F, Weeks N, Westerman R, William T, Dewey CN, Henschel R, Leduc RD, Friedman N, Regev A. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nat Protoc. 2013 Aug;8(8):1494-512. Open Access in PMC doi: 10.1038/nprot.2013.084. Epub 2013 Jul 11. PubMed PMID: 23845962.
Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol 10:R25.
Langmead B, Salzberg S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 2012, 9:357-359.
Bo Li and Colin N Dewey. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics201112:323.
總結(jié)
以上是生活随笔為你收集整理的rsem比对_RSEM方法比对和表达量计算的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 如何让DataGrid能够在客户端点击某
- 下一篇: android 按钮带图标 阴影_and