转录组表达量计RPKM、FPKM、TPM说明
在轉(zhuǎn)錄組測(cè)序(RNA-Seq)中,基因的表達(dá)量是我們關(guān)注的重點(diǎn)。基因表達(dá)量的衡量指標(biāo)有:RPKM、FPKM、TPM。
RPKM:Reads Per Kilobase Million;說(shuō)實(shí)話,這個(gè)英文說(shuō)明真的很費(fèi)解,其實(shí)可以理解為“Reads Per Kilobase Per Million Reads”?,即“每一百萬(wàn)條Reads中,對(duì)基因的每1000個(gè)Base而言,比對(duì)到該1000個(gè)base的Reads數(shù)”,計(jì)算公式。
FPKM:Fragments per Kilobase Million,F(xiàn)PKM意義與RPKM極為相近。二者區(qū)別僅在于,F(xiàn)ragment 與 Read。RPKM的誕生是針對(duì)早期的SE測(cè)序,F(xiàn)PKM則是在PE測(cè)序上對(duì)RPKM的校正。只要明確?Reads 和 Fragments的區(qū)別,RPKM和FPKM的概念便易于區(qū)分。Reads即是指下機(jī)后fastq數(shù)據(jù)中的每一條Reads,F(xiàn)ragments則是指每一段用于測(cè)序的核酸片段,在SE中,一個(gè)Fragments只測(cè)一條Reads,所以,Reads數(shù)與Fragments數(shù)目相等;在PE中,一個(gè)Fragments測(cè)兩端,會(huì)得到2條Reads,但由于后期質(zhì)量或比對(duì)的過(guò)濾,有可能一個(gè)Fragments的2條Reads最后只有一條進(jìn)入最后的表達(dá)量分析。總之,對(duì)某一對(duì)Reads而言,這2條Reads只能算一個(gè)Fragments,所以,F(xiàn)ragment的最終數(shù)目是Reads的1到2倍之間。
TPM:?Transcripts Per Million,這個(gè)英文也很費(fèi)解。先不糾結(jié)字面意思了,直接解釋它的計(jì)算方法。TPM的計(jì)算分3步:
step1:根據(jù)基因/轉(zhuǎn)錄本長(zhǎng)度?校正count值;假設(shè)某基因count值為R1,則校正后count值為:
R1/(L1/1000)?;
注: L1為該基因的長(zhǎng)度;
step2:計(jì)算total 校正后count值;即所有基因的校正后count值?總和,Rtotal;
step3:計(jì)算TPM;TPM?結(jié)果為:
R1*1000*1000000/(L1*?Rtoatl)。
總結(jié)
以上是生活随笔為你收集整理的转录组表达量计RPKM、FPKM、TPM说明的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 什么是数据埋点?
- 下一篇: Linux自动同步时间的方法