衡量基因相对表达量的RPKM、FPKM、TPM详解
衡量基因相對表達量的RPKM和FPKM、及TPM
1.RPKM(Reads Per Kilobase per Million)和FPKM(Fragments Per Kilobase per Million)
1.引入“每一千堿基(per kilobase)”的原因在于,不同的RNA可能有不同長度,長度越長,對應的reads就越多。當每個RNA都除以自身長度(以1000堿基,即kb為單位)時,就可以比較同一個樣本中不同基因的相對表達量了。
2.引入“每一百萬reads”的原因是,不同的樣本可能測序的深度不一樣,深度越深,當然對應的reads就越多了。如果結果除以各自庫的數量(以一百萬reads為單位),那么我們就能很好地衡量兩個不同樣本中同一個基因的相對表達量。
計算方法
第一步先將測序深度標準化,計算方法很簡單,先分別計算出每個樣本的總reads數,然后將表中數據分別除以總reads數即可,這樣就得到了reads per million。
第二步是基因長度的標準化。將第一步的read per million直接除以基因長度即可。
FPKM和RPKM的定義是相同的,唯一的區別是FPKM適用于雙端測序文庫,而RPKM適用于單端測序文庫。是衡量基因相對表達量的一個公式,
RPKM是將Map到基因的Reads數除以Map到Genome的所有Read數(以Million為單位)與RNA的長度(以KB為單位),是衡量基因相對表達量的一個公式,適用于單端測序
FPKM是將Map到基因的Fragments數除以Map到Genome的所有Read數(以Million為單位)與RNA的長度(以KB為單位)。適用于單端和雙端測序。
它們2者的不同:
在single-end(單端測序)測序中,FPKM將read當做fragment計算,此時FPKM和RPKM是相同的。
而在pair-end(雙端測序)測序 中, 若一堆paired-read 都比對上了,當做一個fragment。
TPM:Transcripts Per Kilobase per Million mapped reads (每千個堿基的轉錄每百萬映射讀取的Transcripts):它先對每個基因的read數用基因的長度進行校正,之后再用校正后的這個基因read數(nr/Lr)與校正后的這個樣本的所有校正后的read數(sum( nr/Lr+………+ nm/Lm ))求商,是衡量基因相對表達量的一個手段
TPM的出現:
TPM的不同在于它的處理順序是不同的。即先考慮基因長度,再考慮測序深度。
它的好處是,上邊FPKM:
FPKM = (10^6 * nf) / (L * N)
其中:
nf 代表比對至目標基因的fragment數量;
L代表目標基因的外顯子長度之和除以1000,單位是Kb;
N是總的有效比對至基因組的fragment數量。
FPKM中N同樣會受到各個轉錄基因長度(distribution of transcript lengths)的影響,也就是說:FPKM/RPKM是不準確的。而TPM在一個樣本中一個基因的TPM:先對每個基因的read數用基因的長度進行校正,之后再用校正后的這個基因read數(nr/Lr)與校正后的這個樣本的所有校正后的read數(sum( nr/Lr+………+ nm/Lm ))求商。TPM除以經過基因長度歸一化后的有效比對的read總數,即歸一化后的測序深度。
————————————————
楊夢磊
20211024
總結
以上是生活随笔為你收集整理的衡量基因相对表达量的RPKM、FPKM、TPM详解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Unity用代码批量修复材质球shade
- 下一篇: 汉语编程语言构想