STAR直接就可以输出readsCount,为什么还需要featurecounts?
這個問題很讓人困惑,不少教程,先是STAR比對,然后featureCounts或HTSeq再計算reads count。那么我們看看,什么時候需要這樣做,什么時候不需要這樣做?
STAR比對可以直接輸出reads count
STAR比對參數很多,其中有一個quantMode,可以指定--quantMode GeneCounts輸出STAR計算出的reads計數結果。(更多常用參數見 STAR比對線程也不是越多越好,多少是好?)
格式如下,有4列,各自解釋如下:
trt_N061011.ReadsPerGene.out.tab: 每個基因的reads count,鏈非特異性RNASeq選第2列。
column 1: gene ID
column 2: counts for unstranded RNA-seq
column 3: counts for the 1st read strand aligned with RNA (htseq-count option -s yes)
column 4: counts for the 2nd read strand aligned with RNA (htseq-count option -s reverse)
N_unmapped 127 127 127 N_multimapping 3745 3745 3745 N_noFeature 21487 234292 234796 N_ambiguous 23935 5678 5571 ENSG00000178591 0 0 0 ENSG00000125788 0 0 0 ENSG00000088782 0 0 0 ENSG00000185982 0 0 0 ENSG00000125903 0 0 0 ENSG00000186458 0 0 0 ENSG00000272874 0 0 0 ENSG00000196476 71 33 38這個結果與HTSeq的輸出結果是完全一致的。所以我們如果是比對完之后未做轉錄本拼裝,直接對已知基因(構建基因組索引時GTF中囊括的基因)進行定量時,完全不需要再次用featureCounts或HTSeq再計算reads count。
如果做了轉錄本拼裝,對基因定量,需要HTSEQ/FEATURECOUNTS
假設我們用STAR比對后,做了轉錄本拼裝,獲得一個拼裝比較后的注釋文件assembeCompare2Ref.annotated.gtf,對新基因或有新轉錄本的基因進行定量時,就需要再次計算了。
下面代碼顯示的是htseq的計算方式,featureCounts改一下也適用。
for i in `tail -n +2 sampleFile | cut -f 1`; do htseq-count -f bam -r pos -a 10 -t exon -s no -i gene_id -m union ${i}/${i}.Aligned.sortedByCoord.out.bam assembeCompare2Ref.annotated.gtf >${i}/${i}.readsCountgrep -v '^__' ${i}/${i}.readsCount | sed "1 iGene\t${i}" >${i}/${i}.readsCount2 done &用軟件,看別人分享的教程是一個快捷的方式。但也要看軟件手冊,看看哪些參數適合自己的物種、數據,再進行分析,不能別人用什么、怎么用,自己完全跟隨。
即便是看完手冊后,你發現不需要額外設置參數,直接套教程的代碼就行,那也需要看手冊!
看了才有底氣,指導你的數據用這個參數是合理的,而不是懵懵懂懂、人云亦云~~~
給地球上的22.8萬種植物建立圖像索引
公眾號標題變遷史 - 你有沒有被套路?
生信學習學的是什么?常識!
學生信,不是貪多的,而是求精的!
生信學習入門常見錯誤可能的原因分類總結和求助指南
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的STAR直接就可以输出readsCount,为什么还需要featurecounts?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 目标检测经典算法笔记
- 下一篇: python的setup.py文件及其常