39个转录组分析工具,120种组合评估
RNA-seq工具哪家強
RNA-seq分析工具知多少
RNA-seq是研究轉(zhuǎn)錄組應用最廣泛,也最重要的技術(shù)之一。RNAseq其分析內(nèi)容包括序列比對、轉(zhuǎn)錄本拼裝、表達定量、差異分析、融合基因檢測、可變剪接、RNA編輯和突變檢測等,具體流程和常用工具如下圖所示。通常的分析不一定需要走完全部流程,按需進行,某些步驟可以跳過、簡化等。
RNA-seq分析工具最優(yōu)組合
Nature Communication上一篇文章 Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis對15個樣品 (正常樣品、癌細胞和干細胞,短讀長和長讀長)的轉(zhuǎn)錄組數(shù)據(jù)利用39個分析工具,120種常見組合方式進行的490次深入分析, 并以測序質(zhì)量控制聯(lián)盟(SEQC)的qPCR檢測結(jié)果做為正對照,總結(jié)出一套普適性流程,如下。
通過綜合分析RNA-seq分析流程中不同步驟的工具性能發(fā)現(xiàn)不同的分析工具和方法對分析結(jié)果的準確度和分析時間影響巨大。
HISAT2表現(xiàn)出最快的速度和最準確的拼接比對,但是沒有STAR的敏感度高。StringTie在速度和準確度上都優(yōu)于Cufflinks。
長讀段方法如IDP和Iso-Seq會識別許多短讀段技術(shù)沒有識別到的多外顯子轉(zhuǎn)錄本,但是會丟失一些單外顯子轉(zhuǎn)錄本。
不經(jīng)過比對的工具如Salmon-SMEM和kallisto獲得了最好的一致性和最高準確度,因此,如果目標不是發(fā)現(xiàn)新的轉(zhuǎn)錄本,如Salmon-SMEM和kallisto可以作為準確而快速的解決方案。
DESeq2和edgeR與不經(jīng)過比對的工具聯(lián)用可以獲得高準確度的差異表達分析結(jié)果。
通常情況下,整體最好的分析流程對于特定的數(shù)據(jù)集特定的研究目的來說可能是次優(yōu)的。比如,對于比對和轉(zhuǎn)錄組構(gòu)建,HISAT2-StringTie組合具有更高的準確度和更快的速度。但是對于MCF7-300樣品來講,STAR- StringTie組合具有更高的靈敏度。
序列比對質(zhì)量大比拼
STAR具有最高比例的在基因組上有唯一比對位置的reads,尤其是對讀長為300 nt的MCF7樣品也有最高的比對率。
與TopHat和HISAT2不同,STAR只保留雙端reads都比對到基因組的序列,但對低質(zhì)量的比對 (允許更多的錯配堿基和soft-clip事件) 容忍度高。這一點在長reads (MCF7-300)樣品中的體現(xiàn)更為明顯。TopHat則不允許soft-clip事件。
soft-clip事件: 即reads末端存在低質(zhì)量堿基或接頭導致比對不上的, STAR會自動嘗試截去未比對部分,只保留比對上的部分。
在比對速度方面,HISAT2比STAR快2.5倍,比TopHat快大約100倍。
(后續(xù)會推出柱狀圖的一步畫法)
Exon-exon junction位點評估
轉(zhuǎn)錄組reads比對不同于基因組reads比對(如ChIP-seq、WES等)的地方在于比對的reads可能來源于2個被內(nèi)含子隔開的外顯子區(qū)域,導致reads一端比對在第一個外顯子的后面部分,另一端比對在第二個外顯子的前面部分,從而形成exon-exon junction (剪接點)。這些reads又稱為junction reads,對轉(zhuǎn)錄本的拼接、鑒定和差異分析具有重要的意義。
下面的維恩圖展示了不同比對軟件檢測到的共有和特有的剪接位點的比較 (整數(shù)代表每個軟件檢測到的剪接位點的數(shù)目,百分數(shù)代表每個集合的splice junction被驗證的比例)。可信的剪接點定義為dbEST數(shù)據(jù)庫中有至少2個表達序列標簽(EST)支持的位點, 做為正對照。
HISAT2在所有樣品中擁有最高的剪接點驗證率 (80%-91%),TopHat其次 (54%-74%),STAR最低 (42%-54%)。但是HISAT2預測的剪接點的數(shù)量最少,約為TopHat的60%和STAR的50%。
韋恩圖繪制看 R語言學習 - 韋恩圖 輕松繪制各種Venn圖
基于參考基因組的轉(zhuǎn)錄組組裝
對于二代測序數(shù)據(jù),Cufflinks和StringTie是應用最廣泛的兩個基于比對結(jié)果的轉(zhuǎn)錄本拼裝工具。(比對軟件STAR,HISAT2和TopHat)
對于三代測序數(shù)據(jù),PacBio的流程中默認使用軟件Iso-Seq。
二代和三代測序數(shù)據(jù)雜交拼裝,使用的是IDP (Isoform Detection and Prediction)。(比對軟件GMAP、STAR long)
轉(zhuǎn)錄本拼裝質(zhì)量評估的依據(jù)是GENCODE v19的參考轉(zhuǎn)錄組注釋,不存在于這個集合的轉(zhuǎn)錄本視為假陽性。
每個轉(zhuǎn)錄本中包含的外顯子的數(shù)目是轉(zhuǎn)錄本拼裝質(zhì)量的一個評價標準, 通常單外顯子轉(zhuǎn)錄本可信度最差。Cufflinks的單外顯子轉(zhuǎn)錄本的數(shù)目占到30%左右,StringTie在15%左右。這些單外顯子轉(zhuǎn)錄本大約90%為假陽性 (數(shù)字為目測附圖的估計)。StringTie拼裝獲得的轉(zhuǎn)錄本的數(shù)目約為Cufflinks的兩倍,其外顯子數(shù)目的分布與GENCODE v19較為相似。
IDP組裝出的都是多外顯子轉(zhuǎn)錄本,整體數(shù)目與Cufflinks排除單外顯子轉(zhuǎn)錄本后相近,但外顯子數(shù)目的分布與GENCODE v19更一致。與之相比,Iso-Seq的假陽性率較高,但敏感性更強。
堆積柱狀圖的畫法將會后續(xù)推出。
對于基因水平的組裝,IDP的的準確性和靈敏性都是最好的。Cufflinks比StringTie更為準確和靈敏。對于MCF3-300樣品來講,含有STAR的組合拼裝出更多的轉(zhuǎn)錄本,但拼裝準確性和靈敏性都略低于基于TopHat和HISAT2的結(jié)果。IDP和StringTie拼裝出更多的多轉(zhuǎn)錄本基因。(下圖左)
對于轉(zhuǎn)錄本水平的組裝,IDP的準確性比其它技術(shù)高20%,但其敏感性低于StringTie,高于Cufflinks。相比喻Cufflinks,StringTie轉(zhuǎn)錄本水平的組裝精確性和敏感性高11%和25%。在預測新的轉(zhuǎn)錄本上 (ENSEMBL沒有注釋但GENCODE v19有的3681個轉(zhuǎn)錄本),StringTie得到的最多,約是Cufflinks和IDP的2.5和6.5倍。(下圖右)
另外StringTie的速度是Cufflinks的50倍,IDP的60倍。
散點圖繪制 R語言學習 - 散點圖繪制
表達定量
傳統(tǒng)的表達分析是將reads比對回參考基因組或者參考轉(zhuǎn)錄組,然后估計轉(zhuǎn)錄本豐度。如果研究目的是關(guān)注已知的和新的轉(zhuǎn)錄本的豐度,比對回參考基因組后使用Cufflinks和StringTie進行組裝,然后評估表達豐度。如果只想定量已經(jīng)注釋的基因,直接比對到參考轉(zhuǎn)錄組,再使用RSEM和eXpress進行豐度估計。
現(xiàn)在基于轉(zhuǎn)錄本的定量還有一種方式是不經(jīng)過比對直接判斷read來源于哪個轉(zhuǎn)錄本,這比拼接比對定量需要更少的計算資源。Sailfish、Salmon、quasi-mapping和kallisto四種工具是這一計算方式的代表。
對樣品NA12878采用不同方法定量得到的基因表達譜進行l(wèi)og轉(zhuǎn)換后的Spearman秩和相關(guān)性分析表明采用相似方法的定量工具獲得的表達圖譜更相近。Cufflinks的定量結(jié)果與其他工具相關(guān)性最差,不足0.4. 不需要比對直接定量的工具與StringTie計算的結(jié)果更相近 (相關(guān)系數(shù)0.6-0.8)。Salmon-SMEM與基于轉(zhuǎn)錄組比對的工具eXpress和Salmon-Aln聚在一起,但Salmon-SMEM運行速度更快。
R語言學習 - 熱圖簡化 R語言學習 - 熱圖美化 R語言學習 - 熱圖繪制 (heatmap)
對于同一個樣品不同測序讀長的數(shù)據(jù) (MCF7-100和MCF7-300)的比較分析可以反應比對工具定量的穩(wěn)定性。兩個不依賴于比對的定量工具kallisto和Salmon-SMEM具有最一致的定量結(jié)果。Cufflinks-TopHat組合的結(jié)果在基于比對的定量工具組合中表現(xiàn)最優(yōu)。整體看,基于STAR的比對結(jié)果,定量穩(wěn)定性低于基于HISAT2的比對。
綜上,不基于比對的定量結(jié)果效率和穩(wěn)定性最高。StringTie與HISAT2的組合是基于比對的定量工具中性能最好的, 但也要比不基于比對的工具慢一個數(shù)量級。
此圖為小提琴圖 (R語言學習 - 箱線圖(小提琴圖、抖動圖、區(qū)域散點圖) R語言學習 - 箱線圖一步法),展示了數(shù)據(jù)分布的密度,越胖的地方數(shù)據(jù)越集中。縱向表示兩個樣品基因表達變化的幅度,橫向表示變化幅度的集中度,數(shù)據(jù)越集中于y=0,定量一致性越好。
此圖為線圖 (R語言學習 - 線圖一步法 R語言學習 - 線圖繪制),展示的是逐步移除最低表達的部分轉(zhuǎn)錄本后定量的一致性。線越接近X軸表明一致性越好。
差異表達基因鑒定
不同樣品和條件下差異表達基因的識別是RNA-seq分析的重要目標。有多種方法鑒定差異表達基因,包括基于計數(shù) (reads count)的DESeq、limma和edgeR、基于組裝技術(shù)的Cuffdiff和Ballgown、不經(jīng)過比對定量進行差異分析的sleuth。
SEQC樣品 (SEQC-A vs SEQC-B, SEQC-C vs SEQC-D)中1001個有qRT-PCR定量過的基因作為對照評價工具的性能。
DESeq2在所有組合中表現(xiàn)最佳,sleuth、edgeR和limma略微次之,但差別不大。
Cuffdiff和Ballgown的準確度沒有基于計數(shù)的工具準確度高。
對于AUC-30的估計,edgeR表現(xiàn)最佳, DESeq2與之差別不大。
基于來講基于計數(shù)的工具比基于組裝的工具更高效, 不經(jīng)過比對直接定量的工具如Salmon和kallisto能夠獲得高質(zhì)量的差異分析結(jié)果。
以上三個圖都是散點圖,第一個Spearman rank correlation相關(guān)性越高越好,第二個RMSD類似于均方差(與對照相比得分偏差的平方和先求均值再開方), 第三個AUC-30表示在假陽性率為30%時ROC曲線下的面積,面積越大表示結(jié)果越準確 (縱軸是True positive rate)。
加入生信寶典,一起換個角度學生信
http://mp.weixin.qq.com/s/NUEi6oRFL7B3f1FpCD4Xug
http://mp.weixin.qq.com/s/xAaj-d5LRRj0SSMFJ7Yo9Q
聯(lián)系我們
總結(jié)
以上是生活随笔為你收集整理的39个转录组分析工具,120种组合评估的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: FCPX插件Day of the Dea
- 下一篇: linux启动脚本添加命令,Linux添