转录组分析综述A survey of best practices for RNA-seq data analysis
轉(zhuǎn)錄組分析綜述
- 轉(zhuǎn)錄組 ?
- 文獻(xiàn)解讀 ?
- Trinity ?
- cufflinks
今天介紹下小編最近閱讀的關(guān)于RNA-seq分析的文章,文章發(fā)在Genome Biology 上的A survey of best practices for RNA-seq data analysis 。由于文章較長(zhǎng)和枯燥,小編認(rèn)為重要的信息,已經(jīng)加粗加紅,可以直接看重要信息。不要問我為啥這么好,請(qǐng)叫我雷鋒。
?
摘要?
?
現(xiàn)在RNA-seq數(shù)據(jù)使用廣泛,但是沒有一套流程可以解決所有的問題。我們重點(diǎn)關(guān)注RNA-seq分析中的重要的幾步:實(shí)驗(yàn)設(shè)計(jì),質(zhì)控,read比對(duì),表達(dá)定量,可視化,差異表達(dá),識(shí)別可變剪切,功能注釋,融合基因檢測(cè),eQTL定位等。
文章會(huì)討論每一步分析中的重點(diǎn)和面臨的問題,另外最后說明了RNA-seq如何和其他數(shù)據(jù)相結(jié)合分析的。
背景
?
利用轉(zhuǎn)錄組數(shù)據(jù)來識(shí)別轉(zhuǎn)錄本和表達(dá)定量,是轉(zhuǎn)錄組數(shù)據(jù)的核心作用。由于這個(gè)作用,他可以不依賴其他組學(xué)信息,單獨(dú)成為一個(gè)產(chǎn)品項(xiàng)目RNA-seq 測(cè)序。所以導(dǎo)致RNA-seq 徹底的火了起來。這之后出現(xiàn)了很多的行業(yè)標(biāo)準(zhǔn)和分析文檔。這使得新的用戶為了做好實(shí)驗(yàn),不得不去認(rèn)識(shí)和理解所有的實(shí)驗(yàn)步驟。
目前的情況是沒有一成不變的流程,整個(gè)分析過程都是根據(jù)不同的物種,不同的設(shè)計(jì)目的進(jìn)行變化的。本文中我們只關(guān)注常規(guī)RNA-seq分析。也就是摘要中主要說的那幾部分。
同時(shí),文章指出在流程的整個(gè)過程中都應(yīng)該添加check point ?以期得到好的結(jié)果。?
1、實(shí)驗(yàn)設(shè)計(jì)
?
想要獲得感興趣的生物學(xué)答案,實(shí)驗(yàn)設(shè)計(jì)一定要合理。首先要對(duì)數(shù)據(jù)的建庫類型,測(cè)序深度和生物學(xué)重復(fù)進(jìn)行選擇。另外就是保證測(cè)序機(jī)器運(yùn)行充分,盡量少的產(chǎn)生無效數(shù)據(jù)。
這里我們知道對(duì)轉(zhuǎn)錄組測(cè)序存在兩種方法:檢測(cè)polyA和核糖體剔除。對(duì)于真核而言,通常利用第一種方法,而對(duì)于細(xì)菌,沒有polyA,應(yīng)該用第二種。
文中指出轉(zhuǎn)錄組也應(yīng)該多測(cè)些長(zhǎng)片段,這可以提供比對(duì)效率和轉(zhuǎn)錄本識(shí)別能力。利用那種數(shù)據(jù)取決與分析的目的。如果研究的物種是注釋非常好的,只是來研究其表達(dá)水平,利用便宜和短的se就夠啦。但是如果注釋的不好的話,pe和長(zhǎng)read 能發(fā)揮好的作用。
對(duì)于測(cè)序深度,取決于轉(zhuǎn)錄本的復(fù)雜程度,太低和太高都不好。
關(guān)于重復(fù),應(yīng)該是包括技術(shù)導(dǎo)致的重復(fù),這個(gè)很難處理掉,只能在實(shí)驗(yàn)的時(shí)候,多加小心,盡量避免。而對(duì)于人為設(shè)定的生物學(xué)重復(fù),利用利用統(tǒng)計(jì)學(xué)工具進(jìn)行過濾。
?
在實(shí)驗(yàn)設(shè)計(jì)中,如果樣品太多,應(yīng)該按照組別進(jìn)行處理。這樣可以減少錯(cuò)誤。
?
2、RNA-seq分析
?
RNA-seq文庫制備過程包括:RNA fragmentation, cDNA synthesis, adapter
ligation, PCR amplification, bar-coding, and lane loading)。這里要注意數(shù)據(jù)的質(zhì)量控制,文庫大小標(biāo)準(zhǔn)化,縮小堿基偏好性: such as the use of adapters with random nucleotides at the extremities or the use of chemical-based
fragmentation instead of RNase III-based fragmentation.?
如果樣品太多,不得不用分開測(cè)序,或者在不同的lane上,一定要對(duì)batch effect?進(jìn)行處理,以防其他因素影響實(shí)驗(yàn)。
?
(1)質(zhì)控點(diǎn)
?
<1>、原始數(shù)據(jù)
包括GC含量,數(shù)據(jù)質(zhì)量,有無接頭,復(fù)制比例等。這里同一個(gè)物種的樣品測(cè)序的數(shù)據(jù)中信息應(yīng)該是一致的。如果相差超過30%,應(yīng)該被去掉。
這里監(jiān)控的軟件推薦fastqc和NGSqc。另外read兩端的數(shù)據(jù)如果質(zhì)量很低,應(yīng)該被切掉,這里推薦工具:FASTX-toolkit和Trimmomatic。
<2>、read 比對(duì)
一個(gè)衡量標(biāo)準(zhǔn)是read比對(duì)效率。
文章測(cè)試中70-90%的read比對(duì)上了人的基因組。
另外一個(gè)是uniformity of read coverage on exons and the mapped strand.在利用polyA選擇進(jìn)行轉(zhuǎn)錄組測(cè)序中如果read富集在3端,可能預(yù)示數(shù)據(jù)質(zhì)量過低。
還有就是GC含量評(píng)估了堿基的偏好性。推薦的軟件:RSeQC、Qualimap。
<3>、表達(dá)定量
檢測(cè)GC含量和基因長(zhǎng)度的偏好,這樣可以更好的進(jìn)行標(biāo)準(zhǔn)化,推薦的軟件
NOIseq EDASEQ。
<4>、生物學(xué)再現(xiàn)
這里要對(duì)樣品相關(guān)性進(jìn)行評(píng)估,比對(duì)spearman R2 >0.9。同時(shí)一定要對(duì)batch effect?進(jìn)行評(píng)估和過濾。這里主要可以利用PCA進(jìn)行分析。(詳情見上一篇文章)
<5>、轉(zhuǎn)錄本識(shí)別
如果有參考,直接比對(duì)就可以啦,當(dāng)時(shí)如果沒有參考,這里首先愛你需要進(jìn)行組裝,然后定進(jìn)行表達(dá)定量。這里建立用來組裝的和定量的數(shù)據(jù)要有從繼性和同步性。
?
(2)、比對(duì)
(3-1)、轉(zhuǎn)錄本識(shí)別
?
有參考的情況下,對(duì)轉(zhuǎn)錄本進(jìn)行識(shí)別這里用到的軟件根據(jù)不同的情況有以下幾個(gè):GRIT、Cufflinks、StringTie、Augustus(輔助基因預(yù)測(cè))等
利用短的序列其實(shí)是很難得到全長(zhǎng)轉(zhuǎn)錄本的,同時(shí)起始和結(jié)尾預(yù)測(cè)也不準(zhǔn)確。
(3-2)、從頭組裝
?
如果沒有參考,或者參考比較糟糕,我們需要自己從頭組裝。主要的軟件:SOAPdenovo-Trans [30], Oases [31], Trans-ABySS [32] or Trinity [33].對(duì)與低表達(dá)的區(qū)域,覆蓋太低,很難組裝出來,read覆蓋過高,又容易組裝錯(cuò)誤。這里建議如果存在多個(gè)樣品的時(shí)候,建議進(jìn)行混樣組裝。
?
(4)、轉(zhuǎn)錄本表達(dá)定量
?
通常都是通過read比對(duì)來做,也有通過kmer做的??梢岳胷aw counts of mapped read 進(jìn)行評(píng)估,但是這個(gè)指標(biāo)沒有考慮基因的長(zhǎng)度和其他的因素。RPKM是一個(gè)去除了基因長(zhǎng)度和文庫影響的組內(nèi)標(biāo)準(zhǔn)化的指標(biāo),同樣的指標(biāo)還有FPKM,RPKs,TPM等。主要的軟件:Cufflinks,RSEM (RNA-Seq by Expectation Maximization) , eXpress , Sailfish and kallisto?
。
(5)、差異表達(dá)分析
?
常用的軟件有很多,在使用的使用要注意每種軟件使用的數(shù)據(jù)分布特征。
同樣這里很重要的是一定要對(duì)batch effect進(jìn)行評(píng)估和過濾(COMBAT
)目前鮮有軟件對(duì)于不同的數(shù)據(jù)都表現(xiàn)良好,因此建議對(duì)于重要的結(jié)果,利用多個(gè)軟件綜合進(jìn)行分析。
(6)、可變剪切分析
?
方法1:transcript expression and total gene expression? rSeqDiff:uses a hierarchical likelihood ratio test to detect differential gene expressionwithout splicing change and differential isoform expression simultaneously 方法2: exon-based? approach ? detects signals of alternative splicing by comparing the distributions of reads on exons and junctions of the genes between the compared samples;
(7)、可視化
?
用戶需要通過可視化看到read覆蓋在基因上的變化,以此來對(duì)結(jié)果魯棒性進(jìn)行評(píng)估。
推薦的軟件:UCSC browser、Integrative Genomics Viewer (IGV)、Genome Maps、Savant 、RNAseqViewer等。
?
另外文章還介紹了融合基因檢測(cè),sRNA和功能注釋等。
?
然后文章探究了RNA-seq和其他數(shù)據(jù)進(jìn)行結(jié)合分析,包括基因組數(shù)據(jù),甲基因數(shù)據(jù),Chromatin features、MicroRNAs、Proteomics and metabolomics等。
最后文章對(duì)單細(xì)胞測(cè)序技術(shù)和三代測(cè)序進(jìn)行對(duì)轉(zhuǎn)錄組測(cè)序的影響進(jìn)行了說明:
single cell studies are meaningful only when a set of individual cell libraries are compared with the cell population, with the aim of identifying subgroups of multiple cells with distinct combinations of expressed genes ? Long-read sequencing provides amplification-free, singlemolecule sequencing of cDNAs that enables recovery of full-length transcripts without the need for an assembly step?
轉(zhuǎn)載于:https://www.cnblogs.com/wangprince2017/p/9818990.html
總結(jié)
以上是生活随笔為你收集整理的转录组分析综述A survey of best practices for RNA-seq data analysis的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DreamWeaver使用技巧学习心得
- 下一篇: appium 5-27屏幕旋转、