如何使用Bioconductor进行单细胞分析?
最近的技術(shù)進(jìn)步使得能夠在單個細(xì)胞中分析全基因組特征。但是,單細(xì)胞數(shù)據(jù)為分析提出了獨(dú)特的挑戰(zhàn),需要開發(fā)專用的方法和數(shù)據(jù)架構(gòu)才能成功解析數(shù)據(jù)背后的生物問題。Bioconductor項(xiàng)目托管了社區(qū)開發(fā)的開源R包以滿足這些分析需求。我們?yōu)闈撛谟脩籼峁┝藛渭?xì)胞方法的概述和在線圖書,內(nèi)容涵蓋最先進(jìn)的計(jì)算方法、標(biāo)準(zhǔn)化的數(shù)據(jù)基礎(chǔ)架構(gòu)和交互式數(shù)據(jù)可視化工具,存儲于 https://osca. bioconductor.org。
從2001年開始,Bioconductor項(xiàng)目已經(jīng)吸引了來自不同科學(xué)領(lǐng)域的眾多開發(fā)人員和用戶社群,推動了使用R語言進(jìn)行高通量生物數(shù)據(jù)分析的開源軟件包的開發(fā)。盡管大量組學(xué)技術(shù)催生了重要的科學(xué)見解和研究方法,近來單細(xì)胞組學(xué)圖譜的發(fā)展可以回答以前無法回答的科學(xué)問題。Bioconductor擁有大量用于分析組學(xué)數(shù)據(jù)的軟件包,最近,隨著社區(qū)貢獻(xiàn)的軟件包迅速增多,Bioconductor已顯著擴(kuò)展到單細(xì)胞數(shù)據(jù)分析領(lǐng)域(圖1)。
Fig. 1 | Number of Bioconductor packages for the analysis of highthroughput sequencing data over ten years.
當(dāng)前的單細(xì)胞測序既可以是高通量的,同時測量數(shù)千到數(shù)百萬個細(xì)胞;也可以是高維的,同時測量單個細(xì)胞內(nèi)的數(shù)千個特征。與大量細(xì)胞樣品的圖譜相比,單細(xì)胞數(shù)據(jù)有兩個特征,必須對其進(jìn)行特殊處理才能獲得有意義的生物結(jié)果:(1)數(shù)據(jù)中的細(xì)胞數(shù)目增加了多個量級,如人類細(xì)胞圖集和小鼠細(xì)胞圖集等;(2)由于所測量特征(基因/轉(zhuǎn)錄本)的生物波動性高或?qū)ι倭糠肿舆M(jìn)行定量分析的敏感性有限,導(dǎo)致數(shù)據(jù)稀疏性增加。這些特性促進(jìn)了針對單細(xì)胞數(shù)據(jù)分析的統(tǒng)計(jì)方法的發(fā)展。此外,隨著單細(xì)胞技術(shù)的成熟,數(shù)據(jù)復(fù)雜性和數(shù)據(jù)量的增加要求對數(shù)據(jù)訪問、管理和基礎(chǔ)架構(gòu)進(jìn)行根本性的改變,同時需要專門的方法來促進(jìn)可擴(kuò)展的分析。
為了應(yīng)對這些挑戰(zhàn),為分析單細(xì)胞數(shù)據(jù)而開發(fā)的軟件包已成為Bioconductor項(xiàng)目不可或缺的一部分。在這里,我們主要集中在分析單細(xì)胞RNA測序(scRNA-seq)數(shù)據(jù),其中提到的許多概念也可推廣到其他類型的單細(xì)胞項(xiàng)目。我們的描述涵蓋了數(shù)據(jù)導(dǎo)入、存儲單細(xì)胞實(shí)驗(yàn)數(shù)據(jù)的通用數(shù)據(jù)結(jié)構(gòu)和用于將原始單細(xì)胞數(shù)據(jù)轉(zhuǎn)換為適合下游分析、交互式數(shù)據(jù)可視化和下游分析的快速而強(qiáng)大的方法。為了幫助用戶利用這個強(qiáng)大且可擴(kuò)展的框架,我們介紹了選定的軟件包并提供了在線圖書(https://osca.bioconductor.org),內(nèi)容涵蓋軟件包安裝、使用幫助、特定scRNA-seq分析主題和分析各種scRNA-seq數(shù)據(jù)集的完整工作流程。有關(guān)所有軟件包的參考資料,請參見:http://bioconductor.org/packages/.
數(shù)據(jù)結(jié)構(gòu)
Bioconductor的一個強(qiáng)大的優(yōu)勢是提供了一個復(fù)雜的、高度互相依賴的數(shù)據(jù)集的通用表示形式和基礎(chǔ)架構(gòu)。Bioconductor使用標(biāo)準(zhǔn)化的數(shù)據(jù)容器來實(shí)現(xiàn)各種包的模塊化和交互操作,同時保持強(qiáng)大的終端用戶易用性。為此,Bioconductor采用了一種稱為S4的靈活的面向?qū)ο蠓妒?#xff0c;可以使用豐富且用戶友好的方式將多個對象組件封裝到單個實(shí)例中。這種方法對于生物學(xué)分析尤其重要,因?yàn)樵谡麄€分析過程中,數(shù)值數(shù)據(jù)和元數(shù)據(jù)需要在整個分析過程中都維持一致性。
Bioconductor使用SingleCellExperiment類來存儲單細(xì)胞測序數(shù)據(jù)和元數(shù)據(jù)(圖2). 諸如計(jì)數(shù)矩陣之類的主要數(shù)據(jù)以一個或多個矩陣的形式存儲在assay組件中,其中行代表特征(例如基因和轉(zhuǎn)錄本),列代表細(xì)胞。此外,基本數(shù)據(jù)的低維形式和描述細(xì)胞或特征屬性的元數(shù)據(jù)也可以存儲在SingleCellExperiment對象中。通過SingleCellExperiment類,可以將與scRNA-seq實(shí)驗(yàn)相關(guān)的所有數(shù)據(jù)和結(jié)果存儲在單個實(shí)例中。通過單細(xì)胞數(shù)據(jù)和結(jié)果的標(biāo)準(zhǔn)化存儲,Bioconductor促進(jìn)了單細(xì)胞分析程序包之間的交互性,并促進(jìn)了復(fù)雜分析工作流程的開發(fā)和使用。
Fig. 2 | Overview of the SingleCellExperiment class.
數(shù)據(jù)處理
本節(jié)的目的是描述大多數(shù)scRNA-seq分析所共有的前期分析步驟。這些基本步驟遵循通用的分析流程(圖3):(1)預(yù)處理原始測序數(shù)據(jù)生成每個基因(或轉(zhuǎn)錄本)X?每個細(xì)胞的表達(dá)計(jì)數(shù)矩陣,然后創(chuàng)建SingleCellExperiment對象;(2)對數(shù)據(jù)進(jìn)行質(zhì)控并去除可能會干擾下游分析的低質(zhì)量細(xì)胞;(3)將原始計(jì)數(shù)轉(zhuǎn)換為標(biāo)準(zhǔn)化的表達(dá)值,以消除細(xì)胞和基因特異性偏好;(4)進(jìn)行特征選擇篩選生物學(xué)相關(guān)基因進(jìn)行下游分析;(5)應(yīng)用降維方法壓縮數(shù)據(jù)并降噪;(6)如果需要,整合多批次scRNA-seq數(shù)據(jù)。
Fig. 3 | Bioconductor workflow for analyzing single-cell data. A typical analytical workflow using Bioconductor leads to the creation and evolution of a SingleCellExperiment (sce) object during data processing and downstream statistical analysis (left column). An example of an sce object evolving throughout the course of a workflow is shown, including visualization, analysis and annotation (right column).
預(yù)處理。對于scRNA-seq數(shù)據(jù),預(yù)處理包括將測序reads與參考轉(zhuǎn)錄組進(jìn)行比對,然后獲得每個細(xì)胞和每個基因的表達(dá)值計(jì)數(shù)矩陣。盡管多種命令行軟件形式的預(yù)處理方法已經(jīng)存在,scPipe和scruff等Bioconductor軟件包提供了完全用R編寫的預(yù)處理工作流。DropletUtils和tximeta等Bioconductor軟件包可以讀入各種命令行軟件工具如Cell Ranger) (10X基因組學(xué)),Kallisto-Bustools和Alevin的結(jié)果。值得注意的是,偽對齊(pseudo-alignment?)方法(例如Alevin和Kallisto)顯著減少了計(jì)算時間和運(yùn)行內(nèi)存。
在上述所有工作流程中,最終結(jié)果是將計(jì)數(shù)矩陣導(dǎo)入R并創(chuàng)建SingleCellExperiment對象。對于特定的文件格式,我們可以使用DropletUtils(用于10X數(shù)據(jù))或tximeta(用于偽對齊方法)包中的專用方法。
質(zhì)量控制。造成scRNA-seq數(shù)據(jù)中的低質(zhì)量文庫可能有多種原因,如解離時的細(xì)胞損傷或文庫制備失敗(例如,不成功的逆轉(zhuǎn)錄或PCR擴(kuò)增)。這些通常表現(xiàn)為“細(xì)胞”的總計(jì)數(shù)低、表達(dá)的基因數(shù)目很少、線粒體基因表達(dá)占比高。這些低質(zhì)量的文庫可能會導(dǎo)致下游分析中獲得誤導(dǎo)性結(jié)果。
對于基于液滴的實(shí)驗(yàn)方式,通常只保留包含且只包含一個細(xì)胞的液滴生成的數(shù)據(jù)。DropletUtils程序包根據(jù)觀察到的每個液滴的表達(dá)譜與周圍溶液的表達(dá)譜來區(qū)分空的(只含溶液中RNA的)液滴和含細(xì)胞的液滴。它還可以去除基于液滴的實(shí)驗(yàn)中由于barcode序列錯誤產(chǎn)生的假細(xì)胞。同樣,scran或scds程序包可以比較實(shí)驗(yàn)檢測到的液滴與模擬的doublets液滴的表達(dá)譜識別可能包含多個細(xì)胞(doublets)的液滴。在排除空液滴并識別潛在的doublets后,將含有潛在受損細(xì)胞或測序覆蓋度較差的液滴過濾掉。庫大小(定義為每個細(xì)胞所有相關(guān)基因的總計(jì)數(shù)之和)是一個常用的過濾指標(biāo)。具有較小文庫大小的細(xì)胞更可能是低質(zhì)量細(xì)胞,這可能是因?yàn)樵赗NA制備過程中的某個步驟如細(xì)胞裂解、不成功的cDNA捕獲和擴(kuò)增等造成了RNA丟失。另一個指標(biāo)是每個細(xì)胞中表達(dá)的基因的數(shù)量,定義為該細(xì)胞中具有非零計(jì)數(shù)的內(nèi)源基因的數(shù)量。表達(dá)基因很少的細(xì)胞可能是轉(zhuǎn)錄本群體沒有被成功捕獲。線粒體基因組中基因的表達(dá)比例也是一個指標(biāo),因?yàn)榫€粒體基因比例高可能是因?yàn)榧?xì)胞損傷造成細(xì)胞質(zhì)RNA丟失,而線粒體因?yàn)轶w積大于單個轉(zhuǎn)錄物分子不太可能通過細(xì)胞膜上的孔逸出。Scater軟件包簡化了這些指標(biāo)的計(jì)算。
標(biāo)準(zhǔn)化。scRNA-seq數(shù)據(jù)不同文庫之間存在覆蓋率的系統(tǒng)差異,例如測序深度差異。這通常是由于細(xì)胞之間cDNA捕獲或PCR擴(kuò)增效率不同而引起的,而這又是由于起始RNA量低導(dǎo)致的。標(biāo)準(zhǔn)化的目的是消除這些系統(tǒng)差異,以使它們不干擾聚類或差異表達(dá)分析時細(xì)胞之間表達(dá)譜的比較。
我們先只考慮在單個scRNA-seq實(shí)驗(yàn)中降低系統(tǒng)差異的方法,因?yàn)樗鼈冊斐蓴?shù)據(jù)的偏好性的原因相似。例如,測序深度的變化將所有基因的表達(dá)計(jì)數(shù)按一定因子進(jìn)行縮放。文庫大小歸一化是最簡單策略,如scater中所實(shí)現(xiàn)。盡管此方法假設(shè)任何一對細(xì)胞之間的差異表達(dá)基因(DEG)上下調(diào)平衡(基因整體表達(dá)量不變),但是標(biāo)準(zhǔn)化準(zhǔn)確性通常不是scRNA-seq探索性分析的主要考慮因素,因?yàn)樗鼈儗Υ鼐垲惖挠绊懞苄 ?/p>
但是,準(zhǔn)確的標(biāo)準(zhǔn)化在解釋每個基因的統(tǒng)計(jì)數(shù)據(jù)如差異基因分析時非常重要。當(dāng)在一個給定的scRNA-seq數(shù)據(jù)集中存在多種細(xì)胞類型時,最經(jīng)常觀察到表達(dá)偏差是表達(dá)變化對數(shù)值的偏移。通過反卷積進(jìn)行歸一化可以克服這一點(diǎn),方法是合并許多細(xì)胞中的計(jì)數(shù)數(shù)據(jù)增加計(jì)數(shù)的大小以進(jìn)行準(zhǔn)確的size factor估計(jì),然后將其解卷積為基于細(xì)胞的因子以對每個細(xì)胞進(jìn)行標(biāo)準(zhǔn)化(如在scran中實(shí)現(xiàn)).
另外,BASiCS,?zinbwave和MAST提供了基于模型的標(biāo)準(zhǔn)化方法,不僅可以處理此類文庫大小或組成偏差,還可以針對已知的協(xié)變量或其他可能干擾生物學(xué)上有意義的變異的技術(shù)因素進(jìn)行校正。這些方法支持更復(fù)雜的標(biāo)準(zhǔn)化策略,例如數(shù)據(jù)的非線性轉(zhuǎn)換。有關(guān)此主題的評論,請參考(42).
缺失數(shù)據(jù)填充 (imputation)。數(shù)據(jù)插補(bǔ)方可以用來解決單細(xì)胞測序數(shù)據(jù)的稀疏性問題。由于scRNA-seq實(shí)驗(yàn)經(jīng)常無法測量到某些基因的表達(dá),從而導(dǎo)致數(shù)據(jù)表中零值過多,為此開發(fā)了零膨脹模型(zero-inflated models)。但是,其效果取決于檢測方法或protocol的類型,尚無適應(yīng)所有數(shù)據(jù)的最優(yōu)工具。此外,研究表明,scRNA-seq數(shù)據(jù)的插補(bǔ)方法會導(dǎo)致假陽性結(jié)果,并降低了細(xì)胞類型特異性標(biāo)記基因鑒定的可重復(fù)性.
特征選擇。scRNA-seq數(shù)據(jù)的探索性分析通常旨在表征細(xì)胞間的異質(zhì)性。諸如聚類和降維之類的分析會根據(jù)細(xì)胞的基因表達(dá)譜進(jìn)行比較。但是,在這些計(jì)算中選擇哪些基因用于下游分析影響重大。特征選擇方法旨在識別能對研究的生物系統(tǒng)提供有用信息的基因,同時刪除導(dǎo)致隨機(jī)噪聲的基因。通過只對此類基因進(jìn)行分析,可以在排除排除混淆信息的基礎(chǔ)上保留有意義的生物學(xué)結(jié)構(gòu)。此外,只關(guān)注轉(zhuǎn)錄組的這一子集可以顯著減小數(shù)據(jù)集的大小,從而提高下游分析的計(jì)算效率。參見(50,51)有關(guān)特征選擇方法的評論。
特征選擇的最簡單方法是根據(jù)基因在整個細(xì)胞群體中的表達(dá)來選擇變化最大的基因。這基于一個假設(shè),真正的生物學(xué)差異導(dǎo)致的基因表達(dá)變化大于其他僅受技術(shù)噪聲影響或無關(guān)的生物因素引起的表達(dá)變化。但是,對數(shù)轉(zhuǎn)換無法實(shí)現(xiàn)完美的方差穩(wěn)定化(variance stabilization)。這意味著相比生物異質(zhì)性,基因的豐度對其程度影響更大。因此,特征選擇計(jì)算每個基因的方差時通常需要對均-方差關(guān)系進(jìn)行建模。軟件包scran,BASiCS?和scFeatureFilter都采用這種方法。
另外,還有可以替代方差的度量標(biāo)準(zhǔn),例如基于基因的偏離度(deviance)選擇特征基因,該方法評估每個基因與細(xì)胞間恒定表達(dá)的零模型(null model)的擬合程度。與基于方差的特征選擇方法不同,偏離度的計(jì)算是根據(jù)原始的唯一分子標(biāo)識符(UMI)計(jì)數(shù)完成的,因此該方法對標(biāo)準(zhǔn)化帶來的錯誤不太敏感。偏離度可以使用glmpca軟件包進(jìn)行計(jì)算。
降維。降維旨在減少數(shù)據(jù)中獨(dú)立維度的數(shù)量。如果不同的基因受同一生物學(xué)過程的影響,它們的表達(dá)就會存在相關(guān)性,這使得降維是可行的。因此,我們不需要單獨(dú)存儲每個基因的信息,而是可以將多個基因的信息壓縮成一個特征存儲。降維方法在保留有數(shù)據(jù)集中最有意義的信息結(jié)構(gòu)基礎(chǔ)上實(shí)現(xiàn)了數(shù)據(jù)的降維。降維的一個額外好處是降低了噪音,它可以把多個基因(比如,跟某一個通路相關(guān)的基因)用類似平均值的操作整合在一起,獲得的特征可以反應(yīng)更精確的表達(dá)變化模式。降維后下游分析中的計(jì)算工作也減少了,因?yàn)橹恍枰槍讉€維度而不是數(shù)千個基因進(jìn)行計(jì)算。效果更好的降維方案(aggressive dimensionality reduction schemes)可以在二維或三維空間對數(shù)據(jù)進(jìn)行可視化以幫助解釋結(jié)果。
scRNA-seq數(shù)據(jù)降維的常見第一步是主成分分析(PCA)。PCA在高維空間中鑒定可捕獲數(shù)據(jù)變異最大的軸(也成為主成分,PC)(PCA主成分分析實(shí)戰(zhàn)和可視化 附R代碼和測試數(shù)據(jù))。前幾個主成分維度捕獲了數(shù)據(jù)集中主要的異質(zhì)性的信息,因此可以有效的降維。這利用了PCA成熟的理論特性,即,對于給定的矩陣,由前幾維PC形成的低階近似矩陣是原始數(shù)據(jù)的最佳表示。鑒于此屬性,使用前幾維PC(或任何類似的低秩近似表示)執(zhí)行的計(jì)算(諸如聚類之類的下游分析)將充分利用數(shù)據(jù)壓縮和去噪的優(yōu)勢。
無論采用哪種方法,用于可視化的降維必然涉及信息丟失并改變細(xì)胞之間的距離。因此,直接分析用于繪圖的低維坐標(biāo)是不明智的。相反,這些圖應(yīng)僅只用于解釋或傳達(dá)基于更精確的、更多維度的定量分析結(jié)果。這樣可以保證分析充分利用了壓縮到二維空間時丟失的信息。假如二維圖上呈現(xiàn)的細(xì)胞分布與使用更多數(shù)目的PC進(jìn)行聚類獲得的結(jié)果之間存在差異,應(yīng)傾向于相信后者的結(jié)果。
SingleCellExperiment類具有一個專用存儲空間reducedDims用于存儲降維后的數(shù)據(jù)(圖5.2).scater?軟件包提供了多個用于降維分析的便捷函數(shù),可以進(jìn)行主成分分析(PCA),t-SNE(t-Distributed Stochastic Neighbor Embedding,以及UMAP?(Uniform Manifold Approximation and Projection)分析。density包提供了Diffusion map降維方法。zinbwave和glmpca?程序包分別使用零膨脹(zero-inflated)負(fù)二項(xiàng)模型和多項(xiàng)式模型進(jìn)行基于模型的降維分析,優(yōu)勢是在模型中可以考慮混雜因素的影響。
數(shù)據(jù)整合。由于技術(shù)限制(logistical constraints),大型scRNA-seq項(xiàng)目通常需要分多個批次生成數(shù)據(jù)。但是,不同批次的處理通常會遇到無法控制的差異,例如操作員操作獨(dú)特性或試劑質(zhì)量的差異。這導(dǎo)致在不同批次的細(xì)胞中觀察到的表達(dá)發(fā)生系統(tǒng)性差異。此外,隨著scRNA-seq數(shù)據(jù)的普及和參考數(shù)據(jù)集的普及,在整合分析中不可避免地會遇到這種混雜變量的影響。在這個情況下,批次效應(yīng)可能是數(shù)據(jù)異質(zhì)性的主要驅(qū)動力,會掩蓋相關(guān)的生物學(xué)差異并使結(jié)果的解釋變得復(fù)雜。
盡管可以使用廣義線性模型來整合不同的數(shù)據(jù)集,但在scRNA-seq分析中,這些方法可能不是最佳的。因?yàn)樗鼈兓谝粋€假設(shè),即不同批次的細(xì)胞中細(xì)胞群體的組成是已知的或相同的。為了克服這一限制,研究者開發(fā)了不基于細(xì)胞群體構(gòu)成的先驗(yàn)知識的特制方法用于單細(xì)胞數(shù)據(jù)的批次校正 。這便利了scRNA-seq數(shù)據(jù)的探索性分析,因?yàn)檫@些先驗(yàn)知識通常是不可用的。
在批次校正之前,最好先檢查是否有批次影響?;谔卣骰虻膶?shù)表達(dá)值進(jìn)行PCA分析,再使用基于圖的聚類方法展示群體結(jié)構(gòu)。理想情況下,每個聚類簇都應(yīng)包含來自各個重復(fù)scRNA-seq數(shù)據(jù)集的細(xì)胞。然而,如果細(xì)胞簇只包含單個批次的細(xì)胞,則表明批次效應(yīng)把本來相同類型的細(xì)胞錯誤地區(qū)分開了。諸如t-SNE和UMAP之類的方法也會顯示出來自不同批次的細(xì)胞之間的差異,這與聚類結(jié)果是一致的。值得注意的是,如果某個批次確實(shí)包含獨(dú)特的細(xì)胞亞群時,這種依賴于混合程度的可視化診斷可能并不有效,但是仍然是有用的近似方法。
諸如scMerge、scamap之類的包可以使用先驗(yàn)細(xì)胞標(biāo)記(請參閱“注釋”部分)進(jìn)行有監(jiān)督的整合分析,用以指導(dǎo)對基因表達(dá)值進(jìn)行任何批次校正或調(diào)整較低維度的展示形式。另一方面,諸如相互最近鄰居(MNN,mutual nearest neighbours)之類的無監(jiān)督方法會從彼此相鄰的鄰居集合中識別不同批次中成對的細(xì)胞。然后,MNN對中的細(xì)胞之間的差異可以用作批次效應(yīng)的估計(jì)值,將其相減得出批處理校正值。實(shí)際上,通過調(diào)整最近鄰居的數(shù)量值k,可以調(diào)整批次校正的強(qiáng)弱,其中,較高的k值會導(dǎo)致批次之間子群體的匹配更加廣泛(generous matching)。這種基于MNN的方法在batchelor軟件包中有實(shí)現(xiàn)。
批次校正的成功取決于生物異質(zhì)性信息的保留,因?yàn)榭梢栽O(shè)想一種校正方法將所有細(xì)胞簡單地聚集在一起,雖然實(shí)現(xiàn)了細(xì)胞的完美混合,但丟棄了感興趣的生物信息。為此,CellMixS軟件包可用于評估批次之間的細(xì)胞混合程度。另一個有用的評估方法是將數(shù)據(jù)合并后的聚簇結(jié)果與每個批次數(shù)據(jù)分別獲得的聚簇結(jié)果相比較。理想情況下,我們應(yīng)該看到多對一的映射關(guān)系,跨批次聚簇結(jié)果嵌套在批次內(nèi)聚類結(jié)果,這表明任何批次內(nèi)結(jié)構(gòu)都在校正后得以保留。統(tǒng)計(jì)量如蘭德指數(shù)(Rand index,https://en.wikipedia.org/wiki/Rand_index)可用于評估聚類結(jié)果(蘭德指數(shù)越大聚類效果越好)。
下游統(tǒng)計(jì)分析
因研究目標(biāo)或?qū)嶒?yàn)手段的不同,下游分析的方法和工作流程的選擇也差異很大。數(shù)據(jù)前期處理后,可以使用Bioconductor中能夠處理SingleCellExperiment類并且可以處理大量細(xì)胞的工具進(jìn)行具體的生物探索分析。我們的在線圖書(https://osca.bioconductor. org)為用戶提供了用于下游分析和可視化的分析流程和案例研究(圖4)。
Fig. 4 | Select visualizations derived from various Bioconductor workflows. Various visualizations associated with pre-processing (blue boxes) and downstream statistical analyses (pink boxes). The example data set used throughout was generated as part of the Human Cell Atlas 21 . Details on the generation of these figures are described in our online companion book (https://osca.bioconductor.org).
聚類。在scRNA-seq數(shù)據(jù)分析中使用經(jīng)驗(yàn)性的聚類方式定義具有相似表達(dá)譜的細(xì)胞為一簇。這使我們可以用更容易理解的離散標(biāo)記來描述種群異質(zhì)性,而不是試圖理解細(xì)胞自身所處的高維流形。在基于差異表達(dá)獲得的標(biāo)記基因進(jìn)行注釋后,可以將簇視為更抽象的生物學(xué)概念(例如細(xì)胞類型或狀態(tài))的代名詞。
值得強(qiáng)調(diào)的是細(xì)胞簇與細(xì)胞類型之間的區(qū)別。前者是一種經(jīng)驗(yàn)稱謂,而后者是一個生物學(xué)事實(shí)(盡管定義有些模糊)。因此,需要認(rèn)識到聚類,其實(shí)像顯微鏡一樣,只是探索數(shù)據(jù)的一個工具。更改聚類參數(shù)可以類比于放大和縮小分辨率來調(diào)整觀察的粒度,并嘗試使用不同的聚類算法來獲得數(shù)據(jù)的其它查看角度。
基于圖的聚類方法是對大型scRNA-seq數(shù)據(jù)集進(jìn)行聚類分析的一種靈活且擴(kuò)展性強(qiáng)的技術(shù)。在一個高維空間中,每個點(diǎn)(也就是一個細(xì)胞)與其最近的鄰居相連構(gòu)成一幅網(wǎng)絡(luò)圖。邊基于相連的細(xì)胞的相似性加權(quán),連接越相似的細(xì)胞的邊的權(quán)重越高。louvain和leiden等算法 可以用來鑒定細(xì)胞簇。
BiocNeighbors提供了用于精確和近似最近鄰檢測的分析工具,并通過scran構(gòu)建實(shí)際連接圖形。值得注意的是,對于大型scRNA-seq數(shù)據(jù)集,近似NN方法以可接受的準(zhǔn)確性損失為代價極大地縮短了運(yùn)行時間,并具有平滑噪聲和稀疏性的額外優(yōu)勢。替代方法包括SIMLR軟件包,它使用多個kernal來學(xué)習(xí)最適合數(shù)據(jù)的細(xì)胞距離度量方式,并可用于聚類和降維。對于大數(shù)據(jù),mbkmeans軟件包實(shí)現(xiàn)了k-means算法的高速版本。最后,SC?和clusterExperiment程序包構(gòu)建了基于多重參數(shù)的一致性聚類比較分析。
許多這些程序包都可以對聚類結(jié)果進(jìn)行定量和視覺評估,此外,還專門設(shè)計(jì)有用于數(shù)據(jù)可視化和評估的其它程序包(例如clustree)。另外可以通過一些度量參數(shù)(例如簇模塊性或輪廓系數(shù)silhouette coefficient)來獨(dú)立評估聚類結(jié)果。
差異表達(dá)。差異基因表達(dá)(DGE)分析可用于識別驅(qū)動簇分離的標(biāo)記基因。這些標(biāo)記基因使我們能夠根據(jù)其功能注釋為每個簇賦予生物學(xué)意義。在最明顯的情況下,每個簇的標(biāo)記基因與已經(jīng)注釋的特定細(xì)胞類型相關(guān),從而讓聚類結(jié)果等同于細(xì)胞類型鑒定結(jié)果。同時還可以應(yīng)用相同原理檢測更細(xì)微的差異,例如激活狀態(tài)或分化狀態(tài)之間的比較。DGE分析用于細(xì)胞類型注釋的替代方案是基因集富集分析,該分析將基因歸類到先驗(yàn)的基因模塊或生物途徑,以便于進(jìn)行生物解釋。我們將在“注釋”部分中討論此主題。
在差異表達(dá)方法中,有兩種通用方法很突出。第一種方法是把最初廣泛應(yīng)用于普通轉(zhuǎn)錄組測序的R包(如edgeR,DESeq2和limma-voom)等通過各種方法(例如通過創(chuàng)建偽普通轉(zhuǎn)錄組圖譜)改造后應(yīng)用于scRNA-seq分析?;蛘?#xff0c;諸如zinbwave之類的方法在離散度估計(jì)和模型擬合步驟中減輕在scRNA-seq數(shù)據(jù)中大量零的權(quán)重,然后再進(jìn)行差異分析,也可以促進(jìn)普通轉(zhuǎn)錄組差異基因分析方法應(yīng)用于scRNA-seq數(shù)據(jù)。第二類方法是專門針對單細(xì)胞數(shù)據(jù)的特征開發(fā)的,其使用的統(tǒng)計(jì)方法直接對scRNA-seq數(shù)據(jù)常見的大量零值直接建模。這些方法將基因表達(dá)明確地分為兩個部分:離散部分(描述零與非零表達(dá)的基因的比例)以及連續(xù)部分(基因表達(dá)定量水平)。盡管本文提到的所有方法都可以對”連續(xù)部分”進(jìn)行差異分析,但是只有第二類方法可以明確地對“離散部分”進(jìn)行建模(explicitly model),從而對表達(dá)頻率的差異進(jìn)行統(tǒng)計(jì)分析。為此,MAST軟件包使用了hurdle model( Hurdle模型是二分類模型與零截尾模型的聯(lián)合,它可通過對兩部分分別進(jìn)行極大似然估計(jì)而得到參數(shù)估計(jì)值。),而scDD,BASiCS和SCDE?分別使用貝葉斯混合和層級模型。這些方法可以提供更廣泛的檢測功能,并且可以直接用于SingleCellExperiment類中包含的scRNA-seq數(shù)據(jù)。
有關(guān)DE分析和上述各種軟件包的比較分析的更多詳細(xì)信息,請參見參考資料65–67.
軌跡分析。細(xì)胞異質(zhì)性還可以建模為一個連續(xù)的生物過程,如細(xì)胞分化。軌跡分析(或偽時間推斷)是專門針對單細(xì)胞降維分析的一個特殊應(yīng)用,它使用系統(tǒng)發(fā)育方法來沿著(通常是時間連續(xù)性的)軌跡對細(xì)胞進(jìn)行排序,如隨時間的發(fā)育。推斷的軌跡可以識別細(xì)胞狀態(tài)之間的過渡、分化過程或動態(tài)細(xì)胞過程中導(dǎo)致的二分事件。
軌跡推斷的最新方法的改進(jìn)在最大程度地減少了用戶輸入?yún)?shù),并且可以基于各種拓?fù)浣Y(jié)構(gòu)進(jìn)行差異基因表達(dá)分析(例如Monocle,LineagePulse和switchde)。此外,用于軌跡推斷的多個Bioconductor軟件包(例如,slingshot,?TSCAN,Monocle,?cellTree和MFA)最近被證明具有出色的性能。由于對于同一個數(shù)據(jù)集,不同的方法可能產(chǎn)生截然不同的結(jié)果,因此一系列的方法和參數(shù)設(shè)置需要進(jìn)行比較測試以評估其魯棒性。(NBT|45種單細(xì)胞軌跡推斷方法比較,110個實(shí)際數(shù)據(jù)集和229個合成數(shù)據(jù)集)
Bioconductor通過提供標(biāo)準(zhǔn)化的數(shù)據(jù)形式(例如SingleCellExperiment類對象)來方便此類測試。參見(74)獲得進(jìn)一步討論。
聚類簇注釋
scRNA-seq數(shù)據(jù)分析中最具挑戰(zhàn)性的任務(wù)可以說是聚類簇注釋。獲得細(xì)胞簇方法非常直接,但是要確定每個簇代表的細(xì)胞類型或細(xì)胞狀態(tài)則更加困難。完成這個工作需要彌合當(dāng)前數(shù)據(jù)集和先驗(yàn)生物學(xué)知識之間的鴻溝,而后者并不總能以一致和定量的方式獲得。因此,對scRNA-seq數(shù)據(jù)的注釋通常是手動的,并且是分析流程中的常見瓶頸。
為了加快此步驟,可以應(yīng)用各種計(jì)算方法利用先驗(yàn)信息為新的scRNA-seq數(shù)據(jù)集賦予生物意義。先驗(yàn)信息的最明顯來源是與特定生物學(xué)過程相關(guān)的認(rèn)證基因集(例如,來自基因本體論(GO,gene ontology)或KEGG通路信息)。另一種方法是將表達(dá)譜與已發(fā)布的經(jīng)過領(lǐng)域?qū)<易鲞^注釋的參考數(shù)據(jù)集直接進(jìn)行比較。
基因集富集。經(jīng)典基因集富集(GSE)方法的優(yōu)點(diǎn)是不需要參考表達(dá)值。當(dāng)處理來自文獻(xiàn)或其他定性形式的生物學(xué)知識的基因集時,這特別有用。在細(xì)胞注釋時,通常在一組細(xì)胞(或簇)上執(zhí)行GSE分析以識別這些細(xì)胞富集的基因集或生物通路。然后可以根據(jù)富集的通路推導(dǎo)細(xì)胞類型(或狀態(tài))。
Bioconductor提供了專用軟件包從數(shù)據(jù)庫(如MSigDB、KEGG、Reactome、GO)中獲得預(yù)定義的基因特征信息。EnrichmentBrowser簡化了從此類數(shù)據(jù)庫收集基因集的過程。最初為普通轉(zhuǎn)錄組數(shù)據(jù)開發(fā)的基因集富集分析方法也可應(yīng)用于scRNA-seq數(shù)據(jù)中特定基因模塊的富集。EnrichmentBrowser,EGSEA和fgsea軟件包分別提供了一些經(jīng)典GSE分析的工具。在MAST、AUCell和slalom中也有進(jìn)行GSE分析的方法。
自動注釋細(xì)胞。從概念上講,最直接的注釋方法是將單細(xì)胞表達(dá)譜與先前注釋的參考數(shù)據(jù)集進(jìn)行比較。然后,根據(jù)最相似的參考樣本或某些其他相似性指標(biāo),將生物標(biāo)簽分配給待確認(rèn)的細(xì)胞。這是一個常見的分類問題,可以通過標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)技術(shù)如隨機(jī)森林和支持向量機(jī)來解決。任何公開且?guī)в袠?biāo)簽的RNA-seq數(shù)據(jù)集(普通或單細(xì)胞的)都可以用作參考,其可靠性在很大程度上取決于給參考集細(xì)胞進(jìn)行注釋的原始作者的專業(yè)性。
SingleR方法提供了一種用于細(xì)胞類型注釋的自動化系統(tǒng)。SingleR基于具有最高Spearman相關(guān)性的參考樣本標(biāo)記細(xì)胞,因此可以認(rèn)為是k-近鄰分類的排序變體。為了減少噪聲,SingleR可以識別兩組細(xì)胞之間的標(biāo)記基因,并僅使用那些標(biāo)記基因來計(jì)算相關(guān)性。程序包中包含許多內(nèi)置參考數(shù)據(jù)集,這些數(shù)據(jù)集來自多個項(xiàng)目,包括免疫基因組計(jì)劃(ImmGen),ENCODE和免疫細(xì)胞表達(dá)數(shù)據(jù)庫(DICE)。
分析工具易用性 Accessible analysis
隨著對單細(xì)胞測序數(shù)據(jù)的分析興趣日益濃厚,Bioconductor不僅開發(fā)了分析數(shù)據(jù)的方法和軟件,而且還優(yōu)先考慮使數(shù)據(jù)本身和數(shù)據(jù)分析工具更易于用戶和開發(fā)人員使用。具體而言,社區(qū)提供了數(shù)據(jù)包,其中包含公開可用的已發(fā)布數(shù)據(jù)和模擬數(shù)據(jù),以及交互式數(shù)據(jù)可視化工具。這樣可以使單細(xì)胞數(shù)據(jù)和數(shù)據(jù)分析工具更易于訪問,使研究人員可以在自己的工作中利用這些資源并使數(shù)據(jù)分析民主化(democratizes data analysis)。
基準(zhǔn)測試。隨著新的單細(xì)胞檢測、統(tǒng)計(jì)方法和相應(yīng)軟件的開發(fā),方便數(shù)據(jù)集的發(fā)布、再現(xiàn)現(xiàn)有分析以及實(shí)現(xiàn)新工具與現(xiàn)有工具的比較變得越來越重要。Bioconductor收集了一系列數(shù)據(jù)包,著重于提供可以直接用于分析的帶有版本信息的數(shù)據(jù),以及可用于復(fù)制手稿圖形和展示數(shù)據(jù)特征的手冊。
為了便于查詢Bioconductor上已發(fā)布的數(shù)據(jù)包,ExperimentHub包允許使用標(biāo)準(zhǔn)化接口以編程方式訪問已發(fā)布的數(shù)據(jù)集。值得注意的是,scRNAseq軟件包可以從各種來源獲得校正過的高質(zhì)量scRNA-seq數(shù)據(jù)集。另外,模擬數(shù)據(jù)集對評判軟件也很有幫助。
另外,splatter包可以模擬包含多種細(xì)胞類型、批次效應(yīng)、不同水平的drop-out事件、差異基因表達(dá)和軌跡的模擬scRNA-seq數(shù)據(jù)集。splatter?包使用自己的模擬策略框架,并整合其它不同模型的模擬策略以提供全面的單細(xì)胞模擬數(shù)據(jù)資源。
為了提高評估單細(xì)胞方法性能的基準(zhǔn)比較的可重復(fù)性,Bioconductor開發(fā)了存儲不同方法比較結(jié)果的基本架構(gòu)。SummarizedBenchmark?和CellBench軟件包提供了用于存儲元數(shù)據(jù)(方法參數(shù)和軟件包版本)和評估指標(biāo)的接口。
交互式數(shù)據(jù)可視化。網(wǎng)絡(luò)技術(shù)的成熟為交互式數(shù)據(jù)探索開辟了新的途徑,而R包shiny則有助于開發(fā)豐富的圖形用戶界面。iSEE和singleCellTK軟件包為通過Internet瀏覽器對scRNAseq數(shù)據(jù)集進(jìn)行交互可視化提供了全功能的應(yīng)用程序,消除了對編程經(jīng)歷的需求。如果實(shí)例托管在Web上,則無需編程經(jīng)驗(yàn)。這兩個軟件包都直接與SingleCellExperiment數(shù)據(jù)容器連接以便促進(jìn)scRNA-seq分析結(jié)果的交流。
展望
自從基因組學(xué)問世以來,Bioconductor項(xiàng)目就已經(jīng)通過R統(tǒng)計(jì)編程語言擁抱了開源和開放軟件的開發(fā)。Bioconductor已建立協(xié)調(diào)包版本和代碼審查的最佳實(shí)踐。除了社區(qū)貢獻(xiàn)的軟件包,核心開發(fā)團(tuán)隊(duì)(https://www.bioconductor.org/about/core-team)開發(fā)并維護(hù)必要的基礎(chǔ)架構(gòu),并審核提交的軟件包,以確保它們滿足一套指導(dǎo)原則和保證各個軟件包之間的兼容性。這些軟件包被組織到BiocViews中,一個按任務(wù)或技術(shù)對軟件包進(jìn)行分類的主題注釋庫。例如,單細(xì)胞分析主題在視圖SingleCell下標(biāo)記。最重要的是,更廣泛的Bioconductor社區(qū)(包括論壇、Slack或郵件列表)是代碼共享和技術(shù)幫助中無私的典范。這些實(shí)踐共同產(chǎn)生了高質(zhì)量、維護(hù)良好的軟件包,為生物學(xué)研究提供了一個統(tǒng)一而穩(wěn)定的分析環(huán)境。
最近,Bioconductor社區(qū)開發(fā)了最新的計(jì)算方法、數(shù)據(jù)結(jié)構(gòu)和交互式數(shù)據(jù)可視化工具用于分析從單細(xì)胞實(shí)驗(yàn)中獲得的數(shù)據(jù)。新興的單細(xì)胞技術(shù),包括表觀基因組學(xué)、T細(xì)胞和B細(xì)胞文庫、空間轉(zhuǎn)錄組譜分析和基于測序的蛋白質(zhì)譜分析,希望能推動計(jì)算生物學(xué)的發(fā)展。特別是,支持多組學(xué)分析的技術(shù)正在迅速發(fā)展,Bioconductor為研發(fā)用于此類技術(shù)分析的統(tǒng)計(jì)方法奠定了必要的基礎(chǔ)。
此外,Bioconductor的標(biāo)準(zhǔn)化數(shù)據(jù)容器可實(shí)現(xiàn)Bioconductor軟件包以及與其他軟件之間的互操作性??梢詫⒋鎯υ赟ingleCellExperiment中的數(shù)據(jù)轉(zhuǎn)換為Seurat、Monocle?和Python的scanpy可用的格式,從而可以使用最能滿足當(dāng)前分析目標(biāo)的工具。實(shí)際上,R與其他編程語言有著很長的互操作性歷史。有四個例子,Rcpp用于將C++編譯后的代碼集成到R軟件包中,rJava軟件包用于從R中調(diào)用Java代碼的,R中的.Fortran()函數(shù)可以調(diào)用Fortran代碼,reticulate包與Python互通。
這種互操作性使常見的機(jī)器學(xué)習(xí)框架(例如TensorFlow/Keras)可以直接在R中使用。
對于新手來說,Bioconductor中能進(jìn)行大量單細(xì)胞分析的數(shù)量眾多的程序包可能令人望而生畏。為了解決單細(xì)胞分析中越來越多軟件包的選擇問題,我們總結(jié)并強(qiáng)調(diào)了當(dāng)前最先進(jìn)的數(shù)據(jù)基礎(chǔ)架構(gòu)、方法和軟件,并按照典型的單細(xì)胞分析流程組織了這些軟件包(圖3)(圖4)。最后,我們開發(fā)了在線的配套書籍,其中提供了有關(guān)各個分析主題的更詳細(xì)信息以及完整的代碼流程(https://osca.bioconductor.org)。隨著新軟件包的出現(xiàn),我們會不斷更新和維護(hù)這套在線書籍,促進(jìn)Bioconductor資源更方便使用。
作者:張虎
編輯:生信寶典
單細(xì)胞系列教程
-
收藏 北大生信平臺” 單細(xì)胞分析、染色質(zhì)分析” 視頻和PPT分享
-
Science: 小鼠腎臟單細(xì)胞轉(zhuǎn)錄組+突變分析揭示腎病潛在的細(xì)胞靶標(biāo)
-
Science:通過單細(xì)胞轉(zhuǎn)錄組測序揭示玉米減數(shù)分裂進(jìn)程 | 很好的單細(xì)胞分析案例
-
Nature 首次對阿爾茨海默病進(jìn)行單細(xì)胞轉(zhuǎn)錄組分析|詳細(xì)解讀
-
Cell 深度 一套普遍適用于各類單細(xì)胞測序數(shù)據(jù)集的錨定整合方案
-
骨髓基質(zhì)在正常和白血病個體中的細(xì)胞圖譜 Cell,Nature聯(lián)袂解析
-
癌中之王:基質(zhì)微環(huán)境塑造胰腺癌瘤內(nèi)結(jié)構(gòu)|Cell
-
Nature系列 整合單細(xì)胞轉(zhuǎn)錄組學(xué)和質(zhì)譜流式確定類風(fēng)濕性關(guān)節(jié)炎滑膜組織中的炎癥細(xì)胞狀態(tài) 詳細(xì)解讀
-
10X單細(xì)胞測序分析軟件:Cell ranger,從拆庫到定量
-
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(一)- 引言
-
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(二)- 實(shí)驗(yàn)平臺
-
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(三)- 原始數(shù)據(jù)質(zhì)控
-
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(四)- 文庫拆分和細(xì)胞鑒定
-
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(五)- STAR, Kallisto定量
-
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(六)- 構(gòu)建表達(dá)矩陣,UMI介紹
-
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(七)- 導(dǎo)入10X和SmartSeq2數(shù)據(jù)Tabula Muris
-
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(八)- Scater包輸入導(dǎo)入和存儲
-
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(九)- Scater包單細(xì)胞過濾
-
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(十)- Scater基因評估和過濾
-
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(十一)- Scater單細(xì)胞表達(dá)譜PCA可視化
-
Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析(十二)- Scater單細(xì)胞表達(dá)譜tSNE可視化
-
如何火眼金睛鑒定那些單細(xì)胞轉(zhuǎn)錄組中的混雜因素
-
什么?你做的差異基因方法不合適?
-
單細(xì)胞分群后,怎么找到Marker基因定義每一類群?
-
在線平臺如何做單細(xì)胞測序分析全套?有它so easy!
-
植物單細(xì)胞轉(zhuǎn)錄組的春天來了,還不上車?Science, PC, PP, MP, bioRxiv各一個
-
三人成虎,概率卻不足十分之五?
-
一文掌握GSEA,超詳細(xì)教程
-
這個只需一步就可做富集分析的網(wǎng)站還未發(fā)表就被CNS等引用超過350次
-
什么,你算出的P-value看上去像齊天大圣變的廟?
-
GO、GSEA富集分析一網(wǎng)打進(jìn)
-
GSEA富集分析 - 界面操作
-
無需寫代碼的高顏值富集分析神器
-
去東方,最好用的在線GO富集分析工具
-
跨物種單細(xì)胞分析發(fā)現(xiàn)胰腺導(dǎo)管癌中一類有免疫原性的抗原呈遞成纖維細(xì)胞
-
NCB|心咽發(fā)育多樣化的單細(xì)胞轉(zhuǎn)錄軌跡分析
-
七龍珠|召喚一份單細(xì)胞數(shù)據(jù)庫匯總
-
用了這么多年的PCA可視化竟然是錯的!!!
-
單細(xì)胞預(yù)測Doublets軟件包匯總-過渡態(tài)細(xì)胞是真的嗎?
-
Seurat亮點(diǎn)之細(xì)胞周期評分和回歸
-
cellassign:用于腫瘤微環(huán)境分析的單細(xì)胞注釋工具(9月Nature)
-
Nature重磅綜述 |關(guān)于RNA-seq,你想知道的都在這
-
NBT|45種單細(xì)胞軌跡推斷方法比較,110個實(shí)際數(shù)據(jù)集和229個合成數(shù)據(jù)集
-
NC |SCALE準(zhǔn)確鑒定單細(xì)胞ATAC-seq數(shù)據(jù)中染色質(zhì)開放特征
-
RNA-seq最強(qiáng)綜述名詞解釋&思維導(dǎo)圖|關(guān)于RNA-seq,你想知道的都在這(續(xù))
-
SpatialDB |單細(xì)胞空間轉(zhuǎn)錄組數(shù)據(jù)分析可視化平臺
-
Cell 單細(xì)胞文章 | 白凡課題組與合作團(tuán)隊(duì)揭示兒童結(jié)腸炎及炎癥性腸病的致病機(jī)制及治療方法
-
讓你的單細(xì)胞數(shù)據(jù)動起來!|iCellR(一)
-
讓你的單細(xì)胞數(shù)據(jù)動起來!|iCellR(二)
-
Nature | 心臟發(fā)生的單細(xì)胞分析揭示了器官水平發(fā)育缺陷的基礎(chǔ)
-
Gut | 湯富酬研究組與付衛(wèi)研究組合作揭示家族性腺瘤性息肉病的發(fā)病機(jī)制
-
Celaref | 單細(xì)胞測序細(xì)胞類型注釋工具
-
SCENIC | 從單細(xì)胞數(shù)據(jù)推斷基因調(diào)控網(wǎng)絡(luò)和細(xì)胞類型
-
Cell | 北大張澤民課題組與合作者揭示肝癌免疫微環(huán)境的動態(tài)特征
-
MC | 湯富酬課題組發(fā)表綜述系統(tǒng)總結(jié)人類生殖系細(xì)胞發(fā)育的分子機(jī)制研究
-
Plos Biology | 湯富酬課題組與喬杰課題組合作繪制人類視網(wǎng)膜高精度發(fā)育細(xì)胞圖譜
-
Cell子刊 | 植物單細(xì)胞轉(zhuǎn)錄組綜述·植物功能基因組學(xué)的高分辨率研究方法
-
對一篇單細(xì)胞RNA綜述的評述:細(xì)胞和基因質(zhì)控參數(shù)的選擇
-
Cell子刊 | 腸內(nèi)分泌細(xì)胞單細(xì)胞測序分析(附資源庫傳送門)
-
教你如何定義新亞群 | 在單細(xì)胞水平上解析人肝硬化的纖維化微環(huán)境
-
Cell stem cell | 周斌研究組利用10xgenomics測序和譜系示蹤技術(shù)合作發(fā)現(xiàn)血管平滑肌干細(xì)胞參與動脈修復(fù)
-
風(fēng)濕病年鑒 | scRNA-seq研究揭示骨關(guān)節(jié)炎患者的半月板退變新機(jī)制
-
2019文獻(xiàn)匯總 | 單細(xì)胞與病毒感染
-
2019匯總之從4個關(guān)鍵詞看單細(xì)胞與肝癌文獻(xiàn)
參考文獻(xiàn)
-
50. Andrews, T. & Hemberg, M. M3Drop: Dropout-based feature selection for scRNASeq. Bioinformatics 35, 2865–2867 (2019).
-
51. Yip, S. H., Sham, P. C. & Wang, J. Evaluation of tools for highly variable gene discovery from single-cell RNA-seq data. Brief. Bioinform. 20, 1583–1589 (2018).
-
65. Soneson, C. & Robinson, M. D. Bias, robustness and scalability in single-cell differential expression analysis. Nat. Methods 15, 255–261 (2018).
-
66. Wang, T., Li, B., Nelson, C. E. & Nabavi, S. Comparative analysis of differential gene expression analysis tools for single-cell RNA sequencing data. BMC Bioinform. 20, 40 (2019).
-
67. Crowell, H. L. et al. On the discovery of population-specific state transitions from multi-sample multi-condition single-cell RNA sequencing data. Preprint at bioRxiv https://doi.org/10.1101/713412 (2019).
-
74. Saelens, W., Cannoodt, R., Todorov, H. & Saeys, Y. A comparison of single-cell trajectory inference methods. Nat. Biotechnol. 37, 547 (2019).
總結(jié)
以上是生活随笔為你收集整理的如何使用Bioconductor进行单细胞分析?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习算法-随机森林之决策树R 代码从
- 下一篇: 这个大部分CNS都会用到的技术分析流程大