单细胞转录组基础知识详解
這篇關(guān)于單細胞的綜述發(fā)表于2017年7月的Molecular Aspects of Medicine,Identifying cell populations with scRNASeq 第一作者是Tallulah,通訊是Martin Hemberg
Abstract摘要
單細胞轉(zhuǎn)錄組在進行單個細胞的表達定量檢測是強有力的工具,但是它產(chǎn)出的數(shù)據(jù)噪音和維度都比較高,相比bulk RNA-seq增加了分析難度。文章就介紹了幾種不同的實驗流程和最流行的分析方法,可以識別具有重要生物學(xué)意義的基因,可以將數(shù)據(jù)投射到低維,可以對細胞聚類推斷亞群,可以解釋驗證鑒定到的細胞類型和細胞狀態(tài)。
Introduction介紹
個細胞(Bianconi et al., 2013),形態(tài)與功能都具有多樣性。傳統(tǒng)的方法是根據(jù)形態(tài)學(xué)而非分子學(xué)特征將細胞分成200種(Junqueria et al.,1992)。上世紀(jì)中葉以來,免疫熒光(immunofluorescence)和流式細胞分選技術(shù)( flow cytometry )可以基于細胞表面蛋白標(biāo)記物存在與否進行更精確地分類(Coons et al., 1941; Fulwyler, 1965),但是這些技術(shù)還僅限于易于分離的組織(如:血細胞譜系),而且只能檢測表面少量的標(biāo)記物。
單細胞測序的發(fā)展允許使用整個轉(zhuǎn)錄組的數(shù)千個細胞去鑒定細胞類型,目前scRNA-seq已經(jīng)應(yīng)用在許多發(fā)育中的或者固定時間點的組織和器官,包括大腦不同區(qū)域的研究(Darmanis et al., 2015; Karlsson and Linnarsson,2017; Liu et al., 2016; Tasic et al., 2016; Zeisel et al., 2015)、視網(wǎng)膜研究(Baron et al., 2016; Jaitin et al., 2014; Macosko et al., 2015; Zheng et al., 2017)、胰腺研究(Baron et al., 2016; Segerstolpe et al., 2016; Wang et al., 2016)、免疫細胞研究(Jaitin et al., 2014; Villani et al.,2017) 、早期胚胎發(fā)育(Biase et al., 2014; Goolam et al., 2016; Xue et al., 2013)、造血(Velten et al.,2017; Wilson et al., 2015)
文章列出了一些方法可以根據(jù)scRNA數(shù)據(jù)識別細胞群 (圖1)
?
【圖中不同的顏色表示對第一步得到的表達矩陣進行的不同處理,例如第二個藍色框"feature selection"是從原始表達矩陣中刪除行,方法有HVG、M3Drop、Spike-in;再往下"dimensionality reduction "目的是降維,會計算出一個新的包含meta-features的矩陣,可以想象成把細胞分類,相似的群體匯集到一起有共同的meta元信息,方法如:PCA、tSNE、Diffusion map;接下來是聚類"Clustering",包括計算細胞與細胞之間的聚類,如K-means、DBSCAN;或是"K近鄰算法",如Louvain、infomap、densityCut、SNN-cliq】
此外,文章還討論了設(shè)計實驗時需要考慮的不同方案,因為實驗設(shè)計的好壞直接影響下游分析結(jié)果;討論了鑒定生物學(xué)相關(guān)的細胞類群對scRNA數(shù)據(jù)分析的挑戰(zhàn)以及應(yīng)對的一些統(tǒng)計方法;然后就是非監(jiān)督式聚類,用來細胞分群;最后討論了如何去驗證分群的細胞是否真的有生物學(xué)意義。
Experimental design considerations實驗設(shè)計
scRNA-seq并不是一成不變,需要根據(jù)具體實驗進行調(diào)整。比如一個常用的操作就是鑒定稀有(數(shù)量小于1%)細胞群(Campbell et al. (2017; Gru?n et al., 2015; Jiang et al., 2016; Segerstolpe et al., 2016),意味著需要大量的供試細胞。例如:Campbell作者對小鼠下丘腦的20921個細胞進行測序,結(jié)果鑒定了包含少于50個細胞的神經(jīng)元亞群(占比<0.2%) 。
另一個scRNA-seq的應(yīng)用就是確定相似的細胞類型之間有何差異,這就需要對低表達基因提高檢出率,降低技術(shù)噪音。例如:分析造血干細胞之間的差異就需要檢測低表達豐度的轉(zhuǎn)錄因子,反過來就需要敏感度更高的scRNA測序方法(Tsang et al., 2015)或者靶向檢測(如RT-qPCR)(Wilson et al., 2015)。
實驗方法
一般每個scRNA-seq都包含三個方面:1)單個細胞分離;2)文庫制備;3)測序。
1)細胞分離需要先將樣品解離,然后分選到PCR板的單獨孔中,或者利用單獨的液滴(droplets)、微孔(microwells)或微流控(microfluidic)捕獲單個細胞;
2)文庫制備需要反轉(zhuǎn)錄和擴增,可以利用全長轉(zhuǎn)錄本或者"3'或5'"標(biāo)記的一端;
3)測序一般是多重測序(目的:單次實驗中同時測序大量樣本),深度可以從平均25000reads/cell(Macosko et al.,2015),到5M reads/cell(Kolodziejczyk et al., 2015)
兩類方法
對于需要高通量的研究,基于液滴(droplet)的方法,如InDrop(Klein et al., 2015)、Drop-seq(Macosko et al., 2015)、10X Chromium(Zheng et al., 2017)是比較流行的,可以一次制備成千上萬細胞,捕獲的性價比高,但是大量的細胞測序可能增加總體成本。不過有研究表明,確定細胞類型所需要的最低測序深度可以為25000-50000reads/cell (Jaitin et al., 2014; Pollen et al., 2014)。雖然droplet的方法通量比較高,但是細胞檢測率和mRNA的捕獲效率會偏低(Svensson et al., 2017; Ziegenhain et al., 2017)。近年來有一些可以替代droplet的方法出現(xiàn),包括基于微孔的方法(Fan et al., 2015; Gierahn et al., 2017)和組合索引(combinatorial indexing)的方法(Cao et al., 2017)。以上這些方法需要再細胞裂解前加上barcodes,因此只支持3'/5'測序。
如果實驗中細胞量不大,可以考慮PCR plate-based的方法(將少量的細胞分選到含有建庫PCR引物的多孔板中),包括Smartseq2(Picelli et al., 2013)、SCRB-seq(Soumillon et al., 2014) 、CEL-seq(Hashimshony et al.,2012)和MARS-seq(Jaitin et al., 2014)。細胞一般利用微流控芯片(如:Fluidigm C1,它將細胞捕獲和文庫構(gòu)建組合在一起)。以上的方法捕獲細胞的性價比比較低,但檢出率較高(Svensson et al., 2017; Ziegenhain et al.,2017)。另外這些方法既支持3'/5'端測序,也支持全長轉(zhuǎn)錄本測序。有研究表明,1M reads/樣本細胞可以最大化基因檢出率(Svensson et al., 2017; Ziegenhain et al., 2017),但為了精確定量isofroms或者找到含量更低的ncRNAs,需要更多的測序(Huang and Sanguinetti,2017; Sims et al., 2014)。
Doublet的問題
RNA測序方法中一個不可回避的問題就是:"雙細胞 doublet",即一個液滴或一個微孔中包含了2個或多個細胞,這種情況必須通過進一步仔細的分析(Segerstolpe et al., 2016; Wang et al., 2016)才能避免被誤認(rèn)成新的中間細胞類型。對于高通量的捕獲方法,需要權(quán)衡細胞捕獲效率和doublet檢出率,一般設(shè)定doublet的范圍是1-5%(Ziegenhain et al., 2017),微流控Fluidigm平臺為1-10%(Fluidigm Corporation, 2017) [過去設(shè)定閾值竟然高達30%(Macosko et al., 2015)]。對于 plate-based的方法,沒有這種明確的的規(guī)定。
除了doublet可能導(dǎo)致混合文庫(mixed libraries),還有可能是測序文庫發(fā)生了"泄露",有報道說Illumina的Hiseq 4000中有5-10%的reads會發(fā)生(Sinha et al.,2017),在HiseqX中沒有發(fā)現(xiàn)(Owens et al., 2017)
批次效應(yīng)
Doublet只是實驗中產(chǎn)生的一種情況,會混淆細胞類群的識別。另一個挑戰(zhàn)是批次效應(yīng)(Hicks et al., 2015; Tung et al., 2017) 。批次效應(yīng)是不同時間或不同人員制備的實驗重復(fù)之間的實驗效率或細胞狀態(tài)不同而產(chǎn)生的。如果對感興趣的生物學(xué)類型(如突變型與野生型)進行不同批次的處理(如:不同日期提取或使用不同PCR板擴增),那么基本不可能從數(shù)據(jù)分析角度消除批次效應(yīng)(只能用一些算法比如quantile、SVA包的ComBat (Stein et al., 2015) )、RUVs(Risso et al.,2014)、linear mixed-modelling (Tung et al., 2017)。
想要消除批次效應(yīng)只能通過仔細的實驗設(shè)計,將每個生物條件分散到各個實驗批次中,做到"一視同仁",例如:采用"balanced"方法(Hicks et al.,2015)讓每個批次包含不同生物處理的細胞,每個生物處理在不同的批次中都存在。
技術(shù)噪音
UMI與Spike-ins
單細胞轉(zhuǎn)錄組一般會搭配unique molecular identifiers (UMIs) 或已知濃度的外源RNA分子(spike-ins) 來解決高技術(shù)噪音問題。
UMI是反轉(zhuǎn)錄過程中添加到每個cDNA的5'或3'端,長度為4-10bp的barcodes(Islam et al., 2014)。它的作用是將reads分配給每個反轉(zhuǎn)錄事件,區(qū)分哪些reads是來自于同一個原始的cDNA分子,然后估算原始分子數(shù)量(Islam et al., 2014; Kivioja et al., 2011)。因為它和轉(zhuǎn)錄本的一端結(jié)合后進行5'/3'測序,因此會存在丟失isoform信息、捕獲的遺傳變異較少等問題,評價等位基因表達會比較難。5'/3'測序的主要優(yōu)勢就是借助UMI,消除基因長度差異,消除了擴增的偏差,相比之下,全長轉(zhuǎn)錄本測序雖然捕獲了轉(zhuǎn)錄本整體,但存在3'/5' bias。
標(biāo)準(zhǔn)的spike-ins是ERCC組織指定的一段細菌序列(Baker et al., 2005; Jiang et al.,2011),它們在轉(zhuǎn)錄長度、核苷酸含量、poly-A尾的長度和內(nèi)含子缺失方面都和哺乳動物不同(因為目前單細胞主要應(yīng)用于人和小鼠)。存在的問題是:ERCC spike- ins的捕獲效率低于內(nèi)源性mRNA (Svensson et al., 2017);具有較高的技術(shù)變異性,有時會比內(nèi)源基因的含量還多(Robinson and Oshlack, 2010; SEQC/MAQC-III Consortium, 2014);spike-in的計數(shù)受到生物條件的影響,因此有時會失去作為control的優(yōu)勢。新開發(fā)的spike-ins是來自人類的序列,可能更能代表哺乳動物轉(zhuǎn)錄本,從而減輕一些舊spike-in的影響(Paul et al., 2016)。如果使用了spike-ins,比對前應(yīng)該將spike-in序列和參考基因組序列合并作為共同”參考基因組”。
Plate-based方法既可以用UMI也可以用spike-ins,而基于液滴和基于微孔的方法是能用UMI (Gierahn et al., 2017; Macosko et al., 2015);微流控的儀器不確定是否可以與UMI或者spike-ins兼容,取決于儀器的設(shè)計。
多重測序(Multiplexed-sequencing)
多重測序也是產(chǎn)生技術(shù)噪音的一個原因,因為它會導(dǎo)致不同細胞之間的reads數(shù)不在一個層次。使用標(biāo)準(zhǔn)化可以糾正不同細胞之間的測序深度影響(Vallejos et al.,2017)。可以利用CPM/TPM(counts/transcripts per million)進行校正。目前開發(fā)的方法,如Scran(Lun et al., 2016)分析含有許多差異基因的數(shù)據(jù)集比較有優(yōu)勢,SCnorm(Bacher et al., 2017)可以解釋測序深度對基因不同表達水平的影響。如果數(shù)據(jù)集中包含有spike-ins,它們可能就被用于標(biāo)準(zhǔn)化,在鑒定差異基因中具有高魯棒性,并且可以保留由于總RNA含量不同而產(chǎn)生的差異(Buettner et al., 2015; Gru?n et al., 2014; Owens et al., 2016; Risso et al., 2014; Vallejos et al., 2015)。
關(guān)于高緯度的處理
維數(shù)的詛咒 curse of dimensionality
雖然scRNA-seq結(jié)果匯總包括所有基因的信息,也非常有用,但是我們同時分析數(shù)千個基因在計算上困難很大。數(shù)據(jù)集中測量的總基因數(shù)稱作"維數(shù)(dimensionality)",對于哺乳動物通常有1萬個維度左右。當(dāng)在一個高維基因表達空間中比較細胞時,細胞間的距離變得更加均勻,使得區(qū)分群體間或者群體內(nèi)的差異就非常難。
解決這個詛咒有兩種方法:
首先,將數(shù)據(jù)投射到一個較低的二維空間(稱作"降維"),低維空間一般由算法定義,既降低維度,又最大化保留原始數(shù)據(jù)的某些特征。因為投影過程不可避免會丟失基因信息,所以投影方法的選擇涉及到一組特定屬性的優(yōu)先級排序。
其次,可以取出信息量少的基因(在機器學(xué)習(xí)中稱為"特征選擇"),同樣也是減少分析中用到的維度數(shù)量。這樣不僅利于可視化,還可以降低噪音、加快計算。下面是一些無監(jiān)督降維的方法和特征選擇。
降維
◆ ◆ ◆ ◆ ◆
主成分分析 (PCA)
它將數(shù)據(jù)投射到較少的獨立的線性維度中,從而捕捉到可能的最大方差。PCA相對較快,當(dāng)與稀疏的矩陣(比如單細胞的表達矩陣中就包括了許多的0)一起使用時,它可以擴展到非常大的數(shù)據(jù)集。缺點是PCA限于線性維數(shù),并且假設(shè)數(shù)據(jù)接近正態(tài)分布。針對單細胞數(shù)據(jù)的大量0值,PCA的變體 zero-inflation算法被開發(fā)出來(Pierson and Yau, 2015) ,但是這個模型可能不適用于所有的數(shù)據(jù)集(Andrews and Hemberg, 2016)。2017年又有人開發(fā)了一個類似PCA的方法,它是基于零膨脹負(fù)二項分布模型(zero-inflated negative binomial model )取代了高斯模型Risso et al. (2017)。
t分布隨機鄰域嵌入(tSNE)
它也是一種用于大型高維數(shù)據(jù)可視化的統(tǒng)計方法(Maaten et al., 2008)。它使用概率分布來估計嵌入的情況,tSNE將數(shù)據(jù)投射到各個孤立的簇中,實現(xiàn)細胞群的可視化。tSNE的缺點就是算法的隨機性,即使應(yīng)用于同一個數(shù)據(jù)集,也會產(chǎn)生不同的嵌入結(jié)果,不過這種差異比較小并且不顯著。因此最佳的操作就是多次運行該算法,確保結(jié)果的完整性。另外,tSNE對"perplexity"參數(shù)的選擇很敏感,需要多次運行才能找到合適的perplexity。該方法的作者建議僅用tSNE作為可視化方法,而不是降維的方法。
Diffusion maps (DM)
DM是一種非線性的投影方法,主要用于分析細胞的連續(xù)發(fā)展(Moon et al., 2017; Angerer et al., 2016; Haghverdi et al., 2016)。它是基于擴散過程的模型,將高維數(shù)據(jù)嵌入低維空間。它假設(shè)低維空間是平滑的,并且空間可以從細胞之間的距離推斷得到。與tSNE不同,DM保留了點自身位置和與遠端點位置的關(guān)系。因為它假設(shè)細胞是相對平滑的連續(xù)體,因此在大量的scRNA或RT-qPCR實驗中表現(xiàn)良好(細胞數(shù)> 1000),對于細胞數(shù)量較少或存在異質(zhì)性很高的細胞群時效果不好(Qiu et al., 2017)。
4.2
特征選擇
◆ ◆ ◆ ◆ ◆
Michaelis-Menten modelling of dropouts (M3Drop)
M3Drop利用dropout rate(丟失率:本來有表達量卻沒有測到)與平均表達量之間相對緊密的關(guān)系進行特征選擇。高丟失率的基因可能在細胞亞群中出現(xiàn)差異表達,因此從擬合關(guān)系中識別離群點是一種有效地特征選擇方法。該方法改進了聚類算法,允許批量校正結(jié)果(Andrews and Hemberg, 2016)。
◆ ◆ ◆ ◆ ◆
Highly variable genes (HVG)
它基于這種假設(shè):基因相當(dāng)于平均表達值而言,出現(xiàn)的較大的差異是由于生物學(xué)影響,而不僅僅是技術(shù)噪音。這種方法試圖通過權(quán)衡方差與平均表達量之間的關(guān)系來找到比預(yù)期差異性更高的基因。這種關(guān)系很難擬合,實際中基因是按照與移動中位數(shù)(moving median)的距離進行排序的(Kolodziejczyk et al., 2015),或者使用另一種源自方差的統(tǒng)計量,比如:方差的平方系數(shù)(Brennecke et al. 2013)
◆ ◆ ◆ ◆ ◆
Spike-in based methods
它使用與HVG或M3Drop類似的算法確定感興趣的特征。利用來自spike-in RNAs的數(shù)據(jù)進行技術(shù)噪音建模,以確定基因表現(xiàn)出的丟失率或顯著升高的方差。基于spike-in的方法包括:BASiCS(Vallejos et al., 2015) 、scLVM(Buettner et al., 2015)。
◆ ◆ ◆ ◆ ◆
Correlated expression
相關(guān)表達法是另一種識別生物學(xué)相關(guān)基因的方法,可以專門用于識別細胞群(Andrews and Hemberg, 2016)。兩種細胞類型之間的差異表達基因之間是相互關(guān)聯(lián)的。如果他們在同一種細胞類型都表達,那么相關(guān)系數(shù)就為正;如果在不同細胞類型中同時表達,那么相關(guān)系數(shù)為負(fù)。特征選擇利用的就是相關(guān)性的大小或顯著性。另一種方法如PAGODA(Fan et al., 2016)結(jié)合了HVG和PCA的加載信息,可以鑒別高度相關(guān)或者有共同功能注釋的基因集
以上的方法處理高維數(shù)據(jù)時并不排斥,可以使用多種方法。總的來說,PCA、tSNE、DM等容易受到批次效應(yīng)和技術(shù)噪音的影響,這種影響會掩蓋數(shù)據(jù)內(nèi)部結(jié)構(gòu)(Finak et al., 2015; Hicks et al., 2015; Tung et al., 2017)。而降維之前進行特征選擇進而去除一些生物意義較少的基因,可以減少批次和噪音的影響,例如:先進行spike-in based feature selection,再PCA(Liu et al., 2016; Tasic et al., 2016);先HVG,后tSNE(Segerstolpe et al., 2016);先HVG,后PCA+tSNE(Campbell et al., 2017)
非監(jiān)督聚類鑒定細胞群
單細胞比較常用的用途是識別細胞群。從生物學(xué)角度看,細胞是有異質(zhì)性的,一個細胞群通常包含不同的細胞亞群,例如大腦樣本匯總的神經(jīng)元和膠質(zhì)細胞;另外還可以看同種細胞類型的不同狀態(tài),例如受刺激和未受刺激的T細胞。從數(shù)學(xué)角度看,對細胞群的從頭識別是一個非監(jiān)督聚類的問題。目前已經(jīng)有幾種成熟的方案應(yīng)用到了單細胞中。
將大量細胞分成k個群的可能性多到不可想象,因此我們不能考慮所有的可能分群情況,而是應(yīng)該尋求最優(yōu)解。聚類的質(zhì)量取決于群內(nèi)與群間的相似性比較,不同的指標(biāo)對數(shù)據(jù)的基礎(chǔ)分部做不同的假設(shè)。比如:"modularity"假設(shè)一個稀疏的圖形結(jié)構(gòu),而計算k-means使用的數(shù)據(jù)到簇質(zhì)心的距離就是假設(shè)數(shù)據(jù)中的圓形簇大致相同。將一種方法應(yīng)用到和算法本身假設(shè)不同的數(shù)據(jù)上將導(dǎo)致錯誤的聚類,并且沒有一種聚類方法具有普適性(Wiwie et al., 2015)。
K-means
K-means是一種單細胞分析常用的聚類算法,一般在特征選擇和降維后使用。它的計算比較快,將細胞迭代分配給最近的簇中心(或叫"質(zhì)心centroid"),然后重新計算簇的質(zhì)心。然而,K-means需要預(yù)先指定簇的數(shù)量,并為每個簇提供隨機的起始位置,需要多次運行來檢查這些參數(shù)的魯棒性,這些結(jié)果可以再傳遞給SC3進行組合(Kiselev et al., 2017)。K-means的一個缺點是:它先假設(shè)一個預(yù)先確定的等大小的圓簇數(shù)目,如果不符合假設(shè),那么k-means就會沿著分化軌跡識別許多相鄰的簇,將罕見的細胞與常見的細胞類型合并。當(dāng)然,對于罕見的細胞群,可以結(jié)合k-means檢測離群點(outlier)的方法,如RaceID(Gru?n et al., 2015),當(dāng)不包含罕見細胞群時,RaceID表現(xiàn)較差。
Hierarchical clustering
層次聚類是另一種常用的識別細胞群體常用方法。不同的層次聚類有不同的假設(shè),比較常用的是"Ward"和"complete",假設(shè)存在圓的和k-means大小一致的簇,不過層次聚類比k-means要慢。層次聚類的優(yōu)點是可以做成樹狀圖,因此可以確定不同粒度 的聚類之間關(guān)系,然后在不同的高度"切割"樹狀圖,可以生成不同數(shù)量的群體。對單細胞數(shù)據(jù)進行層次聚類的方法包括:pcaReduce(Zurauskiene_ and Yau, 2016),SINCERA(Guo et al., 2015),CIDR(Lin et al., 2017) 。有研究將層次聚類拓展到了大腦神經(jīng)元細胞類型(Zeisel et al., 2015)和胰腺中胰島細胞類型分析(Baron et al., 2016),這類方法傾向于識別同種類型細胞群。
Density-based clustering
基于密度的聚類方法將聚類定義為細胞密度較高的相鄰區(qū)域。與層次聚類或者k-means聚類不同,它不假設(shè)簇有特定的性狀或大小,而是通常假設(shè)所有簇是一樣密集的,比如細胞群是同樣均勻的。另外,密度必須用一個或多個參數(shù)來定義。設(shè)置密度的參數(shù)類似于k-means選擇簇的數(shù)量,或者像層次聚類中選擇樹的切割位置。基于密度的聚類需要大量的樣本來準(zhǔn)確估計,因此更適用于droplet實驗的數(shù)據(jù)、大型RT-qPCR實驗或幾千上萬的細胞(Campbell et al., 2017; Jiang et al., 2016; Macosko et al., 2015)。主要方法是:DBSCAN(Ester et al., 1996),它結(jié)合了Seurat包中的降維算法和GiniClust中的罕見細胞型特征選擇算法。
Graph clustering
圖聚類,又叫"群體檢測",是基于密度聚類的一個拓展,專門用于以圖形展示的數(shù)據(jù),比如一組細胞用"邊edges"相互連接。圖可以輕松使用極小診斷假設(shè)(minimal assumptions) 表示復(fù)雜的非線性結(jié)構(gòu),因此可以識別不同大小、密度、形狀的細胞群(Lancichinetti and Fortunato, 2009)。另一個優(yōu)勢是可以拓展到數(shù)百萬個細胞的聚類。
圖中的密度可以根據(jù)連接一組細胞"edges"的數(shù)量測量,然后與零假設(shè)比較,例如:完全隨機圖或由一定程度控制的隨機圖中使用一個叫做"模量modularity"的度量。最常用的方法是:Louvain算法(Blondel et al., 2008; Lancichinetti and Fortunato, 2009),在PhenoGraph (Levine et al., 2015) 和Seurat(V 1.4)中也使用。另外,密度可以通過圖中的隨機漫步" random walks"建模,并使用在每個細胞上建模消耗的時間來估計,這也是densityCut (Ding et al., 2016)的策略。另外一種估算密度的方法是使用每個細胞的k個最臨近neibour之間的重疊,這在SNN-Cliq (Xu and Su, 2015)被應(yīng)用。主要的缺點就是:數(shù)據(jù)沒有固定的圖形結(jié)構(gòu)。
總結(jié)
聚類方法的一個關(guān)鍵選擇因素就是要識別多少組,粗略聚類可以識別出少數(shù)非常不同的聚類,這些聚類與細胞類型可能相對應(yīng);而精細聚類可以識別大量但不明顯的聚類,這些聚類可能對應(yīng)不同細胞狀態(tài)
大多的聚類算法需要我們預(yù)先定義個數(shù)(如k值)或者與聚類粗細相關(guān)的參數(shù)(如密度參數(shù)),而選擇合適的K值是比較麻煩的,因為沒有一套標(biāo)準(zhǔn)的選擇方法。
有許多樣本,存在細胞類型和細胞狀態(tài)的層次結(jié)構(gòu),可能都有研究價值。比如2015年Zeisel對大腦樣本細胞進行聚類,粗略聚類發(fā)現(xiàn)9中細胞類型(從神經(jīng)膠質(zhì)等許多非神經(jīng)元細胞類型中分離出神經(jīng)元),然后進行精細聚類發(fā)現(xiàn)神經(jīng)元又分成了7個皮層特異性組
許多的聚類工具可以在ASAP中找到,它是一個web工具(Gardeux et al., 2016)
cluster的生物學(xué)鑒定
聚類容易解釋難(相對來說)。首先,聚類算法有一種"啟發(fā)式"效應(yīng),即使使用均勻分布的數(shù)據(jù),他也能找到一些不同進行劃分;另外,即使cluster有生物學(xué)效應(yīng)而非噪音,它們依然可能沒有細胞類型的差異。目前沒有一個公認(rèn)的標(biāo)準(zhǔn)去判斷一個分析的細胞群真的是一類新型細胞。還有,利用轉(zhuǎn)錄差異來定義細胞類型比較困難(Buettner et al., 2015),因為細胞狀態(tài)(如細胞周期)的瞬時差異相比于細胞類型對轉(zhuǎn)錄組的影響更大。
6.1
計算角度
為了避免多數(shù)聚類算法"啟發(fā)式”的影響,為了評價細胞的重要程度,算法必須重新重復(fù)運行一個空模型,將結(jié)果與觀察的結(jié)果比較。這個空模型數(shù)據(jù)集可以從觀測數(shù)據(jù)中按一定的概率分布提取,也可以通過對每個基因的觀測表達值進行獨立的隨機重排序得到。
為了確保得到一個質(zhì)量比較好的聚類結(jié)果,可以對同一個數(shù)據(jù)集應(yīng)用多個算法,并確保結(jié)果一致性,保證同一個數(shù)據(jù)不依賴于任何聚類方法自身的假設(shè)。此外,隨機聚類方法如:k-means或Louvain maximum modularity,多次運行得到一致結(jié)果,比單獨運行一次得到的結(jié)果更有說服力 (Goder and Filkov, 2008; Kiselev et al.,2017)。顯著區(qū)分的cluster在不同的聚類算法結(jié)果中都是一樣可以分開的,當(dāng)然,如果clusters之間基本不分離,那么不同的算法結(jié)果差異也就比較大。
計算的方法主要是提高結(jié)果的可靠性,但真正要證明鑒定的細胞群是有生物學(xué)意義(如細胞類型和細胞狀態(tài)是不是與特定的功能特征相關(guān)),目前沒有自動化的程序可以全部完成。
6.2
實驗角度
第一步通常是找差異表達基因,也就是能可靠區(qū)分兩個或多個cluster的基因(又叫"marker"基因),例如只有一個cluster高表達的基因就是marker。這里就需要利用功能注釋、富集分析。得到的marker基因可以利用實驗進行驗證,例如:共表達的marker可以利用RT-qPCR、高通量測序或者細胞儀進行重復(fù)(Burnset al., 2015; Jaitin et al., 2014; Muraro et al., 2016; Tasic et al.,2016)。Marker基因可以用于分離細胞群進行培養(yǎng)和功能測定。Marker基因也可以用于小細胞群的原位成像,Burns等(2015)利用免疫熒光技術(shù)展示了不同細胞類型在內(nèi)耳中的空間定位,免疫熒光也可用于確認(rèn)細胞類型標(biāo)記物的共表達或互斥表達(Tirosh et al., 2016)。細胞類型的特異性標(biāo)記可以使用FISH作為靶點,除了確定細胞類型在組織中的空間分布外,還可以驗證它們的共同表達。Joost 采用免疫組織化學(xué)和單分子RNA-FISH方法,識別毛囊內(nèi)不同假定細胞類型的空間位置,并分析了空間與分化相關(guān)的表達模式(Joost et al., 2016)。
驗證cluster的另一種方法是比較不同物種的cluster(例如人和小鼠),從而確定cluster是否廣泛保守,從而推斷是否為真正的細胞類型。Johnson等人(2015)對人類、小鼠和雪貂的放射狀膠質(zhì)祖細胞種群進行了比較,結(jié)果發(fā)現(xiàn)了兩種新的亞群,分別存在于人類和雪貂中,但在小鼠中卻沒有,通過對各自標(biāo)記基因的比較基因組學(xué)發(fā)現(xiàn),它們與哺乳動物的腦回畸形有關(guān)。
研究與特定細胞群相關(guān)的關(guān)鍵轉(zhuǎn)錄因子水平(增加或減少)可以輔助驗證細胞群。Olsson等人(2016)敲除了與不同的造血祖細胞有關(guān)Gfi1和Irf8,結(jié)果產(chǎn)生了不同的細胞類型,Gfi1的粒細胞祖細胞和Irf8的單細胞祖細胞。
cluster的生物學(xué)驗證是很有必要的,另外還可以提供關(guān)于新細胞群的特定功能或與疾病狀態(tài)相關(guān)的有用信息
7
結(jié)論
確定新的或已知的細胞群可能仍然是未來scRNASeq實驗的一個關(guān)鍵目標(biāo)。然而,由于細胞數(shù)量和靈敏度之間的權(quán)衡,可能永遠不會有僅有一個最優(yōu)的scRNASeq實驗平臺。同樣,對于降維、特征選擇和無監(jiān)督聚類,沒有一種比較方法在所有情況下都是最優(yōu)的。得到細胞分群以后,雖然利用現(xiàn)有的方法可以很容易地識別出新的細胞群,但這些發(fā)現(xiàn)必須通過外部數(shù)據(jù)或?qū)嶒瀬眚炞C,以確保它們具有生物學(xué)意義。
總結(jié)
以上是生活随笔為你收集整理的单细胞转录组基础知识详解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux驱动——sdio type c
- 下一篇: 传承——用双手打工创造的未来依旧可行