不相关子查询的工作方式是_课题组工作|Nucleic Acids Research|基于表达密度谱的特征子空间分离及相关单细胞转录组分群新算法...
大家好!為大家分享本課題組近期發(fā)表在Nucleic Acids Research的文章,題目為 “Entropy subspace separation-based clustering for noise reduction (ENCORE) of scRNA-seq data”,文章提出了一種基于表達(dá)密度譜的特征選擇方法,能夠有效進(jìn)行特征子空間分離完成特征信息和噪音識別,并結(jié)合一致性分群策略,設(shè)計了一種單細(xì)胞轉(zhuǎn)錄組分群新算法(ENCORE)。
【背景介紹】
單細(xì)胞轉(zhuǎn)錄組測序技術(shù)使得我們能夠捕獲單個細(xì)胞的轉(zhuǎn)錄組信息,為復(fù)雜生物問題的研究提供更精細(xì)的分析手段。為了更有效地利用單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)、提取細(xì)胞異質(zhì)性信息,我們需要使用高精度和高分辨率的聚類相關(guān)算法,因此近年來研究者們已經(jīng)開發(fā)了大量單細(xì)胞轉(zhuǎn)錄組分群算法。這些算法通常包括歸一化、特征選擇、降維、距離計算、聚類、分群標(biāo)記基因識別等關(guān)鍵步驟,新的算法也常是針對以上步驟進(jìn)行改進(jìn)。然而相比于其他步驟,特征選擇的改進(jìn)發(fā)展較為緩慢。多數(shù)算法選擇在表達(dá)上具有高表達(dá)、高變異性的特征(基因或轉(zhuǎn)錄本)進(jìn)行下游分析,該類方法容易受到噪音的干擾而丟失有效特征,導(dǎo)致結(jié)果被高表達(dá)的特征主導(dǎo)。
【設(shè)計思路】為了解決目前特征選擇所存在的問題,ENCORE提出了一種獨(dú)特的子空間分離策略,用于降噪和特征選擇,從而實(shí)現(xiàn)單細(xì)胞分群的優(yōu)化。ENCORE的設(shè)計基于這樣一個假設(shè):在不考慮表達(dá)量的情況下,細(xì)胞間表達(dá)密度譜相似的特征可能攜帶相似的細(xì)胞異質(zhì)性信息,因此將特征根據(jù)密度譜進(jìn)行子空間分離后,細(xì)胞群在這些子空間中可能呈現(xiàn)更清晰的分布。具體過程如圖1所示,主要包括子空間分離、子空間內(nèi)分群、一致性分群三個步驟。首先對特征的表達(dá)密度譜進(jìn)行分群,將對應(yīng)特征分離到不同的子空間,這些子空間在各個維度上包含相當(dāng)?shù)漠愘|(zhì)性信息,因而更有利于提取異質(zhì)性信息。隨后ENCORE通過識別細(xì)胞簇來評估子空間的“熵”值,即子空間包含異質(zhì)性信息的豐富程度。低熵子空間具有清晰的分群信息,細(xì)胞的分布規(guī)則;高熵子空間不具有清晰的分群信息,細(xì)胞的分布隨機(jī)。接著ENCORE通過對低熵子空間的篩選實(shí)現(xiàn)更有效、準(zhǔn)確的特征選擇,該方法不僅能保留低表達(dá)的有效特征,而且對相似異質(zhì)性特征的分群使得聚類信號更加集中。最后,ENCORE又利用新設(shè)計的一致性分群算法,實(shí)現(xiàn)了不同子空間分群信息的整合,增強(qiáng)了來自多個低熵子空間的共同信號并保留了各子空間的特有信號。在這種設(shè)計框架下,ENCORE可以在不同的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)集上實(shí)現(xiàn)精確的細(xì)胞分群、二維可視化以及分群標(biāo)記基因識別。
圖1. ENCORE算法示意圖
【數(shù)據(jù)介紹】首先我們將ENCORE應(yīng)用于12個標(biāo)準(zhǔn)數(shù)據(jù)集和浙大小鼠細(xì)胞圖譜的大數(shù)據(jù)集,以評估ENCORE的子空間分離性能以及特征選擇、降噪能力。從圖2可以看出,無論是小數(shù)據(jù)集(圖2A)還是大數(shù)據(jù)集(圖2B),ENCORE的子空間分離方法均能生成多個具有不同信息量的子空間。其中圖1A的子空間2,3,4呈現(xiàn)較規(guī)則的細(xì)胞群分布,子空間1的細(xì)胞群分布則相對不規(guī)則;圖1B的子空間34和43相較于其余子空間也具有較好的分群信息,說明ENCORE可以識別小數(shù)據(jù)集(圖2A)或大數(shù)據(jù)集(圖2B)的低熵子空間。圖3展示了Seurat與ENCORE特征選擇的結(jié)果比較,ENCORE選取的特征在變異系數(shù)和均值上具有更隨機(jī)的分布,說明其與傳統(tǒng)算法在特征選擇上存在較大差異。
圖2. ENCORE子空間分離效果
圖3. ENCORE與Seurat特征選擇結(jié)果比較
接著,通過與四種廣泛應(yīng)用且高集成性的單細(xì)胞分群算法(Seurat, SIMLR, pcaReduce and t-SNE + K-means)進(jìn)行比較,ENCORE驗(yàn)證了其分群的準(zhǔn)確性和普適性。以12個具有已知實(shí)驗(yàn)分群標(biāo)簽的標(biāo)準(zhǔn)數(shù)據(jù)集作為測試數(shù)據(jù)集,并使用ARI(Adjusted Rand Index)和NMI(Normalized Mutual Information)作為分群準(zhǔn)確性指標(biāo),兩個指標(biāo)的值越高說明算法預(yù)測分群與已知分群標(biāo)簽具有越好的一致性,即說明算法預(yù)測分群的準(zhǔn)確性越高。如圖4A所示,相比于其他算法,在所有數(shù)據(jù)集上,ENCORE都表現(xiàn)出最高或相當(dāng)?shù)姆秩簻?zhǔn)確性,即使是細(xì)胞數(shù)較少的數(shù)據(jù)集,ENCORE仍具有最好的分群準(zhǔn)確性。由于這12個數(shù)據(jù)集來自不同測序平臺,具有不同的數(shù)據(jù)量大小和測序深度,并且使用了不同的歸一化方法,而ENCORE都表現(xiàn)出較好的分群準(zhǔn)確性,說明ENCORE的分群性能更為穩(wěn)健。同時,相較于其他算法,ENCORE的可視化結(jié)果不僅與聚類結(jié)果具有高度的一致性,而且更為清晰、直觀(圖4B)。
圖4. ENCORE與其他算法的準(zhǔn)確性及可視化結(jié)果比較
最后,為了評估了ENCORE對難分離數(shù)據(jù)集的信息提取能力,我們使用ENCORE對一個小鼠脂肪祖細(xì)胞數(shù)據(jù)集進(jìn)行分析(圖5)。盡管脂肪祖細(xì)胞間存在異質(zhì)性,但是從單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中識別清晰的分群和明顯的標(biāo)記基因還是困難的。從結(jié)果可以看出,ENCORE能夠產(chǎn)生更清晰的細(xì)胞分型,并識別更具特異性的亞型標(biāo)記基因,這些亞型標(biāo)記基因的表達(dá)在熱圖上也能顯示出清晰的模式(圖5B)。接著,我們挑選了亞型標(biāo)記基因Mgp(該基因?yàn)镋NCORE推導(dǎo)的group 8的最優(yōu)標(biāo)志基因),對其功能展開初步探索。我們發(fā)現(xiàn)3T3-L1細(xì)胞中Mgp基因的過表達(dá)并不會影響成脂分化相關(guān)基因的表達(dá),但是會顯著提高Dio2基因的表達(dá)(圖5D)。Dio2蛋白與甲狀腺素(T4)向三碘甲狀腺原氨酸(T3)轉(zhuǎn)化相關(guān)。分析顯示Mgp能夠上調(diào)T3濃度,而又有報道顯示T3能夠刺激Mgp的表達(dá)上調(diào),說明T3和Mgp之間存在潛在的正反饋回路(圖5E)。這些結(jié)果表明,ENCORE能夠從復(fù)雜的數(shù)據(jù)集中識別具有生物學(xué)意義的標(biāo)記信息。
圖5. ENCORE在小鼠脂肪祖細(xì)胞分群中的應(yīng)用
【總結(jié)】在這篇文章中,本課題組和復(fù)旦大學(xué)李晉課題組開發(fā)了一種新型scRNA-seq分析方法ENCORE。基于相似表達(dá)密度譜的特征具有相似異質(zhì)性信息的假設(shè),ENCORE將特征分到不同的熵子空間中,基于子空間內(nèi)分群信息量來實(shí)現(xiàn)高效的特征選擇,從而提高細(xì)胞分群的準(zhǔn)確性。此外,在ENCORE中提出了一種新的一致性聚類方法,以增強(qiáng)來自多個子空間的共有信號,同時保留各子空間的特有信號。與已有算法相比, ENCORE在大多數(shù)數(shù)據(jù)集上具有更優(yōu)的分群性能、準(zhǔn)確的標(biāo)記識別以及更清晰的可視化效果。對于不同測序平臺和歸一化處理的數(shù)據(jù),ENCORE的性能也更加穩(wěn)定。ENCORE為單細(xì)胞數(shù)據(jù)的聚類、二維可視化分析提供了新的思路和方法,在細(xì)胞異質(zhì)性研究和識別群體標(biāo)記方面展現(xiàn)出巨大潛力。
撰稿人:林黎
校稿人:宋佳
原文鏈接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkaa1157/6030236
總結(jié)
以上是生活随笔為你收集整理的不相关子查询的工作方式是_课题组工作|Nucleic Acids Research|基于表达密度谱的特征子空间分离及相关单细胞转录组分群新算法...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 工行插入了网银盾怎么识别不了?
- 下一篇: 支付宝延时到账对方能显示吗?