Nature Biotechnology | 单细胞转录组不同建库及数据分析方法的测评结果
單細胞轉錄組技術實現對單個細胞進行詳細的轉錄組分析,其在解析細胞異質性和鑒定新型細胞亞群層面具有獨特的優勢。目前,該技術已廣泛應用于生物醫學領域,比如解析腫瘤微環境細胞組成、哺乳動物胚胎發育等。
隨著測序技術的飛速發展,單細胞轉錄組測序技術也已成為實驗室常規工具之一。然而,研究人員在試圖應用單細胞轉錄組技術的時候也面臨著令人困惑的選擇,比如說選擇哪種建庫測序平臺,使用哪種分析方法以及后續的生物信息學分析方法的選擇等等。
此前,來自人類細胞圖譜聯盟的研究人員進行了一項綜合性多中心研究,通過使用包含人類、小鼠和狗細胞的參考樣本,比較了13種單細胞轉錄組測序流程的異同。結果發現不同流程在量化基因表達和識別細胞類型層面存在著顯著差異。
近日,美國羅馬琳達大學基因組學中心的研究團隊在Nature Biotechnology發表了題為“A multicenter study benchmarking single-cell RNA sequencing technologies using reference samples”的研究性文章,研究人員設計了一項綜合性的多中心研究,用以評估技術平臺、樣品組成和生物信息學方法(包括預處理、歸一化和批次效應校正)的影響,并在最后為科研人員解決科學問題的技術平臺和生物信息方法的結合提供了實踐指導。
文章發表在Nature Biotechnology
該研究使用了四種測序平臺:10x Genomics,Fluidigm C1, Fluidigm C1 HT和Takara Bio ICELL8;測序工作分別由四個研究中心完成:Loma Linda University(LLU), the National Cancer Institute(NCI), the US Food and Drug Administration(FDA)和Takara BioUSA(TBU)。樣本層面,他們使用了有兩個特征明顯的參考細胞系:來自同一供者的乳腺癌細胞系(樣本A)和“正常”B淋巴細胞系(樣本B)。然后使用3 '或全長單細胞轉錄組測序方法對30,693個單細胞進行了測序,共生成了20個數據集。
針對產生的這20個數據集,研究人員對不同的數據預處理方法、數據標準化方法、批次效應矯正方法等進行了評估。
圖1. 研究總體設計示意圖。來源:Nature Biotechnology
測序深度與檢測基因數的關系
首先,研究人員對序列深度與檢測到的基因數量的關系進行了評估。正如預期的那樣,隨著測序深度的增加,檢測到的基因數逐漸升高并最終趨于穩定。另外,對于癌細胞(樣本A)和B淋巴細胞(樣本B),隨著測序深度的增加,每個細胞檢測到的基因數量迅速增加,特別是Fluidigm C1平臺。然而,對于全長測序技術(C1_LLU和ICELL8),在10萬次讀取后,飽和速率較慢,在相同的測序深度增加情況下,與基于3’的測序技術相比,額外能夠檢測到的基因較少。
圖2. 不同測序平臺檢測的基因數及與測序深度的關系。來源:Nature Biotechnology
數據預處理方法的比較
對基于UMI(Unique Molecular Identifier)的單細胞轉錄組測序數據,他們比較了三種預處理方法:Cell Ranger 3.1(10x Genomics)、UMI-tools和zUMIs。結果顯示,三種方法在識別細胞數量和每個細胞檢測到的基因數量層面都存在差異。不過,Cell Ranger V3是最靈敏的細胞條形碼識別方法,UMI-tools和zUMIs可以過濾大多數低基因或轉錄表達的細胞,但每個細胞內可檢測到更多的基因。
對非基于UMI的單細胞轉錄組測序數據,他們比較了另外三種預處理方法:featureCounts、kallisto和RSEM。這些數據預處理流程包括去除低質量測序數據、基因組比對和基因計數。結果表明,三個不同的預處理方法檢測到的基因數量的差異比較大。kallisto在全長轉錄組測序數據中發現了每個細胞中更多的基因。此外,基于Fluidigm C1 HT 3’測序方法產生的數據中,kallisto方法檢測到的每個細胞的基因數與其它兩個管道生成的基因序列有顯著差異。?
圖3. 數據預處理方式對檢測到的基因數量的影響。來源:Nature Biotechnology
不同批次矯正算法的比較
如上所述,數據集之間的差異可能來自技術層面或生物因素,針對這些技術層面帶來的差異,在進行數據分析時是需要矯正的,否則將會影響最終的結論。研究者對七種校正批次效應的算法進行基準測試:Seurat version 3、fastMNN、mutual nearest neighbors(MNN)、Scanorama、BBKNN、Harmony、limma和ComBat。
他們通過四種不同的樣本組合評估這些算法的性能,組合1包含所有單細胞轉錄組數據集,包括混合和純合數據集;組合2只包含了乳腺癌細胞系數據;組合3分別對B細胞系來源數據進行評估;組合4中,數據由將5%或10%的乳腺癌細胞(樣本A)加入到B淋巴細胞(樣本B)中,用10x Genomics平臺橫跨兩個中心測序得到。
結果顯示,在去除批次效應和從B淋巴細胞中分離乳腺癌細胞方面,BBKNN、fastMNN和Harmony是最有效的;Seurat V3是將不同批次的相似細胞聚集在一起的最佳方法之一,特別是對乳腺癌細胞,但也會存在過度校正的現象,比如將兩種高度不同的細胞類型融合在一起。另外,當只分析來自10x平臺的數據時,Scanorama既能清晰地分離不同的細胞,又能很好地將相似的細胞組合在一起。
圖4. 比較分析不同工具的批次矯正效果。來源:Nature Biotechnology?
綜合上述的分析結果,研究人員對這些預處理方法和算法進行了綜合排序,如圖5所示,基于UMI的數據可以用文中所列的任何方法進行預處理,而kallisto則更適用于全長轉錄組測序數據的預處理。?
在跨中心數據集,特別是當數據集中存在大量不相似細胞時,BBKNN表現最好,而limma和ComBat在兩種類型的細胞的跨平臺、跨中心分離中表現最差。Seurat V3、fastMNN和Harmony都能很好地混合來自不同平臺和位點的生物相同或相似樣本的單細胞轉錄組數據。
圖5. 生物信息學指標的性能排名。來源:Nature Biotechnology
綜上所述,該研究比較分析了6種單細胞轉錄組數據預處理流程、8種歸一化方法和7種批次校正算法,結果表明,單細胞轉錄組數據之間的確存在批次效應,不過,跨中心和不同平臺的數據差異可以通過適當的計算方法進行糾正。同時,該研究也強調了選擇適合的測序技術平臺和分析數據算法的重要性。如下圖所示,他們也根據本研究結果為科研人員選擇最適合解決科學問題的技術平臺和生物信息方法的結合提供了實踐指導。
圖6. 最佳分析推薦方案。來源:Nature Biotechnology
參考文獻:?
1.Chen, W., Zhao, Y., Chen, X. et al. A multicenter study benchmarking single-cell RNA sequencing technologies using reference samples. Nat Biotechnol (2020).
2.Haghverdi, L., Lun, A. T. L., Morgan, M. D. & Marioni, J. C. Batch efects in?single-cell RNA-sequencing data are corrected by matching mutual nearest?neighbors. Nat. Biotechnol. 36, 421–427 (2018).
3.Butler, A., Hofman, P., Smibert, P., Papalexi, E. & Satija, R. Integrating?single-cell transcriptomic data across diferent conditions, technologies, and?species. Nat. Biotechnol. 36, 411–420 (2018).
?·?END?·
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
?
(請備注姓名-學校/企業-職務等)
總結
以上是生活随笔為你收集整理的Nature Biotechnology | 单细胞转录组不同建库及数据分析方法的测评结果的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐一些数据挖掘和生信友好的SCI!
- 下一篇: 生信分析过程中这些常见文件的格式以及查看