當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

哈佛大学单细胞课程|笔记汇总（二）

發(fā)布時(shí)間：2025/3/15 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了哈佛大学单细胞课程|笔记汇总（二）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

生物信息學(xué)習(xí)的正確姿勢(shì)

NGS系列文章包括NGS基礎(chǔ)、轉(zhuǎn)錄組分析?（Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這）、ChIP-seq分析?（ChIP-seq基本分析流程）、單細(xì)胞測(cè)序分析?(重磅綜述：三萬(wàn)字長(zhǎng)文讀懂單細(xì)胞RNA測(cè)序分析的最佳實(shí)踐教程（原理、代碼和評(píng)述）)、DNA甲基化分析、重測(cè)序分析、GEO數(shù)據(jù)挖掘（典型醫(yī)學(xué)設(shè)計(jì)實(shí)驗(yàn)GEO數(shù)據(jù)分析 (step-by-step) - Limma差異分析、火山圖、功能富集）、批次處理等內(nèi)容。

哈佛大學(xué)單細(xì)胞課程|筆記匯總（一）

（二）Single-cell RNA-seq data - raw data to count matrix

根據(jù)所用文庫(kù)制備方法的不同，RNA序列（也被稱(chēng)為reads或tag）將從轉(zhuǎn)錄本（(10X Genomics, CEL-seq2, Drop-seq, inDrops）的3'端（或5'端）或全長(zhǎng)轉(zhuǎn)錄本（Smart-seq）中獲得。

Image credit: Papalexi E and Satija R. Single-cell RNA sequencing to explore immune cell heterogeneity, Nature Reviews Immunology 2018 (https://doi.org/10.1038/nri.2017.76)

不同測(cè)序方式的優(yōu)點(diǎn)：

3’（或5’）末端測(cè)序：

通過(guò)使用UMI進(jìn)行更準(zhǔn)確的定量，從而將生物學(xué)重復(fù)與擴(kuò)增重復(fù)（PCR）區(qū)別開(kāi)來(lái)；
測(cè)序的細(xì)胞數(shù)量更多，可以更好地鑒定細(xì)胞類(lèi)型群；
每個(gè)細(xì)胞成本更低；
大于10,000個(gè)細(xì)胞的結(jié)果最佳

全長(zhǎng)測(cè)序：

檢測(cè)亞型水平（isoform-level）表達(dá)差異；
鑒定等位基因特異性差異表達(dá)；
對(duì)較少數(shù)量的細(xì)胞進(jìn)行更深的測(cè)序；
最適用于細(xì)胞數(shù)少的樣品。

我們將主要介紹3’端測(cè)序，重點(diǎn)是基于液滴的方法 (inDrops, Drop-seq, 10X Genomics)。

3’-end reads (includes all droplet-based methods)

在3’端測(cè)序中，同一轉(zhuǎn)錄本的不同reads片段僅會(huì)源自轉(zhuǎn)錄本的3’端，相同序列的可能性很高，同時(shí)在建庫(kù)過(guò)程中的PCR步驟可能導(dǎo)致reads的重復(fù)，因此為了區(qū)分是生物學(xué)還是技術(shù)上的重復(fù)，我們使用唯一標(biāo)識(shí)符（unique molecular identifiers，UMI）進(jìn)行標(biāo)注。

比對(duì)到相同的轉(zhuǎn)錄本、UMI不同的reads來(lái)源于不同的分子，為正常生物轉(zhuǎn)錄，每個(gè)read都被計(jì)數(shù)。
UMI相同的reads來(lái)自同一分子，為技術(shù)重復(fù)，計(jì)為1個(gè)read。
上面兩條描述是理想情況，方便理解，實(shí)際處理起來(lái)要復(fù)雜一些。

我們以下圖為例，下圖中分子ACTB的UMI均相同，因此只能記為1個(gè)molecule，而ARL1的UMI不同所以可以記為2個(gè)molecule。

Image credit: modified from Macosko EZ et al. Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets, Cell 2015 (https://doi.org/10.1016/j.cell.2015.05.002)_

在細(xì)胞水平進(jìn)行正確定量都需要以下條件：

Sample index: 樣本來(lái)源
- Added during library preparation - needs to be documented
Cellular barcode: 細(xì)胞來(lái)源
- Each library preparation method has a stock of cellular barcodes used during the library preparation
Unique molecular identifier (UMI): 轉(zhuǎn)錄本來(lái)源
- The UMI will be used to collapse PCR duplicates
Sequencing read1: the Read1 sequence
Sequencing read2: the Read2 sequence

例如，使用inDrops v3庫(kù)準(zhǔn)備方法時(shí)，以下內(nèi)容是reads的所有信息：

Image credit: Sarah Boswell(https://scholar.harvard.edu/saboswell), Director of the Single Cell Sequencing Core at HMS_

R1 (61 bp Read 1): sequence of the read (Red top arrow)
R2 (8 bp Index Read 1 (i7)): cellular barcode - which cell read originated from (Purple top arrow)
R3 (8 bp Index Read 2 (i5)): sample/library index - which sample read originated from (Red bottom arrow)
R4 (14 bp Read 2): read 2 and remaining cellular barcode and UMI - which transcript read originated from (Purple bottom arrow)

對(duì)于不同的基于液滴的scRNA-seq方法，scRNA-seq的分析工作流程相似，但是UMI、細(xì)胞ID和樣品索引的解析會(huì)有所不同。例如，以下是10X序列reads的示意圖，其中index，UMI和barcode的位置不同：

Image credit: Sarah Boswell(https://scholar.harvard.edu/saboswell), Director of the Single Cell Sequencing Core at HMS_

Single-cell RNA-seq workflow

scRNA-seq方法能通過(guò)測(cè)序的reads解析barcodes和UMI，它們?cè)谔囟ú襟E里會(huì)輕微地不同，但除了方法外，大致流程都是一致的，常規(guī)工作流程如下所示：

Image credit: Luecken, MD and Theis, FJ. Current best practices in single‐cell RNA‐seq analysis: a tutorial, Mol Syst Biol 2019 (doi: https://doi.org/10.15252/msb.20188746) 中文解讀見(jiàn)：重磅綜述：三萬(wàn)字長(zhǎng)文讀懂單細(xì)胞RNA測(cè)序分析的最佳實(shí)踐教程（原理、代碼和評(píng)述）

工作流程的步驟是：

生成count矩陣（method-specific steps）：
reads格式化，對(duì)樣本進(jìn)行多路分解（demultiplexing，即通過(guò)barcodes確定reads的來(lái)源），比對(duì)和定量。
原始count的質(zhì)量控制：
過(guò)濾質(zhì)量較差的細(xì)胞。
細(xì)胞聚類(lèi)：
基于轉(zhuǎn)錄活性的相似性對(duì)細(xì)胞進(jìn)行聚類(lèi)（細(xì)胞類(lèi)型數(shù)=簇?cái)?shù)）？
marker識(shí)別：
識(shí)別每個(gè)cluster的標(biāo)記基因。
可選的下游步驟。

無(wú)論進(jìn)行那種分析，生物學(xué)重復(fù)都是必要的！

Generation of count matrix

我們聚焦于基于液滴型的3’端測(cè)序（比如inDrops、10X Genomics和Drop-seq），將原始測(cè)序數(shù)據(jù)轉(zhuǎn)換為count矩陣。

測(cè)序工具將以BCL或FASTQ格式輸出原始測(cè)序數(shù)據(jù)，或生成count矩陣。如果reads是BCL格式，我們將需要轉(zhuǎn)換為FASTQ格式。有一個(gè)有用的命令行工具bcl2fastq，可以輕松執(zhí)行此轉(zhuǎn)換。

NOTE: We do not demultiplex at this step in the workflow. You may have sequenced 6 samples, but the reads for all samples may be present all in the same BCL or FASTQ file.

對(duì)于許多scRNA-seq方法，從原始測(cè)序數(shù)據(jù)中生成count矩陣都將經(jīng)歷相似的步驟。

umis（https://github.com/vals/umis）和`zUMIs`（https://github.com/vals/umis）是命令行工具，可用于估計(jì)測(cè)轉(zhuǎn)錄本3'端的scRNA-seq數(shù)據(jù)的表達(dá)。此過(guò)程中的步驟包括：

格式化reads并過(guò)濾嘈雜的細(xì)胞barcodes；

Demultiplexing the samples（通過(guò)barcodes確定reads的來(lái)源）；

比對(duì)/偽比對(duì)到轉(zhuǎn)錄本；

折疊UMI和定量reads。

當(dāng)然，如果使用10X Genomics建庫(kù)方法，Cell Ranger pipeline(https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger)將負(fù)責(zé)執(zhí)行以上的所有步驟 (10X單細(xì)胞測(cè)序分析軟件:Cell ranger，從拆庫(kù)到定量)。

格式化reads并過(guò)濾非細(xì)胞barcodes：

FASTQ文件能解析得到細(xì)胞barcodes、UMIs和樣本barcodes。對(duì)于基于液滴型的方法，一些細(xì)胞barcodes會(huì)對(duì)應(yīng)的低的reads數(shù)(< 1000 reads) ，原因是：

encapsulation of free floating RNA from dying cells
simple cells (RBCs, etc.) expressing few genes
cells that failed for some reason 在比對(duì)reads之前，需要從序列數(shù)據(jù)中過(guò)濾掉多余的條形碼。
為了進(jìn)行這種過(guò)濾，提取并保存每個(gè)細(xì)胞的“細(xì)胞條形碼”和“分子條形碼”。
例如，如果使用“umis”工具，則信息將以以下格式添加到每條reads的標(biāo)題行中 (NGS基礎(chǔ) - FASTQ格式解釋和質(zhì)量評(píng)估)：

@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN + @@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#

建庫(kù)中使用的細(xì)胞條形碼應(yīng)該是已知的，未知的條形碼會(huì)被丟棄，同時(shí)對(duì)于已知的細(xì)胞條形碼允許一定的錯(cuò)配。

Demultiplexing the samples：

如果測(cè)序多于一個(gè)樣品執(zhí)行此步驟，這是一步不由“umis”工具處理，而由“zUMIs”完成的步驟，這步會(huì)解析reads以確定與每個(gè)與細(xì)胞相關(guān)的樣本條形碼。

比對(duì)/偽比對(duì)到轉(zhuǎn)錄：

通過(guò)傳統(tǒng)（STAR）或輕量型（Kallisto/RapMap）方法，將reads比對(duì)回基因。

折疊UMI和定量reads：

使用Kallisto或featureCounts之類(lèi)的工具僅對(duì)唯一的UMI進(jìn)行量化，得到

Image credit: extracted from Lafzi et al. Tutorial: guidelines for the experimental design of single-cell RNA sequencing studies, Nature Protocols 2018 (https://doi.org/10.1038/s41596-018-0073-y)

矩陣中的每個(gè)值代表源自相應(yīng)基因在各個(gè)細(xì)胞中的reads數(shù)。

往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)

后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集

總結(jié)

以上是生活随笔為你收集整理的哈佛大学单细胞课程|笔记汇总（二）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：付完版面费就该吃土了
下一篇：骨髓基质在正常和白血病个体中的细胞图谱|