哈佛大学单细胞课程|笔记汇总 (五)
生物信息學(xué)習(xí)的正確姿勢(shì)
NGS系列文章包括NGS基礎(chǔ)、在線繪圖、轉(zhuǎn)錄組分析?(Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細(xì)胞測(cè)序分析?(重磅綜述:三萬字長(zhǎng)文讀懂單細(xì)胞RNA測(cè)序分析的最佳實(shí)踐教程)、DNA甲基化分析、重測(cè)序分析、GEO數(shù)據(jù)挖掘(典型醫(yī)學(xué)設(shè)計(jì)實(shí)驗(yàn)GEO數(shù)據(jù)分析 (step-by-step))、批次效應(yīng)處理等內(nèi)容。
哈佛大學(xué)單細(xì)胞課程|筆記匯總 (四)
(五)Count Normalization and Principal Component Analysis
獲得高質(zhì)量的單細(xì)胞后,單細(xì)胞RNA-seq(scRNA-seq)分析工作流程的下一步就是執(zhí)行聚類。聚類的目標(biāo)是將不同的細(xì)胞類型分成獨(dú)特的細(xì)胞亞群。為了進(jìn)行聚類,我們確定了在細(xì)胞之間表達(dá)差異最大的基因。
數(shù)值標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化最重要的目的就是使表達(dá)水平在細(xì)胞之間和/或細(xì)胞內(nèi)更具有可比性。那么在標(biāo)準(zhǔn)化中主要需要處理的因素包括:
測(cè)序深度:考慮測(cè)序深度是比較細(xì)胞之間基因表達(dá)的必要條件。在下面的示例中,每個(gè)基因在細(xì)胞2中的表達(dá)似乎都增加了一倍,但這是細(xì)胞2具有兩倍測(cè)序深度的結(jié)果。
因此,要準(zhǔn)確比較細(xì)胞之間的表達(dá),有必要對(duì)測(cè)序深度進(jìn)行標(biāo)準(zhǔn)化 (什么?你做的差異基因方法不合適?)。
基因長(zhǎng)度:需要基因長(zhǎng)度來比較同一細(xì)胞內(nèi)不同基因之間的表達(dá)。基因長(zhǎng)度越長(zhǎng)比對(duì)到的reads理論上會(huì)越多。如下圖所示:低表達(dá)的較長(zhǎng)基因測(cè)序到的reads數(shù)與較高表達(dá)的短基因相差不大。
如果進(jìn)行的是5’末端或3’末端測(cè)序,則不需要考慮基因長(zhǎng)度的影響;
如果使用全長(zhǎng)測(cè)序則需要考慮。
主成分分析(PCA)
PCA是對(duì)數(shù)據(jù)降維的技術(shù),可以用來展示樣品差異和相似性,這里推薦一個(gè)學(xué)習(xí)視頻:StatQuest's video(https://www.youtube.com/watch?v=_UVHneBUBW0)
下面是PCA的示例模擬過程,幫助理解:
如果你已經(jīng)定量了兩個(gè)樣本(或細(xì)胞)中四個(gè)基因的表達(dá),則可以繪制這些基因的表達(dá)值,其中一個(gè)樣本在x軸上表示,另一個(gè)樣本在y軸上表示,如下所示:
我們可以沿代表最大變化的方向在數(shù)據(jù)上畫一條線,在此示例中為對(duì)角線,數(shù)據(jù)中變化第一大的變量。數(shù)據(jù)集中的最大變異是在組成兩個(gè)端點(diǎn)的基因。我們還看到基因在該線的上方和下方有些不同。我們可以在該條線的中點(diǎn)繪制另一條與其垂直的線,代表數(shù)據(jù)中變化第二大的變量。
末端附近的基因 (B, C)是變異最大的基因。這些基因在數(shù)學(xué)上對(duì)線的方向影響最大。
例如,基因C值的微小變化將極大地改變較長(zhǎng)線的方向,而基因A或基因D的微小變化對(duì)其幾乎沒有影響。
我們還可以旋轉(zhuǎn)整個(gè)圖,保證線條方向是從左到右和從上到下。現(xiàn)在,可以將這些線視為代表變化的軸。這些軸本質(zhì)上是“主成分”,其中PC1代表數(shù)據(jù)的最大差異,PC2代表數(shù)據(jù)的第二大差異。
如果有N個(gè)細(xì)胞,以此類推。。。(PCA主成分分析實(shí)戰(zhàn)和可視化 | 附R代碼和測(cè)試數(shù)據(jù))
確定PCs后,則需要對(duì)每個(gè)PC進(jìn)行評(píng)分,按照以下步驟對(duì)所有樣本PC對(duì)(sample-PC pairs)計(jì)算分?jǐn)?shù):
(1)首先,根據(jù)基因?qū)γ總€(gè)PC的影響程度,為其分配“影響力”評(píng)分。對(duì)給定PC沒有任何影響的基因得分接近零,而具有更大影響力的基因得分更高。PC線末端的基因?qū)a(chǎn)生更大的影響,因此它們將獲得更大的分?jǐn)?shù),但兩端的符號(hào)相反。
(2)確定影響分?jǐn)?shù)后,使用以下公式計(jì)算每個(gè)樣本的分?jǐn)?shù):
Sample1 PC1 score = (read count * influence) + ... for all genes以我們的2個(gè)樣本示例,以下是分?jǐn)?shù)的計(jì)算方式:
## Sample1 PC1 score = (4 * -2) + (1 * -10) + (8 * 8) + (5 * 1) = 51 PC2 score = (4 * 0.5) + (1 * 1) + (8 * -5) + (5 * 6) = -7## Sample2 PC1 score = (5 * -2) + (4 * -10) + (8 * 8) + (7 * 1) = 21 PC2 score = (5 * 0.5) + (4 * 1) + (8 * -5) + (7 * 6) = 8.5(3)一旦為各個(gè)樣本的所有PC計(jì)算了這些分?jǐn)?shù),就可以將其繪制在簡(jiǎn)單的散點(diǎn)圖上。下面是示例圖:
對(duì)于具有大量樣本或細(xì)胞的數(shù)據(jù)集,通常會(huì)繪制每個(gè)樣本/細(xì)胞的PC1和PC2分?jǐn)?shù)。由于這些PC解釋了數(shù)據(jù)集中最大的變化,因此更相似的樣本/細(xì)胞將在PC1和PC2聚在一起。請(qǐng)參見下面的示例:
Image credit: https://github.com/AshwiniRS/Medium_Notebooks/blob/master/PCA/PCA_Iris_DataSet.ipynb
對(duì)于我們的單細(xì)胞數(shù)據(jù),我們最終會(huì)選擇10-100 PC去對(duì)細(xì)胞進(jìn)行聚類分析,而不是全部基因。
往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)
后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的哈佛大学单细胞课程|笔记汇总 (五)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 跟随美国博导12年,我学到最深刻的不是科
- 下一篇: 花器官身份基因与靶基因间的调控进化情况