高通量数据中批次效应的鉴定和处理(二)
前文講了什么是批次效應和有哪些影響,我們繼續往下看……
怎么確認數據有無受到批次效應影響
通過樣品的層級聚類熱圖+樣品屬性信息的注釋來展示樣品聚類結果有無受批次效應的影響。如下面右圖中可見WT_1樣品在聚類分支上與其它樣品處于不同的分支,而從列注釋圖可以看到WT_1的seqPlatform和batch信息與其它樣品不同,這是給我們的一個提示可能存在批次效應影響。
通常我們在整合多套數據集進行展示時也會加上數據來源信息以展示自己的分析結果未受批次等因素影響。如下圖每一列是一個樣品,每一行是一個菌群;列注釋中有一行為Dataset指示樣品來源于 2 個數據集,并且聚類結果沒有明顯受到數據集來源的影響(四個大的聚類分支中樣品來源分布沒有明顯偏好性);
通過主成分分析PCA查看有無批次效應的影響。如下左圖,樣品在PC1和PC2組成的空間中按數據集而非樣本類型聚在一起,表示數據來源對樣本檢測結果的影響超出了樣本類型的影響,提示存在批次效應。如右圖,批次效應移除后,在PC1軸上樣品基本按正常-癌旁-腫瘤分布,表示當前樣品差異的主要影響因素是樣本類型。這時可以繪制樣品在更多PC軸上的分布,如PC1-PC3、PC1-PC4等構成的空間中樣品差異的主要因素是什么,也可以進一步判斷批次效應移除的程度怎樣。
通過樣本整體表達分布查看有無批次影響。不同來源的樣本一般是各自進行標準化(尤其是芯片數據),合并在一起后,可以簡單的從整體表達分布來查看是否存在明顯的偏移。如下左圖存在明顯的偏移,則提示有批次效應的存在。校正后,如右圖,看上去樣本的整體表達分布均一了。但是否批次影響就被移除了,卻很難據此下結論。
通過部分基因集的表達變化查看有無批次效應影響。不同來源的數據一起標準化之后,如果標準化效果好的話,樣品整體表達分布也會是均一的(如下面左數第二幅圖)。但從中隨機抽取數百基因卻發現其表達收到了批次的影響(如下面左數第三幅圖,只展示了數個基因),而且聚類結果也把兩組正常樣品分到了各自來源相對應的分支上。
總結
以上是生活随笔為你收集整理的高通量数据中批次效应的鉴定和处理(二)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 送书《R语言数据分析和可视化》 | 这个
- 下一篇: 免费Linux系统和生信宝典原创学习教程