高通量数据中批次效应的鉴定和处理(三)- 如何设计尽量避免批次影响
生物信息學習的正確姿勢
NGS系列文章包括NGS基礎、轉錄組分析?(Nature重磅綜述|關于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細胞測序分析?(重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程 (原理、代碼和評述))、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫(yī)學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集)等內容。
高通量數據中批次效應的鑒定和處理(一)講述了什么是批次效應和其影響。
高通量數據中批次效應的鑒定和處理(二)講述了如何查看是否有批次效應影響。
下面呢?就是......
怎么避免批次效應呢?
合理的實驗設計和一致的實驗操作是避免批次效應的最好方式。如下圖所示如何通過合理的設計來避免檢測批次帶來的影響。
如左上角圖示,若樣本量數目不多,可在同一臺設備(同一個芯片、同一個測序儀、同一個測序 lane)檢測這是最好的方式,不存在檢測批次。
如右上角圖示,是最差的實驗設計方式,不同組的樣本分批檢測。
這種方式無法確定最終檢測出的樣品差異是生物差異還是設備差異還是二者共同帶來的差異。
這種檢測方式會放大樣品的差異,引入較多假陽性結果。
如果只是看這種圖,相信大家其實都不會這么設計。
但換個角度來看,我們 5 月份采一批樣去測序,10 月份采一批樣去測序,在比較 5 月份樣品與 10 月份樣品差異時,我們實際的實驗設計方式跟這個實驗設計也沒什么不同。
或者做病例對照時,健康人樣品好收集,一起測序;
疾病樣品一起搜集一起測序,也是類似的設計方式。
前文所述的一段公案也類似這個設計。
如左下角所示,平衡設計則是最好的實驗設計方式。
假如實驗中存在三個樣品組,如對照組、基因敲除組、基因過表達組,每組 9 個重復,則每次檢測時都同時包含每組的 3 個重復,這樣獲得的數據則可以放在一起校正后分析。
或者至少對照組的樣本在每次測序中都能有 2-3 個重復,最后在數據校正時通過調平對照組數據的檢測結果來校正其它樣品的檢測結果。
在前文的留言中,也確實有意識比較好的老師,做了類似設計,值得學習。
如右下角所示,也是芯片檢測基因表達的一個常規(guī)方式,每個芯片檢測一個樣本。
不論是生物重復還是不同生物條件之間都會受到檢測芯片的影響,不同重復之間的批次影響可以評估,但不同條件下的批次影響則難以評估。
芯片這么檢測是可以的,但測序時每個測序批次會包含很多不同類型的樣品,且測序檢測影響因素更多,這一設計會引入較大技術偏差。
上面也只是從檢測方式的角度設計出一個合理的試驗模式降低批次效應的影響,但除了檢測方式,還會有很多不可控的因素也會影響到批次,如不同操作人、不同操作時間等客觀因素,還有如配對設計實驗中不同的個體自身也是批次的因素。
所以需要有個方式去檢測和盡量降低批次效應帶來的數據偏差的影響。
好多朋友著急代碼,馬上就有了......
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的高通量数据中批次效应的鉴定和处理(三)- 如何设计尽量避免批次影响的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 遗传所屠强研究组开发Decode-seq
- 下一篇: 基因组中的趣事(一):这个基因编码98种