高通量数据中批次效应的鉴定和处理(一)
生物信息學(xué)習(xí)的正確姿勢(shì)
NGS系列文章包括NGS基礎(chǔ)、轉(zhuǎn)錄組分析?(Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細(xì)胞測(cè)序分析?(重磅綜述:三萬(wàn)字長(zhǎng)文讀懂單細(xì)胞RNA測(cè)序分析的最佳實(shí)踐教程 (原理、代碼和評(píng)述))、DNA甲基化分析、重測(cè)序分析、GEO數(shù)據(jù)挖掘(典型醫(yī)學(xué)設(shè)計(jì)實(shí)驗(yàn)GEO數(shù)據(jù)分析 (step-by-step) - Limma差異分析、火山圖、功能富集)等內(nèi)容。
什么是批次效應(yīng)?
批次效應(yīng)表示樣品在不同的批次處理和測(cè)量時(shí)引入的與生物狀態(tài)不相關(guān)的系統(tǒng)性的技術(shù)偏差。很多因素都可能導(dǎo)致批次效應(yīng)的產(chǎn)生,如不同實(shí)驗(yàn)條件、不同操作者、不同公司的試劑、不同批的試劑、實(shí)驗(yàn)開(kāi)展的時(shí)間、檢測(cè)設(shè)備、不同的測(cè)序批次等。
批次效應(yīng)會(huì)有什么影響?
2014年生信領(lǐng)域的大牛Michael P Snyder在PNAS上發(fā)表了一篇文章Comparison of the transcriptional landscapes between human and mouse tissues,比較了人和小鼠不同組織和器官中表達(dá)譜的異同。研究發(fā)現(xiàn)不同物種之間組織特異表達(dá)的基因是一致的,但很多基因在同一物種不同組織的表達(dá)相似度大于它們?cè)诓煌锓N同一組織的表達(dá)相似度?!拔摇眮?lái)引申下 (原文并沒(méi)有這么直接說(shuō)),大體可以理解為小鼠的腦與小鼠的腎臟的相似性大于小鼠的腦與人的腦的相似性?!拔摇钡贸龅倪@個(gè)結(jié)論是有一些顛覆認(rèn)知的,如果這樣,用小鼠做為模式動(dòng)物是否會(huì)對(duì)人的研究給出相似性的推導(dǎo)?
這篇PNAS文章發(fā)出后,芝加哥大學(xué)的Yoav Gilad在F1000上發(fā)表了一篇文章A reanalysis of mouse ENCODE comparative gene expression data來(lái)討論這個(gè)不同于以往認(rèn)知的研究項(xiàng)目的設(shè)計(jì)和分析的合理性。
首先作者從FASTQ數(shù)據(jù)的序列名字的ID中提取出對(duì)應(yīng)測(cè)序數(shù)據(jù)來(lái)源的測(cè)序儀設(shè)備ID和測(cè)序通道信息,發(fā)現(xiàn)所有數(shù)據(jù)來(lái)源于5個(gè)批次,如下圖所示,只有最后一個(gè)批次同時(shí)包含了人和小鼠的器官,其它批次都只包含了人的器官或小鼠的器官。
重現(xiàn)者Yoav Gilad等通過(guò)對(duì)數(shù)據(jù)進(jìn)行重分析,重現(xiàn)了類似于原文中的結(jié)果。不論是PCA還是Heatmap的結(jié)果,都展示出來(lái)源于同一物種的組織或器官傾向于聚類到一起。
重現(xiàn)者Yoav Gilad等采用ComBat移除批次帶來(lái)的影響,再次繪制PCA和Heatmap,結(jié)果顯示表達(dá)譜按組織類型而非物種聚在了一起。
大家有興趣可以在https://f1000research.com/articles/4-121看看Yoav Gilad的具體操作和PNAS一作Yoav Gilad等人的討論,通過(guò)學(xué)習(xí)雙方在這段公案中辯論的出發(fā)點(diǎn)和落腳點(diǎn),相信對(duì)數(shù)據(jù)分析也會(huì)有更多認(rèn)識(shí),這個(gè)我們后續(xù)也會(huì)涉及。
未完待續(xù)......
很長(zhǎng)一段時(shí)間精力有限,我親自寫的或修改的文章沒(méi)有幾篇,公眾號(hào)疏于打理,有很多對(duì)不住大家的地方。最近堅(jiān)持多投入一些,分段寫一部分,發(fā)一部分,也歡迎大家一起討論,指出問(wèn)題,提出問(wèn)題,解決問(wèn)題,共同進(jìn)步。
往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)
后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的高通量数据中批次效应的鉴定和处理(一)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: “不务正业”的化学奖又发给了生物
- 下一篇: Nature子刊:中科院动物所合作揭示灵