遗传所屠强研究组开发Decode-seq方法显著提高差异表达基因分析的准确性
轉錄組分析的正確姿勢(第三版)前言
NGS系列文章包括NGS基礎、轉錄組分析?(Nature重磅綜述|關于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細胞測序分析?(重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程 (原理、代碼和評述))、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集)等內容。
鑒定差異表達基因是許多生物醫學研究項目的基礎步驟,利用轉錄組進行差異表達(Differential Expression, DE)分析是目前最主流的方法,得到了廣泛應用。例如,兩個常用于轉錄組DE分析的算法 edgeR 和 DESeq2 已經被引用了超過上萬次。
在DE分析中,如果使用的生物學重復數不足,會影響到結果的準確性,生物統計學家們長期以來呼吁要提高重復數。然而,由于傳統轉錄組方法的實驗流程較為復雜昂貴,大多數研究僅使用 2-3 對生物學重復。使用這么少重復數的分析,敏感性(sensitivity)較低,只有差異表達最顯著的基因才能被鑒定出來;錯誤發現率(FDR)也很高,結果中存在大量的假陽性。因此,需要一種新的實驗方法,有效解決生物學重復不足的問題,提高DE分析的準確性。【生物重復對差異基因鑒定的影響評估見本次推文次條】
中國科學院遺傳與發育生物學研究所屠強研究組開發了一種新的轉錄組實驗方法,稱為Decode-seq。該方法利用多種分子標簽,可以在一個測序文庫中同時檢測數十個樣品,大幅降低了建庫成本;富集轉錄本5’端測序,相比全長測序降低了測序成本,也避免了3‘端測序造成的困難;文庫結構兼容通用測序流程,不需要定制參數,可以與任意標準文庫同時上機,因此對測序量要求也非常靈活。與傳統轉錄組方法相比,Decode-seq的成本降低到約10%,非常適用于大規模的DE分析。在驗證實驗中,使用30對重復的DE分析結果相對于3對重復,敏感性從31% 提高到 95%,錯誤發現率從 34% 降低到 14%,顯著改善了結果的準確性。Decode-seq 方法還可以應用于微量樣品,例如對青鳉魚發育早期的雌雄性腺進行多達30對重復的轉錄組分析,鑒定出了多個雌雄差異表達基因,其中一些被證明對生殖細胞的正常發育是必須的。
綜合這些結果可知,大幅增加生物學重復可以顯著提高差異表達基因鑒定的準確性,而Decode-seq 為此提供了一個可行的實驗方法。因此,除非因樣品珍貴、需要研究轉錄本全長等原因,否則應避免僅使用2-3對生物學重復的轉錄組分析策略。Decode-seq 方法的實驗流程和分析程序都已經在研究組主頁(https://github.com/QTuLab)上提供下載。
該成果于2020年3月23日正式發表于 Genome Biology 雜志(DOI:10.1186/s13059-020-01966-9),文章標題為“Decode-seq: a practical approach to improve differential gene expression analysis”。屠強研究組博士研究生李瑩姝為該論文的第一作者,屠強研究員為該論文的通訊作者。該研究得到國家自然基金和中科院先導項目的資助。
圖:(a-b) 使用3對和30對重復的驗證實驗,紅色為真陽性,黃色為假陽性,灰色為真陰性,藍色為假陰性。? 對30對重復的結果進行抽樣計算表明,隨著重復數的增加,差異基因鑒定的準確性也得到了大幅提高。
總結
以上是生活随笔為你收集整理的遗传所屠强研究组开发Decode-seq方法显著提高差异表达基因分析的准确性的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习算法-随机森林之决策树R 代码从
- 下一篇: 高通量数据中批次效应的鉴定和处理(三)-