Nature methods | Alevin-fry, 一种高效准确的单细胞测序数据预处理工具
隨著單細胞以及單核測序(single-cell and single-nucleus RNA-sequencing)的快速發(fā)展以及逐漸普及,越來越多的單細胞測序數(shù)據(jù)集在近幾年不斷的出現(xiàn)。這些數(shù)據(jù)集不僅有著成倍增加的細胞數(shù)量,也包括了更多維度的生物特征信息,這使得預(yù)處理單細胞測序數(shù)據(jù)的所需的時間不斷增加。例如,10x Genomics的官方預(yù)處理軟件CellRanger有時需要幾十個小時來處理一個單一數(shù)據(jù)集。雖然目前有些輕量化工具可較快的處理單細胞測序數(shù)據(jù),比如kallisto|bustools 和alevin,但輕量化工具的假陽性和準確性問題一直有待解決。
在2022年三月的Nature Methods期刊中,美國馬里蘭大學的Rob Patro團隊發(fā)表的了名為alevin-fry的單細胞測序數(shù)據(jù)預(yù)處理工具來一站式高效便捷的量化sc/snRNA-seq數(shù)據(jù)。通常情況下,alevin-fry可在15分鐘內(nèi)以小于8 GB的內(nèi)存用量處理單細胞或單核測序數(shù)據(jù)集,并與任何其他工具所能達到的最佳準確率持平。該工具用當前熱門的Rust編程語言書寫,不僅在GitHub (https://github.com/COMBINE-lab/alevin-fry)上完全開源, 并且上傳至crates.io (https://crates.io/crates/alevin-fry)及 bioconda (https://anaconda.org/bioconda/alevin-fry)以供下載安裝,還有有十分完善的配套工具 (https://github.com/COMBINE-lab/usefulaf)用于構(gòu)建參考序列以及導入量化分析結(jié)果。
除了比其他任何量化方法都更快、更節(jié)省內(nèi)存之外,alevin-fry還改進了量化工具中普遍存在的內(nèi)存可伸縮性問題和其他輕量化工具表現(xiàn)出的假陽性表達問題。除此之外,alevin-fry所產(chǎn)生的量化結(jié)果還可被直接用于多種下游分析,例如對單細胞速率(RNA velocity)的研究。
在業(yè)界普遍認為的效率(速度及內(nèi)存占用)或準確性二選一的難題中,論文展示了alevin-fry做到了不僅在效率上處于全業(yè)最優(yōu),而且達成了其他以全基因組為基礎(chǔ)的量化工具用犧牲效率換來的高準確性。可以說alevin-fry不僅是現(xiàn)今最高效的單細胞預(yù)處理工具,也是現(xiàn)如今最準確的單細胞預(yù)處理工具之一。在結(jié)果中,該論文指出了alevin-fry不僅解決了在輕量化工具中普遍存在的假陽性問題,還在其他工具普遍需要額外的內(nèi)存及時間來處理單核測序數(shù)據(jù)的情況下做到了可將單細胞及單核測序數(shù)據(jù)統(tǒng)一化高效處理。除此之外,該論文還示范了如何用alevin-fry來處理各種類型的數(shù)據(jù)集,例如單細胞測序,單核測序和RNA速率的示例數(shù)據(jù)集,并展示了alevin-fry的量化結(jié)果相比于其他任何的量化工具保留了最多的生物信號。
為方便用戶使用,該團隊為alevin-fry準備了完整的配套工具 https://hub.docker.com/r/combinelab/usefulaf。對于構(gòu)建參考序列,R用戶可參考roe (https://github.com/COMBINE-lab/roe),python用戶可參考 pyroe (https://github.com/COMBINE-lab/pyroe)。對于導入量化結(jié)果,該團隊也對 R用戶 (https://mikelove.github.io/fishpond/reference/loadFry.html)和 python用戶 (https://github.com/COMBINE-lab/usefulaf/blob/main/python/load_fry.py)分別提供了支持。除此之外,usefulaf (https://hub.docker.com/r/combinelab/usefulaf)還提供了bash scripts和Docker與singularity鏡像,讓用戶可以通過簡單的幾行命令預(yù)處理任何單細胞數(shù)據(jù)集。該團隊還為用戶提供了一種模擬CellRanger篩選細胞的方法,并被納入DropletUtils (https://github.com/MarioniLab/DropletUtils/blob/master/R/emptyDropsCellRanger.R) R包中。并且,該團隊還會不定期更新各種alevin-fry相關(guān)教程 (https://combine-lab.github.io/alevin-fry-tutorials/),截至發(fā)稿時,已有關(guān)于利用alevin-fry完成空間轉(zhuǎn)錄組分析,CITE-seq,sci-RNA-seq3及split-seq數(shù)據(jù)分析和RNA速率分析的相關(guān)教程。
Twitter 原文:https://twitter.com/nomad421/status/1503391195514482688
論文鏈接:https://www.nature.com/articles/s41592-022-01408-3
馬里蘭大學Rob Patro教授為本文通訊作者,博士生和東澤為本文第一作者。Rob 實驗室還開發(fā)有Salmon, Sailfish, Mantis, Pufferfish 等工具。
往期精品(點擊圖片直達文字對應(yīng)教程)
機器學習
后臺回復(fù)“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的Nature methods | Alevin-fry, 一种高效准确的单细胞测序数据预处理工具的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Inception代码解读
- 下一篇: GoogLeNet代码解读