Nat Commun|单细胞ATAC-seq深度学习工具包AtacWorks,简单、高效且适用
染色質轉座酶可及性測序技術(ATAC-seq)可利用Tn5轉座酶直接測量染色質可及性,已被廣泛應用于鑒定轉錄因子對染色質的影響,構建細胞調控網絡以及定位潛在的不同發育和疾病相關的表觀遺傳變化。最近,單細胞ATAC-seq技術的發展使在單個細胞中測量可及染色質成為可能,從而能夠對異質組織內的稀有細胞類型進行表觀基因組分析。
ATAC-seq檢測活躍調節區的能力取決于測序覆蓋的深度和信噪比。然而,諸如細胞或組織的整體質量、核提取方法或染色質的過度消化等技術參數都可能導致對可及性的測量減弱,限制測量全基因組染色質狀態的能力,且這些問題在單細胞實驗中更為嚴重。
為解決上述挑戰,NVIDIA公司和哈佛大學的研究團隊聯合開發了AtacWorks深度學習工具包,可對整個基因組進行推斷,提高單細胞實驗的靈敏度,并顯著減少運行稀有類型單細胞實驗所需的時間和成本。該研究成果發表在Nature?Communications上,文章題為“Deep learning-based enhancement of epigenomics data with AtacWorks”。?
文章發表在Nature?Communications上
AtacWorks使用ResNet(residual neural networ)架構,體系結構由多個堆疊的殘差塊組成,每個殘差塊由三個卷積層和一個跳過中間層的跳躍連接組成,然后使用包含均方誤差(MSE),1- Pearson相關系數和二進制交叉熵(BCE)損失的多部分損失函數對模型進行訓練(圖1)。研究者使用AtacWorks來訓練深度學習模型,從四種細胞類型(B細胞、NK細胞、CD4+和CD8+T細胞)中獲取ATAC-seq數據集,并對數據集進行了5,000萬reads讀取的深度采樣,以產生標準化的干凈(高覆蓋率)數據,使用MACS2(ATAC-seq數據的標準峰調用器)識別每個干凈數據集的峰值。然后,對每個干凈的數據集進行二次采樣,得到多個較低的測序深度,范圍從20萬到2,000萬reads,對于每個深度,研究者訓練了一個模型,將低覆蓋的ATAC-seq信號作為輸入,并重建干凈的ATAC-seq信號和峰值調用。?
圖1. ResNet體系結構示意圖,來源:Nature?Communications
為評估該方法的普適性,研究者通過紅系細胞的ATAC-seq數據測試了模型的性能。首先對紅系細胞的讀數進行二次抽樣,使其達到與訓練數據相同的深度,對于每個測序深度,將訓練后的模型應用于相應的二次采樣數據集,以獲得預測的高覆蓋率信號軌跡和峰值調用。通過檢查得到的去噪軌跡,證實了AtacWorks可識別出訓練數據中不存在的細胞類型特異性峰,包括與紅系細胞標記基因GYPA相鄰的區域。這表明該模型學習的是染色質可及性的通用特征,而不是細胞類型的特定模式(圖2)。?
圖2. 批量ATAC-seq數據訓練和AtacWorks驗證,來源:Nature?Communications
為了定量評估AtacWorks產生的去噪高覆蓋信號軌跡,研究者將其與干凈的紅系細胞信號進行了比較。結果顯示,在所有測序深度上,去噪和干凈信號軌跡之間的Pearson相關性、Spearman相關性和MSE基本上大于噪聲和干凈信號之間的相關性。接下來,研究者評估了AtacWorks從每個測序深度識別的峰,發現峰的精確召回曲線下面積(AUPRC)和接受者操作特征曲線下面積(AUROC)均優于MACS2(圖3)。AtacWorks產生的輸出數據質量相當于基于Pearson相關性的輸入數據讀取次數的2.6倍和基于AUPRC的4.2倍。
圖3. 利用AtacWorks對ATAC-seq數據進行去噪,來源:Nature?Communications
為了證明該方法也適用于更廣泛的ATAC-seq,研究者使用AtacWorks對來自高通量單細胞ATAC-seq實驗的數據進行去噪。首先從珠狀分離的人類血細胞中獲得了液滴單細胞ATAC-seq(dscATAC-seq)數據,并按細胞類型聚合了單細胞染色質可及性圖譜。從數據集中選擇了兩種細胞類型(B細胞和單核細胞),通過對每種類型的細胞子集進行隨機二次采樣來生成有噪聲的ATAC-seq信號,并在配對的干凈和有噪聲的數據集上訓練AtacWorks模型。對于低覆蓋率的訓練數據集,研究者隨機抽樣了1個細胞(20,000 reads)、5個細胞(10萬reads)、10個細胞(20萬reads)或50個細胞(100萬reads)。結果顯示經過訓練的模型提高了信號跟蹤的準確性和對測序的NK細胞進行峰調用的能力,且AtacWorks僅需50個NK細胞,便可將峰值調用的AUPRC從0.2048提高到0.7008,而MACS2需要400多個細胞才能獲得。此外,研究者又使用相同的dscATAC方案從小鼠大腦中獲得單細胞數據,將在人類血液上訓練的模型應用于從小鼠錐體和振蕩神經元聚集的數據。結果顯示,這兩種類型的神經元,無論是在整體上還是在細胞類型特定峰值內,AtacWorks改善了信號跟蹤和峰調用,這表明AtacWorks廣泛適用于所有細胞類型和物種(圖4)。?
圖4. AtacWorks可從少量細胞產生的單細胞數據中鑒定出peak,來源:Nature?Communications
上述實驗證實AtacWorks可以在堿基對分辨率下準確預測去噪覆蓋率,研究者試圖將其擴展到轉錄因子足跡。為了測試從低輸入ATAC-seq進行足跡分析的可行性,研究者從FACS分類的人類血細胞(多功能祖細胞,CD8+ T細胞,NK細胞)獲取了高覆蓋的ATAC-seq數據,并通過減少軌跡平滑來保存Tn5插入的轉錄因子特異性模式。然后,對這些軌跡進行下采樣,以降低測序深度,并為每個深度訓練一個模型,用來自類似處理的HSCs的數據進行測試。并在一組跨越基因組結構蛋白CTCF的結合基序200bp的基因組區域上評估了這些模型的性能。結果顯示,在所有測序深度中,AtacWorks改善了HSCs中跨越CTCF圖案的信號軌跡,增強了CTCF結合的特征足跡。
在AtacWorks提供高分辨率的支持下,研究者試圖調查研究稀有細胞亞群中潛在的表觀遺傳學變化。先前對FACS分離的骨髓單核細胞(BMMC)的單細胞研究已經在免疫表型定義的細胞群體中觀察到表觀遺傳的異質性。雖然單細胞ATAC-seq能夠通過聚合基因組特征來測量染色質的可及性,但通常沒有足夠的測序覆蓋率來確定哪些特定的調控區域與每個分化軌跡相關。首先,研究者對FACS分離的造血干細胞進行dscATAC-seq,生成了9,974個單細胞染色質可及性譜,接下來,為了定義淋巴系和紅系分化的軌跡,研究者從富含珠粒的CD34+細胞中收集了已發表的dscATAC-seq數據,并將所有單細胞圖譜投影到一個共享的潛在空間中,使用UMAP進行降維可視化。結果證實,位于該區域的造血干細胞在GATA2基序的轉錄因子基序可及性分數和MEF2C的基因可及性分數中顯示出定向信號偏倚,這兩個基因分別被認為是紅系和淋巴系啟動的標志基因。最后,為了使用該模型生成譜系啟動細胞的高分辨率染色質可及性軌跡,研究者選擇了三個不同的樣本(分別代表長期、淋巴系和紅系啟動的造血干細胞的假定群體),使用AtacWorks進行信號降噪,并可視化了譜系啟動標記的基因附近的去噪染色質可及性譜圖。總之,這些結果證明了深度學習在提高稀有單細胞ATAC-seq研究分辨率方面具有獨特能力。?
圖5. AtacWorks可識別與譜系啟動的造血干細胞相關的差異性調控區域,來源:Nature?Communications
綜上所述,該研究介紹了一種通用化的深度學習工具包—AtacWorks,可在堿基對分辨率上對ATAC-seq信號進行去噪,同時預測可訪問的調控元件的基因組位置,降低收集染色質可獲得性數據的成本。基于以上研究進展,預計AtacWorks將廣泛提高表觀基因組分析的實用性,為研究細胞異質性背后的調控機制提供一個強大的平臺。
AtacWorks 工具包可從https://github.com/claraparabricks/AtacWorks獲得。
參考文獻:
Lal A, Chiang ZD, Yakovenko N, Duarte FM, Israeli J, Buenrostro JD. Deep learning-based enhancement of epigenomics data with AtacWorks. Nat Commun. 2021 Mar 8;12(1):1507. doi: 10.1038/s41467-021-21765-5. PMID: 33686069.
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的Nat Commun|单细胞ATAC-seq深度学习工具包AtacWorks,简单、高效且适用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 让你的单细胞数据动起来!|iCellR(
- 下一篇: Linux下那些查找命令