Nat Mach Intell | 江瑞课题组提出首个针对单细胞染色质开放性数据的细胞类型辨识神经网络模型EpiAnno...
2022年2月10日,清華大學自動化系江瑞課題組在Nature Machine Intelligence發表了題為“Cell type annotation of single-cell chromatin accessibility data via supervised Bayesian embedding”的論文 (點擊文末“閱讀原文”下載PDF全文),提出了整合細胞圖譜與單細胞染色質開放性數據(single-cell chromatin accessibility sequencing, scCAS)辨識細胞類型的貝葉斯神經網絡模型?EpiAnno。該模型不僅能以極高精度辨識數據中的細胞類型,還能有效提取細胞類型的特征,應用于基因和信號通路富集分析、致病遺傳因素識別等生物醫學研究中。
全文概要
基于單細胞數據辨識細胞類型是目前生物信息學的研究前沿和熱點,然而絕大部分計算方法都針對單細胞轉錄組數據提出,針對單細胞染色質開放性數據專門設計的分析方法還十分罕見。針對這一瓶頸,江瑞課題組巧妙地融合使用統計學模型與神經網絡框架,提出了EpiAnno模型(圖1),有效克服了單細胞染色質開放性數據極高維度、極度稀疏、極度二值化等處理難點。
圖1. EpiAnno模型示意圖
? ??EpiAnno是一個概率生成模型,它通過一個高斯混合分布來生成中間數據,再通過一個貝葉斯神經網絡將其映射為觀測到的單細胞染色質開放性數據。該模型基于高質量標注的細胞圖譜來進行訓練,從而保證了在進行細胞類型辨識時具有極高的精度,并且能夠有效降低批次效應的影響(圖2)。不僅如此,生成模型的特點使得EpiAnno能夠進行單細胞染色質開放性數據的高精度仿真,生成數據的統計特征和細胞異質性均比已有方法更接近于真實數據。
圖2. EpiAnno準確辨識細胞類型
? ??EpiAnno模型具有極佳的生物學可解釋性,能夠對多個生物醫學問題提供輔助解釋。如:
1.?EpiAnno模型能夠準確識別細胞類型特異的染色質開放片段(圖2e),而這些片段具有明顯的組織特異性,可以幫助科研人員理解組織中細胞的異質性(圖3a)。
2.?EpiAnno能夠有效挖掘細胞類型特異的調控元件(圖3c),進而準確識別細胞類型特異的染色體共開放位點(圖3d),為進一步探索細胞的調控網絡提供了有力工具。
3.?EpiAnno可以幫助解析與細胞功能高度相關的信號通路,有效富集細胞類型特異的基因組基序 (motif),從而輔助細胞功能的注釋。
4.?EpiAnno模型還能夠促進醫學遺傳學的研究。例如,EpiAnno識別出的細胞類型特異染色質開放區域與阿爾茨海默病、自閉癥、雙相情感障礙和神經質等四種神經系統疾病高度關聯(圖3b)。這種從單細胞數據出發,建立特定疾病與特定細胞類型之間關聯性的思路,是對傳統全基因組關聯研究(GWASs)的有益補充。
圖3. EpiAnno有效提取細胞類型特異性特征
? ? 綜上所述,EpiAnno是首個針對單細胞染色質開放性數據的細胞類型自動辨識算法,在準確進行細胞類型注釋的同時,提供了全面的模型解釋性,并成功應用于基礎生物學和醫學遺傳學研究中。江瑞課題組一年來,在深度學習基礎理論研究的基礎上 [2],針對細胞類型辨識問題相繼提出了降維與聚類協同求解的非監督學習模型scDEC [3]、基于參考數據進行表示學習的弱監督方法RA3 [4],以及相應的全基因組染色質開放性注釋平臺[5],這些方法與此次提出的EpiAnno一同構成了從非監督學習到弱監督學習再到監督學習的單細胞染色質開放性數據計算分析體系,將會成為構建人類細胞參照系的重要技術。
論文鏈接:
https://www.nature.com/articles/s42256-021-00432-w
參考文獻:
1. ?Xiaoyang Chen, Shengquan Chen, Shuang Song, Zijing Gao, Lin Hou, Xuegong Zhang, Hairong Lv, Rui Jiang *. Simultaneous deep generative modelling and clustering of single-cell genomic data. Nature machine intelligence, 2022, https://doi.org/10.1038/s42256-021-00432-w.
2. ?Qiao Liu, Jiaze Xu, Rui Jiang *, Wing Hung Wong *, Density estimation using deep generative neural networks, Proc Natl Acad Sci USA, 2021, 118(15): e2101344118.
3. ?Qiao Liu, Shengquan Chen, Rui Jiang *, Wing Hung Wong *. Simultaneous deep generative modelling and clustering of single-cell genomic data. Nature machine intelligence, 2021, 3(6): 536-544.
4. ?Shengquan Chen, Guanao Yan, Wenyu Zhang, Jinzhao Li, Rui Jiang *, Zhixiang Lin *. RA3 is a reference-guided approach for epigenetic characterization of single cells. Nature communications, 2021, 12(1): 2177.
5. ?Shengquan Chen, Qiao Liu, Xuejian Cui, Zhanying Feng, Chunquan Li, Xiaowo Wang, Xuegong Zhang, Yong Wang, Rui Jiang *. OpenAnnotate: a web server to annotate the chromatin accessibility of genomic regions. Nucleic acids research, 2021, 49(W1): W483-W490.
致
謝
? ? 本研究得到科技部重點研發計劃“生物與信息融合”專項的資助,所屬課題“細胞多組學數據解析方法及心血管病示范應用”(2021YFF1200902)。清華大學自動化系的江瑞副教授為本文的通訊作者,清華大學自動化系2020級直博生陳曉陽和2017級直博生陳盛泉為本文的共同第一作者,清華大學自動化系的張學工教授、閭海榮副研究員、博士生高子靖、清華大學統計學研究中心的侯琳副教授、博士生宋爽、浙江大學研究生雷舒心為本研究作出了重要貢獻。陳盛泉已于2022年1月加入南開大學數學科學學院信息與數據科學系任副教授,誠摯歡迎有興趣的學生加盟(https://shengquanchen.github.io/)。
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的Nat Mach Intell | 江瑞课题组提出首个针对单细胞染色质开放性数据的细胞类型辨识神经网络模型EpiAnno...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: madagascar 软件安装方法
- 下一篇: 50个python库