Nat. Commun.速递:深度学习在计算生物学中的应用综述
來源:集智俱樂部
作者:郭瑞東?
審校:梁金?
編輯:鄧一雪
摘要
蛋白質結構預測是計算生物學中一個長達半個世紀的重大挑戰,最近,深度學習在這方面取得了前所未有的進展。4月1日,一項發表在 Nature Communications 上的最新論文從蛋白質結構預測、蛋白質功能預測、基因工程、系統生物學和數據集成以及系統發育推斷五個方面探討了深度學習的最新進展、局限性和對未來的展望。文章討論了每個應用領域,并討論了深度學習方法的主要瓶頸,如訓練數據、問題范圍,以及在新環境中利用現有深度學習架構的能力,最后總結了深度學習在生物科學領域面臨的學科相關和一般性挑戰。
研究領域:深度學習,結構生物學,蛋白質結構
論文題目:
Current progress and open challenges for applying deep learning across the biosciences
論文鏈接:
https://www.nature.com/articles/s41467-022-29268-7
AlphaFold2 成功地預測蛋白質3D結構問題,已成為深度學習在計算生物學領域的典型范例。Nature Communication 的綜述“在生物學中應用深度學習的當前進展和開放挑戰”,系統性介紹了在生物學中應用深度學習,當前取得的成果以及有待解決的開放性問題。
綜述先介紹了在生物領域廣泛應用的模型架構,指出所使用的模型包含有監督、無監督和強化學習三個范式。圖神經網絡、圖像識別(CNN)以及自然預言處理(RNN,transformer)中的常見模型,都已在生物領域被成功應用。
圖1. 深度學習所需的數據集的數量級及常用模型
文中將取得的成就分為四種:范式革命、顯著、中等和較小范圍內的成功。按照應用場景,指出五類問題當前的進展、公開數據集的大小、常用的模型架構。
? ? ? ?
圖2. 深度學習在各個領域取得的進展程度
綜述指出,盡管深度學習在例如蛋白質結構預測取得了范式轉移級的成功,改變了該領域的默認選項。在更多的領域,如蛋白質功能預測、基因工程(例如基因編輯)和多組學數據集成中也取得了長足的進步。然而相對于傳統的方法,對于其他領域,例如系統發育推斷、經典的計算方法在這些領域仍然占據上風。并不是所有深度學習的應用在計算生物學都同樣成功。成功的領域高度依賴于具有多樣性、無偏采樣且貼近實際應用場景的大量有標注及無標準的標準數據集。
除了概述各領域的進展,該綜述的亮點在于指出了在生物領域應用深度學習面對的一般性挑戰和可能的解決方案:
1. 有偏的結論:即模型給出的結論和真實情況不符。面對這一問題,需要的是改進實驗設計,避免訓練數據和實際數據的分布有差異,還需要識別出模型有偏的原因,在針對性的使用更公平的模型。
2. 較高的計算成本:可解決方案是并行運算及優化代碼,或選用部分(核心)數據進行訓練,同時改進AI架構,使用更高能耗的計算設施。
3. 模型缺少解釋性:對此一方面可以采用例如SHAP[1]的統計分析,對特征的重要性進行評估,或使用像GNNExplainer[2]這樣的工具,對基于GNN的模型訓練完成后給出解釋。
4. 有限的訓練數據集:可行的解決方案包括標注更多的數據,以及使用模型進行數據增強,基于現有數據集生成新的類似的訓練數據。
5. 過擬合:應對方式包括正則化、丟棄神經元dropout、提早停止訓練、使用容量更小的模型以及采用更多的訓練數據。
6. 模型在新數據上的表現較差:此時應該擴展數據集或使用容量更大的模型,并結合生物學知識對模型的泛化能力進行分析,例如在基于人的數據訓練的 Deep Variant 在包含多對而不是一對染色體的動植物上檢出突變的表現很差(因為其生物學機制不同,需使用相應的訓練數據)。
綜述著重強調了模型的可解釋性以及訓練過程中的效率,其中既包括了訓練成本高,也包括了訓練好的模型只適用于特定領域。并針對性地給出了更詳細的可行建議。
參考文獻:
1. Lundberg, S. M. & Lee, S.-I. A unified approach to interpreting model predictions. In Proceedings of the 31st International Conference on Neural Information Processing Systems, 4768–4777 (2017).
2. Ying, R., Bourgeois, D., You, J., Zitnik, M. & Leskovec, J. GNNExplainer: Generating explanations for graph neural networks. Adv. Neural Inf. Process. Syst. 32, 9240 (2019)
論文 Abstract
Deep Learning (DL) has recently enabled unprecedented advances in one of the grand challenges in computational biology: the half-century-old problem of protein structure prediction. In this paper we discuss recent advances, limitations, and future perspectives of DL on five?broad areas: protein structure prediction, protein function prediction, genome engineering, systems biology and data integration, and phylogenetic inference. We discuss each application area and cover the main bottlenecks of DL approaches, such as training data, problem scope, and the ability to leverage existing DL architectures in new contexts. To conclude, we provide a summary of the subject-specific and general challenges for DL across the biosciences.
未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)大腦研究計劃,構建互聯網(城市)大腦技術和企業圖譜,為提升企業,行業與城市的智能水平服務。每日推薦范圍未來科技發展趨勢的學習型文章。目前線上平臺已收藏上千篇精華前沿科技文章和報告。
??如果您對實驗室的研究感興趣,歡迎加入未來智能實驗室線上平臺。掃描以下二維碼或點擊本文左下角“閱讀原文”
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的Nat. Commun.速递:深度学习在计算生物学中的应用综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文学习18-Relation extr
- 下一篇: 德勤预判:2022技术七大趋势