Nat. Biotechnol. | 利用深度学习从基因转录数据中预测药物疗效
作者 | 蔣長志
審稿 | 蔣立坤
今天給大家介紹來自北京大學醫學部的謝正偉團隊發表在Nature Biotechnology上的文章,文章提出了一種基于深度學習的藥效預測系統(DLEPS),該系統將藥物SMILES分子輸入神經網絡來擬合藥物作用下基因表達譜變化信息,從而預測疾病藥物分子,該模型在測試集上的預測效果(Pearson相關系數)達到0.74;并進行了案例分析,即分別預測肥胖、高尿酸血癥和非酒精性脂肪性肝炎三種疾病藥物分子,隨后通過構建小鼠模型驗證了系統預測的候選藥物的有效性,表明該系統具有通用性,可以預測多種疾病的藥物分子。
1
研究背景
在過去的幾十年里,基于靶蛋白的藥物研發已經是一種成功的方法,但是這些方法不能處理缺乏明確定義靶蛋白的疾病,那么針對這種疾病的策略是設計一個能夠獨立于特定靶標的藥效預測模型;比如Stokes, J. M等人于2020年發表在Cell期刊上的研究提出使用定制的深度學習模型來發現治療大腸桿菌感染的新候選抗生素,但是該模型依賴于特定單一疾病狀態的表型數據,缺乏推廣到其他疾病的能力。因此,設計出一種能夠預測多種疾病藥物分子的通用系統是有重要意義的。
2
主要貢獻
(1)本文提出了一個基于深度學習的疾病藥物分子預測模型,該模型是利用藥物分子和藥物作用下的基因表達譜信息進行訓練,不需要知道靶蛋白信息,這給缺乏明確定義靶蛋白的疾病藥物分子預測帶來新的思路;
(2)本文做了生物實驗驗證了系統的有效性,分別是使用褐變基因特征尋找抗肥胖分子、使用多個基因特征識別抗高尿酸血癥分子以及鑒定抗非酒精性脂肪性肝炎的藥物分子。
3
模型
3.1數據預處理
本文使用的數據集是L1000,該數據來源于一個項目庫(Integrated Network-Based Cellular Signatures),對其進行清洗處理,按照以下規則進行清洗:
分子必須有超過5個備份;
分子的SMILES要能使用RDKIT(version 2017.9.1)工具解析。
隨后,通過處理過程獲得了與疾病的標志性基因有關的17051個已經驗證的分子,其中隨機選取14051個分子作為訓練集,1500個分子作為驗證集以及1500分子作為測試集。
3.2 方法
模型輸入與疾病標志性基因表達譜變化有關的藥物分子數據,輸出藥物作用下的基因表達譜信息,從而預測疾病藥物分子。首先,使用GVAE(語法樹模型)對藥物分子的SMILES進行編碼,即將SMILES解析成一個語法樹(有76個節點類型),并使用one-hot編碼成一個向量;然后將SMILES的向量表示輸入到包含三個一維卷積層的神經網絡中獲得新的特征表示,隨后將獲得的新特征表示拼接成一維的向量輸入到全連接層中輸出兩個新的特征表示,分別是中心向量和半徑向量,對中心向量和半徑向量進行采樣獲得新的向量表示,隨后作為隱向量輸入到一個含有5層全連接層的神經網絡(其中每層都施加Dropout機制,前3層的激活函數采用Relu,第4層的激活函數采用Tanh,最后一層不使用激活函數)來預測基因表達譜的變化,這里使用均方誤差作為損失函數,并采用Adam作為優化算法。模型框架如下圖所示:
DELEPS模型框架圖
4
實驗
4.1 預測結果
本文采用Pearson相關系數作為評價指標來評估模型的性能,并通過設置不同的Pearson相關系數閾值來計算平均Pearson相關系數作為模型性能指標;模型的訓練集和測試集的不同Pearson相關系數閾值繪制的類似于ROC曲線如下圖(a)和(b)所示:
4.2 案例分析
本文為了驗證DLEPS系統的有效性,進行尋找肥胖、高尿酸血癥以及非酒精性脂肪肝炎三種疾病的潛在治療藥物實驗,并構建小鼠模型來驗證系統的預測結果,結果表明系統具有通用性,可以預測多種疾病藥物分子。
1)對于肥胖疾病,本文將DLEPS預測出的前幾種候選藥物分子喂入小鼠體內,通過觀察小鼠的肥胖狀況來篩選出治療肥胖疾病的潛在藥物分子。
注入潛在的藥物分子后小鼠體重變化圖
2)對于高尿酸血癥(hyperuricemia), 本文將DLEPS預測的幾種候選藥物分子在小鼠體內進行生物實驗,從而篩選出潛在的治療高尿酸血癥藥物分子。
使用候選藥物治療高尿酸血癥小鼠體內的血尿酸水平情況
3)對于非酒精性脂肪性肝炎,本文將DLEPS預測的幾種候選藥物分子在小鼠體內進行生物實驗,從而篩選出潛在的抗非酒精性脂肪性肝炎藥物分子。
注射不同藥物分子14天之后小鼠體內血清中ALT(丙氨酸氨基轉移酶)和AST(天冬氨酸氨基轉移酶)水平
5
總結
基于靶標-蛋白的藥物發現方法面臨著許多疾病的通路機制不清楚的困難,為了克服這一困難,本文提出了一個基于深度學習的藥效預測系統(DLEPS),該系統利用復雜疾病的基因指紋信息來預測潛在疾病藥物分子,使用超過百萬個基因指紋和與這些基因指紋信息有關聯的17051個結構多樣的小分子數據進行訓練和測試,其中測試集的Pearson相關系數達到0.74,并對三種疾病進行了案例分析,通過構建小鼠模型來驗證DLEPS系統預測的這三種疾病的藥物分子,結果表明該系統具有通用性,可以預測多種疾病藥物分子,也給理解疾病的通路機制帶來新視角。
參考資料
Zhu, J., Wang, J., Wang, X. et al. Prediction of drug efficacy from transcriptional profiles with deep learning. Nat Biotechnol (2021).
https://doi.org/10.1038/s41587-021-00946-z
代碼
https://github.com/kekegg/DLEPS
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的Nat. Biotechnol. | 利用深度学习从基因转录数据中预测药物疗效的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 单片机寄存器
- 下一篇: Adobe illustrator 剪切