Nature | 基于66种癌症类型训练机器学习模型,绘制癌症基因潜在驱动突变图谱...
隨著醫(yī)療技術(shù)的進步,人類的健康水平獲得了極大提升。但面對給人類健康帶來巨大威脅的癌癥,尚沒有十分有效的治療手段。據(jù)世界衛(wèi)生組織統(tǒng)計報告,2012年全世界估計約1410萬人被檢測出癌癥,并造成820萬人死亡(相當(dāng)于全年死亡人數(shù)的14.6%)。男性最常見的癌癥包括肺癌(LUAD)、前列腺癌(PRAD)、結(jié)直腸癌(COREAD)以及胃癌(Stomach cancer);女性常見的乳癌(thoracic cancer)、結(jié)直腸癌(COREAD)、肺癌(LUAD)和宮頸癌(UCEC);兒童是白血病(ALL)和腦瘤(Brain tumour)最為常見[1]。
在整個生命過程中,細胞DNA受損后導(dǎo)致基因突變,并引發(fā)一系列機體反應(yīng),最終引起癌癥的發(fā)生。人類對癌癥的研究已經(jīng)進入基因組時代,科學(xué)家們將癌癥相關(guān)基因進行了整理和標(biāo)記[2,3]。這些癌癥相關(guān)基因又被分為驅(qū)動癌基因(driver)和從動癌基因(passenger),對于基因間的關(guān)系如何,對腫瘤發(fā)展的影響水平大小以及這些基因在不同腫瘤之間的不同突變頻率具有怎樣的意義等問題,在很大程度上仍然是個未解決的問題。已有研究表明,例如腫瘤蛋白TP53,表皮生長因子受體EGFP和β連環(huán)蛋白CTNNB1突變與大多數(shù)癌癥的發(fā)展有關(guān)。同時,絕大多數(shù)癌基因突變發(fā)生在中性突變之后,對特定三核苷酸變化具有明顯偏好。
癌癥基因機器學(xué)習(xí)模型的訓(xùn)練和建立
近日,巴塞羅那生物醫(yī)學(xué)研究所研究團隊通過模擬中性突變,用機器合成一組推測的從動癌基因突變,以此來模擬在人體內(nèi)癌癥相關(guān)基因的多米諾骨牌式突變。研究團隊基于機器學(xué)習(xí)的方法開發(fā)出一種算法“boostDM”(圖1),用于評估給定基因所有可能的誘變,并評估它們對癌癥發(fā)展影響的可能性。該算法可幫助臨床醫(yī)生對于病人的癌癥發(fā)展做出更準(zhǔn)確的解釋。該研究成果發(fā)表在Nature上,文章題為“In silico saturation mutagenesis of cancer genes”。
文章的通訊作者López-Bigas表示:“該算法可模擬特定類型癌癥的每個基因中的每個可能突變,并指出哪些是癌癥過程中的關(guān)鍵。這些信息有助于我們在分子水平了解腫瘤是如何引起的,促進癌癥患者進行最適合治療的醫(yī)療決策。”
圖1.用肺癌(LUAD)樣本對機器學(xué)習(xí)模型boostDM的訓(xùn)練和交叉驗證。來源:Nature[4]
研究人員從公共數(shù)據(jù)庫中收集了來自66種癌癥類型約28,000個腫瘤樣本數(shù)據(jù),確定了568個癌癥基因突變。研究發(fā)現(xiàn),與隨機突變相比,在樣本中發(fā)現(xiàn)的驅(qū)動癌癥生長和發(fā)展的突變數(shù)量更多。
驗證機器學(xué)習(xí)模型的性能
研究團隊通過交叉驗證檢測了boostDM模型的性能。從圖2中可以看出,boostDM模型比其他算法更加精準(zhǔn)(precision)和更高的發(fā)現(xiàn)能力(recall)。boostDM獲得的數(shù)據(jù)和實驗數(shù)據(jù)具有較高的吻合度。
圖2. boostDM模型優(yōu)于其他算法。來源:Nature[4]
鑒別驅(qū)動基因
研究人員在肺癌與膠質(zhì)母細胞瘤中鑒定驅(qū)動癌基因和從動癌基因。(圖3)分析發(fā)現(xiàn),兩種癌細胞中驅(qū)動癌基因的分布不一致,反映了腫瘤發(fā)生的不同機制。圖3D中SHAP值越大的基因表示該基因?qū)Π┌Y的發(fā)展產(chǎn)生的驅(qū)動效應(yīng)越強,越小則表示其對驅(qū)動因素負面作用回饋。
圖3.驅(qū)動癌基因的特征。來源:Nature[4]
癌癥基因的驅(qū)動突變圖譜
研究團隊將185個癌癥基因-組織模型應(yīng)用于基因序列中所有可能的核苷酸變化進行實驗,以繪制全面的不同蛋白質(zhì)區(qū)域具有跨腫瘤類型驅(qū)動突變的可能性的圖譜(圖4)。
圖4.TP53和CTNNB1的驅(qū)動突變圖譜,EGFR在三種腫瘤組織中的突變圖譜。來源:Nature[4]
突變概率的影響
該突變圖譜揭示了許多從未在腫瘤中觀察到的潛在驅(qū)動突變。為探索突變概率對驅(qū)動突變的影響,研究人員計算了不同腫瘤類型癌癥基因中所有潛在驅(qū)動突變的發(fā)生概率。結(jié)果顯示,大多數(shù)癌癥基因表現(xiàn)出強烈的突變概率偏倚,腫瘤抑制基因通常表現(xiàn)出比癌癥基因明顯更強的偏倚。這意味著,對于大多數(shù)癌癥基因,潛在驅(qū)動突變的發(fā)生概率會影響它們中的哪些基因會被檢測到。
總結(jié)
正如文章作者所說:“該研究結(jié)果報表明,應(yīng)用受進化生物學(xué)啟發(fā)的機器學(xué)習(xí)方法來構(gòu)建高質(zhì)量模型是可行的。這些模型從人類腫瘤中檢測到的突變中學(xué)習(xí),以識別癌癥基因中的驅(qū)動突變。”
到目前為止,研究團隊已經(jīng)利用BoostDM制作了185個模型來識別不同類型癌癥的突變。例如,確定了導(dǎo)致肺癌腫瘤的EGFR基因中所有可能的突變,并在另一個模型中確定了膠質(zhì)母細胞瘤腦腫瘤。研究人員計劃繼續(xù)開發(fā)和改進 BoostDM,隨著越來越多不同腫瘤測序數(shù)據(jù)的加入,應(yīng)該會變得更加準(zhǔn)確。
參考資料:
[1]. World Cancer Report 2014. World Health Organization. 2014: Chapter 1.1. ISBN 9283204298.
[2]. Sondka, Z., Bamford, S., Cole, C. G., Ward, S. A., Dunham, I., & Forbes, S. A. (2018). The COSMIC Cancer Gene Census: describing genetic dysfunction across all human cancers. Nature Reviews Cancer, 18(11), 696-705.
[3]. Martínez-Jiménez, F., Mui?os, F., Sentís, I., Deu-Pons, J., Reyes-Salazar, I., Arnedo-Pac, C., ... & Lopez-Bigas, N. (2020). A compendium of mutational cancer driver genes. Nature Reviews Cancer, 20(10), 555-572.
[4]. Mui?os, F., Martinez-Jimenez, F., Pich, O., Gonzalez-Perez, A., & Lopez-Bigas, N. (2021). In silico saturation mutagenesis of cancer genes. Nature, 1-5.
·?END?·
?熱文推薦
AJHG背靠背發(fā)文:光學(xué)基因組圖譜進行染色體畸變檢測,或?qū)㈤_啟“下一代細胞遺傳學(xué)”時代
復(fù)旦大學(xué)中山醫(yī)院樊嘉院士、楊欣榮教授團隊合作揭示肝細胞癌CTC空間異質(zhì)性和免疫逃避機制
北大/中科院計算所團隊發(fā)布基因功能富集分析平臺KOBAS-i
PacBio斥資8億美元收購Omniome,實現(xiàn)長讀長和短讀長測序技術(shù)強強聯(lián)合
喜歡就點個“在看”吧!
總結(jié)
以上是生活随笔為你收集整理的Nature | 基于66种癌症类型训练机器学习模型,绘制癌症基因潜在驱动突变图谱...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习笔记十二之异常检测
- 下一篇: YumRepo Error: All m