AI+药物研发:人工智能赋能新药研发(人工智能应用案例)
首先,生物制藥行業面臨著兩個挑戰:
第一,新藥研發周期很長且非常復雜;
第二,藥物研發過程成本昂貴。在1950年的時候,十億美元可以研發幾十個藥,到了2020年之后,十億美元只能研發一個藥(如下圖),所以就需要大量的投入。
隨著對藥物審批過程的要求越來越嚴格,對藥物副作用的要求越來越高,使得新藥的研發變得越來越慢。如果我們能把研發時間減半,成本減半,再加上巨大的市場需求,這個領域是具有廣闊前景的,所以最近很多投資或者AI方面的研究,都在朝著這個方面發展。
之所以會如此有挑戰,是因為背后復雜數據,或者復雜的生物機理造成的。如果我們能夠對復雜的數據與機理進行更好的分析研究,也許我們就可以把時間與成本減半。
那為什么這么復雜。首先人體是非常復雜且多尺度的網絡,有各種各樣不同類型的器官(上圖),不同的器官有它自己的疾病,但是器官絕對不是一個獨立的個體,它是一個網絡,一個系統。如果你看單個器官,里面有各種各樣類型的細胞,它們之間互相交互,互相傳遞信息協同,才能完成一個器官的功能。不同的細胞之間有信號串擾,有各種各樣的細胞因子,它們之間會影響彼此,每個細胞有不同的功能和形態才能產生它的方式,所以組織層面是非常復雜的細胞網絡。
如果單看一個細胞,里面也是有很復雜的網絡構成,細胞里面經常提供的是蛋白質,可能在細胞膜上,也可能在細胞里面,這些蛋白質不是以獨立個體的形式在工作,而是通過互相作用的方式來產生功能。比如:在細胞膜表面蛋白,在接受外界的刺激后,會把信號傳遞到細胞里面,通過一個非常復雜的網絡來實現某種機理,比如說,分泌更多的某種物質,或者是產生更多的能量,甚至回過去調控基因的表達,讓某種蛋白變的更多。
我們要理解并治療某個疾病,就要多尺度多角度的考慮,既要看組織層面,又要看分子層面,并找到疾病的靶點,才能有針對性的進行治療。
現階段很難對人體的各個維度的數據同時做一個精準的測量,因為需要同時對各個尺度采集數據。在整個個體層面,有各種各樣很大的數據,且數據量增長速度比摩爾定律還要快。
所以可以想象,這么大量且復雜的多尺度的數據,要對它進行分析,并從中間抽取非常微妙的信號來理解疾病,尋找疾病的靶點,目前已經超越了傳統的生物學家或者是醫學家的手工分析工具的能力,所以他們會需要基于AI的方法,基于大數據分析的方法,能夠把各種各樣的數據進行某種整合、分析,從中間抽取一些信息。自動化該過程,才有可能跟上數據的復雜程度和數據的量,然后從中間找到一些有用的信號。
通過分析數據和多樣的模型,可以對各種各樣的東西做預測,比如:可以預測這個蛋白是不是疾病的靶點,擾動這個細胞,是否會產生某種現象?這些都可以通過模型預測,但預測完后,還需要做試驗,比如說細胞的實驗,去驗證模型的預測是不是正確。
這也是這個領域的一個挑戰,傳統的生物實驗室是一個非常開環的環境。首先實驗人員對細胞進行某個擾動,再去測量這個細胞狀態的變化,收集各種各樣的數據。在這個過程之后,會有幾個分析人員,拿到實驗室做個簡單的分析,交給實驗室主任或者教授來判斷并決定下一個實驗。這個過程雖然是一個閉環的過程,但這個閉環的速度很慢,可能是幾周時間甚至更長時間。
我們可以把生物實驗的環境和推薦系統做一個對比,很多互聯網公司很多情況下得益于推薦系統非常精準的推薦及推薦系統高效的迭代。如果把這個推薦系統對用戶展示的前端頁面看成是個實驗環節,推薦系統的前端可以展示推薦算法和模型推薦的產品,在展示之后,可能這個APP有幾億人在用,如果推薦算法推薦得好,就能看到推薦產品的人,在很短的時間內點擊購買推薦的產品。如此,就知道這個推薦算法好壞與否,如果推薦的東西沒有被點擊沒有被購買的話,可能是推薦算法不太好。所以,無論用戶是否點擊了推薦產品,都會是一種隱含的的反饋,這些數據都會存在這個APP或對應的數據中臺里面,可能隔夜或者隔周要迭代推薦算法模型,當這個模型迭代以后,會很快更新上線,然后會做一個更新的推薦。如果能把實驗的環節和數據分析以及決策的過程,更加好的閉環自動化,也許會有更高效的方式去驗證并發現一些新的靶點或者新的藥物。
如果能夠建立一個平臺,使AI和實驗環境如推薦系統高效跑起來,實驗的數據可以自動落到數據中臺,包括生物實驗的實驗基數據,及部分圖像數據或其他數據,都能落到中臺的話,就會有一組AI模型對各種類型的數據進行分析,以及對這些數據進行整合,產生新的預測, 進而推進實驗(下圖)。
除此之外,我們不僅有自己的濕實驗平臺及實驗平臺和AI模型閉環的系統,還會對很多前人已經研究的成果進行一個集成,因為過去幾十年的生物信息學和計算生物學研究過程,已經產生了非常多的公開數據,包括如蛋白質相互作用的數據,及基因表達數據,我們都會整合到知識庫里。
我們的卓越計劃中,也會和部分國內的大醫院合作,去收集針對某個疾病設計的一些隊列數據。
這個大模型涉及到三個問題:
第一,如何發現一個藥物靶點?
第二,如何針對某一個已經發現的藥物靶點,做一個對應的藥物優化?
第三,如果要做實驗,在實驗平臺里面產生數據如何分析,包括圖像數據的分析。
基于以上,今天我主要從靶點發現、藥物優化、驗證三個方向闡述。
首先,靶點發現(下圖)。
其實剛才我也提到,理解一個疾病發現一個靶點,實際上我們要分析復雜的多尺度的系統。通常情況下,描述復雜系統最好的方式就是復雜網絡,在細胞層面的復雜網絡每個節點就是一個蛋白質,它們是連接成一個非常復雜的網絡,這個蛋白質被激活可能去激活其他的蛋白質,然后其他幾個一起形成一個復合體以完成某種功能,這個圖比互聯網的人與人之間的交互圖更加復雜,它叫做超圖,它的每條邊并不是只涉及兩種蛋白質,有可能是幾個蛋白質一起形成新的相互作用,才能產生后面的功能,因此是一個復超圖。如果要分析某個節點是不是一個區分癌癥組織和正常組織的蛋白質或者生物標志物。以及假設激活或抑制一個蛋白質會帶來怎樣的下游效應,這些都是和靶點相關的預測問題。
可以想象,他的輸入是一個復雜的的超圖,它有超圖上的各種各樣的分類問題或者是預測,甚至是回歸問題。甚至預測組合效應如果我同時按下兩個按鈕,它會產生什么樣的影響?
超圖是一種類型,對于每一種類型的數據,包括蛋白質,RNA還有基因序列,可以做實際數量的測量,比如:蛋白質在這個細胞里面有多少,基因表達了多少,這個序列的三維組織結構是怎樣的。這些信息可以映射回這個網絡里面每個節點上的。所以,除了超圖連接上的復雜之外,每個圖的節點也蘊含著非常復雜的信息,可以想象很多做社交網絡分析的一些方法,被擴展或者修改甚至進行一些新的創建,才能分析這種復雜的這種超圖結構。
其次,假如你已經發現了一個靶點(上圖),發現其中某個蛋白質是關鍵節點并希望能激活,抑制它,就需要設計一個藥物來做這件事。靶點在細胞內,你需要一個小分子進入到細胞里面去,如果這個靶點是在膜蛋白或者在細胞膜表面,你要用另外一種蛋白的方式去激活或者抑制它。很多情況下蛋白質工作與否,實際上是和它的三維結構很大關系。蛋白質一開始的時候是一條序列,細胞里面涉及的分子不管是DNA RNA還是蛋白質甚至小分子它都有對應的三維結構。火爆的AF2就是根據蛋白質序列預測蛋白質的三維結構。假如我們對三維結構有很好了解之后,我們就可以對它的功能有更加準確的理解。因為蛋白質和蛋白質之間的相互作用,其功能是因為兩個蛋白質有一種像鑰匙和鎖的一個關系,它們只有能夠對上且對得很好的情況下,它的功能才會被完全發揮出來。
最后,我想講一下(上圖),這方面涉及到的一些問題和挑戰。我們的實驗平臺,會產生大量的圖像數據。它們不單單是單個細胞圖像數據,有可能混合幾種不同的細胞,而且這個細胞它可能不單單是一個黑白的圖像,也有可能是一個有6種顏色的圖像,是一個叫高內涵的圖像。在這種情況下要對它做各種各樣的,比如說細胞的檢測,它的分割及形態的描述,然后進行各種各樣的更加細致的分析。所以很多細胞視覺研發思路甚至最先進的研發思路都在做這個。除此之外,實驗的平臺是和AI模型有個閉環,所以如何把AI的模型的預測結果來指導實驗的下一步,也有很多AI或者機器學習的算法可以去探索,包括主動學習,貝葉斯優化或者是在線學習各種各樣的方法。可以想象,都會在AI模型和實驗閉環中產生非常大的作用,比如減少實驗的次數。每次實驗產生的信息足夠多,就能夠幫助更快地發現一些有效的藥物,發現一個合理的靶點。
在處理這些實驗的數據時,有的情況下會叫人來打標。它需要有生物背景本科或者博士生醫學背景的這些人員才可以。如果能夠使用盡量少的打標數據或者有選擇性的打標,很快能夠得到一個比較精確的模型。
那如何讓AI模型和人一起產生協同作用,能夠把任務做得更好,就可以嘗試把模型迭代更新與打標人員放在一起,建立系統,讓模型提出一些候選對象,然后讓人員對這個候選對象或者不同水平的人員,對不同的打標需求做匹配。
講了這么多,結束前我想回到復雜系統。每個復雜網絡節點的結構的數據分析,及各種各樣的AI問題,需要各種類型的AI人才去合作,去理解這個疾病,才能把這個靶點和這個藥物找到。
總結
以上是生活随笔為你收集整理的AI+药物研发:人工智能赋能新药研发(人工智能应用案例)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第十一届蓝桥杯A组省赛填空试题 C: 蛇
- 下一篇: AI+遥感:释放每个像元价值(人工智能应