清华AI蛋白质结构预测,连续4周夺得CAMEO第一
衡宇 夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
AI蛋白質結構預測賽道,國產模型又有吸睛表現:
在蛋白質結構預測競賽CAMEO上,有支隊伍連續四周奪得全球第一。
達成這一成就的是來自清華大學智能產業研究院(AIR)的AIRFold。
△AIRFold 在7.23-8.20的評估中連續四周全球第一
CAMEO競賽(Continous Automated Model Evaluation)與CASP并列為蛋白質結構預測領域的兩大權威競賽。
不同之處在于CASP兩年一屆,CAMEO則是持續舉辦,每周都有結構生物學家最新破解出的蛋白質結構作為賽題。
CAMEO上得分與排名每周實時更新,華盛頓大學David Baker團隊的RoseTTAFold、百度騰訊華為等行業頂尖選手都在其中參與角逐。
AIRFold在近4周的比賽中,不僅預測結果IDDT分數領先,系統響應時間上也遠遠領先后幾名的團隊。
亮眼成績如何取得?后續又有哪些研究和應用方向?
帶著這些問題,我們聯系到項目負責人清華大學智能產業研究院清華大學智能產業研究院(AIR)的蘭艷艷教授,與她進行了深入交流。
下面送上對話實錄,為方便閱讀,我們在不改變原意的基礎上做了編輯整理。
對話實錄
量子位:AIRFold項目是從什么時候開始做的?能否介紹一下團隊基本情況?
蘭艷艷教授:AIRFold項目是AIR智慧醫療方向的一個重要部分,大約是2021年9月份開始,距離現在剛好一年左右的時間。
團隊成員是陸續到位的,目前總共有7-8人,除我之外還包括科研工程師,博士后和博士生等。成員背景基本都是AI方向的,也有生物學和化學背景的同學參與。
張亞勤老師和馬維英老師在整個項目進行過程中也一直在幫我們把握方向,提供資源支持,給我們團隊很多指導。同時我們的訪問教授彭健老師以及他帶領的Helixon(華深智藥)團隊也和我們進行過多次討論,對我們進行了一些技術指導,幫助我們團隊得到了很好的成長。
量子位:在AlphaFold2之后,出現了單序列預測的一些方法,AIRFold為什么堅持走同源信息挖掘這條路線?
蘭艷艷教授:OmegaFold和ESMFold等單序列模型確實沒有顯式地使用MSA作為特征,但嚴格講并非沒有用同源序列中隱含的共進化信息,它采取了一種隱式的使用方式。具體來說,OmegaFold通過基于掩碼語言模型(Mask Language Model, MLM)的蛋白質預訓練模型編碼了主序列然后用于預測結構,MLM天然地具有捕捉共進化信息的能力,這點在早期Meta 的蛋白質預訓練工作ESM中也有體現。直接使用MSA或者使用具備捕捉共進化能力的編碼器都是不同的方法而已。
我們選擇同源挖掘路線主要有幾個原因:
第一,從效果上講,以Meta(原FAIR)的ESMFold為代表的基于單序列的結構預測方案,比基于單序列的AlphaFold2效果要好,但是與直接顯式使用MSA序列的AlphaFold2方法相比還有不少差距。例如ESMFold在CAMEO以及CASP數據集上測試所得的TM-score分別是82.8以及67.8,對應AlphaFold2的TM-score是88.3以及84.7,有較大差距。我們認為ESMFold確實給我們指明了利用同源信息的新方式,但要達到替代MSA的效果還有較大的改進空間。
第二,當時選擇同源挖掘這條路線,首先是因為我們團隊有豐富的NLP背景,我們一看到AlphaFold2,就發現MSA這個模塊作為同源信息的輸入非常關鍵,而AlphaFold2的使用方式還停留在傳統方法上,因此我們很自然會優先選擇從我們擅長的MSA序列建模和檢索這個方面入手,應用最新的NLP技術來進行突破。
第三,最重要的原因,我們做AIRFold和參加比賽最終的目的不僅僅是為了蛋白質結構預測本身。我們希望在這個過程中從建模和計算的角度探究哪些重要信息如何作用最后影響了折疊的結果,這些積累能夠鍛煉我們的隊伍,讓大家對結構預測這個問題有更深刻的認識,同時也會啟發我們對蛋白質相互作用、序列到結構到功能等問題的思考,從而促進我們開展與AI賦能新藥研發相關領域的研究和應用。
量子位:能否展開講講同源挖掘模塊Homology Miner的技術細節和特色?
蘭艷艷教授:挖掘同源信息是目前主流蛋白質結構預測模型以及參賽服務器都會關注的一個關鍵技術方向,AIRFold的特色集中在獲取同源蛋白和對同源蛋白進行優化校正的方法上。
AIRFold 的Homology Miner在經典的同源檢索算法之外,整合了一些基于NLP全新技術所形成的算法,包括稠密檢索、面向多序列比對的同源蛋白生成等模型,這一系列的方法在一些初始缺乏同源信息的孤兒蛋白上,展示了比較明顯的效果,說明目前主流的同源檢索方法存在可提升空間。
除此之外,我們針對“什么是好的同源蛋白”這一問題,從信息論的角度給出了一個量化的定義,基于這一量化指標對于同源表征進行優化,可以穩定地提高結果以及魯棒性,這也為同源表征學習也提供了一個全新的思路和角度。
量子位:除了同源挖掘模塊外,AIRFold在AlphaFold2的基礎上還做了哪些改進?
蘭艷艷教授:除了同源挖掘模塊,我們對AlphaFold2目前所存在的一些問題也進行了有針對性的探索和改進。
例如在結果預測上,AlphaFold2還無法很好的解決蛋白的多構象和點突變問題,模型精度(即pLDDT)的預測也存在偏差的問題等。
以pLDDT的偏差為例,pLDDT本身是結構預測結果的一個置信度,大家發現在AlphaFold2提供的預測結果中,pLDDT通常還是比較準的,高的地方預測結果相對比較準確,低的地方預測結果不夠好,但是事實上作為神經網絡的輸出結果,pLDDT的魯棒性很差,很難反映MSA的微小變化或攻擊帶來的影響,這樣就導致在比賽或者實際應用中,如果完全以pLDDT為標準進行選擇,會引發嚴重的問題。
在這方面我們也提出了一些對抗訓練,多目標優化等新的思路,在這些問題的解決上取得了一些進展,歡迎大家關注我們后續的科研工作。
量子位:AIRFold保持高IDDT評估的同時,在系統響應時間上遠遠領先其他團隊,是靠什么做到的?
蘭艷艷教授:AIRFold是一個自動化的平臺,包括同源序列增廣、同源序列篩選、特征處理、結構預測、結果分析以及自動提交等模塊。
比賽序列過來的時候沒有任何人為的干預,我們的系統會自動的監控server是否有新來的序列,自動的補上提前設置好的參數配置,自動對蛋白質結構進行預測最后提交預測結果。
我們設計并實現AIRFold的初衷就是為蛋白質結構預測以及同源蛋白分析這一問題,找到通用的解決方案。盡管在比賽中的序列之間差異很大,比如有的同源很多,有的同源蛋白很少,我們在比賽中始終堅持使用同一套策略和系統,來減少人工對于不同的比賽序列進行不同的處理,力求得到一套通用的結構預測解決方案,這是我們響應迅速的主要原因。
量子位:AIRFold團隊重點介紹了CAMEO比賽中一個較難預測的蛋白7TVI,它的預測難點在哪里?
蘭艷艷教授:7TVI是來自 Planctomycetes(浮游菌門)細菌的Cas13bt3蛋白,相比其他序列來說有兩個難點。
首先是這個序列同源序列相對少,多序列比對(Multiple Sequence Alignment ,MSA)結果無論是從深度還是覆蓋度來說都是非常不理想的。我們第一次搜索的結果只搜索到了700條左右的同源序列,有三分之二以上的序列基本沒有覆蓋。我們都知道當下流行的AlphaFold2是高度依賴同源信息的,這樣低質量的同源序列必然是不利于結構預測的。
AIRFold團隊充分利用自主研發的HomoMiner的優勢,對低質量的MSA進行篩選過濾,選擇其中有價值的部分,去除冗余;同時利用深度稠密檢索技術和同源序列生成技術對MSA進行補充,豐富其中的信息,因此能在這個序列上做出比較好的結果。
其次,這個蛋白結構域多,變構大,因此構象比較復雜靈活。從PDB的結構和以往的研究來看,這個蛋白有HEPN1和HEPN2兩個核酸酶結構域,crRNA結合結構域又分為Helical1-1,Lid,Helical1-2,Helical2和Helcal1-3五個,中間有linker連接。目前主流的結構預測方法,比如AlphaFold2和ESMFold都主要使用單結構域蛋白進行訓練,這是因為PDB數據庫中單結構域蛋白遠多于多結構域蛋白。
此外,MSA中往往也會出現每條序列只覆蓋一個結構域的情況,不能提供多結構域之間關系的信息。這就造成多結構域之間關系不容易被準確預測。
AlphaFold-Multimer的成果對我們很有啟發,秉承結構域間關系信息也蘊藏于MSA中的理念,我們使用HomoMiner對MSA進行篩選,去除信息量低、噪聲大的序列,提高高質量同源序列中長程相互作用信息的信噪比。因此我們可以更準確地建模多結構域之間的關系。
這些經驗也符合我前面說到的,充分挖掘MSA信息雖然更加耗時,但是在實際數據上能提供更具啟發性的結果,也能夠讓我們在此過程中有思路去分析蛋白質的進化生物學問題。
量子位:除了CRISPR相關分子工具的挖掘與設計之外,AIRFold還在哪些領域有競爭優勢?
蘭艷艷教授:除了研究CRISPR/Cas系統本身之外,其實我們也在關注一些抗CRISPR蛋白(anti-CRISPRs,Acrs)。Acrs其實是非常有意思的蛋白。一方面,一些噬菌體會表達Acrs蛋白,從而增強其侵染細菌的能力。另一方面,一些細菌會產生針對自身基因組的CRISPR(self-targeing CRISPR),為了防止“自身免疫病”,細菌自己也會表達這樣的Acrs蛋白。
在我們內部的測試中,我們測試了一個上面描述的Acrs蛋白。7ENR_C這個蛋白是來自葡萄球菌的AcrIIA14,他可以結合Cas9抑制其活性(其中Cas9結合AcrIIA14的片段在圖片中標記為粉色)。AcrIIA14這個蛋白同源蛋白非常少,搜索數據庫后沒有找到什么同源序列,AlphaFold2預測的結構的lDDT也只有不到70。我們使用HomoMiner對MSA進行補充,能夠非常有效地提高預測效果,lDDT一下提高到了85。
除此之外,我們還觀察到原來AlphaFold2預測的不太好的區域主要是結合Cas9的結合位點附近,AlphaFold2預測的口袋偏小,而這個位置我們預測的結構更接近真實結構,口袋大小也更合適。這樣準確的預測可以允許我們更好的將預測Acrs蛋白結構并后續和已知的Cas9蛋白結構進行對接,分析其阻遏Cas9的原理,從而啟發我們設計出更強的Acrs來強化噬菌體療法;也可以助力相關抑制劑的設計。也許以后我們能讓細菌患上“自身免疫病”,緩解日益嚴重的抗生素耐藥問題。
我們后續會繼續推進在CRISPR/Anti-CRISPR這一對歡喜冤家上的結構預測,增強和相關生物研究組的合作,共同發掘微生物這一神奇的系統。
量子位:在研發過程中遇到最大的困難是什么?有沒有一個印象特別深刻的事件?
蘭艷艷教授:最大的困難是最開始的時候,團隊的主要成員背景都不是生物計算,對于蛋白質結構預測更是知之甚少。大家從頭開始,花了很多力氣一起學習領域知識,讀paper,向生物計算背景的人請教,包括Helixon的彭健老師以及他們的團隊,一點一點的把體系建立起來,研發新的模型,形成新的技術,搭建整套系統,再進一步再更多數據上進行預測和分析,也就開始有更多的理解和認識。
印象深刻的是參加CAMEO之后不久的一周,我們第一次拿到了周第二,當時特別開心,團隊成員受到了很大的鼓舞,感覺很長時間的辛苦沒有白費,再后面更加振奮,有信心去對原來不懂的問題設計新的解決方案,逐漸的成績越來越好,變得穩定起來。到現在,大家越做越興奮,因為除了能看到性能的提升,還能看到在具體某些重要蛋白上預測結果的變化,有了生物學背景同學的幫助和分析,我們能獲取更多模型上的理解和改進,大家真正體會到了學科交叉的樂趣,也對AI for Science的信心更堅定了。
量子位:AIRFold是從什么時候開始參加CAMEO競賽的,剛開始就取得了好成績么?
蘭艷艷教授:團隊最早是從今年的三月末開始第一次提交CAMEO結果,我們一開始制定的目標是實現一個系統化的結構預測解決方案,同時鍛煉我們的團隊,讓大家對蛋白質的結構預測問題有更深刻的理解。
那時候我們已經有一些模型上的積累了,但是接觸真正的實際數據還是第一次,并不是一開始就特別有效,從實際數據中發現了很多問題,幫助我們進一步去改進了模型,后來由于團隊成員也并行的參與其他的研究和CASP15的比賽,我們在算法上積累了更多的經驗。
六月末,我們把這些經驗逐步的變成新算法加入我們CAMEO比賽的服務器,逐漸展示出來不錯的表現。
量子位:我們注意到在AIRFold在研究院官網和微信公眾號都是第一次出現,為什么選擇這一時間亮相?
蘭艷艷教授:包括AIRFold在內的蛋白質結構預測和設計等研究方向一直是我們的AIR智慧醫療組的重要研究方向。選擇在現在公開AIRFold,一方面是展示我們在這一方向上持續布局投入的一個階段性成果。
另外,單體的蛋白預測以及對于共進化信息的深入理解是我們團隊后續開展在蛋白質以及大分子藥物相關研究的基礎,我們也希望利用這個契機增加和學界業界的交流與溝通,在結構與計算相關的領域持續發力,為AI賦能創新藥物研發做出貢獻。
量子位:官方消息說AIRFold的相關技術還在蛋白單點突變、多構象評估等問題取得初步進展,簡單展開講講?
蘭艷艷教授:在后AlphaFold2時代,其實蛋白結構預測已經是一個幾乎被解決的問題了。雖然所謂孤兒序列(Orphan Sequence)的結構并不容易預測,但是從進化的角度,有重要生物學功能的序列幾乎不可能是獨立存在的,因此這并不是很大的問題。AIRFold團隊在這樣一個時間點開始研究蛋白質結構,我們更多的是想關注蛋白的結構如何決定功能,如何助力藥物與療法的研發,并不是只關注結構預測這一個孤立的問題。在這樣一個背景下,我們就更加關注突變蛋白和多構象預測等問題。
蛋白點突變實際上和很多疾病是有關系的。我們現在耳熟能詳的一些遺傳病,比如囊性纖維化和家族性阿茲海默綜合征都是由蛋白發生點突變導致的。現在AlphaFold2預測突變后蛋白的能力還很有限,主要因為來自單序列的突變信息會被MSA中信息掩蓋住。如果一個點突變發生后導致原有的殘基間的相互作用消失了,這類突變是相對容易研究的;AIRFold團隊目前在這類問題中有一些進展,我們可以利用HomoMiner有針對性的破壞MSA中對應的信息。但是如果一個點突變導致這個殘基可以和其他殘基發生原來沒有的相互作用,這也會影響蛋白的結構和功能,但是這一信息卻不容易引入MSA中。我們目前也在聚焦這類問題對HomoMiner進行有針對性的優化和改進。
多構象預測其實是蛋白結構和功能以及藥物研發之間的另一道鴻溝。我們知道無論是AlphaFold2預測的還是實驗解析的蛋白結構其實都是靜態的。但是在酶、離子通道等重要蛋白發揮活性的時候,他們都很發生非常大的構象變化,變化過程中不穩定的中間狀態,往往可能是更好更高效的藥物靶點。盡管通過分子動力學模擬的方法可以研究蛋白的構象變化,但是分子動力學模擬往往會消耗較大的計算資源,而且不容易研究時間尺度較大的過程。目前我們也積累了一些關于多構象預測的技術方法,我們團隊通過深入分析AlphaFold在多構象任務上的不足,開發了一系列輸入信息微調的流程,以可控的方式獲得大量具有高度多樣性的構象。比如說在剛剛結束的CASP15中,我們遇到了經典的蛋白激酶Scr蛋白變構的問題(T1197),我們就使用目前開發的方法獲得了很多不同的構象。后續我們也會深入挖掘概率生成式模型在多構象預測上的潛力和可能性。
△CASP15比賽中的T1197蛋白
量子位:對AIRFold后續技術上還有哪些改進方向?又有哪些應用方向?
蘭艷艷教授:AIRFold本身更關注于深入利用同源信息,提高通用的蛋白質結構預測預測表現。雖然相關的技術可以直接應用到更復雜的場景下,但還存在一些局限性。從我們的角度來看,我們更期待對于一些學界業界關注的重點難題有更加令人滿意的解決方案,如對于抗體等特殊蛋白等處理,可變區域等預測,以及ligand和protein在結合狀態的下的構象預測等。我們團隊正在持續地推進這一部分的研究,同時我們也跟相關企業和科研單位進行密切交流,希望能夠在大分子制藥等方向找到共同感興趣的關鍵性問題,并且開展深入合作。我們也期待未來有更多的優秀研究人員加入到這個新興交叉科學領域,進一步發揮AI的價值。
團隊介紹
AIRFold來自清華大學智能產業研究院蘭艷艷教授團隊。
蘭艷艷教授畢業于中國科學院數學與系統科學研究院,獲得概率論與數理統計專業理學博士學位,師從著名數學家馬志明院士,研究方向為信息檢索,機器學習和自然語言處理。
△AIRFold團隊
清華大學智能產業研究院(AIR)AI+生命科學團隊招聘博士后/科研工程師/實習生,主要從事AI for Science的交叉學科研究,利用深度學習、自然語言處理、信息檢索等領域的前沿方法,解決交叉學科的各類挑戰性問題,技術創新將落地在AI制藥、健康計算等領域。
AIR將提供一流的科研平臺與創新氛圍,并提供有競爭力的薪酬。其中,本科和碩士實習生,有機會成為擬2023年入學的博士生候選人(團隊多位老師有計算機系直博名額)。
指導教師:馬維英教授/蘭艷艷教授/周浩副教授
簡歷請發送至 airhr@air.tsinghua.edu.cn
郵件主題:醫療健康+姓名+申請職位
參考鏈接:
[1]https://mp.weixin.qq.com/s/ROeZYKvVJm-EBbhnDKZR1w
[2]https://air.tsinghua.edu.cn/info/1046/1200.htm
[3]https://www.sciencedirect.com/science/article/pii/S1097276522007547
— 完 —
「量子位·視點」直播報名
高階智能駕駛的量產有什么特點?量產路線如何選擇?落地進程又到了哪一階段??
9月15日周四19:00,參與直播,為你解答~
點這里👇關注我,記得標星哦~
總結
以上是生活随笔為你收集整理的清华AI蛋白质结构预测,连续4周夺得CAMEO第一的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 邮件归档与备份的区别
- 下一篇: 真牛逼!玻璃大王曹德旺捐资100亿办大学