Cell | 深度突变学习预测SARS-CoV-2受体结合域组合突变对ACE2结合和抗体逃逸的影响...
本文介紹一篇來自于蘇黎世聯邦理工學院的Joseph M. Taft在Cell上發表的工作——《Deep Mutational Learning Predicts ACE2 Binding and Antibody Escape to Combinatorial Mutations in the SARS-CoV-2 Receptor Binding Domain》。
SARS-CoV-2的持續變異以及對疫苗和中和抗體產生耐藥性變種的出現,有可能延長COVID-19流行的時間。SARS-CoV-2變種的產生部分是由于病毒突刺蛋白,特別是ACE2,與受體結合域(RBD)的突變產生的。ACE2也是中和抗體的主要靶點。作者提出了一種基于機器學習的蛋白質工程技術——深度突變學習(DML)。DML能對ACE2結合和抗體逃逸的影響做出準確預測,并且能查詢數十億RBD變體組合突變的大規模序列空間。高度多樣化的SARS-CoV-2變種已經被確定來自多種進化路線。DML可用于對當前和未來變異的預測分析,包括高突變的變異,如奧密克戎(Omicron),從而指導COVID-19治療性抗體療法和疫苗的開發。
1.介紹
在2021年和2022年期間,具有較高傳播率和免疫逃逸(抗體逃逸)的SARS-CoV-2變種已經取代了最初的原始株(Wu-hu-1)。這類變體通常在RBD中至少存在一個突變,會直接影響與ACE2的結合。例如,Alpha (B.1.1.7)、Beta(B.1.351)和Gamma (P.1)變異均具有N501Y突變,該突變與ACE2具有較高的親和力。
中和抗體,包括單克隆抗體療法和那些由疫苗誘導的抗體(原始的Wu-Hu-1刺突蛋白),通常與變體的結合活性和中和活性會降低。詳細的分子分析表明,許多SARS-CoV-2中和抗體具有相同的序列和結構特征,這導致它們被分為四個由RBD靶向表位組定義的常見類別。第1類抗體包括以前臨床使用的REGN10933 (casirivimab)和LY-CoV16 (etesevimab)。K417位點突變的循環變異體(例如Beta、Gamma和Delta + (B.1.617.2 + K417N))以及水貂Y453F突變(Cluster 5)會降低這些1類抗體的中和作用。2類中和抗體包括臨床使用的LY-CoV555 (bamlanivimab)也會強烈抑制ACE2的結合。然而,具有RBD突變E484K/Q的Beta、Gamma、eta (B.1.525)、Kappa (B.1617.1)和iota (B1.526)等變體都會導致大大降低結合活性和中和活性。第3類抗體,包括臨床使用的REGN10987 (imdevimab)和S309 (sotrovimab),結合部分保守表位,并對幾種變體(如Alpha、Beta、Gamma)產生耐藥性。CR3022等第4類抗體針對sarbecovirus病毒中高度保守的表位,并且在很大程度上對逃逸變體具有抗性,但由于它們不直接抑制ACE2結合,因此通常缺乏中和作用。
Omicron的出現表明,變異可以進化出嚴重的免疫逃避特性,例如逃脫結合到一系列不同RBD表位的幾種中和抗體。值得注意的是,幾乎所有臨床批準的抗體療法都失去了對Omicron的實質性中和活性(ba1 / B.1.1.529),包括Eli Lilly(LY-CoV16+LyCoV555)、Regeneron(REGN10933+REGN10987)和AstraZeneca (AZD8895+AZD1061)的多類抗體雞尾酒療法。所有這些后來都被美國FDA撤銷了臨床授權(Eli Lilly和Regeneron)或修改了劑量(Regeneron)。一個例外是S309,它最初是從感染SARS-CoV-1的患者的B細胞中分離出來的,對SARS-CoV-2具有交叉反應性。S309降低了對Omicron的中和活性(ba1),但仍然有效的原因可能是它與在基因多變的sarbecovirus病毒中發現的一個高度保守的表位結合。然而,Omicron亞譜系ba2顯示S309大量逃逸,并在2022年初廣泛傳播,從而導致S309失去臨床授權。截至2022年8月,LY-CoV1404 (bebtelovimab)是唯一經臨床批準的抗體,該抗體與原始的Wu-Hu-1 RBD結合,對Omicron ba1和ba2變體和新興的ba4和ba5亞系都保持了很強的中和活性。
Bloom等人對SARS-CoV-2的整個201個氨基酸RBD進行了酵母表面展示和深度突變掃描(DMS),以確定單位置替換對與ACE2結合和逃離單克隆抗體或血清抗體的影響。雖然DMS在RBD單突變分析方面非常有效,但之前的幾個循環變體(如Beta、Gamma和Delta)具有多個RBD突變,而Omicron及其亞系具有多達21個RBD突變(BA.1.12.1),因此迫切需要確定組合突變的影響。然而,隨著突變數量和氨基酸多樣性的增加,組合序列空間呈指數增長,迅速超過了實驗篩選技術的能力。例如,當只關注直接參與ACE2結合的20個RBD殘基中的一個子集時,理論序列空間遠遠超過了酵母文庫所能篩選出的。
本研究中,作者通過集成RBD突變文庫的酵母展示篩選與深度測序和機器學習(圖1),建立了深度突變學習(DML)。使用DML全面查詢RBD組合突變及其對一組中和抗體中ACE2結合和逃逸的影響,包括臨床使用的治療方法和其他廣泛中和和有效的抗體。DML揭示了RBD突變高度多樣化的突變范圍,這些突變可以保持與ACE2的結合,同時避開許多不同類別的中和抗體。最后,DML能夠預測抗體對未來SARSCoV-2變異的穩健性,可以用來評估和選擇最有臨床發展前途的抗體治療。
圖1 RBD深度突變學習預測ACE2結合和抗體逃逸綜述。RBD或SARS-CoV-2刺突蛋白在酵母表面表達,突變文庫設計在RBD的受體結合基元上(RBM-3、RBM-1、RBM-2),這些位點與ACE2和中和抗體(如治療性抗體藥物)相互作用。通過FACS篩選與ACE2結合和中和抗體的RBD文庫,分離出結合和非結合(逃逸)群體并進行深度測序。訓練機器學習模型,根據RBD序列預測ACE2或抗體的結合狀態。然后,使用機器學習模型預測ACE2結合和抗體逃逸在當前和未來的變異和譜系。
2.結果
2.1 RBD突變文庫的設計與篩選
SARS-CoV-2 RBD突變文庫位于受體結合基序核心區域(RBM-3: 439-452位; RBM1: 453 - 478; RBM-2: 484-505)。這是與ACE2接口的RBD子區域,在此區域中病毒基因組測序數據中通常可以觀察到突變。為了生成高突變序列空間的訓練數據集,Starr等人此前發表了ACE2結合的DMS數據,并設計了組合突變方案。對單個突變的適應度值進行了經驗閾值設置并將其轉化為氨基酸頻率,排除了低于ACE2結合適應度閾值的突變。對于每個位點,通過最小化均方誤差選擇接近所需氨基酸分布的退化密碼子(一些位點由于無法耐受突變和保留ACE2結合而保持固定),從而得到理論氨基酸多樣性為 (文庫3C)、 (文庫1C)和 (文庫2C)的RBM文庫(圖2A)。研究人員還設計了一個擴展版的2C文庫,在417位和439位具有完全退化密碼子(NNK),這些密碼子在許多循環變異體中發生突變,并與抗體逃逸相關,得到的氨基酸理論多樣性為(文庫2CE)。為了生成較低突變序列空間的訓練數據集,作者構建了平鋪突變文庫,將完全退化密碼子(NNK)平鋪在每個RBM的3個位置,理論氨基酸多樣性分別為 (文庫3T)、 (文庫1T)和 6(文庫2T)(圖2B)。
合成的寡核苷酸通過編碼不同文庫,跨越感興趣的區域,使用PCR擴增得到與RBD全序列同源的雙鏈DNA。將酵母(S. cerevisiae EBY100)與文庫編碼的DNA和線性化質粒共同轉化,每個文庫獲得個以上的轉化子。RBD變體在酵母表面顯示為與Aga2的C端融合。它是基于結合可溶性人ACE2受體,通過熒光激活細胞分選(FACS)分離得到的(圖2C)。同時也會分離出與ACE2完全失去結合的RBD變體。重要的是,這并不包括僅部分降低結合的變體,因為這樣的中間種群由于不能指定結合或者不結合,不能用來訓練監督機器學習模型(圖2C)。對所有已排序文庫進行RBD基因的深度靶向測序(Illumina),蛋白序列標簽顯示,ACE2結合和非結合片段的氨基酸使用模式高度相似(圖2D)。
抗體包括臨床使用的治療性抗體(REGN10987、REGN10933、LY-CoV16、LY-CoV555、S309和LY-CoV1404),特殊的sabrecoay病毒的抗體(S2E12、S2H97和A23-58.1)和其他直接從COVID-19個體中分離的強效中和劑(G32A4、mAb-50、mAb-64和mAb-82)。每個抗體和文庫的結合和逃逸(非結合)的比例變化很大,例如RBM-2文庫REGN10933的逃逸突變比例很低,而LY-CoV555的逃逸突變比例很高(圖2E)。對所有已排序的RBD文庫的抗體結合部分和逃逸部分再次進行深度測序,與ACE2相似,兩個部分的蛋白序列標識看起來高度相似。
圖2 ?RBD突變文庫設計,酵母表面展示篩選及深度測序。(A)顯示的是氨基酸在組合文庫(文庫3C, 1C, 2C)中的使用情況。退化密碼子來自于用于ACE2結合的DMS數據 (B) 退化密碼子的代表性例子平鋪在RBM-2上,它們被匯集在一起組成庫2T。(C)流式細胞儀點圖顯示酵母顯示篩選組合(1C、2C、2CE、3C)和平鋪RBD文庫(1T、2T、3T)和對照RBD (Wu-Hu-1)。(D) RBD的氨基酸標簽圖是基于ACE2結合和非結合選擇的深度測序數據。(E)流式細胞儀點圖描繪了酵母展示篩選ACE2結合的RBD庫(2C和2CE)的結果。
2.2 機器學習模型能夠準確預測ACE2的結合和抗體逃逸
來自ACE2選擇的深度測序數據經過預處理、質量過濾和平衡步驟,形成最終的訓練集。在核苷酸翻譯到蛋白質后,氨基酸序列通過獨熱編碼轉換為輸入矩陣(圖3A)。使用機器學習模型對ACE2結合進行分類,模型輸出為任何給定RBD序列與ACE2結合的概率P(較高的P與結合相關)。使用來自RBM-2庫的數據訓練了一系列基線模型,并使用準確率、F1、精度、召回率進行評估。測試的機器學習模型包括最近鄰KNN、邏輯回歸、樸素貝葉斯、支持向量機SVM和隨機森林RF、RNN。在RBM-2庫上訓練的所有基線模型都有很好的性能(即準確率在0.87 - 0.94之間)。由于RF和RNN模型具有較好的性能,訓練速度較快,作者選擇它們進行進一步的優化和應用。
SARS-CoV-2通過一系列突變,包括Omicron等變體及其亞系,它們的RBD中產生了多個組合突變。因此,在不同的突變編輯距離(ED)中確定機器學習模型的性能很重要。最初,由單點突變(ED1)組成的DMS數據被用于訓練基線模型,所得到的模型在ACE2結合預測方面表現出非常差的性能(即準確率為0.50, AUC為0.56 - 0.65)。這可能是因為單點突變在較遠的距離上不具有可加性,因此無法解釋組合突變的非線性影響,導致模型預測幾乎所有的組合逃逸變體都是ACE2結合劑。將數據分為低突變距離(≤ED5)和高突變距離(≥ED6)。作者發現,當只使用低距離庫(2T)訓練模型時,它們對高距離數據ACE2結合的預測性能非常差(準確率<0.65,AUC <0.83)(圖3B)。然而,僅使用高距離(RBM-2C/CE)或聯合低距離和高距離庫(RBM-2 Full)訓練的模型在所有距離上的表現都得到了極大的提高,低距離和高距離的準確率分別為>0.94和>0.92,兩種模型的AUC均為>0.97(圖3B)。
與ACE2選擇類似,抗體選擇的深度測序數據經過預處理、質量過濾、平衡和編碼。使用監督機器學習模型(RF和RNN)對抗體逃逸進行分類,將抗體逃逸定義為給定RBD序列逃逸給定抗體的概率(低P值與逃逸相關)。與之前一樣,作者表明,與只有低距離(RBM-2T)或只有高距離庫(RBM-2C/CE)的模型相比,同時使用低距離和高距離庫(RBM-2 Full)的模型能夠更好地預測對典型抗體(LY-CoV16)的逃避(圖3C)。幾乎所有抗體的RBM-2模型都顯示出很高的性能指標,只有LY-CoV555表現出較低的F1得分。機器學習訓練和基準測試表明,平衡的分類數據(結合和非結合/逃逸中的序列變體數量相似)是訓練精確模型所需的。因此,LY-CoV555模型較低的性能可以通過其不平衡的分類數據來解釋(幾乎所有RBD變體都逃逸了LY-CoV555)(圖3D)。對于RBM-1庫,大多數抗體在低ED時產生不平衡的分類數據(很少在≤ED5時產生逃逸變異體)。因此,RBM-1模型僅使用高距離數據(≥ED6)進行訓練,除了LY-CoV16、mAb-64和mAb-82這類數據不平衡的抗體(圖3E)以外,對大多數抗體都會產生好的效果。最后,對于RBM-3庫,幾乎所有抗體的分類數據都是不平衡的,因此,未來將排除研究RBM-3機器學習模型。
圖3 訓練和測試基于RBD序列預測ACE2結合和抗體逃逸的機器學習模型和深度學習模型。(A)來自ACE2和單克隆抗體(mAb)選擇的深度測序數據經過獨熱編碼,用來訓練監督機器學習(RF)和深度學習模型(RNN)。模型根據RBD序列預測ACE2結合或不結合以及mAb結合或逃逸(不結合)的概率(P)來進行分類。(B和C)在2T、2C或Full ACE2或LY-CoV16結合數據上訓練的RF和RNN模型的性能,通過精度、F1和ROC曲線顯示。低距離序列和高距離序列分別定義為WuHu-1 RBD中≤ED5和≥ED6的序列。(D和E)在RBM-2和RBM-1數據上訓練的13個mAb模型的準確性、F1和AUC,在低距離和高距離測試序列上進行評估。
2.3 合成譜系變體的預測分析
用計算機生成合成譜系可以模擬可信的進化路徑,其中排除了每個突變步驟中沒有預測到ACE2結合中間體的RBD變體(圖4a)。重點分析了RBM-2區域和四種中和抗體(LY-CoV16、LY-CoV555、REGN10933、REGN10987)。當RF和RNN模型均得出P > 0.5時,預測給定的RBD序列與ACE2結合,否則預測它們是非結合劑。選擇46個合成譜系變體來體現ACE2結合預測的多樣性(圖5a)。此外,使用類似的模型方法對合成變體的四種治療性抗體的逃避進行預測。在完成所有的機器學習預測后,將每個合成的RBD變體分別在酵母細胞表面展示,并評估ACE2結合和抗體逃逸情況。模型對ACE2結合的預測準確率為91.67%,非結合預測準確率為100%,總體預測準確率為93.48% (圖4b)。對于33個正確預測的ACE2結合變異,4種治療性抗體的抗體逃逸預測的綜合準確率為93.94% ?(圖4c)。AlphaFold2對8個合成RBD變體進行了結構預測(圖4d)。結果表明,幾個ACE2非結合變體與原始的Wu-Hu-1 RBD沒有本質上的差異。相反,ACE2結合變體出現了廣泛的結構構象。
圖4 RBD變體合成譜系的預測與驗證。(A)從Wu-Hu-1 RBD在選定的編輯距離(ED3, ED5和ED7)測試合成變體的工作流程。(B)合成變體的譜系圖描繪了基于機器學習 的ACE2結合與非結合的預測和驗證 (C)合成變體的點圖對應的是機器學習模型(RF和RNN)預測和抗體結合或逃逸的驗證。(D) AlphaFold2的結構建模顯示了預測的具有ACE2結合(綠色框)或非結合(紅色框)的RBD變體結構。
2.4 預測當前和未來變體的抗體逃逸
作者在RBM-2上使用機器學習模型預測ACE2結合譜系上的抗體逃逸 (圖5)。REGN10933和REGN10987對Wu-Hu-1、Alpha、Kappa的ED1譜系有很大的適應性(圖5A-I)。而Beta和Gamma的ED1譜系幾乎完全不受LY-CoV555和LY-CoV16的影響。來自所有變體的ED2譜系中有很大一部分逃逸了REGN10933、LY-CoV555和LY-CoV16,并且隨著突變數量的增加,逃逸的可能性越來越大。值得注意的是,小部分的Beta ED2譜系預計會逃脫所有的四種治療性抗體。其中一些變體在417、484、493和501位點發生突變,這些位點都在Omicron變體中發生突變(圖5F)。為了進一步可視化,作者構建了深度逃逸網絡(圖5C, F, I),描述了四種治療性抗體對低距離突變的脆弱性。
圖5 選擇RBD變異的低突變距離抗體逃逸的預測分析(A, D和G) 。熱力圖描繪了單克隆抗體(mAb)結合,通過RF和RNN模型評估Alpha, Beta和Kappa的ED1和ED2變體。(B, E和H)對ED1和ED2轉義n個的序列數量(模型間一致,閾值>0.5)。(C, F和I)深度逃逸網絡顯示了變異及其逃離單克隆抗體之間可能的進化路徑。
2.5 確定抗體對SARS-CoV-2突變譜系的穩健性
在選擇用于治療的候選抗體時,抗體對潛在的SARS-CoV-2變異的穩健性(保持結合能力)可能是一個關鍵參數。為此,作者應用DML來確定是否可以前瞻性地確定幾種中和抗體的穩健性。最初,作者專注于與Omicron相對應的合成譜系變體(圖6A)。作者測定了RBM-2中Omicron存在的特定單突變和組合突變的抗體逃逸。機器學習顯示,一些抗體,如LY-CoV16和LY-CoV555,預計可以保持與大多數單一變異體的結合,但幾乎失去與所有組合變異體的結合(圖6B),而其他抗體,如REGN10987和LY-CoV1404,預計可以與幾乎所有的單一變異體和組合變異體的結合。在此方法的基礎上,作者通過計算該位置的突變導致逃逸的平均百分比,探索了給定位置或位置組合中所有突變的影響。這使得作者能夠構建動態抗體逃逸譜系,并識別可能導致逃逸增加的突變序列的譜系。作者使用機器學習模型來預測RBM-2中的抗體結合和逃避高距離組合變異體(圖6D, E),揭示了幾種抗體的不同水平的魯棒性。
圖6 確定抗體對合成RBD變體和突變譜系的魯棒性。(A)組合文庫RBM-2的Omicron (BA.1)突變。(B)在Omicron中觀察到的單個和組合突變的結合預測。(C)沿著Omicron譜系的動態逃逸剖面,從Wu-Hu-1距離1-4的所有突變的逃逸序列百分比。(D) Wu-Hu-1編輯距離為6-10中的每個抗體的ACE2結合RBD的抗體預測。
3.討論
在這項研究中,作者開發了DML,這是一種基于機器學習的蛋白質工程方法,用來確定SARS-CoV-2 RBD組合突變對ACE2結合和抗體逃逸的影響。在DML中,機器學習模型對從文庫篩選出數千個標記RBD變體進行訓練,可以對數十億個RBD變體的序列空間進行非常準確的預測,這比僅通過實驗篩選的預測要大幾個數量級。結合未來的文庫設計、基于不同結合閾值的更精密的篩選策略和改進的機器學習模型,可以提高RBD較長長度的預測。作者的DML庫是基于原始的Wu-Hu-1 RBD序列,然而,全球幾乎所有的循環變體都是Omicron或其亞系。Bloom等人表明不同的RBD變異時,單氨基酸突變(DMS)會導致突變軌跡的改變??紤]到Omicron變體中存在大量的突變,未來的DML研究應使用基于Omicron的RBD序列的突變文庫,但需要注意的是,未來可能還會出現其他高距離變體,這需要持續更新文庫設計。通過在一個大的突變范圍內準確預測抗體逃逸,DML可能使研究人員能夠選擇最具魯棒性的候選抗體療法。未來,除了中和活性,抗體對RBD組合突變的穩健性將是評估COVID-19抗體治療開發的一個關鍵參數。最后,有證據表明,其他地方性冠狀病毒的受體結合域可能正在經歷適應性進化,以逃避人類抗體反應。因此,應用DML來預測抗體逃逸,并結合病毒進化的系統模型,可能有助于識別未來可能出現的變異,從而助力COVID-19疫苗的開發。
4.不足
為了建立DML,作者使用RBD上之前發布的DMS數據,以提高與ACE2結合變體的概率。這對生成足夠的機器學習訓練數據很重要,但會導致固定一些位置。單突變DMS數據表明,這些位置的突變會導致與ACE2完全失去結合。雖然這種方法在很大程度上有效地覆蓋了大多數SARS-CoV-2變體的突變序列空間,但它也存在一些局限性。因為作者的文庫設計中的一些固定位置在Omicron或其亞系中發生了突變。最顯著的是486位點,該位點在Omicron BA.4和BA.5變體(F486V)中發生突變。此位點與抗體逃逸密切相關。因此,未來的DML突變庫設計將需要考慮上位性效應的影響,而不應該只依賴于單突變的DMS數據。此外,在構建庫的過程中,作者將RBD分成三個不同的區域來構建。這使得無法探究RBM位點突變的上位性效應。
參考資料
Joseph M. Taft, Cédric R. Weber, Beichen Gao, Roy A. Ehling, Jiami Han, Lester Frei, Sean W. Metcalfe, Max Overath, Alexander Yermanos, William Kelton, Sai T. Reddy, Deep Mutational Learning Predicts ACE2 Binding and Antibody Escape to Combinatorial Mutations in the SARS-CoV-2 Receptor Binding Domain, Cell 2022, ISSN 0092-8674,?
https://doi.org/10.1016/j.cell.2022.08.024.
總結
以上是生活随笔為你收集整理的Cell | 深度突变学习预测SARS-CoV-2受体结合域组合突变对ACE2结合和抗体逃逸的影响...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Shell编程(week4_day5)-
- 下一篇: ffmpeg输出x264的CBR流或者文