iMeta | 华中科大宁康组综述宏基因组数据用于蛋白质三维结构预测的方法论
點擊藍字 關注我們
Review:用于蛋白質結構預測的宏基因組定量分析
?https://doi.org/10.1002/imt2.9
2022/3/6
● 2022年3月6日,華中科大寧康組在iMeta在線發表題為“How much metagenome data is needed for protein structure prediction: The advantages of targeted approach from the ecological and evolutionary perspectives”的綜述型文章。
●?該文章從生態和進化模式角度出發,解碼了宏基因組數據與蛋白質結構的復雜關系,并在宏基因組數據中發現了可用于高效補充蛋白質同序列的靶向方法。在有效利用宏基因組數據搜索同源序列并預測蛋白質結構方面具有指導意義。
●? 第一作者:楊朋碩
●? 通訊作者:寧康
(ningkang@hust.edu.cn)
摘? ?要
大量工作已經證明,使用宏基因組數據可以補充蛋白質的同源序列來預測其三維結構。然而,盡管一系列工作使用了大量的宏基因組數據,但我們仍然尚未獲得很大一部分蛋白質的可靠結構。在本工作中,我們專注于定量的分析宏基因組數據中蘊含的微生物群落生態和進化模式,解碼這些模式與蛋白質結構的復雜關系,并研究如何有效地利用這些模式來提高蛋白質結構預測的效率和準確性。首先,我們提出了宏基因組“利用效率”和“邊際效應模型”來量化蛋白質家族的同源序列在不同生態位(即生存環境,biome)中的分布模式。其次,在宏基因組數據的搜索策略上,與傳統的非靶向方法的盲搜索策略相比,本研究指出了靶向方法的優勢:通過搜索來自指定生態位的微生物組數據,能夠更有效地補充蛋白質同源序列。最后,我們評估了預測當前 Pfam 數據庫中所有蛋白質結構所需的宏基因組數據的下限,并得出目前的宏基因組數據還遠未能夠達到此目的的結論。總之,在本工作中,我們從生態和進化模式角度出發,解碼了宏基因組數據與蛋白質結構的復雜關系,并在宏基因組數據中發現了可用于高效補充蛋白質同序列的靶向方法。本工作在有效利用宏基因組數據搜索同源序列并預測蛋白質結構方面具有指導意義。
關鍵詞:生態學,進化,宏基因組數據,蛋白質 3D 結構建模, 靶向方法
亮? ?點
●?利用宏基因組補充蛋白質的同源序列對其三維結構預測有益
●?宏基因組利用效率揭示了來自不同生態位數據的蛋白質同源序列數量的差異
●?邊際效應模型建立了蛋白質同源序列和宏基因組數據來源生態位之間的關系
●?對于挖掘同源序列,靶向方法優于非靶向方法
●?當前的宏基因組數據不足以支撐預測Pfam 數據庫中所有蛋白質結構
Bilibili:https://www.bilibili.com/video/BV1tY4y1H7B1/
Youtube:https://youtu.be/8Qb_6G11mvY
中文翻譯、PPT、中/英文視頻解讀等擴展資料下載
請訪問期刊官網:http://www.imeta.science/
全文解讀
引? 言
當前大量的工作已經證明了宏基因組序列可以補充蛋白質的同源序列從而準確構建其三維(3D)結構。然而,盡管大量宏基因組數據被用于輔助蛋白結構預測,但仍有相當數量的蛋白質3D結構無法被準確建模。這種現象引出了一個疑問:對于利用微生物組序列輔助預測蛋白結構這一問題,是否存在依賴于宏基因組數據分布的模式;呼應這種分布模式,蛋白質結構的復雜但重要的特性是什么;以及如何更好地利用這些特性來預測蛋白質結構。更重要的是,這背后的原因,很有可能與不同生態位(即生存環境,biome)中微生物群落的生態和進化規律密切相關。
在該研究中,我們專注于解析宏基因組中蛋白質家族的同源序列在不同生態位中的分布差異,并對宏基因組的蛋白質 3D 結構預測方法進行了評估。首先,為了檢測不同生態位中,宏基因組的同源序列的差異分布,該研究提出了宏基因組利用效率(utilization efficiency)的概念,將其定義為在宏基因組序列中搜索到的蛋白質同源序列的比例。從生態和進化的角度對不同生態位下的宏基因組利用效率的分析表明,存在生態位特異的蛋白質家族同源序列分布。其次,該研究構建了邊際效應模型(marginal effect model),來量化不同生態位中的宏基因組在補充同源序列方面的潛力差異。第三,基于這種同源蛋白的分布差異,靶向方法(targeted approach)可以通過預測和利用能夠補充足夠同源序列的生態位中的微生物群落,比非靶向方法的盲目搜索更精準和有效地補充其同源序列。基準測試結果表明,與非靶向方法相比,靶向方法可以使用更少的宏基因組序列,并且預測出更精確的蛋白質3D結構。最后,該研究估計了預測當前 Pfam 數據庫中所有蛋白質結構所需的宏基因組數據的下限。結果表明,當前的宏基因組數據(大約 1.48E12 條宏基因組序列)不足以對Pfam 數據庫中所有蛋白質構建可靠的3D結構(大約需要7.12E12 條宏基因組序列)。但是由于微生物組利用效率更高,所以靶向方法可以使用更少的微生物組序列(大約 4.32E12條)來部分解決這一挑戰。
總的來說,我們通過評估不同微生物組數據的利用效率和構建邊際效應模型,發掘了宏基因組數據背后復雜的生態和進化規律。利用這些模式和規律,靶向方法可以高效地挖掘同源序列和預測蛋白質3D結構。
蛋白質3D結構預測
一直以來,蛋白質結構如何與蛋白質功能相關聯一直是未知的挑戰。作為一種計算模擬方法,蛋白質的三維 (3D)結構預測是理解這一問題的關鍵手段。然而,蛋白質在形成最終3D結構之前,理論上蛋白折疊方式的多樣性是天文數字級別的。然而,蛋白質在自然界中會自發折疊,有些在幾毫秒內就完成折疊——這種理論和現實的差異被稱為 Levinthal 悖論。此外,一些已發表的工具給我們提供了研究數億種目前缺乏結構的蛋白質的能力。這些未知結構的蛋白質中可能存在具有新穎而有趣功能的蛋白質。這些工具和未知結構蛋白的關系就像望遠鏡可以讓我們更深入地觀察未發現的宇宙一樣。
蛋白質3D結構的測定通常通過實驗觀察。X 射線晶體衍射、NMR 光譜和電子顯微鏡是目前用于鑒定蛋白質結構的常用技術。為了確定最終的蛋白結構,科學家經常綜合使用幾種不同的方法。然而,由于實驗過程通常緩慢而艱巨,因此對于大量未知結構的蛋白質,通常采用計算方法來預測蛋白質的 3D 結構。
不依賴于模板的蛋白質 3D 結構預測
蛋白質 3D 結構通常通過兩種方法進行預測:依賴于模板和不依賴于模板的方法。依賴于模板的蛋白質結構預測(也稱為同源性或比較建模)利用已有的蛋白結構來模擬蛋白質序列的天然或真實折疊。長期以來,依賴于模板的蛋白質結構預測一直被認為有能夠預測出接近天然構象的蛋白模型的巨大潛力。然而,由于依賴于模板的方法強烈依賴于已知蛋白結構,它只能作用于有限數量的蛋白質。
不依賴于模板的方法由大數據驅動,基于同源蛋白質序列和多序列比對 (MSA),無需任何已知模板即可預測蛋白質結構。不依賴于模板方法僅依賴于大量高質量的同源序列來預測準確的蛋白結構。目前,不依賴于模板的預測方法被廣泛用于蛋白質 3D 結構預測,包括 Rosetta、I-TASSER和 AlphaFold2等。Rosetta是一個長期更新的用于預測蛋白質結構的軟件系統,以其多功能和多樣化的應用而聞名。I-TASSER也是一個長期更新的蛋白質結構預測軟件系統。借助深度學習方法,I-TASSER 在不依賴于模板的蛋白質結構預測領域表現出色。最近的 CASP14 競賽中,基于深度學習的AlphaFold2 在92 個未知結構的蛋白質中預測了87 個極高精度結構,優于其他方法。所有這些無模板工具的成就很大程度上依賴于同源序列,這意味著同源序列對于不依賴于模板蛋白質 3D 結構預測至關重要。
總之,不依賴于模板的方法在蛋白質3D結構預測中越來越常見。一方面,深度學習技術使不依賴于模板的方法能夠以前所未有的速度和準確性預測蛋白質結構。另一方面,無模板方法通常依賴于蛋白質的同源序列,這些序列本身是豐富多樣的。對同源序列的要求已經形成了不依賴于模板的蛋白質 3D 結構預測的一大特點和潛在瓶頸。
不依賴于模板的蛋白質 3D 結構預測的當前問題
任何事物都有兩面性,不依賴于模板的蛋白質 3D 結構預測也不例外。一方面,目前的蛋白預測方法,特別是 AlphaFold2,已經能夠對 21 個物種的超過 365,198 種蛋白質(平均80.45%的蛋白)進行準確的結構預測。在六個物種中幾乎所有蛋白質(超過 99 %)都能被預測。另一方面,許多蛋白質,包括 Pfam 數據庫中的蛋白質,都沒有已知的 3D 結構,而且這個數字仍在飆升:在 Pfam 發布版本26.0 中,只有 2% 的蛋白質缺乏結構信息,但在 Pfam 發布版本34.0 中,超過 50% 的蛋白質缺乏結構信息(圖 1)。這些事實指向了一種表面上矛盾但合理的趨勢:在越來越多的蛋白質結構被精確地預測的同時,也出現了越來越多未知結構的蛋白質。這是合理的,因為越來越多的物種被測序,導致越來越多的蛋白質被鑒定。其中許多是新蛋白質,因為缺少足夠的同源序列信息而無法快速而精準的建立它們的 3D 結構。面對越來越多的新蛋白質,迫切需要有效地找到其足夠的同源序列,用于蛋白質 3D 結構預測。
圖1.?不同發布版本中的 Pfam 蛋白家族中蛋白質數量和其結構信息的變化趨勢
該曲線顯示了不同發布版本中Pfam蛋白家族的數量。發布版本對應的餅圖反映了已知和未知結構的 Pfam蛋白家族的比例
使用宏基因組序列預測蛋白質 3D 結構
為不依賴于模板的蛋白質 3D 結構預測方法提供同源序列的一種解決方案是,通過使用宏基因組序列來補充其同源序列:作為含有大量功能基因的數據資源庫,宏基因組可以為蛋白質提供大量同源序列。結合更加充足的同源信息和先進的不依賴于模板的預測流程,許多未知結構的蛋白質將被預測出準確的結構。
然而,無論使用何種蛋白質結構預測技術,“更多的宏基因組序列可以輔助預測出更多的蛋白質結構”在大多數情況下都是不正確的。在2017年的一項工作中,Baker 等人使用來自不同生態位的宏基因組樣本(主要來自腸道生態位)的超過 20 億條蛋白質,預測了 Pfam 數據庫中未知結構的 614 種蛋白質的3D結構。在2019年的一項工作中,雖然僅利用來自海洋宏基因組數據的 9700 萬條蛋白質,但 Zhang 等人可以預測 Baker 等人的工作中無法預測的27種蛋白質的結構。在2021年的一項工作中,通過使用來自四個生態位(腸道、湖泊、土壤、發酵罐)微生物群落中的42.5 億條微生物組蛋白質,Yang 等人可以預測 Pfam 數據庫中 1,044 種未知結構的蛋白質結構。所有這些發現表明,宏基因組序列可以補充蛋白質 3D 結構預測的同源序列,并且這種補充具有顯著的生態位差異性。
因此,兩個很明顯的問題值得深入探索:有效利用宏基因組數據進行蛋白質結構預測的手段是什么?蛋白質結構預測需要多少宏基因組數據?對于這兩個問題,其核心解決途徑只有一個:有效的同源序列補充。研究哪些因素影響了從宏基因組數據補充同源序列的效率,并找到更好地利用宏基因組數據分布特性來輔助預測蛋白質 3D 結構的方法,是非常關鍵的。為了回答這些關鍵問題,我們從生態和進化的角度探究了宏基因組數據背后的數據依賴模式(圖 2):使用宏基因組數據補充后成功建模的蛋白質作為研究對象,我們探索了相關同源序列的進化模式(同源序列的數量和對應蛋白質功能)和生態模式(來源物種和來源生態位的富集模式)。
圖 2.探究宏基因組數據背后的生態和進化模式
為了探究宏基因組序列和Pfam 數據庫中蛋白質之間的相關性,我們研究了相關同源序列的進化模式(同源序列的數量;蛋白質功能)和生態模式(來源物種和來源生態位的富集模式)
計算宏基因組利用效率
隨著微生物組數據的爆炸式增長,在宏基因組中搜索蛋白質的同源序列需要巨大的搜索空間和大量的時間,純粹依靠增加微生物組的數據量,顯然是不明智的。因此,提高宏基因組利用效率是成功預測蛋白質3D結構的關鍵。“宏基因組利用效率(Metagenome utilization efficiency, UE)”被定義為在給定蛋白質的條件下,在特定的微生物數據集中能夠作為蛋白質同源序列的比例。顯然,更高的宏基因組利用效率值表明微生物序列數據集對相應蛋白質結構預測更有效。如何提高宏基因組利用率的途徑也很清楚:預測具有較高“宏基因組利用效率”的微生物序列數據集來限制蛋白質序列的搜索空間。本工作評估了使用來自不同生態位的宏基因組補充同源序列的有效性(圖 3)。
首先,對來自不同生態位的宏基因組,搜索所有 Pfam蛋白家族的同源序列后,評估這些微生物序列數據集的同源序列數量(圖 3 A),該分析依賴于公開的微生物群落數據,主要來自于4個生態位:腸道、土壤、湖泊、發酵罐,以及 IMG 數據庫中的數據。然后,以每十億宏基因組蛋白質為單位,計算得出能夠補充補充同源序列的數量以及能夠獲得可靠結構的蛋白質的數量(圖 3 B)。對于來自四個生態位(土壤、湖泊、發酵罐和腸道)的組合數據集,使用42.5 億條宏基因組蛋白,對1,044 個 Pfam 家族預測出了高度可靠的模型,占 8,700 個未知結構的 Pfam 蛋白家族的 12.00%,高于之前的研究結果,也高于只使用四個生態位之一的結果。然而,利用組合數據集降低了微生物組數據使用效率。以土壤生態位作為單個生態位的代表,在土壤檢測到9.1e+5條Pfam蛋白家族的同源序列,利用效率為6.5e+5(9.1e+5個同源序列/14億蛋白質)。然而,對于組合數據集,雖然檢測到 14.6e+5 條Pfam蛋白家族的同源序列,但宏基因組序列的利用效率僅為 3.4e+5(14.6e+5 條同源蛋白/43 億同源蛋白),遠低于土壤生態位的利用效率。當使用 IMG 數據庫(包括來自多個生態位的微生物群落)時,也會得出類似的結果(圖 3 B)。以上宏基因組利用效率分析表明,如果我們針對特定蛋白質家族指定其來源生態位,那么單個生態位的蛋白質序列的使用效率會顯著高于使用來自不同生態位的組合數據集。
總而言之,宏基因組利用效率極其依賴于生態位的選擇。這一現象可以根據基因或蛋白質進化的生態學觀點進行解釋:在給定生態位的特定環境壓力下,一些基因會發生進化,從而使宿主物種能夠更好地適應環境。點突變或基因結構變異可能在此過程中出現并積累。因此,我們經常可以在一個生態位中找到特定蛋白質的眾多同源序列。進一步來說,為單個蛋白質選擇合適的生態位,限制蛋白質序列的搜索空間,將大大提高宏基因組的利用率,并有助于推斷其蛋白質結構和功能。
圖 3. 宏基因組利用效率評估
A.來自不同生態位的宏基因組數據集。以四個生態位的宏基因組為例,展示與所有 Pfam蛋白家族比對后,其同源序列的分布。不同的顏色表示它們的不同來源生態位,顏色的深淺表示在相應Pfam蛋白家族中比對上的宏基因組序列的數量(顏色越深,序列比對上的越多)。
B. 同源序列比對后,預測的微生物組數據利用效率。在使用宏基因組序列(以十億為單位)后,計算了比對上的同源序列數和建模的可靠結構數量。為了評價宏基因組利用效率,通過預測出的Pfam蛋白家族數占宏基因組序列數的比例,以及比對上的同源序列數在所有宏基因組序列中的比例。
蛋白質結構預測的邊際效應
“邊際效應(Marginal Effect, ME)”模型是一個廣泛使用的數學模型,被用于量化數據集解決某個問題的潛力。在利用宏基因組輔助預測蛋白質結構這一問題下,“邊際效應”ME (Bi, Pj) 被定義為給定生態位 Bi 下的宏基因組數據在補充特定蛋白家族 Pj 的同源序列過程中的潛力。越高的邊際效應通常表明更高的同源序列。以蛋白家族PF12652 為例,通過邊際效應模型估計,發酵罐生態位微生物群落存在該家族多達 6,218 條同源序列,但土壤生態位微生物群落只能找到24條同源序列。實際上,發酵罐和土壤生態位微生物群落中的同源序列補充結果也證實了這種邊際效應結果(圖 4A)。因此,對于 PF12652,使用發酵罐生態位下的宏基因組可能比土壤生態位下的宏基因組具有更高的補充同源序列的潛力。
接著,我們利用邊際效應模型探究四個生態位(腸道、土壤、湖泊、發酵罐)的微生物組數據補充8,700 個未知結構的 Pfam 家族的同源序列的潛力。結果顯示,土壤生態位下的宏基因組對大部分的Pfam蛋白家族的邊際效應值高于其他生態位的宏基因組。然而,并不是在所有的蛋白質家族中,土壤微生物群落的邊際效應值都最高。其他生態位比如發酵罐生態位,對某些蛋白質也有高于其他生態位的邊際效應值(圖 4)。該結果也再次從進化角度提示,不同生態位中的宏基因組序列具有不同的進化規律。
圖 4. 邊際效應模型評估微生物組輔助預測蛋白家族結構的潛力
該研究評估了四種生態位(腸道、湖泊、土壤、發酵罐)的微生物組數據對所有 8,700 個未知結構的 Pfam 家族(發布版本32.0)的邊際效應。不同的顏色表示特定生態位。邊際效應模型結果表明,不同生態位對特定 Pfam 蛋白家族的同源序列補充能力可能截然不同。
影響使用宏基因組數據輔助預測蛋白質結構成功的其他因素
從進化的角度,使用宏基因組數據輔助蛋白質結構預測的方法是一種“盡可能發現更多的同源序列”的策略。因此,足夠的同源信息,即高質量的多序列比對(MSA)將是蛋白質結構預測成功的關鍵。作為生成 MSA 的重要參數,選擇最佳的序列距離信息(e-value)將在挖掘同源序列時減少 MSA 中包含的噪聲序列,從而影響 MSA 的質量,進而影響蛋白質 3D 結構建模的成功。為了預測在這個過程中的最佳e-value,Yang等人設計了一個e-value的預測模型,用于構建 MSA 時選擇最佳e-value,減少噪音。
從生態的角度,之前的研究已證明,每個生態位都富含一組特定的物種。而這一特性影響了蛋白質結構預測的結果:為了適應不同生態位下獨特的環境壓力,該生態位下富含的微生物必須進化出獨特的功能基因,以在該特定生態位中獲得優于其他物種的生存優勢,因此某些功能基因(或蛋白質家族)極有可能在特定生態位中富集。
非靶向和靶向方法來利用宏基因組輔助預測蛋白質結構
如今已經有許多利用宏基因組輔助預測蛋白質3D 結構流程(表 1)。隨著宏基因組序列數量的迅速增加,如何有效的利用宏基因組預測蛋白結構變得越來越重要。而回答該問題的關鍵指標是上述的宏基因組利用效率和邊際效應模型:對于特定的蛋白質,宏基因組數據集具有越高的宏基因組利用效率和邊際效應,就越能夠高效地預測蛋白質3D 結構。為提高微生物利用效率,針對是否充分了解宏基因組和預測出的蛋白結構之間的關聯性,預測方法被分為非靶向方法和靶向方法。
非靶向方法(圖 5 A)沒有利用宏基因組數據與預測蛋白質之間的關聯。于是在搜索同源序列時,只能盲目的搜索,對微生物數據的搜索空間沒有限制。因此,非靶向方法對生態位微生物群落數據集的利用效率低下。同時,非靶向方法缺乏過程可控性和結果可解釋性。
表 1.利用宏基因組數據輔助預測蛋白質結構的方法匯總
在匯總的方法中,“single”表示使用單一生態位的宏基因組搜索蛋白質同源序列。“Combined”表示使用多個生態位的宏基因組數據搜索蛋白質同源序列。“Targeted”表示針對不同蛋白質,選擇不同生態位的定制方法。
靶向方法利用宏基因組分布特性來更好地預測蛋白質結構
與非靶向方法相比,靶向方法(圖 5 B)利用宏基因組序列和蛋白質家族之間的相關性,有針對性的而不是盲目搜索,從預測出的存在最多同源序列的生態位來補充其同源序列。通過限制蛋白質序列搜索空間的方法,減少宏基因組搜索空間和時間,提高宏基因組利用效率。
靶向方法的思路是:利用宏基因組序列和蛋白質家族之間的相關性,為給定的蛋白質家族預測一個生態位或一組生態位,從這些選定的生態位中能搜索出比其他生態位更多的同源序列。Yang等人構建的機器學習模型(命名為MetaSource)可以作為靶向方法的代表。MetaSource利用不同的生態位富含不同蛋白質同源序列的事實,可以為指定蛋白質預測出為其提供最多同源序列的生態位。經過驗證,使用MetaSource預測的生態位比來自不同生態位組合數據預測的蛋白質模型更高效和準確。
作為一種靶向方法,MetaSource 可用于減少在蛋白質結構預測中補充同源序列的步驟所花費的時間,能直接影響結構預測的效率。評估結果顯示,利用MetaSource指定的宏基因組預測蛋白結構時,利用效率為每十億宏基因組序列有7,810 條同源序列,這比使用 IMG 數據庫的微生物利用效率(每十億宏基因組序列 160 個同源序列)高出 50 倍(圖 3 B)。
本工作使用PF07682 和 PF05005這兩個具有已知結構的Pfam蛋白家族來驗證靶向方法的高效性和準確性(圖 5 C)。經過驗證,盡管來自組合生態位(使用不同來源的生態位)搜索到的同源序列比單個生態位多,但來自組合生態位的結構模型不如某些單個生態位(土壤或湖泊)的結構準確,這很可能是由于MSA中的噪聲序列導致的(圖 5 C)。作為靶向方法,MetaSource 預測出的生態位(PF07682:土壤生態位,PF05005:湖泊生態位)可以減少噪音序列,輔助構建出和天然結構最相似的蛋白質 3D 結構,并且使用的宏基因組序列比非靶向方法少得多。造成這種情況的原因可以用蛋白家族的物種組成解釋:PF07682 和 PF05005 主要由來自Proteobacteria和Cyanobacteria的蛋白質組成,它們分別在土壤和湖泊生物生態位中占主導地位。這一結果支持了靶向方法的優勢:高精確度、高效率和可解釋性。
總之,從生態和進化的角度,宏基因組利用效率和邊際效應是利用宏基因組數據有效預測蛋白質結構的關鍵指標。分析結果表明,邊際效應分析得出不同生態位中的微生態位對不同蛋白家族的補充潛力是截然不同的,所以宏基因組利用效率高度依賴數據和方法的選擇。在數據方面,它嚴重依賴于選擇的生態位中的蛋白質組成;在方法方面,非靶向方法和靶向方法將導致宏基因組利用效率的截然不同。此外,在許多情況下,靶向方法會產生更精確的蛋白質結構,因為所涉及的噪音序列更少,正如兩個示例的Pfam蛋白家族的結果所證明的那樣。
圖 5. 靶向方法本質上是一種檢測生態位中富集蛋白的方法
在利用宏基因組輔助預測蛋白質 3D 結構的過程中,(A)非靶向方法盲目地搜索宏基因組數據,不限制搜索空間。(B) 靶向方法只用搜索特定生態位的宏基因組,限制搜索空間。靶向方法根據宏基因組數據與蛋白結構之間的關聯性,預測出能夠補充最多同源序列的生態位下的宏基因組。 (C) 為了比較靶向方法和非靶向方法,使用來自不同生態位的 MSA為Pfam 蛋白家族PF07682 和 PF05005 進行模型構建。對于每個生態位,計算搜索到的同源序列占所有宏基因組序列數量的比例作為微生物組利用效率。通過將預測出的3D結構與已知結構進行比較,并利用TM-score量化兩者的相似性。MetaSource 是在先前的研究中開發的靶向方法。標有紅框的模型是 MetaSource 預測的含有最多同源序列的生態位。被標為藍色字體的模型是具有最高 TM-score的模型。
探究蛋白質結構預測所需的宏基因組數據的下限
不依賴于模板的蛋白結構預測方法需要大量同源序列,所以補充同源序列對構建蛋白質的可靠結構將是至關重要的。盡管蛋白質結構預測所需的宏基因組序列的確切下限難以被量化。但這一下限可以基于之前計算過的兩個關鍵指標來估計:宏基因組利用效率和邊際效應。在估計下限之前,我們做了一些前置參數的計算:
(1) 在當前 Pfam 數據庫中 (http://pfam.xfam.org/),通過統計蛋白質的數量 N(Pj)、蛋白質家族的同源序列Homo(Pj),可以推導出蛋白質的平均同源序列數量:AveHomo(Pj);
?(2) 對于當前的宏基因組數據(通過整合 IMG 數據庫、Mgnify 數據庫和 NCBI SRA 數據庫的數據),可以確定生態位的數量 N(Bi);
?(3) 基于之前研究中的方法和統計結果,用來自特定生態位 Bi 的宏基因組數據補充特定蛋白質 Pj的同源序列。統計出宏基因組利用效率 UE(Bi, Pj)。結合蛋白質的數量 N(Pj),統計出平均宏基因組利用效率 Ave(UE)(公式1)。
(4) 基于之前研究中的統計結果,可以統計來自特定生態位 Bi 的宏基因組數據在補充特定蛋白質 Pj 的同源序列時的邊際效應 ME (Bi, Pj)。基于這些假設,當使用非靶向方法時,可以粗略的估計需要的宏基因組序列總數為(公式2).
而根據Pfam數據庫中的蛋白質同源序列信息的數據統計,蛋白質平均同源序列數量為AveHomo(Pj) ~ 3713, 蛋白質的數量 N(Pj)基于 Pfam 發布版本34.0中的數據,為 19,179。根據本工作的實驗結果,平均宏基因組利用效率Ave(UE)約為100(每十億條宏基因組序列)。因此,基于最保守的估計,需要的宏基因組序列總數Sum(Seq)約為7.12E12。
當使用靶向方法時,同源序列數量的下限可以大大減少。首先,靶向方法的平均利用效率的計算是基于四個代表性生態位(腸道、土壤、湖泊、發酵罐)的微生物組數據。平均宏基因組利用效率(每十億宏基因組序列):腸道:10,土壤:248,湖:142,發酵罐:320。四個生態位的平均利用效率為每十億個宏基因組序列180個,相當于(10(腸道)+248(土壤)+142(湖)+320(發酵罐))/4(生態位數量)(公式1)。根據平均宏基因組效率,預測Pfam數據庫中的所有蛋白質,需要的宏基因組序列的數量為:
我們可以估計宏基因組的數據下限為 4.32E12,遠小于非靶向方法的下限。
更進一步,我們根據不同的Pfam發布版本,探究了蛋白質同源序列的增加和所需宏基因組序列的下限之間的相關性(圖 6)。結果顯示,隨著 Pfam 數據庫中序列數量的增加(圖 6A),所需宏基因組序列與目前已有微生物組數據之間的差距正在擴大(圖 6B)。鑒于當前的 Pfam 數據庫有 19,179個蛋白質家族,估計有 7.12E12 條宏基因組序列才可以預測所有蛋白質結構,但當前的宏基因組數據庫只有大約 1.48E12 條宏基因組序列(統計數據來自三個常用宏基因組數據庫:IMG 數據庫、Mgnify 數據庫和 SRA 數據庫)。而由于擁有更高的宏基因組利用效率(靶向方法:每十億宏基因組序列搜集到185條同源序列;非靶向方法:每十億宏基因組序列 100 條同源序列),靶向方法比非靶向方法所需的宏基因組下限要低(根據公式 3, 估計下限為 4.32E12)。說明靶向方法可以通過提高宏基因組利用效率部分解決這一差距。
圖 6. Pfam數據庫中蛋白質數量增加與宏基因組序列數量增加之間的關系
A. 不同Pfam 版本中的蛋白序列數。B. 預測Pfam中所有蛋白序列所需的宏基因組序列數與目前測序得到的宏基因組序列數的關系。每個節點代表一個 Pfam 發布版本。紅色的曲線模擬的是計算后預測Pfam中所有蛋白需要的宏基因組序列數目。藍色的曲線模擬的是同一時間節點下,實際上搜集到的微生物組序列數
結論與討論
利用宏基因組序列輔助預測蛋白質 3D 結構并解碼蛋白質結構和功能是一種非常有前景的方法。而本工作揭示了宏基因組序列輔助預測蛋白結構背后的數據依賴和方法依賴模式:來自不同生態位的宏基因組序列對特定蛋白質家族的貢獻截然不同,而利用這種差異分布的靶向方法比非靶向方法能更有效地補充同源序列并獲得更精確的蛋白結構。
蛋白質家族同源序列的有效補充問題本質上是對蛋白質生態和進化模式的探究:為了適應生態位的特定環境壓力,微生物中適應環境壓力的功能基因會進化,從而使其宿主物種能夠獲得生存優勢。因此某些功能基因(或蛋白質家族)極有可能在特定生態位中富集。
在生態模式方面,在蛋白質家族中尋找同源序列的本質實際上是一個富集問題:我們可以從哪個生態位中最有效地挖掘同源序列。我們的評估結果已經表明,像 MetaSource 這樣的靶向方法可以利用微生物生態位與同源序列之間的聯系,使我們能夠從特定生態位微生物群落中推斷出富集的功能基因。這也在一定程度上解釋預測出的蛋白質在來源生態位中的重要作用,增加整個過程的可解釋性。
在進化模式方面,靶向方法可以預測蛋白質的來源生態位,以找到足夠的進化信息(即同源序列)來預測其可靠結構。與僅提供宏基因組中現有進化信息的非靶向方法不同,靶向方法還可以指導尋找自然界中尚未測序的同源序列:即使在目前的宏基因組中不能為蛋白質提供足夠的同源序列,我們可以通過測序靶向方法預測的具有最多同源序列的生態位下的宏基因組樣本來補充同源序列。
此外,我們估計了預測Pfam 數據庫中所有蛋白質的 3D 結構需要多少宏基因組序列,而我們發現當前的宏基因組數據無法滿足這一需求。一方面,收集更多的宏基因組序列是一種解決方法;而另一方面,我們又需要減小搜索空間來平衡預測能力和分析效率。針對這兩個方面的矛盾,靶向方法將是理想的方案,因為它可以通過利用生態位內部的生態和進化信息,提高宏基因組使用效率,指導后續的同源序列補充來縮小這一的差距。
總的來說,靶向方法(以 MetaSource 方法為例)利用不同的生態位富集不同的蛋白質這一事實,極大地提高了宏基因組數據的利用效率,在使用宏基因組序列預測蛋白質結構方面具有巨大潛力。本工作認為靶向方法是從宏基因組序列預測蛋白質結構的雙贏解決方案:一方面,它不僅可以大幅度減少需要搜索的序列的數量,也可以改善許多蛋白質家族的預測精度。另一方面,靶向方法提供了有關蛋白質的生態和進化規律的豐富知識。
引文格式:Pengshuo Yang, Kang Ning. 2022. How much metagenome data is needed for protein structure prediction: The advantages of targeted approach from the ecological and evolutionary perspectives. iMeta 1: e9. https://doi.org/10.1002/imt2.9
作者簡介
楊朋碩
●??華中科技大學創新研究院博士生
●??2017年本科畢業于華中科技大學,之后在生命科學與技術學院寧康教授的指導下攻讀博士學位。以第一作者身份發表SCI論文4篇 (Genome Biology, 2019; PNAS, 2021等),并參與五項國家自然基金委項目(其中一項為第二完成人),七項發明專利。研究方向為生物大數據挖掘,以及微生物組學研究中的方法開發。重點關注環境和健康領域的生物大數據處理。
寧康(通訊作者)
●?華中科技大學生命科學與技術學院教授,博士生導師,生物信息與系統生物學系系主任
●?2008年博士畢業于新加坡國立大學計算機學院生物信息專業。在生物信息學和微生物組學領域從事科研工作10余年,作為通訊作者在PNAS、Gut、Genome Biology、iMeta、Gut Microbes、Briefings in Bioinformatics、Bioinformatics等生物學、醫學和生物信息學頂級學術期刊等高水平學術期刊發表學術論文60余篇,文章總引用超過3000次,H指數30(Google Scholar)。目前主持國家自然科學基金項目、科技部重大研究計劃課題等。擔任中國生物信息學學會(籌)-基因組信息學分會副主任,中國生物工程學會-計算生物學與生物信息學專業委員會委員,中國計算機協會-生物信息學專業委員會委員等。擔任iMeta、Genomics Proteomics Bioinformatics、Microbiology Spectrum、Scientific Reports等國際期刊編委。
詳細情況請參見:http://www.microbioinformatics.org/
更多推薦
(▼ 點擊跳轉)
iMeta文章中文翻譯+視頻解讀
iMeta | 南科大宋毅組綜述逆境脅迫下植物向微生物組求救的遺傳基礎(附招聘)
????
iMeta:青島大學蘇曉泉組開發跨平臺可交互的微生物組分析套件PMS
????
iMeta:德布魯因圖在微生物組研究中的應用
????
iMeta:哈佛劉洋彧等基于物種組合預測菌群結構的深度學習方法
????
iMeta:吳青龍/王明福/劉金鑫等-從腸道菌群看待人類對高原飲食的適應性
????
iMeta:西農韋革宏團隊焦碩等-土壤真菌驅動細菌群落的構建
????
iMeta:高顏值高被引繪圖網站imageGP
iMeta教你繪圖
使用ImageGP繪圖熱圖Heatmap
????
使用ImageGP繪圖富集分析泡泡圖
期刊簡介
“iMeta” 是由威立、腸菌分會和本領域數百位華人科學家合作出版的開放獲取期刊,主編由中科院微生物所劉雙江研究員和荷蘭格羅寧根大學傅靜遠教授擔任。目的是發表原創研究、方法和綜述以促進宏基因組學、微生物組和生物信息學發展。目標是發表前10%(IF > 15)的高影響力論文。期刊特色包括視頻投稿、可重復分析、圖片打磨、青年編委、前3年免出版費、50萬用戶的社交媒體宣傳等。2022年2月正式創刊發行!
聯系我們
iMeta主頁:http://www.imeta.science
出版社:https://onlinelibrary.wiley.com/journal/2770596x
投稿:https://mc.manuscriptcentral.com/imeta
郵箱:office@imeta.science
?微信公眾號?
iMeta
?責任編輯?
微微?
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的iMeta | 华中科大宁康组综述宏基因组数据用于蛋白质三维结构预测的方法论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 虚函数编辑
- 下一篇: 学习Matlab强大的符号计算(解方程)