High-Quality Genome-Scale Models From Error-Prone, Long-Read Assemblies高质量的基因组尺度模型来自易出错的,长时间读取的程序集
高質量的基因組尺度模型來自易出錯的,長時間讀取的程序集
誤差桿,長讀裝配的高質量基因組規模模型
賈里德T. Broddrick?1 *?,理查德舒賓2,查爾斯J. Norsigian?2,喬納森M.僧2,哈德O.保爾松2和瑪麗Parenteau的N.?1- 1美國加利福尼亞州莫菲特菲爾德,美國宇航局埃姆斯研究中心,空間科學和天體生物學科,外生生物學科
- 2加利福尼亞大學圣地亞哥分校生物工程系,加利福尼亞州拉荷亞
基于納米孔的測序技術的進步使得能夠快速表征基因組和轉錄組。這種測序技術的新興應用是病原菌的即時護理特性。但是,僅基因組評估不能完全了解病原體表型。基因組規模的代謝重建和分析是一種自下而上的系統生物學技術,闡明了抗微生物耐藥性(AMR)細菌和其他人類病原體的表型差異。將這些基因組規模的模型(GEM)與即時??點納米孔測序相結合,是應對AMR病原體新興健康挑戰的一種有前途的策略。但是,納米孔技術固有的測序錯誤可能會對質量產生負面影響,因此對實用性,從納米孔組件重建的GEM的數量。在這里,我們描述并驗證了從納米孔(MinION)衍生的組件快速構建GEM的工作流程。根據高質量的參考GEM對管道進行基準測試大腸桿菌K?-12產生了納米孔衍生的模型,即使在小于10倍覆蓋范圍的測序深度下,也能完成> 99%。將管道應用于病原菌的臨床分離株,產生了特定菌株的GEM,可以鑒定出典型的AMR基因組含量,并能夠模擬特定菌株的微生物生長。此外,我們表明將測序運行作為模擬的元基因組并不會降低衍生自元基因組程序集的模型的質量。綜上所述,這項研究表明,將納米孔測序與GEM構建管線結合起來可以實現微生物代謝的快速,原位表征。
?
基于納米孔的測序技術的進步使得能夠快速表征基因組和轉錄組。這種測序技術的新興應用是病原菌的即時護理特性。但是,僅基因組評估不能完全了解病原體表型。基因組規模的代謝重建和分析是一種自下而上的系統生物學技術,闡明了抗微生物耐藥性(AMR)細菌和其他人類病原體的表型差異。將這些基因組規模的模型(GEM)與即時??點納米孔測序相結合,是應對AMR病原體新興健康挑戰的一種有前途的策略。但是,納米孔技術固有的測序錯誤可能會對質量產生負面影響,因此對實用性,從納米孔組件重建的GEM的數量。在這里,我們描述并驗證了從納米孔(MinION)衍生的組件快速構建GEM的工作流程。根據高質量的參考GEM對管道進行基準測試大腸桿菌K-12產生了納米孔衍生的模型,即使在小于10倍覆蓋范圍的測序深度下,也具有> 99%的完整性。將管道應用于病原菌的臨床分離株,產生了特定菌株的GEM,可以鑒定出典型的AMR基因組含量,并能夠模擬特定菌株的微生物生長。此外,我們證明將測序運行作為模擬的元基因組并不會降低衍生自元基因組裝配體的模型的質量??偠灾?#xff0c;這項研究表明,將納米孔測序與GEM構建流程結合起來可實現快速,原位?微生物代謝的表征。
介紹
測序技術的最新進展為基因組和轉錄組的原位分析提供了可能性。尤其是,納米孔MinION測序儀(英國牛津的牛津納米孔技術公司)已成為該應用領域中的一項有前途的技術。運行該設備所需的小尺寸和計算足跡(Lu等人,2016)已使其能夠用于人類健康環境,例如生物威脅病原體的檢測(Gargis等人,2019),以及在極端環境中,例如南極洲(Johnson等,2017)和國際空間站(Castro-Wallace等,2017))。該平臺產生相對較長的測序讀數,可在低覆蓋深度下組裝基因組(Wick和Holt,2019年)。這減少了從納米孔讀段組裝基因組所需的計算資源,便利了可以在個人筆記本電腦上運行的生物信息學管道(Castro-Wallace等人,2017)。然而,盡管試劑化學,流通池設計和計算堿基調用算法取得了進步,但與短讀測序技術相比,該技術的共識基因組準確性較低,尤其是在均聚物區域(Gargis等,2019)。存在計算技術來糾正由這些測序錯誤引起的移碼突變(Arumugam等人,2019);?但是,在MinION設備的便攜性是其獨特功能的嚴峻環境中,可能無法使用資源密集型技術。
現場即時診斷病原菌是這些技術和方法的有希望的原位應用(van Belkum and Rochas,2018?;?Monk,2019)。在標準醫院實驗室中,基于短讀(Raven等,2019)和混合裝配(Hikichi等,2019)的方法成功評估了金黃色葡萄球菌(以下簡稱金黃色葡萄球菌)對甲氧西林的耐藥性。此外,納米孔測序技術還可以在臨床環境中快速分析出抗菌素耐藥性(AMR)病原體,并對患者微生物群進行表征(Leggett et al。,2020)。然而,對基于基因組的方法的批評是它們無法闡明對致病表型的理解(Hendriksen et al。,2019)。病原細菌的基因組規模代謝模型的最新發展顯示出有望填補基因型和表型之間的空白。
基因組規模的代謝重建是表征和分析細菌毒力和抗生素抗性的新興工具。這些重建是根據生物體基因組中編碼的帶注釋的代謝成分建立的生化知識庫。當受約束參數化時,這些重建就成為基因組規模模型(GEM),可在給定的一組環境條件下模擬生物體的表型(O'Brien等人,2015)。迄今為止,已經為包括大腸桿菌在內的各種致病細菌建立了基因組規模的重建技術(Monk等,2013),沙門氏菌的多種菌株(Seif等,2018),鮑曼不動桿菌(Norsigian等人,2018),金黃色葡萄球菌(Seif等人,2019),肺炎克雷伯菌(Norsigian等人,2019)和口頭鏈球菌(Jensen等人,2020)等。盡管在這些模型中對AMR機制的直接模擬仍處于起步階段,但由這些重建產生的GEM闡明了差異代謝能力,這些能力為了解這些病原體的表型提供了一個窗口,而不僅僅是提供基因組含量的AMR的簡單存在。例如,肺炎克雷伯菌的其他氮資源利用被用于按抗生素耐藥性對菌株進行分類(Norsigian et al。,2019)。此外,越來越多的共識認為細菌代謝代表了細菌發展AMR進化軌跡的能力的基本限制(Zampieri等,2017)。由于基因組規模的代謝重建是基于帶注釋的基因組,因此將即時點測序與快速代謝模型構建相結合將增加現有的僅基因組評估。但是,尚不清楚MinION裝配精度是否足以構建高質量的基因組規模模型。
材料和方法
其他方法的詳細信息和示例代碼可以在補充材料中找到。
組裝與改造管道
閱讀篩選和適配器整理
有關MinION測序和堿基檢出的詳細信息,請參見下面的樣本特定部分。使用命令行將Fast5格式的基本調用讀入一個文件中。使用qcat通過其各自的條形碼分離多重樣品1。短于1,000 bp的讀數(默認情況下)使用Nanofilt去除(?De Coster等人,2018),并使用Porechop修剪銜接子2,帶有–no_split參數,在ONT生物信息學軟件包Pomoxis中實現3。
后基因組大小確定
使用miniasm(Li,2016)(如在Pomoxis中實施的方法)將經過過濾和修剪的讀數組裝在一起,并進行一輪Racon拋光(Vaser等人,2017年)以創建共有序列。用Biopython軟件包中的SeqIO解析了這種低質量的程序集(Cock等,2009),總基因組/基因組總大小被確定為大于100 kbp的所有序列的總和。
基因組大會
使用Flye [v2.6,(Kolmogorov等,2019)]組裝讀段。上面確定了基因組大小參數,最小重疊設置為1,500 bp,并使用–plasmids參數。此外,對于元基因組,還包括–meta參數。對于某些分析,使用了–asm_coverage參數并將其設置為70×。解析所得的程序集,并通過將覆蓋范圍為10倍或更大的所有重疊群求和來確定總大小。如果初始和最終基因組大小參數相差2倍,則以新的基因組大小值重復裝配。
基因組拋光
使用minimap2將讀取的內容映射到裝配體后,將Flye的裝配體草圖用兩輪Racon拋光(Li,2016年)。Racon拋光組件使用ONT的Medaka共識拋光工具(v0.94)。
重疊群
基于Flye匯編器評估為圓形的重疊群與線性重疊群分離,覆蓋率小于10倍的重疊群也是如此。根據Flye輸出,GC含量差異小于5%(由SeqIO確定)和覆蓋率差異小于15%(基于Flye輸出)的線性重疊群被分組到一個文件夾中,以進行后續分析。
基因組規模模型構建草案
所有重疊群均使用Prokka注釋[v1.13(Seemann,2014)]。通過將Prokka的Genbank文件輸出作為基于參考的模型構建協議的輸入(Norsigian等,2020b),或以Prosta格式從Prokka輸出的蛋白質序列作為CarveMe的輸入,來構建基因組規模的模型草案。(Machado等人,2018)。使用NCBI Blast搜索工具(Camacho等人,2009)或DIAMOND搜索(Buchfink等人,2015)對基于Uniprot的Swissprot數據庫進行基于同源性的搜索,對未包含在代謝重建草案中的內容進行注釋。?[下載:2020/03/22,(UniProt聯盟,2019年)]。
分割ORF恢復
通過在Prokka和Swissprot數據庫的蛋白質序列之間生成雙向(相互)最佳匹配映射,恢復了由于測序錯誤而被分為多個片段的開放閱讀框。具有相同Swissprot最佳命中力的相鄰基因被組合成一個氨基酸序列,并以Fasta格式輸出到新文件中。上面的引用相關協議中使用了此新文件。
大腸桿菌K?-12 str。BOP27驗證實驗
培養
首先將來自冷凍甘油儲備的大腸桿菌K?-12菌株BOP27劃線在LB瓊脂平板上,并在37°C下生長過夜。用單個菌落接種幾毫升的LB培養基,并生長到指數后期。
DNA提取
離心沉淀細胞,重懸于500μLSETS緩沖液(75 mM NaCl,25 mM EDTA pH 8、20 mM Tris-HCl pH 7.5、25%蔗糖)中。然后加入5μLRNaseA和10μL溶菌酶,并將樣品在37°C下孵育60分鐘。加入14μL蛋白酶K和30μL20%SDS,通過顛倒輕輕混合樣品,偶爾在55°C下顛倒孵育2 h。加入200μL5 M NaCl,通過輕輕倒置將樣品充分混合。然后加入500μL氯仿,并通過在室溫下輕輕顛倒30分鐘來混合樣品。在4,500×?g下離心15分鐘在室溫下,將上部水相轉移至新的1.5mL管中,并進行另一輪氯仿萃取。將上部水相轉移至新的1.5mL管中。測量體積,并將1/10體積的3M乙酸鈉加入樣品中。用0.7體積的異丙醇沉淀DNA,并將樣品放在慢速搖桿上5分鐘。用巴斯德移液管將絲狀基因組DNA沉淀物撈出,形成鉤子并用火焰密封,然后轉移到一系列3個微量離心管中,每個離心管中均含1 mL 70%的乙醇。將最終的管離心以沉淀DNA,并用移液管除去乙醇。將沉淀風干幾分鐘,然后重懸于無核酸酶的水中。使用Nanodrop評估基因組DNA制備物的質量,
MinION測序
在MinION R9.4流通池[Oxford Nanopore(ONT)]上對天然BOP27基因組DNA(gDNA)進行了測序。測序文庫是使用ONT快速條形碼測序試劑盒(SQK-RBK004)根據制造商的規程制備的,并作了以下修改:將兩個1 mL和0.5μggDNA分別裝在0.2 mL PCR管中,在ONT EB中稀釋至9μL( 10 mM Tris,50 mM NaCl,pH 8.0)。分別以3:1和1:1(μggDNA:μL碎片混合物)的比例添加條形碼碎片混合物到1和0.5μg樣品中。將一半文庫(?0.75μg)加載到MinION流通池中,而不加載磁珠。在裝載之前,使用ONT EB使總庫體積達到75μL。測序在具有約700個活性孔的流通池中進行6小時。使用ONT Guppy basecaller(v3.2。2)在具有Intel i7-6550U處理器和8 GB RAM的筆記本電腦上具有GPU加速功能,該筆記本計算機通過Thunderbolt 3連接通過Nvidia GTX1070(1920 CUDA內核,8 GB VRAM)連接到外部GPU外殼。通過使用高精度的默認設置,通過堿基對修改的高精度和快速的堿基調用算法,可以啟用質量過濾。用qcat(v1.1.0解復用了基本調用的讀取5)在組裝之前。
組裝和注釋
上面的管道用于生成草稿裝配和注釋,以實現高精度,具有堿基對修改的高精度和快速的堿基檢出方法。通過隨機對總數據集(大約320x覆蓋范圍)進行隨機采樣,生成15、20、40和100x覆蓋范圍(在大小過濾和適配器修整之前)的N50值為20和10 k的讀取子集。另外,通過獲取15x子集并刪除所有大于15 kbp的讀數,生成了“最壞情況”子集。使用Pomoxis中的評估裝配功能確定BOP27菌株裝配相對于大腸桿菌K12菌株MG1655參考的總體準確性6。使用MUMmer中的dnadiff函數確定單核苷酸多態性(SNPs)和InDel(?Kurtz et al。,2004)。設置NanoFilt參數以除去短于2,000個堿基對的讀數,然后再使用Porechop進行適配器和條形碼修整。所有組件均在配備有Intel i7-8650U處理器和16 GB RAM的便攜式計算機上生成。
草圖模型構建
上面的管道用于生成基因組規模的新陳代謝重建(GEM)草稿。最近的大腸桿菌菌株K12 MG1655亞株GEM,我(ML1515?。僧等人,2017)被用作參考模型和參考基因組(NCBI參考序列:NC_000913.3)。從Uniprot下載的Swissprot數據庫((UniProt聯盟,2019年,下載:2020年3月22日)被用作參考數據庫,而DIAMOND(Buchfink等人,2015年)被用于創建雙向最佳命中列表。使用Jupyter Notebooks中的默認GLPK求解器,使用COBRApy(Ebrahim等人,2013)以Python編程語言進行了模型構建和仿真。Kluyver et al。,2016)。
病原菌的組裝和重建
培養方法
以與上述大腸桿菌相同的方式培養金黃色葡萄球菌,鮑曼不動桿菌(以下稱為鮑曼不動桿菌)和糞腸球菌(以下稱為屎腸球菌)的臨床分離株。DNA提取利用與上述大腸桿菌相同的方案,不同之處在于使用溶葡萄球菌素代替溶菌酶。
MinION測序
在MinION R9.4流通池[Oxford Nanopore(ONT)]上對天然基因組DNA(gDNA)進行了測序。測序文庫使用ONT快速條形碼測序試劑盒(SQK-RBK004)根據制造商的規程進行了以下修改:制備:將gDNA輸入增加到800 ng基因組DNA,并省略了可選的SPRI珠純化。使運行進行約6小時。
組裝和注釋
上面的管道用于生成草稿裝配和注釋,以實現高精度(HAC)和具有堿基對修飾(HAC + mod)基本調用方法的高精度。設置NanoFilt參數以除去短于1,000個堿基對的讀數,然后再使用Porechop進行適配器和條形碼修整。將Flye的最小重疊量設置為1,500 bp,并啟用了–plasmid選項。所有組件均在配備有Intel i7-8650U處理器和16 GB RAM的便攜式計算機上生成。
草圖模型構建
上面的管道用于從臨床分離株的基因組草圖中生成基因組規模的代謝重建草圖(GEM)。對于金黃色葡萄球菌,菌株USA300亞株TCH1516的最新GEM,即YS854(Seif等,2019),被用作參考模型和參考基因組(NCBI參考序列:NC_010079.1)。對于鮑曼不動桿菌,菌株AYE的最新GEM,即CN718(Norsigian等,2018)被用作參考模型和參考基因組(NCBI參考序列:NC_010410.1)。從Uniprot [(The UniProt Consortium,2019),下載時間:2020年3月22日)作為參考數據庫,使用DIAMOND(Buchfink等人,2015)創建雙向最佳匹配列表。獨特的基因組含量被定義為未映射到參考基因組的推定開放閱讀框(80%的ID截止值和e-10的e值截止值)。通過使用DIAMOND對Swissprot數據庫進行同源搜索,注釋了這些蛋白質。這些注釋通過人工方式進行代謝成分的管理,從在線數據庫[BiGG(Norsigian等,2020c)和KEGG(Kanehisa和Goto,2000?;?Kanehisa等,2019)確定催化的生化反應。)],然后將反應手動編碼到代謝重建草案中,以創建完整的精選GEM。
糞腸球菌臨床分離株的代謝重建草案是使用上述多菌株重建管道的改良版(補充材料)和以下參考基因組規模重建生成的:乳酸乳球菌亞種。cremoris MG1363,i?NF516(Flahaut等,2013),大腸桿菌K12菌株MG1655,i?ML1515(Monk等,2017),枯草芽孢桿菌168,i?YO844(Oh等,2007),和金黃色葡萄球菌USA300亞株TCH1516,i?YS854(Seif等人,2019)。還使用CarveMe(Machado等人,2018)使用默認設置生成了草稿重構。使用Jupyter Notebooks中的默認GLPK求解器(Kluyver等人,2016),使用COBRApy(Ebrahim等人,2013)在Python編程語言中進行了模型仿真和重構。
模擬元基因組大會
元基因組在流水線之后進行組裝,而在組裝之前無需對條形碼讀段進行多路分解。通過使用NCBI基本局部比對搜索工具[BLAST(Camacho et al。,2009)]針對非冗余數據庫,通過對每個bin重疊群中注釋的蛋白質進行同源搜索,手動確定bin污染。
系統學分析
使用GToTree(Lee,2019)及其包含的工具(Edgar,2004年;?Capella-Gutiérrez等人,2009年;?Hyatt等人,2010年;?Price等人,2010年;?Eddy,2011年;?Tange, 2018?;沉和雄,2019)。通過獲取Prokka蛋白序列FASTA文件并將其與NCBI基因組數據庫中該物種的所有Refseq程序集進行比較,對具有該物種其他菌株的臨床分離株進行了系統生物學分析。為了將臨床分離株放置在BiGG模型數據庫系統發育中,對該數據庫進行了解析,以獲取用于重建每個GEM的NCBI登錄號,從NCBI下載了基因組并進行了分析。為了將BiGG模型放置到微生物的生命樹中,從NCBI基因組瀏覽器(大約3200個基因組)下載了所有代表性,完整古細菌和細菌基因組的表格。從該列表中,選擇了每個門的單個代表(54個基因組),并將基因庫文件傳遞給GToTree進行分析。Letunic和Bork,2019年)??梢栽谘a充材料中找到使用的NCBI登錄號列表。
結果
組裝與改造管道
我們的目標是評估基于MinION的裝配產生的基因組規模代謝網絡重建的質量。組裝和草圖重建流水線旨在將提取的gDNA快速帶入用于表征微生物代謝的環境框架(圖1)。我們利用現有的研究來比較長期閱讀的匯編程序來開發我們的匯編程序(Wick和Holt,2019)。Flye組裝機(Kolmogorov等人,2019)顯示了速度和準確性的最佳平衡,并用于我們的所有組裝中。蠅需要近似的基因組或元基因組大小。因此,我們使用了一種快速但不準確的組裝方法[miniasm((Li,2016)]估算Flye組裝前的基因組大小。如果已知大約的基因組大小,則可以跳過此步驟。根據ONT的建議,我們在運行組裝拋光機Medaka之前,先用多輪Racon拋光Flye組件(Vaser等,2017)。我們嘗試將現有的分箱工具用于我們的元基因組[BinSanity(Graham et al。,2017)];但是,這些程序所需的計算資源超過了典型的筆記本電腦。由于我們的管道專為在嚴峻的現場條件下使用而設計,因此我們基于覆蓋率和重疊群GC含量實施了一種簡單的分箱策略。這種方法需要在注釋和模型構建之前手動管理合并的重疊群。
圖1圖1.本研究中使用的基因組組裝和模型構建流程的示意圖。
我們采用了參考依賴和獨立的策略來產生代謝重建草案。我們根據參考模型修改了最近發布的用于構建多菌株代謝重建的方案(Norsigian等,2020b)。該協議的輸入需要NCBI Genbank格式的文件。注釋工具Prokka包含適合此管道輸入的Genbank格式的輸出。對于沒有密切相關菌株或物種參考模型的生物,我們使用了CarveMe(Machado等人,2018),該工具使用了整個BiGG模型數據庫(King等人,2016)和同源性搜索來生成草稿基因組規模的網絡重建。另一個自動重建工具modelSEED(亨利(Henry)等人,2010)可用,但未使用,因為它的性能與CarveME相似或較差(Machado等人,2018),并且它對反應和代謝物使用了不同的命名空間,因此很難進行模型比較。
用大腸桿菌K?-12進行管道驗證
我們評估奴才測序概括精心策劃的能力,我們的管道大腸桿菌菌株??-12亞株MG1655基因組尺度模型我ML1515(Monk等人,2017年)。這項研究的主要目的是優化時間與準確性之間的權衡;因此,我們針對原始閱讀探索了多種堿基檢出策略。CPU基本調用速度非常慢(大約幾天到幾周);因此,我們只提供了GPU加速的堿基檢出結果,其結果快了100倍。MinION產生了大約200 k讀取,其中83%通過了Q所有基本調用方方法的得分質量閾值;然而,這83%的讀數構成了94%的堿基對序列。大腸桿菌基因組的覆蓋深度根據堿基檢出方法的不同而不同。高精度算法(帶或不帶甲基化調用)的覆蓋率約為307倍,而快速方法的覆蓋率僅為260倍。所有方法的N50 / N90值約為21/6 kbp。高精度堿基檢出模型需要177分鐘,而快速方法需要53分鐘(表1)。
表格1表1.大腸桿菌K12菌株的組裝統計摘要。BOP27。
我們比較了不同輪數的Racon與Medaka結合后的拋光基因組(表2)。總體上講,帶有一輪Racon的極小值在精度上與Flye組件相似,沒有額外的拋光步驟,盡管僅Flye導致SNP降低了六倍,這可能是由于Flye的內置拋光步驟所致。與單獨使用Flye相比,使用Medaka拋光Flye組件可提高組件的精度。必須進行兩輪Racon,足以使組裝精度最大化(表2)。
表2表2.大腸桿菌K12菌株的組裝質量?BOP27在流水線中的不同步驟處讀取,并使用啟用了甲基化調用的高精度算法來讀取堿基調用。
我們評估了三種不同的基本通話模型的時間與準確性之間的權衡。Guppy基本調用程序可以利用快速算法以及兩種高精度(HAC)算法;其中之一解釋了A和C核苷酸的甲基化(HAC + mod)。如前所述,HAC算法花費的時間比Fast算法長大約3倍。在相似覆蓋率值下(HAC算法均為?300x,Fast算法為260x),程序集的整體精度存在很大差異,對于HAC + mod,HAC和Fast算法,其Q得分分別為32.0、27.3和24.3。 ,分別(表1)。所有這三種方法均導致單個重疊群的大小比參考基因組短1.7至3.3 kbp。與HAC算法相比,HAC + mod算法將SNP的數量減少了200倍,這表明DNA修飾對讀取準確性有重大影響。與HAC算法相比,HAC + mod算法中的InDels數量減少了33%??焖偎惴óa生的裝配具有10,000多個SNP和4,300個InDel(表1)。
我們評估了覆蓋深度對裝配精度和堿基讀取時間的影響。我們對HAC + mod讀數進行二次采樣以生成兩個基因組覆蓋率分別為15、20、40和100x覆蓋率的數據集。一個數據集的N50值保留為原始值(大約21 kbp),而對一組數據進行子采樣以使其N50值為11 kbp。然后將這些集合過濾以除去小于2,000 bp的讀數和小于7的質量得分,并修飾銜接子,最終覆蓋度值為11、14、27和58x。從15x讀取集中生成了一個額外的子集,其中刪除了所有大于15 kbp的讀取,導致7x覆蓋和9kbp的N50。我們為Fast算法生成了相似的數據集用于讀取。
裝配精度隨著覆蓋深度的增加而迅速提高。對于HAC + mod數據集,除7x覆蓋子集外,所有讀取子集均導致單個循環重疊群,且所有讀取均超過15 kbp(補充表2)。組裝時間隨覆蓋深度線性增加(圖2A);但是,裝配精度隨著58x覆蓋率讀取集的非線性得分的提高而達到了Q值30.4,而最高覆蓋率數據集的32.0為Q評分(圖2B)。
圖2圖2.裝配統計與覆蓋深度。(A)組裝時間與基因組覆蓋深度的關系。(B)組裝精度與覆蓋深度的關系。
快速算法還為大多數數據集生成了單個圓形重疊群。例外情況是最壞的情況(6x覆蓋率,所有讀取的長度均超過15 kbp)被刪除,導致了24個重疊群,而數據集的9x覆蓋率和N50為22k,導致了2個重疊群。與HAC + mod算法相似,裝配精度在66x覆蓋率下的Q得分為23.9,而在260x則為24.3(圖2B),非線性地增加。對于這兩種算法,SNP和InDel的下降都遵循相同的非線性趨勢(補充圖1A,B)。根據這些結果,對于約5 Mbp的基因組大小,裝配體在80x覆蓋范圍內的裝配精度達到了99%,而裝配時間為56分鐘。
組裝中的錯誤影響了Prokka識別的編碼DNA序列(CDS)的數量。的大腸桿菌K?-12 MG1655參考基因組注釋包含4305個CDS,88的tRNA和rRNA的22。HAC + mod組件的帶批注的CDS數量比參考文獻多4%至83%(補充表2)。CDS數量的增加與裝配精度線性相關,可以用作裝配質量的代表(圖3)。盡管HAC + mod和Fast算法之間的相關性相同(確定系數= 0.98),但由于最大裝配精度的差異,兩種算法之間的斜率也不同。
圖3圖3.裝配精度與注釋的編碼DNA序列數的關系。
MinION大會的基因組規模代謝重建。
我們使用Prokka注釋的輸出為Fast和HAC + mod算法的三個代表性程序集建立了基因組規模的代謝網絡重建(GEM)。我們利用了最近發布的模型構建協議,該協議可基于參考模型生成重建模型(Norsigian等,2020b)。我們添加了一個額外的步驟,該步驟試圖重組由于測序錯誤而分裂成多個蛋白質序列的CDS。這種基于同源性的校正導致分裂CDS的大量恢復。對于快速堿基檢出算法,將76–84%的裂解CDS重組為單個蛋白質序列(表3)。對于HAC + mod算法,此范圍從82%到96%不等,具有最高覆蓋率的程序集實現了4312個推定的CDS,而參考E. coli K?-12 MG1655參考基因組則為4305個。我們還利用了過程中的一個可選步驟,即針對參考基因組草案查詢參考基因組中每個CDS的核苷酸序列??梢允褂么瞬襟E來恢復由于順序錯誤而在草稿注釋中丟失的開放閱讀框。表3中顯示了恢復的開放閱讀框的摘要。
表3表3.從組裝和注釋管道構建的基因組規模代謝重建的統計數據。
使用最新的大腸桿菌K?-12 MG1655 GEM(即ML1515)作為參考模型,我們基于校正后的草圖集注釋和參考基因組之間的同源性搜索生成了GEM。即使對于最低精度的組件,生成的模型也令人驚訝地完整(表3)。經過仿真后,所有模型,甚至是Fast basecalling算法中精度最低的組件,都可以預測與參考模型相同的增長率。所有代謝反應均存在于模型中,但最低準確度的HAC + mod裝配除外,它缺少2,712個反應中的2個。所有模型都包含參考模型中超過99%的基因。對于所有六個型號和i?ML1515,在298種可能的碳源上的預測增長能力均相同(補充圖2)。
病原菌的組裝和重建
在驗證了大腸桿菌K?-12上的模型生成管道后,我們將該方法應用于表征病原菌的臨床分離株。臨床分離株包括在紐約州瓦爾哈拉的韋斯特切斯特醫學中心從患有骨髓炎繼發性菌血癥的患者中分離出的醫院獲得的MRSA菌株。在鮑曼不動桿菌菌株從骨髓炎患者在圣迭戈,加利福尼亞,美國孤立于2017年。的屎腸球菌菌株是從在埃及開羅患者分離。這些分離物提供了管道的實際應用,因為可以通過與參考模型進行比較分析來鑒定抗生素抗性基因。此外,存在高質量的基因組規模代謝重建鮑曼不動桿菌AYE菌株(Norsigian等人,2018)和金黃色葡萄球菌USA300菌株(Seif等人,2019),可以用作參考重建。目前尚無糞腸球菌的代謝重建。因此,我們與自動化重建管道相比,使用我們的管道評估了糞腸球菌重建草稿的完整性[CarveMe(Machado et al。,2018)。使用我們的管道對解復用后的樣本進行基礎調用,組裝和注釋,其摘要如表4所示。為所有三個細菌基因組產生了環狀重疊群。另外,回收了鮑曼不動桿菌的質粒和屎腸球菌。
表4表4.本研究中表征的病原菌臨床分離株的裝配統計。
金黃色葡萄球菌臨床分離株
將金黃色葡萄球菌分離物讀數組裝成單個圓形重疊群,從而產生接近完整的基因組規模模型。基因組的總體覆蓋率約為75倍,根據在大腸桿菌中的驗證,預計將導致近乎完整的組裝。我們使用來自兩個高精度算法的讀數生成了程序集,無論是否考慮到A和C堿基(分別為HAC-mod和HAC + mod)的甲基化。HAC-mod組件產生的平均ORF更少,平均長度更長(表4)。與大腸桿菌中的結果相比,碎片化ORF的減少表明,HAC-mod算法比HAC + mod算法可產生更準確的組裝(表1)。
臨床分離株的基因組規模模型草案與參考模型幾乎相同。使用管道的拆分ORF重組步驟,將預測的ORF數量在HAC-mod組件中減少了58個,在HAC + mod中減少了145個;再次表明HAC-mod算法由于較少的分割ORF而更加準確。對于這兩種算法,通過針對裝配的參考核苷酸序列的同源性搜索,僅回收了一個ORF。該分離物的代謝重建草案臨床包括的851個基因和1448升的反應相比,866個基因和1455個反應在參考模型中我YS854。在這7個缺失反應中,沒有一個是必不可少的,并且由策展模型在策展之前預測的增長率與參考模型的增長率相同。對于HAC-mod和HAC + mod組件,草稿重構是相同的。因此,我們僅策劃了HAC-mod衍生的草案。
模型構建流程可在參考菌株和臨床分離株中提供獨特內容的注釋。使用這些注釋,我們迅速將臨床分離株重建草案整理成一個完整的模型。臨床分離株在USA300菌株中具有181種蛋白,但沒有明確的同源性(圖4),其中57種與Swissprot數據庫的蛋白具有同源性。從這57種蛋白質中,確定16種與參照蛋白質同源,但低于80%PID截止值。因此,我們針對獨特的新陳代謝和抗生素抗性或毒性內容,整理了臨床分離物中41種蛋白質的最終清單。對參考菌株USA300 TCH1516的類似分析導致臨床分離物中的447種蛋白沒有同源性(圖4)。在這477種蛋白質中,有100種與Swissprot蛋白質同源,并且經過手動處理,我們鑒定出67種具有已知功能的蛋白質,與臨床分離株相比,該蛋白質對于參考而言是獨特的。
圖4圖4的比較金黃色葡萄球菌USA300 TCH1516相對于金黃色葡萄球菌基于基因組尺度代謝重建管道的輸出臨床分離物。
USA300 TCH1516和臨床分離株的代謝能力幾乎相同。我們首先評估了參考中存在的模型草案中缺少的反應。對于7個缺失反應中的5個,我們確定了低于臨界值的同源性評分,從而導致反應從草稿重構中刪除。但是,在針對Swissprot數據庫同源性搜索手動整理這些蛋白質后,我們將反應添加回了臨床分離株的草稿中。最后缺失的反應是參考菌株中的其他肽聚糖生物合成途徑。在臨床分離物中,該替代途徑缺失或有所不同,其從草稿重建中的省略是有效的。參考菌株基因組中唯一的獨特功能是推定的砷酸還原酶和三類特征性差的ATP依賴性轉運蛋白,與陽離子攝取蛋白的同源性低。在臨床分離物中沒有發現獨特的代謝能力。最終的臨床分離株重建,我SA854isolate(補充材料),包括了854個基因,1453個反應和1335種代謝物(圖4)。
參考菌株和臨床分離株之間在抗生素抗性能力,宿主毒性機制和抗菌肽生物合成方面存在差異(圖4)。在參考菌株USA300 TCH1516中存在的甲氧西林抗性基因中,臨床分離物中僅缺少跨膜β-內酰胺傳感器MecR1(Peacock和Paterson,2015年)。臨床分離基因組編碼了可能的MacB外排轉運蛋白(Kobayashi等,2001),賦予了對大環內酯類藥物如紅霉素的抗性(Lin等,2009)。趨化抑制蛋白,負責逃避宿主免疫系統(de Haas等人,2004年)和能夠溶解宿主細胞的可溶于酚的調節素(Cheung等,2014),在臨床分離物中不存在。雖然參考菌株和臨床分離株基因組均編碼葡萄球菌腸毒素A,D和E,但臨床分離株也編碼了腸毒素C,G和H.?臨床分離物中沒有已知的羊毛硫抗生素生物合成途徑。但是,對羊毛硫抗生素出口商進行了注釋。應當指出的是,這種分析是基于基因組比較分析,而不是模型模擬的直接輸出,因為這些機制中有許多不在GEM的范圍內。但是,通過管道簡化了基因組比較,因為只有非冗余內容才需要人工干預和注釋。
鮑曼不動桿菌臨床分離株
的鮑曼不動桿菌菌株讀段盡管大約13×的整體基因組覆蓋組裝成一個環狀基因組和一個線性質粒。我們使用來自兩個高精度算法的讀數生成了程序集,無論是否考慮到A和G堿基(分別為HAC-mod和HAC + mod)的甲基化。同樣,HAC-mod程序集產生的平均ORF更少,平均長度更長(表4),因此比HAC + mod算法更精確的程序集。
臨床分離株的基因組規模模型草案的代謝成分與參考模型不同。管道的分開的ORF重組步驟在HAC-mod裝配中將預測的ORF數量減少了326,這表明基因組覆蓋率低,并且產生的準確性導致大量移碼。通過針對裝配體對參考核苷酸序列進行同源搜索,回收了五個ORF。臨床分離株代謝重建草案由675個基因和1,007個反應組成,而參考模型i?CN718中為709個基因和1,015個反應。在8個缺失的反應中,一個是必不可少的。莢膜多糖(CPS)生物合成酶UDP-?N-乙酰基-D-葡糖胺差向異構酶(模型反應UAG4E)。從CPS生物質反應中除去該反應的產物UDP-?N-乙酰基-D-半乳糖胺后,草案模型能夠模擬生長。該觀察結果以及不存在另一種CPS生物合成酶UDP-?N-乙酰基-D-甘露糖胺氧化還原酶(模型反應UACMAMO)表明,這兩個物種之間的CPS有所不同,這在隨后的手動管理階段很明顯。
的鮑曼不動桿菌的臨床分離物具有700種蛋白質,而不在AYE參考菌株(明確同源圖5),其中244具有同源性的蛋白質的Swissprot可數據庫。從這244種蛋白質中,確定83種與參照蛋白質同源,但低于80%PID截止值。因此,我們挑選出了161種蛋白質的最終列表,這些蛋白質具有獨特的代謝和抗生素抗性或毒性。對參考菌株AYE的倒數分析在臨床分離物中產生558種無同源性的蛋白質(圖5)。在這558種蛋白質中,有267種與Swissprot蛋白質同源,并且通過手動管理,我們鑒定出179種具有已知功能的蛋白質,與臨床分離株相比,該蛋白質對于參考而言是獨特的。
圖5圖5.根據基因組規模的代謝重建流程的輸出,將鮑曼不動桿菌AYE與鮑曼不動桿菌臨床分離株進行比較。
我們首先評估了參考中存在的模型草案中缺少的其余反應。手動管理非CPS缺失反應提示這些功能確實在臨床隔離株中不存在。這些包括乙酰乳酸脫羧酶,脯氨酸消旋酶,脲基甲酸酯水解酶,ABC型組氨酸/陽離子氨基酸導入劑和編碼肌酸酰胺水解酶的質粒。此外,臨床分離物中不存在DNA修飾酶胞嘧啶5-甲基轉移酶(模型反應CYTOM)。參考菌株AYE基因組中的獨特功能包括用于砷和汞的重金屬外排泵,以及除上述基因外的與CPS生物合成有關的幾個基因。
相比之下,臨床分離物中還標注了其他幾種代謝功能。分離物中存在草酸鹽和半乳糖酸鹽,腐胺和沒食子酸鹽的降解途徑(圖5)。這些途徑已經存在于BiGG模型數據庫(Norsigian等,2020c)中,包括大腸桿菌[?i?ML1515(Monk等,2017)],枯草芽孢桿菌[?i?YO844(Oh等,2007)]模型。 ]和惡臭假單胞菌[?i?JN1462,(Nogales等人,2020年)]。這樣,這個新的模型內容就可以輕松地轉移到草案草稿中,并通過臨床分離的ORF(補充材料)來更新基因反應關聯。盡管臨床分離株和參考菌株均包含I型二氫蝶呤合酶,但臨床分離株也編碼該酶的II型版本。磺胺類抗生素可快速抑制I型,而II型可賦予此類抗生素耐藥性(R?dstr?m等,1991)。
臨床分離物中的CPS生物合成基因座表明存在偽氨基酸。臨床分離株CPS基因座的遺傳組織與含有K2膠囊的偽胺酸高度相似(Kenyon等,2014)。然而,假設K2膠囊使用N-乙?;?半乳糖胺作為起始糖(Kenyon等,2014)。如上所述,臨床分離株缺少生物合成N的UDP-?N-乙酰基-D-葡萄糖胺差向異構酶-乙酰半乳糖胺。因此,用于臨床分離物的起始CPS糖是未知的。偽氨基酸的生物合成途徑不在BiGG模型數據庫中。因此,我們手動策劃了重新構建草案的途徑。臨床分離株中標注了一種新的代謝能力,但未添加到草稿重建中。注釋了與鐵載體介導的鐵攝取具有非常低同源性的基因簇。低同源性注釋阻止了將內容添加到模型;但是,該途徑對于參考菌株和臨床分離株中都存在的鐵吸收系統是多余的。最后,策劃臨床分離株重構,我AB710isolate(補充材料),由710個基因,1,032個反應和918個代謝物組成(圖5)。
鮑曼不動桿菌參考菌株和臨床分離株之間的抗生素抗藥性和抗菌毒素存在差異(圖5)。參考AYE菌株特有的抗生素耐藥性的遺傳證據包括卡那霉素,四環素,慶大霉素,氯霉素和小的多藥耐藥性。為ABC轉運蛋白編碼的臨床分離基因組,其起頭孢哌酮外排泵的作用(Yamanaka等,2016)。此外,在臨床分離物中,有證據表明氨基糖苷乙酰基轉移酶可使氨基糖苷分子乙?;?#xff0c;從而賦予對含有紫嘌呤胺環的抗生素的抗性(Nobuta等,1988)。)。對于抗微生物毒素,臨床分離基因組包括接觸依賴性生長抑制系統CdiA(Willett等人,2015),該系統不存在于參考基因組中。外排泵和氨基糖苷乙?;D移酶是GEM的研究范圍,如果與抗生素攝取動力學模型結合使用,可以模擬AMR機制。但是,CdiA機制超出了GEM的范圍,并且以上分析基于基因組比較。
糞腸球菌的草稿重建
我們試圖使用管道的修改版來生成糞腸球菌(E. faecium)的代謝模型草案。由于該物種不存在參考模型,因此我們調整了模型構建流程,以使用BiGG模型數據庫(Norsigian等,2020c)中的鄰近生物作為參考。如預期的那樣,系統生物學分析表明,糞腸球菌菌株與BiGG數據庫中的其他Firmicutes聚集在一起(補充圖3)。在這種情況下,我們還選擇了一種“類型菌株”,即屎腸球菌。應變DO(NCBI:NC_017960.1),用于執行管道的ORF恢復步驟。另外,此版本的管道使用e值閾值(1?e?-10)代替PID來建立與參考物種的同源性。由于系統發育的緣故,我們使用三種Firmicute GEM產生了糞腸球菌的代謝重建草稿,由于模型的大小和質量,我們使用大腸桿菌作為參考物種(表5)。
表5表5.使用不同參考基因組規模的重建的糞腸球菌臨床分離株的代謝重建草案。
糞腸球菌的重建均未創建完整的模型。重建的大小從319個到448個基因不等(表5)。但是,每次重建也都包含其他參考物種衍生的模型草案中沒有的獨特內容。整個非冗余草稿重構由626個基因,1,045個反應和1,050個代謝物組成(補充材料)。該組合模型無法模擬生長,可能是由于缺乏物種特異性的生物質反應。與參考物種沒有同源性的ORF的數量隨著與糞腸球菌的系統進化距離的增加而增加(表5))。但是,這與模型大小不相關,因為最親緣距離最遠的物種大腸埃希菌導致第二大模型。
我們將管道中的結果與自動重建工具CarveMe的結果進行了比較(Machado等人,2018)。CarveMe使用基于較舊版本的BiGG數據庫的通用模型,該模型在概念上類似于但比我們上面使用的多個參考模型更全面。然后,CarveMe基于線性編程(MILP)方法刪除模型內容。與CarveMe通用模型蛋白質數據庫對齊的帶注釋的糞腸球菌蛋白質序列表明708個唯一匹配項的e值超過1?e的閾值-10,類似于我們626個基因的組合模型大小。CarveMe GEM包含471個基因,1,045個反應和784個代謝產物。盡管此模型比我們的組合模型小,但它能夠模擬化學豐富的培養基上的生長(所有交換反應均已打開),而我們的組合模型則沒有。糞腸球菌裝配中的同源蛋白質數量(708)和最終的CarveMe模型基因計數(471)之間的差異表明,MILP“雕刻”過程去除了可能包含在糞腸球菌中的代謝成分重建。由于CarveMe方法是自上而下的模型構建工具,因此在某種程度上是可以預期的。兩種模型都有獨特的內容。CarveMe模型中的471個基因中,有106個缺失。同時,我們的組合模型包含CarveMe模型中不存在的261個基因。這些結果表明,兩條管道的重建都需要手動管理。
模擬基因組
由于對微生物群落的原位分析是MinION測序平臺的一項重要功能,因此,我們評估了將整個測序過程作為模擬元基因組處理后得到的裝配的質量。在模擬的元基因組中存在六種獨立的樣品制備或與之前運行的殘留物,包括三株大腸桿菌,最小和最豐富樣品之間的讀數計數存在數量級差異(補充表3) 。從金黃色葡萄球菌,鮑曼不動桿菌和糞腸球菌的元基因組中回收了一個單一的圓形重疊群,其長度與分離的讀段的組裝長度相似(表6)。從HAC-mod讀數和元基因組得到的基因組的比較分別導致鮑曼不動桿菌,糞腸球菌和金黃色葡萄球菌的Q值分別為29.4、34.2和43.6?(相似或更好的為99.88%)。伸長的聚球菌PCC 7942的片段重疊群(經評估是從同一MinION流通池上的先前測序運行中殘留),未超過分箱和注釋的覆蓋范圍(10倍)。讀取的亞株大腸桿菌CFT073構成的總數的11%,但讀出只有3%的測序核苷酸的(補充表3),并且不超過為合并的覆蓋截止。令人驚訝的是,大腸桿菌O157:H7被片段化,其主要染色體的覆蓋范圍高度可變(14-22x)。該樣品與高于截留閾值的其他裝配體形成鮮明對比,表明在gDNA提取或文庫構建過程中存在問題。盡管如此,組裝片段的大小仍與該大腸桿菌菌株的規范大小相似(表6),基于i?ML1515的草圖重建(未針對新內容進行整理)能夠解決生長問題(補充數據集) 。
表6表6.?MinION模擬元基因組裝配的裝配統計信息。
由于鮑曼不動桿菌與環狀基因組的相似性最低,因此我們在該基因組的衍生基因組衍生裝配上運行了模型重建流程。源自元基因組的程序集包含5,019個帶注釋的ORF,其平均ORF長度為659 bp,而HAC-mod程序集則為5,376個ORF和622 bp。該結果表明,該基因組的裝配質量比多路分解的裝配更高,這可能是由于覆蓋率略高(表6)。)。從元基因組派生的程序集和HAC-mod程序集重建的草稿與675個基因和1,007個反應相同,兩次草稿重建中都缺少相同的8個參考模型反應。該結果表明,可以用源自基因組的程序集建立近乎完整的基因組規模的代謝重建。
討論區
總體而言,組裝和模型構建流程的結果表明,可以直接從基于MinION的組裝中直接生成準確的基因組規模的代謝重建。該管道為所有覆蓋深度和裝配精度提供了> 99%的完整大腸桿菌模型。組裝精度隨著覆蓋深度的增加而迅速提高,而組裝所需的時間則隨著覆蓋深度的增加而線性增加(圖2A,B)。這些數據表明,大約80倍的覆蓋率目標可在組裝精度和所需時間之間取得平衡。在此值下,對于大約5 Mbp的基因組,裝配體將在其最大精度的1%以內,并且流水線可在不到一小時的時間內在筆記本電腦上完成。盡管Fast basecaller導致準確性低,易于出錯的程序集,但由這些讀取導致的重構仍大于99%完成。這可能是由于以下事實:網絡重建僅需要二進制存在/不存在評估,以便對模型添加反應。綜上所述,該數據表明GEM準確性等于基因組組裝準確性。當MinION裝配體達到超過99%的共識精度時,所得的GEM也會達到此完成水平。應當指出,由于計算算法和硬件的進步,裝配質量和速度繼續提高。例如,我們驗證了筆記本電腦的補充數據集示例管線處理示例,該筆記本電腦配備了Intel i7-9750 45W處理器,32 GB RAM和RTX2060 GPU。與177分鐘(Guppy v。3.6.1與3.2.2,移動RTX2060與臺式機GTX1070)相比,對大腸桿菌數據的高精度堿基檢出花費了90分鐘,而對40×HAC大腸桿菌數據集的組裝花費了12分鐘。而i7-8650U處理器則為28分鐘。
組裝流水線導致金黃色葡萄球菌,鮑曼不動桿菌和糞腸球菌臨床分離株的圓形重疊群。覆蓋深度與整體基因組準確性和分裂的ORF數量之間的關系與大腸桿菌的驗證結果一致。盡管覆蓋了13倍,但完整的鮑曼不動桿菌基因組的恢復尤為令人鼓舞。此外,管道回收了鮑曼不動桿菌和糞腸球菌的質粒,這是一項重要功能,因為質粒通常包含賦予AMR的基因(Buckner等人,2018)。
將測序運行視為元基因組不會降低所得裝配的質量。實際上,我們對鮑曼不動桿菌的研究結果表明,由于缺乏條形碼(不包含條形碼,大約占11%,補充表3),并入了從多路分解后的樣品中剔除的讀數,從而提高了裝配質量。該結果表明有望對簡單的微生物群落進行快速原位表征,這在文獻中是有先例的(Castro-Wallace等人,2017年;?Arumugam等人,2019年;?Sevim等人,2019年)。大腸桿菌的碎片性質模擬宏基因組中的O157:H7基因組在其他物種的質量裝配中脫穎而出。我們假設在同一個基因組中存在三種不同的大腸桿菌菌株可能會影響裝配質量。但是,多路分解后的條形碼讀取的組合產生了相似的結果(補充表4)。因此,該問題是讀取數據所固有的,并且存在多個相似的應變不會影響組裝質量。金黃色葡萄球菌代謝能力之間的一致性臨床分離株和參考菌株USA300 TCH1315直接從管道中獲得了可解決的,接近完整的基因組規模模型。流水線的成對比較輸出還能夠快速評估推定的AMR功能(圖4)。觀察到的差異(例如臨床分離物中存在公認的MacB外排泵)可以幫助選擇治療方案,或用于將疾病表現和臨床結果與基因組含量相關聯。這些觀察是基于比較基因組學,而不是模型模擬的結果。
鮑曼不動桿菌臨床分離株的代謝能力不同于參考AYE菌株(圖5)。其他分解代謝途徑(尤其是沒食子酸酯)的存在可洞悉病原體的潛在來源和環境背景。對臨床分離株的系統生物學分析鑒定出與黃瓜根際分離的鮑氏不動桿菌XL380菌株最為相似(NCBI登錄號CP046536.1,補充圖4)。由于沒食子酸酯是植物的代謝產物,因此臨床分離株也可能源于植物的根際。此外,管道還生成了有關臨床分離株莢膜多糖(CPS)的足夠詳細信息,以使其與K2莢膜相關聯(Kenyon et al。,2014),同時推斷該菌株中的起始糖有所不同。幽門螺桿菌的多糖中存在偽胺酸與毒力增加相關(Kao等人,2016),再次證明了這項研究中使用的管道在鑒定可告知疾病進展和可能的臨床結果的代謝成分方面具有價值。
手動將其他內容整理到鮑曼不動桿菌臨床隔離株中,突出顯示了潛在的瓶頸。自動化步驟的確可以快速識別新菌株與其相應參考之間的保守含量,從而突出顯示可能需要大量人工干預的菌株。盡管如此,GEM的功能還是來自于模擬代謝表型的能力。這就要求將新內容添加到計算機重建中。對于BiGG模型數據庫中已經存在的內容,此步驟很簡單,只需幾分鐘即可完成(補充材料)。但是,將偽氨基酸生物合成途徑手動引入模型中確實對快速模擬代謝能力構成了障礙。手動管理此路徑及其隨后添加到模型的時間投入約為幾個小時。解決這一挑戰的方法是擴大全基因組規模的重建數量。全景基因組是給定物種中所有獨特內容的綱要(Norsigian等,2020a)。例如,鮑曼不動桿菌的全基因組因為含K2 CPS的物種已經包含在全基因組中,因此它已經包含了偽氨基酸的生物合成途徑。泛基因組規模的重建需要大量的前期工作,因為它們需要管理數千種基因。盡管如此,這些重建確實存在于BiGG數據庫中(Seif等人,2018)。泛基因組規模的重建將對實施即時點測序和AMR病原體的代謝特征做出重要貢獻。
在嘗試重建糞腸球菌代謝網絡方面,我們方法的主要局限性顯而易見。缺乏糞腸球菌參考菌株導致所有重建大約完成了50%。使用系統發育方法選擇最合適的參考菌株似乎可以使糞腸球菌中與該參考菌株蛋白質缺乏同源性的蛋白質序列數量降至最低(表5))。但是,它并沒有增加最終重建的完整性。該觀察結果突出了我們方法的主要缺點:參考模型的質量被投影到新的重構中。結合多個參考模型可以實現更完整的重建,并反映了CarveMe方法的方法(Machado等人,2018年)。盡管如此,CarveMe衍生的模型并未包括糞腸球菌基因組中編碼的所有代謝成分。在此方法執行的模型簡化或“雕刻”步驟中,此內容可能已經丟失。此外,CarveMe使用的通用模型基于BiGG數據庫的舊版本,該版本缺少兩個相關的GEM:用于金黃色葡萄球菌的i?YS854乳酸乳球菌的USA300 TCH1315和i?NF514?,它們都是屎腸球菌的系統發育鄰居(補充圖2)。對CarveMe通用模型的更新可能會導致更完整的重建。對于我們的管道產生的草稿,必須進行手動策展才能生成完整的重建圖。
我們研究的主要目的是評估源自MinION組件的GEM的質量。從結果大腸桿菌組件和重建建議使用附庸組件從我們的管道將概括高精度從頭開始建立一個創業板的大腸桿菌模型,我ML1515。仍然需要注意的重要一點是,我們無法通過正交,高精度測序技術評估臨床分離基因組和由此產生的GEM作為組裝體的準確性,也沒有可用于進行GEM模擬驗證的生理數據。這些約束在嚴峻的環境中也可能是正確的。因此,雖然MinION衍生的大腸桿菌GEM和金黃色葡萄球菌和鮑曼不動桿菌臨床分離株GEM的生長速度模擬表明重建接近完成,重要的是要強調缺乏廣泛的準確性和驗證指標。
展望未來,很明顯兩個增長領域將提高GEM在現場即時病原體測序和表征中的適用性。首先,直接模擬GEM中的AMR機制將能夠定量評估抗生素耐藥性的代謝成本,這是重要的下一步。同時,重要的是要注意某些AMR機制在代謝建模中是不可行的,包括本研究中確定的一些。對于那些機制,與比較基因組學相比,代謝建模沒有任何好處。盡管如此,這項研究的結果仍然表明,MinION衍生的程序集對于這些類型的分析具有足夠的質量。
另一個挑戰是需要手動管理新菌株的獨特含量。全自動管道(例如modelSEED)犧牲了一些表型預測準確性(Machado等人,2018)。我們的管道和CarveMe方法都是基于參考的重建方法。我們的流水線使用單一參考模型,而CarveMe利用整個BiGG模型數據庫,這是一個高質量的,人工管理的基因組規模重建的存儲庫(Norsigian等,2020c)。盡管如此,數據庫的微生物(古細菌和原核生物)模型的內容還是偏向于γ-變形桿菌,占了數據庫中80%以上的重建(圖6)。)。第二個最豐富的門是大約8%的Firmicutes。在我們的分析中使用的54種細菌和古細菌門中,基因組規模的代謝重建不到15%(8/54門)。此外,正如我們在糞腸球菌中的研究結果所示,僅僅處于同一個門不會導致完整的GEM,自動重建工具(例如CarveMe)也無法完全彌合物種之間的鴻溝。因此,需要在整個系統發育樹中大量擴展人工固化的GEM。我們的組裝和草圖模型構建流水線可以通過最大限度地減少手動策劃的唯一內容的數量來促進此擴展。
圖6圖6.?BiGG模型數據庫中基因組規模模型的系統生物學分析。
數據可用性聲明
可以在補充材料中找到為此研究生成的數據集??梢栽赟BRG Github(https://github.com/SBRG/MinIONtoModels/releases)上找到補充材料中發現的大腸桿菌MinION的一部分子集以運行裝配管線(覆蓋28倍)。大腸桿菌K-12 MG1655 BOP27(300x覆蓋)和鮑曼不動桿菌,金黃色葡萄球菌和屎腸球菌的納米孔基因組組裝體?臨床分離株(HAC-mod,多路分離)可在國家生物技術信息生物工程數據庫中找到,編號為PRJNA672694,生物樣品登錄號SAMN16574824,SAMN16574825,SAMN16574826,SAMN16574827。
作者貢獻
JB和JM構思并設計了這項研究。CN和JB進行了計算分析和模擬。RS和JB進行了培養,gDNA提取和MinION測序。所有作者都討論了結果,并參與了寫作過程。
資金
這項工作得到了美國國立衛生研究院(U01AI124316)和國家航空航天局(NASA)授予JB的博士后研究金計劃NPP168014S的支持。
利益沖突
作者宣稱,這項研究是在沒有任何商業或金融關系的情況下進行的,這可以解釋為潛在的利益沖突。
致謝
作者要感謝Marc Abrams對稿件的審閱。
補充材料
可以在以下網址在線找到本文的補充材料:https?:?//www.frontiersin.org/articles/10.3389/fmicb.2020.596626/full#supplementary-material
總結
以上是生活随笔為你收集整理的High-Quality Genome-Scale Models From Error-Prone, Long-Read Assemblies高质量的基因组尺度模型来自易出错的,长时间读取的程序集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python header头部请求_py
- 下一篇: python生成器迭代_python中的