Nature:Rob Knight团队发现血液和组织微生物组可诊断癌症
Nature:血液和組織中的微生物組分析可作為癌癥的診斷方法
Nature [IF: 42.778]
全文鏈接:https://doi.org/10.1038/s41586-020-2095-1
發表日期:2020-03-11
第一作者:Gregory D. Poore1 & Evguenia Kopylova2
通訊作者:Rob Knight(robknight@ucsd.edu)1,2,3,4
主要單位:
1 美國加州大學圣地亞哥分校生物工程系(Department of Bioengineering, University of California San Diego, La Jolla, CA, USA)
2 美國加州大學圣地亞哥分校兒科(Department of Pediatrics, University of California San Diego, La Jolla, CA, USA)
3 美國加州大學圣地亞哥分校微生物群創新中心(Center for Microbiome Innovation, University of California San Diego, La Jolla, CA, USA)
4 美國加州大學圣地亞哥分校計算機科學與工程系(Department of Computer Science and Engineering, University of California San Diego, La Jolla, CA, USA)
摘要
癌癥與全身微生物組的相關性,使得利用微生物衍生分子來診斷人類重大疾病成為可能。最近有證據表明,一些癌癥對微生物有較大影響。本研究重新核查了癌癥基因組圖譜(TCGA)中的33種癌癥的全基因組和全轉錄組測序研究尋找微生物片段(總共18,116個樣本)。這些研究均來自未接受治療的患者,并在大多數主要的癌癥類型中和不同癌癥類型之間的組織和血液中發現了獨特的微生物特征。盡管使用了非常嚴格的數據清洗方法,舍棄了總序列數據的92.3%的,這些TCGA的血液特征性信息僅對于以下兩種患者具有預測性:Ia-IIc期癌癥和無任何基因組改變的癌癥(目前在兩個商業級無細胞腫瘤DNA平臺上測量到的)。此外,僅使用血漿來源的無細胞微生物核酸,就可以區分來自健康的、無癌癥的個體(n=69)和來自多種癌癥(前列腺癌、肺癌和黑色素瘤;總共100個樣本)患者的樣本。這一基于微生物組的腫瘤學診斷工具值得進一步探索。
背景
癌癥通常被認為是一種基因組疾病。然而,最近的研究表明,菌群與某些類型的癌癥有很大的關聯,特別是糞菌與胃腸道癌癥緊密相關。然而,微生物與不同類型癌癥的關聯的程度和診斷意義尚不清楚。因為在癌癥基因組學項目中很少采取程序性控制,樣本在采集、處理和測序過程中可能受到污染從而限制了這些研究的開展。使用最近開發的工具能將污染物對微生物特征的影響降到最小(原文引文14-18介紹了一系統微生物污染處理的實驗和分析方法),使基于微生物的診斷的研究發展成為可能。
為了表征與癌癥相關的微生物,本研究從TCGA全基因組測序數據庫(WGS;n = 4831)和全轉錄組測序(RNA-seq;n = 13,285)研究中重新檢查了來自10,481名患者和33種癌癥的18,116個樣本中的微生物片段。微生物片段以前是在特定分析(包括胃腺癌中的Epstein–Barr virus(EBV)和宮頸癌中的人乳頭狀瘤病毒(HPV))中確定的,并已在一小部分樣本中進行了系統研究(例如,來自19種癌癥的4433個TCGA樣本的病毒組和9種癌癥的1,880個TCGA樣本的細菌組)。大多數TCGA測序數據仍未進行微生物分析。在這里,本研究展示了迄今為止最全面的癌癥微生物組數據集,使用兩種途徑進行微生物檢測,系統地評估和降低采用技術的差異和測序片段的污染。本研究使用機器學習(ML)來識別區分不同類型癌癥的微生物特征,并比較它們的檢驗效能。
由于TCGA數據處理沒有去除污染的微生物片段,也沒有排除健康個體,血液樣本是TCGA樣本中最有可能包含外來微生物污染的樣本類型,因此本研究采用微生物分析方法的金標準對血液樣本進行再次分析。本研究將血漿來源的微生物DNA信息與臨床上應用的無細胞腫瘤DNA(ctDNA)分析進行對應比較。對前列腺癌、肺癌或皮膚癌患者(總共100人)和健康、無癌癥和艾滋病對照者(69人)的血漿樣本進行的深度宏基因組測序表明,無細胞微生物圖譜可以實現健康與癌癥以及癌癥與癌癥的區分。這些發現提出了一種新的基于微生物組的癌癥診斷工具,可能會補充現有的用于檢測和監測癌癥的ctDNA分析方法。
TCGA中癌癥相關微生物組及其標準化
TCGA cancer microbiome and its normalization
在TCGA中的6.4×1012個測序讀長中,7.2%為非人類基因,其中35.2%(占總讀長的2.5%)為細菌、古菌或病毒,這其中12.6%(占總讀數的0.9%)采用Kraken解析至屬水平,它將短基因組子字符串(k-mers)與參考數據庫中的分類單元相匹配(圖1a)。在進行了數據質控和篩選之后得到的樣本的元數據(圖1b),并在同一癌癥類型和樣本類型內按樣本數進行標準轉化,全基因組測序(WGS)在以下四種情況提供的微生物讀長明顯多于轉錄組測序(RNA-seq)實驗:原發性腫瘤(primary tumour)、正常實體組織/癌旁(solid tissue
normal)、轉移性的(metastatic)和復發的(recurrent)腫瘤樣本。快速的k-mer匹配方法容易出現假陽性結果,所以本研究對四種TCGA類型的癌癥(宮頸鱗狀細胞癌(CESC)、胃腺癌(STAD)、肺腺癌(LUAD)和卵巢漿液性囊腺癌(OV))具有特異性的Kraken陽性的屬水平微生物信息與已知的微生物關系和/或與配對的蛋白質組數據進行比對。結果發現較低的假陽性率1.09%,這表明Kraken數據對下游分析是有效的。
已知TCGA表達和人類基因組數據顯示出巨大的的批次效應,這種效應在宏基因組數據中同樣存在(圖1c)。因此,本研究使用Voom實現了一個聚合分析,將離散分類計數轉換為每個樣本的百萬比對數(log-cpm),并進行有監督的標準轉換(SNM)標準化。主方差成分分析表明,標準轉換降低了技術差異引起的批次效應,同時增加了包括癌癥類型在內的生物信號(圖1d,e)。
圖1|TCGA癌癥微生物組分析的方法和結果
Fig. 1 | Approach and overall findings of the cancer microbiome analysis of TCGA.
a、棒棒糖曲線圖,顯示微生物檢測分析占所總測序讀長的百分比,以及由Kraken設置的TCGA數據集中在屬水平精度的那些測序讀長的百分比。LAML,急性髓性白血病;PAAD,胰腺癌;GBM,多形性膠質母細胞瘤;PRAD,前列腺癌;ESCA,食道癌;TCGT,睪丸生殖細胞腫瘤;BRCA,乳腺浸潤性癌;THCA,甲狀腺癌;KICH,腎臟嫌色;胸腺瘤;READ,直腸腺癌;SARC,肉瘤;UVM,葡萄膜黑色素瘤;CHOL,膽管癌;ACC,腎上腺。b、顯示質量控制過程和剩余樣本數量的流程表。FFPE,固定福爾馬林石蠟包埋。c、Voom標準化數據的主成分分析(PCA),同一測序中心數據顯示為同一種顏色。d、Voom-SNM數據的主成分分析。e,原始分類計數數據、Voom標準化數據和Voom-SNM數據的主方差分量分析。f-h,分類器性能指標的熱圖(AUROC(ROC)和AuPR(PR))從紅色(高)到藍色(低),用于區分TCGA原發性腫瘤(f)、腫瘤和正常樣本(g)以及I期和IV期癌癥(h)。
癌癥類型與分期的微生物預測模型
Predicting among and within types of cancer
本研究使用標準化數據,訓練隨機梯度增強的機器學習模型來區分癌癥的類型和分期。這些模型在區分 (i)一種癌癥類型與所有其他類型(n = 32種癌癥);(ii)腫瘤與正常(n = 15種癌癥)(圖1f,g)方面的性能很強(http://cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser/ 分析結果提供了可查詢的網站——癌癥微生物組,有利于同行于利用數據)。癌癥類型之間敏感性和特異性的差異可能部分是由樣本量決定的,因為在一種癌癥類型與所有其他類型的比較中,樣本量較小的類型與AUROC(ROC曲線下的面積,area under the receiver operating characteristic curve)和AUPR(精確-召回曲線下的面積,area under the precision–recall curve)值之間存在顯著的線性關系。盡管這些歷史組織樣本的空間檢查不在本研究的范圍之內,但癌癥微生物的異質性也可能是不同癌癥類型之間差異的另一個原因。基于組織的微生物分類模型在區分結腸腺癌(colon adenocarcinoma,COAD)、STAD和腎透明細胞癌(KIRC,kidney renal clear cell carcinoma)的I期和IV期腫瘤(n = 8種癌癥)方面效果較好,但在其他5種被類型的癌癥中表現不佳(圖1h),而且該模型也不能區分II期和III期。這些結果表明,微生物菌群特點可能與所有類型癌癥組織的分期無關。
為了評估該模型在數據集上的通用性,本研究隨機將原始TCGA微生物數據分成兩批,在每批上獨立重復所有過程,在另一半數據上測試每個獨立訓練的模型,發現性能非常相似(擴展數據圖3A)。當檢驗單一數據類型(WGS或RNA-SEQ)時,或檢驗測序中心數據,或僅使用基因組比對過濾的Kraken數據時,微生物都表現出明顯的特征性差異。
為了進一步驗證,本研究應用了一種基于比對分析的微生物分類分析方法SHOGUN,使用了一個基于系統發育的、僅針對細菌的簡化數據庫,包含13,517個TCGA樣本(WGS,n = 3,434;RNAseq,n=10,083),覆蓋了基于Kraken分析中的每一種癌癥類型(n = 32)、樣本類型(n = 7)、測序平臺(n = 6)和測序中心(n = 8)。盡管使用了較小的、不同的底層數據庫,SHOGUN生成的數據同樣存在Kraken數據中存在的批次效應。本研究將這些數據和相應的Kraken數據子集分別輸入到標準化和機器學習分析模型中,并發現數據集之間在判別性能方面沒有重大差異。因此,這些結果意味著每種癌癥類型都對應著獨特的微生物群落,僅基于微生物組來區分癌癥的標準化和分類模型可以得到更廣泛的應用。
圖2|TCGA癌癥微生物數據集中病毒和細菌片段的生態學驗證
Fig. 2 | Ecological validation of viral and bacterial reads within the TCGA
cancer microbiome data set.
a、使用Source Tracker2在HMP2數據集上訓練,對COAD患者(n = 70)的組織樣本中微生物來源進行分析。b,與梭桿菌屬相關的常見胃腸道(gastrointestinal,GI)癌。BDN,血源性正常;STN,實體組織正常;PT,原發性腫瘤。c、腸胃癌組(n = 8:COAD、READ、CHOL、LIHC、PAAD、hNSC、ESCA、STAD)和非胃癌組(n = 24)梭桿菌豐度的差異。d,e,CESC(d)或HNSC(e)HPV感染患者的標準化與臨床表現。原位雜交(ISH, in situ hybridization);免疫組化(IHC, immunohistochemistry)。f,LIHC患者的標準化正肝病毒豐度,已判定為臨床危險因素包括:HepB,既往乙肝感染;EtOH,酗酒;HepC,既往丙型肝炎感染。g,STAD整合分子亞型的標準化EBV豐度:CIN,染色體不穩定;GS,基因組穩定;MSI,微衛星不穩定;EBV,EBV感染樣本。在所有小組中,正常血液樣本和/或正常組織數據作為陰性對照;使用雙側Mann-Whitney U檢驗,當進行兩次以上的比較并進行多次檢驗校正;框圖顯示中位數(直線)、25%和75%以及1.5倍的四分位數范圍(IQR)。藍色數字表示樣本量。
微生物組成的生物學相關性
Biological relevance of microorganism profiles
考慮到微生物特征的巨大差別,本研究使用生態學預測和/或臨床測試的結果來分析它們的生物學相關性。為了評估癌癥相關微生物是否是共生群落的一部分,本研究訓練了一種基于貝葉斯的微生物溯源分析法(Bayesian microbial-source tracking algorithm),該方法基于人類微生物組2(HMP2)項目中8個身體部位的217個樣本的數據,這些樣本已經通過我們的微生物檢測和標準化分析進行處理,以估計其對70個正常組織樣本和122個皮膚黑色素瘤(skin cutaneous melanoma,SKCM)原發性腫瘤的影響。目前已知,糞便是COAD微生物組成的主要影響因素(圖2a),但與SKCM微生物組成相關性不大,這表明菌群的來源主要為局部相鄰部位。
梭桿菌屬(Fusobacterium spp.)在胃腸道腫瘤的發生和發展中起重要作用。與正常組織樣本,尤其是正常血源性樣本(圖2b)相比,原發腫瘤中梭桿菌較多。泛癌分析還顯示,在原發腫瘤組織和鄰近正常組織樣本(圖2C)中,將所有胃腸道(GI)癌(n = 8)與非GI癌(n = 24)進行比較時,梭桿菌豐富度都是較高的(圖2c)。與以前對TCGA中STAD的研究類似,本研究發現原發腫瘤和鄰近實體組織正常標本之間的幽門螺桿菌感染沒有差異。
然后,本研究證實了TCGA中存在臨床研究發現的病毒感染,并將我們的微生物檢測分析與使用兩種不同的生物信息方法進行TCGA病毒分析的研究進行了比較:(i)從頭組裝宏基因組方法和(ii)基于讀長的方法(PathSeq算法)。在CESC和頭頸部鱗狀細胞癌(HNSC)樣本中,經臨床檢測為HPV感染“陽性”或“陰性”的個體的原發腫瘤中的甲乳頭狀瘤病毒屬的豐度不同(圖2d,e)。以來自CESC患者的正常血樣作為陰性對照,在比較所有其他類型的癌癥類型和樣本類型時,沒有統計學上的差異,僅在有些癌癥類型中甲乳頭狀瘤病毒的豐度是過高的。與有飲酒和丙型肝炎病史的肝細胞癌患者相比,有乙型肝炎病史的患者在原發性腫瘤和鄰近的實體組織正常標本中均有某種程度乙型肝炎病毒屬(OrthoHepadnavirus)的升高(圖2f);將正常的血液樣本作為陰性對照,則無統計學差異。同樣與以前的報告一致,與其他STAD分子亞型的患者相比,EB病毒屬(淋巴病毒)在EBV感染的原發腫瘤中選擇性升高(圖2g)。正常組織樣本和血源性正常樣本作為陰性對照,兩者之間差異無統計學意義。
這些數據與分類模型在一種癌癥與其他類型癌癥區分的關鍵特征是一致的。也就是說,癌癥與“致病菌”或“共生菌”被初步證實在生態學上是相關的;例如,甲型乳頭狀瘤病毒屬是識別CESC腫瘤的最重要特征;桿狀桿菌屬對于COAD腫瘤的識別是特異性的;對于LIHC腫瘤,直肝病毒屬是第二重要的特征性細菌(僅次于毒性肝微囊藻)。本研究提供原始的和標準化的微生物豐度數據集供大家重復使用,并可能有機會將這些數據與宿主其他數據相結合,以產生其它的假設。總而言之,這些發現為我們的病毒和細菌數據的生物信息學和標準化方法提供了生態學驗證,同時將結果擴展到更多的樣本和微生物。
質量評估與數據清洗
Measuring and mitigating contamination
為了更好地表征可能與癌癥相關的微生物,進一步進行了質量評估和數據清洗。以前的工作基于不同類型癌癥中常見的低豐度讀長,在TCGA中僅識別出6種污染菌(表皮葡萄球菌、痤瘡丙酸桿菌、拉爾斯特氏菌、分枝桿菌、假單胞菌和不動桿菌),但最近的研究表明,外部污染物的檢出頻率均與樣本分析物濃度成反比,可以使用統計框架進行檢測。
本研究使用在TCGA樣品處理過程中計算的DNA和RNA濃度(n = 17,625)和讀長片段(n = 1,993)來識別可能的污染物,并刪除了在“陰性空白”試劑(n = 94 個屬;見方法)中發現的屬。附圖6A概述了從外科切除到生物信息處理所采取的方法;本研究還將五種類型的污染物添加到原始數據集中,通過去除污染物、監督標準化和機器學習進行跟蹤。考慮到技術差異的存在(圖1c-e),本研究通過測序中心(n = 8)分批處理樣品,并刪除了在任何中心發現的污染細菌。這鑒定了283種可能的污染物,包括19.1%(n = 18個屬)的“黑名單”。在合并這兩份名單(n = 377屬)后,手動審查了文獻,以重新納入致病屬或混合證據屬(既是致病菌又有常見污染物,例如分枝桿菌)。這導致了兩個數據集,一個刪除了可能的污染物,另一個刪除了所有假定的污染物。我們還創建了第三個“最嚴格的過濾”數據集,該數據集使用更嚴格的過濾模式丟棄了大約92%的總讀長。最后,除了前面提到的黑名單(總共497個屬)外,我們將樣本分組到每個中心的單個測序板中,并刪除了任何一個“板中心(plate–centre)”批次(n = 351)中確定的所有假定污染物。去除污染物似乎對研究中的樣本或癌癥的類型沒有影響。
本研究強調,這些通過數據去除污染的方法不能替代對癌癥樣本操作過程中的嚴格把控,包括無菌處理、使用無菌認證的試劑、從頭到尾處理的試劑的陰性空白,以及多樣本混合作為“陽性”對照。這里描述的去污操作是最先進的分析技術,但不是用來檢測大量的污染物或交叉污染物的。在許多中心和多年收集的癌癥類型之間和同一癌癥類型不同分級之間不應該對交叉污染物產生統一的偏差,如果不加以控制,可能會限制生物學結論,特別是在小型研究中。
嚴格去除污染的另一個風險是,反映共生的、特定于組織的微生物群落和伴隨的預測癌癥的微生物圖譜的真實信號可能會被丟棄。為了評估這一問題,我們重新計算了COAD正常組織樣本(n = 70)中微生物來自身體各部位的百分比,發現連續嚴格的去污染可以在伴生組織變得無法識別之前提高它們的識別情況。
本研究重新計算了圖1f-h中所示的所有ML模型,并比較了它們在每種去污方法之前和之后的性能。大多數模型不依賴于添加的假污染物,盡管淋巴腫瘤彌漫性大B細胞淋巴瘤(DLBC)和間皮瘤(MESO)模型似乎不可靠。正如預期的那樣,組織類型信息豐富的比較(例如,COAD與所有其他癌癥類型的比較)在嚴格的去污染情況下通常表現得不那么好,但組織內的比較(例如,腫瘤與正常)通常表現得同樣好或更好。這些結果表明,在某些比較中,嚴格的過濾可能是可取的,但通用的去污染方法可能會排除含有生物信息的結果。
圖3|使用血液中的mbDNA進行癌癥區分的分類器性能,以及作為癌癥“液體”活檢的補充診斷方法
Fig.3 | Classifier performance for cancer discrimination using mbDNA in blood and as a complementary diagnostic approach for cancer ‘liquid’ biopsies.
a、模型性能熱圖類似于圖1f-h,使用血液mbDNA和右側帶有TCGA研究ID的血液mbDNA來預測一種癌癥相對于所有其他癌癥的類型;每個ML少數類別分組至少需要20個樣本才能進行分析。b,使用包含癌癥Ⅰa–IIc期的血液mbDNA預測一種癌癥類型與其他癌癥類型的ML模型性能。c,d,根據Guardant360(c)和FoundationOne Liquid(d)ctDNA分析,使用未檢測到原發腫瘤基因組改變的患者血液mbDNA評估ML模型性能。FD,完整數據;LCR,可能由測序中心去除的污染物;APCR,所有假定的污染物按測序中心去除;PCCR,去除板中心污染物;MSF,按測序中心進行最嚴格的過濾。可以在 http://cancermicrobiome.ucsd.edu/CancerMicrobiome_ DataBrowser 中找到用來評估每個比較的性能的樣本數量。
利用血液中微生物DNA進行預測
Predictions using microbial DNA in blood
越來越多的證據表明,血液微生物DNA(mbDNA)可以在癌癥中提供臨床信息,包括那些以血液屏障或淋巴破壞為特征的癌癥(例如,COAD),但尚不清楚這一點的適用范圍有多廣。使用來自TCGA血液樣本的WGS數據,將ML策略應用于全部數據集和四個清洗過的數據集,發現血液傳播的mbDNA可以區分多種類型的癌癥(圖3a),無論用于分類的微生物分類算法和數據庫如何,或者當僅使用基因組比對過濾的Kraken數據時。回顧性分析顯示,很少有模型包含用于預測的添加的假污染物;而當包含這些假污染物(CESC,腎乳頭狀細胞癌(KRIP),LIHC)時,模型可能不那么可信。
在這些發現的刺激下,本研究試圖將我們的ML模型與現有的ctDNA分析進行基準比較,重點放在ctDNA分析失敗的情況下:Ia-IIc期癌癥和沒有可檢測到基因組改變的腫瘤。在去除了所有患有III或IV期癌癥的患者的正常血液樣本后,我們建立了新的ML模型,發現它們能夠使用血液mbDNA很好地區分癌癥類型(圖3b)。我們進一步使用Guardant360和FoundationOne液體分析中的基因列表來篩選出具有一個或多個靶向修飾的TCGA患者(約70%),發現相同的ML方法對大多數剩余的癌癥類型顯示出良好的區分性(圖3c,d)。
這些分析受到以下事實的限制:ctDNA分析使用的是血漿而不是全血,而且mbDNA在血室中的分布尚不清楚。由于無法獲得RNA數據,因此無法區分mbDNA來自活的還是死亡的微生物,或者mbDNA是否是無細胞的或宿主白細胞中的mbDNA,因為TCGA標準操作程序(SOP)允許提取全血或棕黃色涂層。如果不檢查原始樣本和配對的腸道上皮細胞,也不可能知道血液中mbDNA的來源,因為某些類型的癌癥可能會以意想不到的方式“泄漏”mbDNA(例如,白血病中的腸道細菌易位)。可能會有一個理想的去污染連續體,因為去污染對模型性能的影響在不同類型的癌癥中是不同的,但我們的篩選受到以下限制:(i)無法獲得原始樣本,iii)屬級分類分辨率,以及(iii)不知道哪些非TCGA樣本同時被處理。
確定血液中的微生物特征
Validating microbial signatures in blood
為了展示這些結果的應用效果,同時以血漿的ctDNA分析為基準,在驗證研究中評估了使用血漿來源的無細胞mbDNA特征來區分健康個體和多種類型的癌癥,同時對低生物量研究采用金標準微生物學對照。雖然血漿只是全血的一部分,這限制了其直接可比性,但它在穩定性(例如,冰凍)、生物儲存庫的可用性和生物學解釋(即非生物材料)方面具有重大優勢。本隊列包括69名沒有癌癥和艾滋病病毒的個體和100名患有三種高級別(III-IV期)癌癥之一的患者:前列腺癌(n = 59;PC)、肺癌(n = 25;LC)和黑色素瘤(n = 16;SKCM)(圖4a)。在沒有以前的文獻來估計效應大小的情況下,我們在Broad研究所和HMS對匹配類型的癌癥的TCGA血液樣本進行了獨立的模擬,以估計最小樣本量。從這些具有廣泛的對照的血漿樣本中提取無細胞DNA,并在一次深度測序運行中,由特定的一組用戶使用單一文庫制備方法在一次深度測序運行中處理整個宏基因組測序數據。首先去除了人類基因,按Kraken方法對剩余片段進行分類,使用DNA濃度和陰性空白進行嚴格的去污染,以及Voom-SNM。人口學比較和排列分析顯示應當對年齡和性別進行標準化,直接年齡回歸表現顯示的平均絕對誤差類似于腸道微生物。“自舉”與TCGA分析中使用的ML方案相同,顯示出健康對照個體和癌癥分組患者之間明顯的區別(圖4b)。由于樣本量很小,本研究對標準化的數據進行了留一法(leave-one-out,LOO)迭代ML,發現除了最小的SKCM隊列外,在健康樣本和癌癥類型之間的成對和多類比較中具有很高的區分性性能(圖4c-k)。因此,本研究迭代地對PC組和LC組進行二次抽樣以匹配SKCM隊列大小,并對二次抽樣的健康對照組對每種類型的癌癥進行成對的LOL判別。PC和LC隊列在與SKCM相同的隊列大小下仍然是具有區分性的;100次迭代),顯示出SKCM性能的普遍缺陷。這一缺陷可能有生物學基礎,因為SKCM在TCGA血液鑒別中的五個測試數據集中的四個中是表現第二差的(圖3a),盡管這一點值得進一步證實。為了確保Kraken的微生物指定是有效的,本研究使用SHOGUN及其單獨數據庫的細菌指定重復了所有生物信息學、標準化和ML步驟,這顯示出高度一致的性能。隨著微生物數據庫的改進,我們預計cfDNA特征的分類效能將會改進。檢測到的血漿微生物豐度可以在 http://cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser 上進行搜索。
圖4|使用血漿來源的無細胞mbDNA構建的用來區分癌癥類型和健康對照的ML模型的預測性能
Fig.4|Performance of ML models to discriminate between types of cancer and healthy controls using plasma-derived, cell-free mbDNA.
a、驗證研究中分析的樣本的人口統計信息。所有患者均患有多種亞型的高級別(III–IV期)癌癥,并被分為PC,LC和SKCM組。b,用于區分分組癌癥樣品(n = 100)和非癌癥健康對照(n = 69)的自舉性能估計。使用不同的訓練-測試分割(70%–30%)進行500次迭代的ROC(頂部)和PR(底部)曲線數據的柵格化密度圖。c–h,兩類之間的LOO迭代ML性能:PC與對照組(c),LC與對照組(d),SKCM與對照組(e),PC與LC(f),LC與SKCM(g),以及PC與SKCM(h)。i–k,多類(n = 3或4),LOO迭代ML性能,以區分癌癥類型(i)以及混合癌癥患者和健康對照個體(j,k)。總體LOO ML性能計算為將一個與所有其他性能進行比較時的性能平均值。
討論 Discussion
總體而言,本研究的數據表明,不同類型的癌癥和特定的微生物菌群之間存在廣泛的關聯。這些微生物圖譜能夠區分了大多數類型的癌癥,包括在低級別腫瘤階段使用基于血液的mbDNA,以及在商業ctDNA檢測中沒有檢測到任何可檢測到的基因組變化的患者。即使經過廣泛的內部驗證檢查和數據清洗(有時會丟棄總數據的90%以上),這些結果通常仍然有效。在健康對照者和多種癌癥患者中,僅使用血漿中無細胞的mbDNA,同時采用比TCGA更廣泛的內部和外部污染控制,微生物分類模型具有很高的區分性,這表明使用廣泛可用的樣本進行臨床相關的回顧性測試是可行的和可推廣的。需要更多的工作來確定觀察到的核酸是否來自腫瘤微環境和血液中的活微生物、宿主細胞或裂解細菌。值得注意的是,許多技術和生物學因素限制了對低生物量微生物的回顧性癌癥測序數據的分析,這一領域的進展將需要癌癥生物學家和微生物學家之間的合作。盡管如此,本研究的結果表明,一類新的基于微生物組的癌癥診斷工具可能會為患者提供實質性的未來價值。
數據獲取
ftp://ftp.microbio.me/pub/cancer_microbiome_analysis/
https://qiita.ucsd.edu/
代碼獲取 Code availability
https://github.com/biocore/tcga
參考文獻
Gregory D. Poore, Evguenia Kopylova, Qiyun Zhu, Carolina Carpenter, Serena Fraraccio, Stephen Wandro, Tomasz Kosciolek, Stefan Janssen, Jessica Metcalf, Se Jin Song, Jad Kanbar, Sandrine Miller-Montgomery, Robert Heaton, Rana McKay, Sandip Pravin Patel, Austin D. Swafford & Rob Knight. (2020). Microbiome analyses of blood and tissues suggest cancer diagnostic approach. Nature 579, 567-574, doi: https://doi.org/10.1038/s41586-020-2095-1
責編:盧洪葉 北京大學
審核:劉永鑫 中科院
猜你喜歡
10000+:菌群分析?寶寶與貓狗?梅毒狂想曲 提DNA發Nature?Cell專刊?腸道指揮大腦
系列教程:微生物組入門 Biostar 微生物組 ?宏基因組
專業技能:學術圖表?高分文章?生信寶典 不可或缺的人
一文讀懂:宏基因組 寄生蟲益處 進化樹
必備技能:提問 搜索 ?Endnote
文獻閱讀 熱心腸 SemanticScholar Geenmedical
擴增子分析:圖表解讀 分析流程 統計繪圖
16S功能預測 ? PICRUSt ?FAPROTAX ?Bugbase Tax4Fun
在線工具:16S預測培養基 生信繪圖
科研經驗:云筆記 ?云協作 公眾號
編程模板:?Shell ?R Perl
生物科普:??腸道細菌?人體上的生命?生命大躍進 ?細胞暗戰 人體奧秘 ?
寫在后面
為鼓勵讀者交流、快速解決科研困難,我們建立了“宏基因組”專業討論群,目前己有國內外5000+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,并掃碼加主編好友帶你入群,務必備注“姓名-單位-研究方向-職稱/年級”。PI請明示身份,另有海內外微生物相關PI群供大佬合作交流。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍未解決群內討論,問題不私聊,幫助同行。
學習16S擴增子、宏基因組科研思路和分析實戰,關注“宏基因組”
點擊閱讀原文,跳轉最新文章目錄閱讀
總結
以上是生活随笔為你收集整理的Nature:Rob Knight团队发现血液和组织微生物组可诊断癌症的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: XXXXXXXX学校“新教师、新风采”展
- 下一篇: 关于表格分页缓存数据