积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问
生物信息學習的正確姿勢
NGS系列文章包括NGS基礎、高顏值在線繪圖和分析、轉錄組分析?(Nature重磅綜述|關于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細胞測序分析?(重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程)、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step))、批次效應處理等內容。
點擊閱讀原文觀看視頻!
用微生物組時序數據重現生物膜裝配動態過程
主講人介紹
王金鋒,博士。2011年入職中國科學院北京生命科學研究院工作至今。現任副研究員,中國科學院大學碩士生導師,中國生物工程學會微生物組學與技術專業委員會委員,“熱心腸”智庫專家。主要從事微生物互作與菌群塑造、菌群與宿主健康等微生物組學和生物信息學方向的研究。作為項目負責人主持國家自然科學基金3項,并承擔了國家重點研發計劃和中國科學院重點部署項目子課題、技術創新項目等。于Cell(2020)、Gut(2018、2020)、The ISME Journal(2019)、Nature Communications(2016)和Genome Biology(2015)等雜志發表第一、共一和通訊作者論文近20篇,五年來被引用超千次,多篇入選ESI高被引論文。擔任《Critical Reviews in Microbiology》、《mSystems》和《Applied and Environmental Microbiology》等雜志審稿專家。
時序數據及其應用
橫斷數據或也稱為剖面數據(cross-pal data),就是對單一時間點進行采樣分析,例如對分娩前的孕婦的口腔、皮膚等多個部分進行微生物測序,這就是剖面的研究。
隨著微生物組的研究,剖面數據發展為時序數據也稱為縱向數據,縱向數據是針對同一個體進行多時間點采樣而獲得的數據,例如新生兒從出生時到出生后四個月的隨訪研究就是縱向數據。
時序數據能夠描繪事物不同特征(菌群豐度、多樣性)隨時間變化的規律,也能更清晰地展現不同狀態(健康或疾病)之間的轉換情況,并根據之前的特征預測某些狀態未來的發展。
追蹤口腔生物膜的菌群動態
下面將講解我們實驗室今年發表在Gut上的一篇文章 — 追蹤口腔生物膜的菌群動態,這篇文章基于時序數據從微生物多樣性、聚類、溯源、菌群網絡等多個方面進行分析。
研究消化道入口菌群動態的意義1
我們把口腔作為消化道入口,它的微生物種類和數量都比較豐富。早先普遍認為在胃酸屏障下,口腔微生物無法進入腸道。但近幾年的研究發現口腔對腸道微生物的輸送是持續的、頻繁的。
例如PPT所示的eLife的這篇文章,研究來源于健康人、糖尿病患者、結腸癌患者等口腔與腸道配對的樣本,發現有近60%的物種會發生頻繁的傳播,近20%的物種偶爾進行傳播。
研究消化道入口菌群動態的意義2
許多研究發現口腔菌群和很多疾病相關,例如齲齒、糖尿病、胰腺癌等等。
Gut的2019年的一篇文章發現結直腸癌患者的口腔菌群和腸道菌群均存在相似的聚合雙桿菌,聚合雙桿菌是結直腸癌的風險致病菌。另外一些研究也發現消化道癌癥患者口腔菌群也會發生相應改變。
除了發現口腔菌群和許多疾病存在聯系外,口腔的微生物信息有著易采樣、易操作、損傷小的優勢,所以研究者們希望利用微生物標志物和建立微生物模型開展疾病的早期診斷和預后監控。
那問題來了,口腔菌群是否會發生劇烈波動?如果有動態波動,那什么時候更可能向腸道輸入有害菌?另外用于預測模型開發的菌群是否足夠穩定不會影響診斷結果?
洗牙前后唾液和牙菌斑的時序數據
于是針對以上問題開展基于洗牙前后唾液和牙菌斑的時序數據對口腔微生物的組成影響的研究。
微生物在口腔的存在形式大致分為兩種:一種是游離態,即存在在唾液中的微生物;一種附著態,例如牙菌斑。
通常通過洗牙來清除牙菌斑,但是洗牙后過一段時間又會產生牙菌斑,這段時間就是牙菌斑重新堆積的過程。基于此,研究9名成人在洗牙前后11個時間點的微生物群落變化,這是一個典型的時序數據分析。
微生物組成Alpha多樣性
從唾液和牙菌斑的菌群的alpha多樣性結果來看,唾液菌群(對應圖中黃色線)alpha多樣性的Simpson和Shannon指標在整個采樣周期保持平穩;而牙菌斑菌群(對應圖中藍色線)的alpha多樣性在洗牙前最高,高于唾液,洗牙后先降低后升高,在洗牙后3d處于最低值,1-2周后逐漸回升到相對穩定狀態,開始高于唾液微生物。
微生物組成的Beta多樣性
之后通過Bray-curtis距離來查看菌群結構隨時間變化的情況。
唾液菌群的beta多樣性在整個采樣周期低于牙菌斑菌群的beta多樣性且基本保持平穩。牙菌斑菌群的個體間相似度在洗牙后3d最大,這與alpha多樣性結果對應 (左下圖)。
比較不同時間點和洗牙前進行比較,可以看到牙菌斑菌群在洗牙后7h-3d而非1h-4h,與洗牙前群落結構差異最大,之后的時間段里群落結構差異逐漸縮小,特別是3個月的時候和洗牙前就很相似了。
Bray-curtis距離進行PCoA分析
對Bray-curtis距離進行PCoA分析,可以看到唾液和牙菌斑樣本分別聚類,形成彼此獨立的兩簇。不同時間點的唾液樣本排列緊湊,提示菌群結構隨時間波動較小。而不同時間點的牙菌斑菌群呈現隨時間梯度分布的特點,從洗牙前到偏離最大的1d、3d,再經過2w和1m的逐漸變化,到3m時基本恢復到接近洗牙前的狀態。
微生物的補充方向和時間
在OTU水平將前一個時間點作為源,后一個時間點作為匯,對每一個時間點的菌群進行溯源。結果顯示微生物補充的方向主要是從唾液到牙菌斑,圖中灰色的部分是不確定的外源,可以看到牙菌斑的所有時間點都進行了微生物的補充,洗牙后7h-7d、7d-1m的兩個時間段的增幅較為明顯,特別是前一個時間段,而唾液的外源微生物補充極少。
細菌豐度展現出的時間動態
從細菌豐度上能發現高豐度的厚壁菌和變形細菌在牙菌斑菌群中的數量變化尤為明顯,且呈現早期升高、后期降低的趨勢;其它細菌門類的數量變化趨勢與之相反,明顯的分化時間大致位于洗牙后3d。
唾液菌群中各細菌門類的數量變化基本趨于平穩。
牙菌斑堆積的三個階段
左邊的熱圖可以看到通過對時間段進行聚類能把所有時間點分為三個階段,洗牙后的0 h至7 h、洗牙后1天到7天、洗牙后2 w到3 m和洗牙前這三個階段。
右邊的熱圖展示的是不同時間點與洗牙前相比豐度存在顯著差異的菌,藍色表示顯著減少,紅色表示顯著增加,數字表示P值。可以看到與洗牙前相比,不同的菌在不同發育階段的變化模式不盡相同——如多數菌在中后期已經恢復、卟啉單胞菌一直沒有完全恢復、鏈球菌等只在中期顯著增加。
不同發育階段的微生物互作
這個無向網絡圖展示了三個階段的豐度顯著變化菌屬的共存關系,圖中的實虛線代表正負相關性、三個顏色代表三個階段、線條粗細代表相關性強弱、節點大小代表菌屬的平均相對豐度、數字代表度。發現菌屬間的正負關系在不同發育階段基本保持一致,少數發生變化,另外連接度高的節點多為生物膜發育中期顯著增加的菌屬。
研究價值
研究了外力擾動(潔牙)時,崩解的口腔生物膜恢復到初始狀態的過程,明確了其發生、發展和成熟三個時期的準確時間跨度。
揭示了口腔菌群的動態變化規律,為評估它們作為標志物的穩健性提供了新方法。
微生物組的時序數據的計算
下面將介紹微生物組時序數據的計算方法和經驗。
例如年齡數據,一般情況下難以對一個人進行數十年的隨訪,但是可以對大量人群中不同年齡的個體進行采樣,盡管是單一時間點采樣的橫斷數據,但在人群中呈現連續時間分布的特點。這時候這樣的數據同樣能夠描繪事物不同特征(菌群豐度、多樣性)隨時間變化的規律,也能展現不同狀態(健康或疾病)之間的轉換情況,并根據之前的特征預測某些狀態未來的發展。
按照時間段進行分組的分析結果展示 (未發表數據)
針對上述提到的數據,可以將人群劃分成不同的年齡段,然后計算微生物多樣性隨人群年齡增長變化的模式、比較組內同一年齡段個體間菌群的相似性、分析組間不同年齡段群體菌群的變化幅度。
比如這里的alpha多樣性結果,每10歲是一個時間段,能看到隨著年齡的增加微生物先增加后減少,而beta多樣性也可以看到這樣一個趨勢。
來源追蹤
對于時序數據進行來源追蹤就是將先前一個或多個時間點作為源,將后續時間點作為匯。可以實現追蹤不同年齡段人群的微生物演替和波動幅度、比較不同組別在菌群動態上的異同和分析不同組別在相同年齡段菌群駐留和補償的差異。
利用Sourcetracker溯源
Sourcetracker是基于貝葉斯模型的實現溯源的一個R包。
Sourcetracker使用方法
輸入數據是分組信息(metadata)和OTU豐度表,metadata文件需要包含樣本ID號、樣本描述信息、指定原本是來源(source)還是溯源目標(sink);OTU豐度表開頭是兩行注釋,行名是OTU的編號或注釋結果,列名是樣本名,中間填充的是相對豐度的數值。
Sourcetracker結果呈現
輸出結果以樣本為行、來源為列、填充比例值的表格以及相應的圖形。圖形可以選餅圖、柱狀圖或箱線圖,堆積面積圖是較適合展現時序數據的可視化形式。
利用Feast溯源
Feast是另一個實現溯源的軟件,其輸入數據也是分組信息(metadata)和OTU豐度表,輸出結果如PPT所示,給出了估計結果的百分比。
時序數據中的狀態間轉換
桑基圖是一個很好展示群落狀態類型或群落門類隨時間轉換的形式。另一個是馬爾科夫鏈,比如右圖展示了隨孕周增長,孕婦菌群各種群落狀態類型(Community State Type)的自轉率和它轉率。線條粗細表示轉換率高低。
桑基圖和馬爾科夫鏈繪制方法
桑基圖可以通過R包、桑基圖官方網站或ImageGP來繪制。
馬爾科夫鏈是通過R的Markovchain包來實現,其輸入數據也是包含了樣本名、取樣時間、分組等的數據表,大家可以根據實際需要來選擇。
基于時序數據的有向互作網絡
雖然上文介紹的共存網絡是一個無向網絡,但是時序數據也可以用LSA來構建有向網絡來推測網絡在時間序列中的變化。
預測菌群狀態的發展方向
近年來菌群分析中常用的分類器或預測模型也適用于時序數據,可以通過時間點1的菌群狀態來推測時間點2的菌群狀態。使用的模型和剖面數據一致,如隨機森林、支持向量機、XGBoost、卷積神經網絡、機器學習等。
小結
以口腔生物膜菌群數據為例,通過追蹤洗牙前后牙菌斑堆積來解析群落的重建過程,分享典型時序微生物組研究的分析思路及內容。
介紹菌群的多樣性、相似性、聚簇、共存網絡等常規分析手段在時序微生物組計算中的應用。
講述如何依靠分組以及對同一批數據進行不同的分組比較和距離計算,來衡量菌群相似程度隨時間梯度的變化,尋找群落結構高變或劇烈波動的時期。
在連續時間點的縱向研究中引入貝葉斯、馬爾科夫鏈和機器學習算法,向大家推薦這些分析涉及到的計算工具及其使用方法。
劉永鑫老師總結亮點
時序數據分析可以應用處理公共大數據
可以對時序數據繼續進一步分組,可能會發現更有意思的點
提問
Q:網絡分析問題:樣本通過聚類分為3個時間階段,是對這3個時間階段分別繪制網絡嗎?如果是分別繪制的網絡,那怎么把三個網絡結果最終繪制成一個網絡呢?W:是對這3個時間階段分別繪制網絡。手動使用AI進行合并,可以選一個時間階段對應的微生物屬水平共存網絡,再把剩下兩個階段的微生物屬水平共存網絡添加進去。另外也是由于通過相關系數篩選后,一般每個細菌最多與其他四個細菌相關,絕大多數是與一到兩個細菌相關,所以很容易進行合并
Q:來源追蹤分析時,有沒有篩選OTU的豐度?W:有,去除了低豐度的OTU
Q:假設來源追蹤分析時有兩個source,怎么區分兩個source共有的OTU是來自哪個source?W:軟件不單是依據OTU的有無來判斷OTU的來源,還會從其他條件判斷OTU的來源,這個與具體軟件分析的算法相關。
Q:同一個生態位/生物膜有很多細菌呈現相似的功能,怎么通過網絡展示這些細菌的關系等?W:一個方式是做共線性網絡,其實現原理是填入細菌或刪除細菌來查看網絡的變化;還有些方法是基于實驗,例如將3,5種分離株或細菌混成一個個小的群落來看其變化。
Q:可以介紹下選刊的經驗技巧嗎?W:可以從兩點出發:1. 衡量自己工作層次,工作量適合哪個水平的期刊;2. 選刊時看期刊要求,比如Gut的70%以上的文章都是以letter形式發表的,這些都是基于之前發表的文章再進行討論和分析,所以這個文章中提到了想要解答兩個問題,這兩個問題就來源Gut之前發表過的文章。
Q:缺失數據是如何進行處理的?W:缺失數據是沒有獲得這些數據,有些可能只缺了唾液,但是潔牙后其他時間點的數據都是有的,有的話就可以在后續分析中使用。
Q:時間序列檢驗一般用配對檢驗,但是因為數據存在缺失,所以會用秩和檢驗嗎?如果缺失就用秩和檢驗嗎?W:嗯,這篇文章主要就是用的秩和檢驗。
Q:怎么得到出PPT中熱圖展示的這23個菌?W:每個時間點和洗牙前相比有豐度顯著差異的屬。
Q:分析中有沒有校正了年齡、性別、飲食等因素?如果校正有什么方法嗎?W:本批數據來自9個人的潔牙后11個時間階段的數據,數據本身就比較難采集就沒有收集更多的數據進行校正。
Q:隨機森林怎么通過時間點1來預測時間點2?W:依據目前的已知的時間點和菌群來訓練模型,類似于橫斷數據使用隨機森林的方式。用的先前時間點的數據預測其后時間點的數據狀態。
文章對應鏈接Gut:北京生科院趙方慶團隊揭示人體口腔菌群的穩定性和動態變化規律
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
?
總結
以上是生活随笔為你收集整理的积微论坛--用微生物组时序数据重现生物膜装配动态过程PPT对应的讲解和提问的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 这个只需一步就可做富集分析的网站还未发表
- 下一篇: 鸟类南飞,去的是哪个“南方”?