积微论坛第一期 - 基于大数据整合预测土壤枯萎病的发生 (文稿分享)
生物信息學(xué)習(xí)的正確姿勢(shì)
NGS系列文章包括NGS基礎(chǔ)、高顏值在線繪圖和分析、轉(zhuǎn)錄組分析?(Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細(xì)胞測(cè)序分析?(重磅綜述:三萬字長文讀懂單細(xì)胞RNA測(cè)序分析的最佳實(shí)踐教程)、DNA甲基化分析、重測(cè)序分析、GEO數(shù)據(jù)挖掘(典型醫(yī)學(xué)設(shè)計(jì)實(shí)驗(yàn)GEO數(shù)據(jù)分析 (step-by-step))、批次效應(yīng)處理等內(nèi)容。
文章解讀微信鏈接ISME:南農(nóng)沈其榮團(tuán)隊(duì)基于大數(shù)據(jù)準(zhǔn)確預(yù)測(cè)土壤的枯萎病發(fā)生 (點(diǎn)擊閱讀原文跳轉(zhuǎn)視頻觀看)
基于大數(shù)據(jù)整合預(yù)測(cè)土壤枯萎病的發(fā)生
介紹主講人
袁軍,博士,就職于南京農(nóng)業(yè)大學(xué)資環(huán)學(xué)院沈其榮教授團(tuán)隊(duì)。研究方向:根系分泌物介導(dǎo)的植物-土壤反饋,土壤微生物群落調(diào)控,連作障礙修復(fù),新型肥料研發(fā)。目前以第一作者在The ISME Journal,Microbiome,SBB,Hortic Res,AEM 等國際著名期刊上發(fā)表十余篇文章 (文章他引700余次)。
研究背景及意義
為什么會(huì)選枯萎病呢?枯萎病是土傳病害里面一個(gè)代表性的病害,其發(fā)病區(qū)域廣泛,宿主種類眾多,孢子存活時(shí)間長,發(fā)病率高,危害大。
為什么要做整合分析
在世界上很多區(qū)域的很多物種都可以發(fā)病,但是很難找到發(fā)病的閾值,而個(gè)例的研究很難從整體的角度來說明問題,并且需要明確回答微生物群落是否存在特征這個(gè)問題,基于這些條件來做整合分析。
研究方法概覽
首先是收集數(shù)據(jù),一部分?jǐn)?shù)據(jù)用來構(gòu)建模型,另一部分用來模型的預(yù)測(cè)和訓(xùn)練;其后就是對(duì)數(shù)據(jù)進(jìn)行整合和篩選;之后是建立模型,最后把群落特征提取出來并進(jìn)行可視化。
數(shù)據(jù)收集
數(shù)據(jù)的一部分是直接從文獻(xiàn)中獲取數(shù)據(jù)來源,另一部分可以在公共數(shù)據(jù)庫進(jìn)行查找,因?yàn)楣矓?shù)據(jù)庫中還存在一些文章尚未發(fā)表但是已經(jīng)公開了的數(shù)據(jù),剩下的一部分來自自己或同行的測(cè)序數(shù)據(jù)。
機(jī)器學(xué)習(xí)方法
機(jī)器學(xué)習(xí)方法有很多,這里羅列了常見的5種。
隨機(jī)森林:
微生物生態(tài)領(lǐng)域應(yīng)用較多,精度高、能處理大量的變數(shù)
支持向量機(jī):
其他領(lǐng)域常用,比如人臉識(shí)別
邏輯回歸:
最傳統(tǒng)
決策樹:
結(jié)構(gòu)簡(jiǎn)單、效率高
樸素貝葉斯算法:
被分類的每個(gè)特征都與任何其他特征的值無關(guān)
樣本數(shù)據(jù)分布
數(shù)據(jù)要有代表性,不一定獲取的每個(gè)項(xiàng)目都有很多樣本,但是項(xiàng)目一定要多。
另外也要注意如果某個(gè)項(xiàng)目的樣本量特別大,這樣做PCA的時(shí)候可能這個(gè)項(xiàng)目的樣本會(huì)單獨(dú)聚為一類,而其他項(xiàng)目聚為另一類。
數(shù)據(jù)整合和過濾
這時(shí)候我們就需要對(duì)樣本進(jìn)行篩選。但篩選并沒有固定的標(biāo)準(zhǔn),比如去除樣本量大的一部分樣本后,PCA結(jié)果中樣本按照疾病情況等分組聚類,說明這個(gè)篩選方法沒問題。而真菌的項(xiàng)目的樣本量分布比較平均就沒有進(jìn)行過濾,但對(duì)細(xì)菌的的項(xiàng)目的樣本數(shù)量進(jìn)行了過濾。
然后是對(duì)OTU的過濾,因?yàn)槭菍?duì)很多樣本進(jìn)行OTU的聚類,所以會(huì)聚類出很多OTU,比如我們通過對(duì)數(shù)據(jù)聚類出5萬多個(gè)OTU,但是大多數(shù)的OTU豐度很低,對(duì)于研究想獲取的群落特征意義不大,所以我們僅保留了存在于三分之一研究及以上的OTU。
OTU過濾的效果
對(duì)過濾OTU前與過濾OTU后的分析結(jié)果進(jìn)行比較了,可以看到經(jīng)過過濾后,alpha多樣性在疾病組和健康組中存在顯著差異了,而Beta多樣性和物種組成則沒什么明顯的變化,這說明對(duì)樣本過濾是合理的。
特征物種篩選
下面進(jìn)行了機(jī)器學(xué)習(xí)算法的篩選,主要是比較隨機(jī)森林、支持向量機(jī)和邏輯回歸的這三種算法。發(fā)現(xiàn)隨機(jī)森林結(jié)果最好,支持向量機(jī)次之。
機(jī)器學(xué)習(xí)算法中使用的物種分類水平的確定
機(jī)器學(xué)習(xí)算法確定好了后就是選擇基于哪個(gè)物種分類水平來建立模型。通過對(duì)門、綱、目、科、屬、OTU水平的建模結(jié)果比較,發(fā)現(xiàn)細(xì)菌只有OTU水平結(jié)果最好,所以細(xì)菌與真菌均選擇了基于OTU來建模。
模型驗(yàn)證
驗(yàn)證這一步是很必要的。那么怎么去驗(yàn)證呢,就是自己去收集不同物種不同地點(diǎn)的數(shù)據(jù)來用于預(yù)測(cè)。
預(yù)測(cè)結(jié)果可以看到除了北京發(fā)病西瓜的真菌數(shù)據(jù)都預(yù)測(cè)錯(cuò)誤,其他數(shù)據(jù)均基本預(yù)測(cè)正確。這里要單獨(dú)提下百合這個(gè)物種,因?yàn)槲覀冊(cè)加糜跇?gòu)建模型的數(shù)據(jù)并沒有涉及百合,但是使用模型來預(yù)測(cè)百合的結(jié)果基本也是準(zhǔn)確的,這也證明我們預(yù)測(cè)的模型是有代表性的,可以從枯萎病這個(gè)角度來看微生物組成的特征。
特征物種篩選
通過在OTU水平建模,可以得到45個(gè)細(xì)菌特征OTU和40個(gè)真菌特征OTU??梢钥吹郊?xì)菌的大部分特征OTU在疾病組和健康組豐度還是存在差異的,真菌的熱圖結(jié)果雖然不是很明顯,但是可以從堆積柱狀圖里看到豐度也是存在差異的。
后續(xù)研究還可以深入去挖掘這些微生物對(duì)疾病功能與作用。
特征OTU網(wǎng)絡(luò)互作關(guān)系推斷
細(xì)菌特征OTU網(wǎng)絡(luò)分析表明,健康網(wǎng)絡(luò)中包含的節(jié)點(diǎn)和連接數(shù)較多,并且網(wǎng)絡(luò)平均度(average degree)和中心緊密度(centralization-closeness)較高。
真菌特征OTU網(wǎng)絡(luò)分析表明,發(fā)病網(wǎng)絡(luò)中包含的節(jié)點(diǎn)和連接數(shù)較多。
數(shù)據(jù)整合的意義
為什么做數(shù)據(jù)整合呢?首先是想發(fā)現(xiàn)微生物群落的特征,其次也可以為進(jìn)一步驗(yàn)證特征OTU的功能打下基礎(chǔ),并且綜合多人的結(jié)果得出的結(jié)論更有說服力,也可以進(jìn)一步來佐證自己的觀點(diǎn)。
擴(kuò)增子數(shù)據(jù)整合過程的問題
現(xiàn)在整合很火,因?yàn)楣矓?shù)據(jù)很多,并且沒有經(jīng)費(fèi)也可以開展整合分析。但是我們要重視整合過程中存在的問題,比如最基礎(chǔ)的就是DNA的提取,DNA提取結(jié)果質(zhì)量不好的話就不能保證結(jié)果是否有代表性,發(fā)現(xiàn)的差異是否來自數(shù)據(jù)的真實(shí)差異。另外還有用不同的引物來擴(kuò)增不同的區(qū)域,在整合分析時(shí)也會(huì)有問題。
而在實(shí)際分析也會(huì)遇到很多問題,例如最開始下載的數(shù)據(jù)遠(yuǎn)超于分析中使用的數(shù)據(jù),但是一些數(shù)據(jù)可能因?yàn)闆]有提供引物或其他原因無法使用,還有就是比如數(shù)據(jù)是核糖體rDNA的不同的區(qū)域,這時(shí)候可以按照不同區(qū)域?qū)?shù)據(jù)分類,然后獨(dú)立進(jìn)行研究,最后看結(jié)論是否統(tǒng)一。
擴(kuò)增子數(shù)據(jù)整合策略
主要是兩個(gè)策略,一個(gè)是下載原始數(shù)據(jù)通過聚類獲得OTU,從OTU水平進(jìn)行整合,第二個(gè)策略不需要原始數(shù)據(jù),基于OTU豐度表,在不同分類水平上進(jìn)行整合,這個(gè)方式速度快,精度低 適合大生態(tài)。
擴(kuò)增子數(shù)據(jù)整合進(jìn)一步探索
比如深度評(píng)估不同數(shù)據(jù)差異,這時(shí)候可能考慮引物的影響、數(shù)據(jù)庫的影響,方法的選擇,這里建議大家先做,做了看結(jié)果再說,不要被想法局限。
另外也可以結(jié)合溫度、降雨、土壤的碳、氮等環(huán)境因子進(jìn)行更多層次的分析。
評(píng)估一個(gè)主題是否適合做擴(kuò)增子數(shù)據(jù)整合?
可以從下面幾條來評(píng)估是否適合擴(kuò)增子數(shù)據(jù)整合?
是否有重大意義?
關(guān)注這個(gè)問的人多不多?
如果意義不太大,數(shù)據(jù)量也不是很多,進(jìn)行整合分析就不是特別必要。
是否單個(gè)研究無法解決問題?
對(duì)于一個(gè)問題存在爭(zhēng)論,大家都各執(zhí)一詞,就可以整合分析來看結(jié)果會(huì)是什么樣子。
是否有大量的相關(guān)研究?
最好是這個(gè)問題已經(jīng)有大量的研究了再進(jìn)行整合,比如整合四篇文章其實(shí)并沒什么意義。
可否驗(yàn)證
如果不能驗(yàn)證結(jié)果那結(jié)論只是一面之詞,所以驗(yàn)證在數(shù)據(jù)整合是很重要的一個(gè)方面。
開展一個(gè)數(shù)據(jù)整合項(xiàng)目的時(shí)間
PPT展示了每個(gè)部分花費(fèi)的時(shí)間,但是要注意一個(gè)月并不是一個(gè)月內(nèi)完成這部分內(nèi)容,而是工時(shí)。不過最花費(fèi)時(shí)間的就是數(shù)據(jù)的不斷嘗試、探索和應(yīng)用機(jī)器學(xué)習(xí)等方法進(jìn)行分析。
致謝
最后感謝團(tuán)隊(duì)帶頭人沈其榮教授和團(tuán)隊(duì)中特別努力的學(xué)生們。
劉永鑫老師總結(jié)亮點(diǎn)
雖然一千多個(gè)樣本整合并不算多,但是能數(shù)據(jù)能包含多個(gè)地點(diǎn)多個(gè)物種,這一點(diǎn)就足夠吸引審稿人。
提問
Q:一些公共數(shù)據(jù)并沒有上傳barcode序列怎么處理?Y:如果有分組信息的話,這個(gè)數(shù)據(jù)是可以用的。
Q:有沒有用生態(tài)學(xué)的方法進(jìn)行挖掘,比如從一些生態(tài)過程和互作模式入手?Y:最近正在做,但是還沒得到比較好的結(jié)果。
Q:如果一些數(shù)據(jù)沒有分組信息,就不能用這部分?jǐn)?shù)據(jù)進(jìn)行后續(xù)分析了嗎?Y:是的
Q:差別大的樣本是直接剔除還是抽平到和其他樣本同樣的水平?Y:隨機(jī)去抽就可以了
Q:OTU表如何進(jìn)行下載和整合?Y:有的文章會(huì)上傳OTU表數(shù)據(jù),但我們分析是用原始數(shù)據(jù)來生成OTU表
Q:多個(gè)研究由批次效應(yīng),批次效應(yīng)如何消除?質(zhì)控的標(biāo)準(zhǔn)?Y:除了批次效應(yīng)、不同的平臺(tái)、引物等都會(huì)對(duì)數(shù)據(jù)產(chǎn)生影響,我們是從發(fā)病與健康的角度來看是否存在差異,并且數(shù)據(jù)很多的時(shí)候,主要差異是來自于發(fā)病與健康。高通量數(shù)據(jù)中批次效應(yīng)的鑒定和處理 - 系列總結(jié)和更新
Q:依據(jù)您上文提到的關(guān)鍵詞在谷歌學(xué)術(shù)檢索,有4000多個(gè)文獻(xiàn)滿足,如何對(duì)這些檢索結(jié)果過濾?Y:沒什么簡(jiǎn)便的方法,只能通讀一遍看看是否滿足需要
Q:收集的序列數(shù)據(jù)都是16S的一個(gè)區(qū)?或者有共同的區(qū)域然后切齊?Y:來自于不同的區(qū)域,將不同的區(qū)域片段去和全長的數(shù)據(jù)庫比對(duì)
Q:發(fā)病土壤來自持續(xù)幾年都發(fā)病的土壤還是偶然發(fā)病的土壤?Y:公共的數(shù)據(jù)有的并沒有提到這個(gè)信息,但我們用于預(yù)測(cè)的樣本來自常年發(fā)病的土壤
Q:qiime2怎么生成的unifrac距離?R怎么獲得beta多樣性的結(jié)果矩陣?L:我通常習(xí)慣用usearch的beta_div命令來獲得unifrac距離,R可以通過vegan包來計(jì)算各種beta多樣性距離矩陣
Q:您對(duì)深度評(píng)估不同引物造成的差異有什么建議嗎?Y:剛才也提到過,可以通過分開分析來看結(jié)果是否一致。
Q:可以分享下載數(shù)據(jù)的腳本嗎?Y:文章中提供的github鏈接中包含分組中用到的腳本
Q:擴(kuò)增子整合用OTU還是ASV更合適?Y:這篇文章是用的OTU
Q:機(jī)器學(xué)習(xí)篩選特征OTU是否都得先用大量數(shù)據(jù)進(jìn)行訓(xùn)練?以及訓(xùn)練的比例是多少?Y:2/3用于訓(xùn)練,剩下1/3用于驗(yàn)證,不過訓(xùn)練了很多次,每次都是隨機(jī)選2/3用于訓(xùn)練,剩下1/3用于驗(yàn)證
Q:可以分析下文章解讀鏈接嗎?L:文章解讀鏈接:ISME:南農(nóng)沈其榮團(tuán)隊(duì)基于大數(shù)據(jù)準(zhǔn)確預(yù)測(cè)土壤的枯萎病發(fā)生
Q:自己的數(shù)據(jù)是OTU表,但是文章沒有提供OTU表,是不是就無法整合了?Y:只能從不同分類水平上進(jìn)行整合了。
Q:rdp數(shù)據(jù)庫和Greengene數(shù)據(jù)庫哪個(gè)好?Y:各有所長。rdp包含的數(shù)據(jù)更多一點(diǎn),Greengene數(shù)據(jù)庫更準(zhǔn)確,但是greengene數(shù)據(jù)很久沒更新了 L:如果是從OTU層面上,很多文章都用的Greengene數(shù)據(jù)庫更容易整合,并且qiime系列用的默認(rèn)數(shù)據(jù)庫就是Greengene數(shù)據(jù)庫
Q:不同月份采的樣,批次效應(yīng)不去除和去除影響都很大,怎么處理?Y:這個(gè)差異也不一定是完全是批次效應(yīng)帶來的,也有可能來自溫度、水分等環(huán)境因子,可以做環(huán)境因子的分析來看看
Q:怎么批量爬取文獻(xiàn)?還是一篇篇文獻(xiàn)去下載?Y:可以批量下載,但看文獻(xiàn)還是一篇篇去看
Q:通過模型來進(jìn)行預(yù)測(cè)的原理是什么?Y:建模后我們獲得45個(gè)特征OTU,但除了OTU的分類信息外,我們還有其相對(duì)豐度信息,相當(dāng)于指紋圖譜,把樣本和這個(gè)信息map一下,就能判斷這個(gè)樣本是發(fā)病樣本還是健康樣本。
Q:機(jī)器學(xué)習(xí)的意義是什么?Y:通過機(jī)器學(xué)習(xí)就可以獲取特征OTU,這些特征OTU除了有樣本中豐度差異信息,并且也能展示了其對(duì)群落組成的貢獻(xiàn)度。
Q:45個(gè)特征OTU的P值的標(biāo)準(zhǔn)是什么呢?Y&W:45個(gè)特征OTU是通過機(jī)器學(xué)習(xí)的方法獲取出來的,所以沒有P值結(jié)果,其原理是構(gòu)建好模型后,挑選出45個(gè)對(duì)分類有重要作用的OTU
Q:看到一些文獻(xiàn)是選擇差異OTU,然后用差異OTU建模,這個(gè)也是可以的嗎?Y:是的,我們其他的文章就是用的這個(gè)方法
往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)
后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的积微论坛第一期 - 基于大数据整合预测土壤枯萎病的发生 (文稿分享)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 三大高通量测序平台芯片通量对比图(请把手
- 下一篇: 鉴定5分钟,准确率95.64% | 微生