统计分析/PCA,PCoA,NMDS等的区别
相信大家在做微生物多樣性研究時經常聽到PCA分析、PCoA分析,NMDS分析,CCA分析,RDA分析。它們對物種(或基因、功能)的分析具有重要作用,因而頻頻出現在16S測序及宏基因組測序中。那么你知道這些分析之前到底有什么區別嗎?在什么情況下應該用什么分析呢?今天小編就給大家講講其中的奧秘。首先,以上分析本質上都屬于排序分析(Ordination analysis)。排序(ordination)的過程就是在一個可視化的低維空間(通常是二維)重新排列這些樣方,使得樣方之間的距離最大程度地反映出平面散點圖內樣方之間的關系信息。常用的排序方法如下:
????1、只使用物種組成數據的排序稱作?非限制性排序(unconstrained ordination)(1)主成分分析(principalcomponents analysis,PCA)(2)對應分析(correspondenceanalysis, CA)(3)去趨勢對應分析(Detrended correspondence analysis, DCA)(3)主坐標分析(principal coordinate analysis, PCoA)(4)非度量多維尺度分析(non-metric multi-dimensional scaling,?NMDS)2、同時使用物種和環境因子組成數據的排序叫作?限制性排序(constrainedordination)(1)冗余分析(redundancyanalysis,RDA)(2)典范對應分析(canonicalcorrespondence analysis, CCA)讓我們來仔細看看PCA與PCoA分析:在非限制性排序中,16S和宏基因組數據分析通常用到的是PCA分析和PCoA分析。兩者的區別在于:PCA分析是基于原始的物種組成矩陣所做的排序分析,而PCoA分析則是基于由物種組成計算得到的距離矩陣得出的。在PCoA分析中,計算距離矩陣的方法有很多種,例如圖1所示的Euclidean, Bray-Curtis, and Jaccard,以及圖2顯示的(un)weighted Unifrac (利用各樣品序列間的進化信息來計算樣品間距離,其中weighted考慮物種的豐度,unweighted沒有對物種豐度進行加權處理)。
?
圖1 Euclidean, Bray-Curtis, and JaccardPcoA圖
?
圖2 (a) weighted Unifrac PCoA分析
PCoA1維度將根內樣品與根周邊和土壤樣品很好的分開;而PCoA2能夠將不同土壤的樣品很好的區分開來;(b)用pairwise-Bray-Curtis相似度對樣品進行聚類。再來看看CCA與RDA分析:限制性排序主要有CCA分析和RDA分析。RDA基于線性模型,CCA則是基于單峰模型。一般我們會選擇CCA來做直接梯度分析。但是,如果CCA排序的效果不太好,就可以考慮換做用RDA分析。RDA或CCA選擇原則:先用species-sample資料做DCA分析,看分析結果中Lengths of gradient?的第一軸的大小,如果大于4.0,就應選CCA;如果在3.0-4.0之間,選RDA和CCA均可;如果小于3.0, RDA的結果要好于CCA。圖3是CCA分析圖,圖中箭頭代表不同的環境因子,射線越長表示該環境因子影響越大。環境因子之間的夾角為銳角時表示兩個環境因子之間呈正相關關系,鈍角時呈負相關關系。
?
圖3 CCA分析圖
?讀完這些,您理解了PCA、PCoA、NMDS、CCA、RDA之間的區別和聯系嗎?是不是覺得很漲姿勢呢?
最后,附上一張文獻里的圖PCoA?(本圖在QIIME中完成的)
“Bacterial community structure and variation in a full-scale seawaterdesalination plant for drinking water production”
?
總結
以上是生活随笔為你收集整理的统计分析/PCA,PCoA,NMDS等的区别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 问题 J: 机器人足球
- 下一篇: “使用达芬奇软件实现Autosar架构: