linux lefse分析,LEfSe分析,你真的懂了么(Linux.org)
在微生物多樣性分析中,LEfSe分析自從”出生“就倍受青睞,今天小昌寶寶
就跟大家嘮嘮這個高頻出鏡的LEfSe分析,從LEfSe的定義、結果、原理、涉及到的檢驗四個方面進行解釋。
一LEfSe的定義
LEfSe分析即LDA Effect Size分析,是一種用于發現和解釋高維度數據生物標識(基因、通路和分類單元等)的分析工具,可以進行兩個或多個分組的比較,它強調統計意義和生物相關性,能夠在組與組之間尋找具有統計學差異的生物標識(Biomarker)。
二LEfSe結果分析
一般地,在微生物多樣性分析結果中,會出現兩個圖,一張表( LDA值分布柱狀圖、進化分支圖及特征表)。
1. LDA值分布柱狀圖
這個條形圖主要為我們展示了LDA score大于預設值的顯著差異物種,即具有統計學差異的Biomaker,默認預設值為2.0(看橫坐標,只有LDA值的絕對值大于2才會顯示在圖中);柱狀圖的顏色代表各自的組別,長短代表的是LDA score,即不同組間顯著差異物種的影響程度。
2. 進化分支圖:
小圓圈: 圖中由內至外輻射的圓圈代表了由門至屬的分類級別(最里面的那個黃圈圈是界)。不同分類級別上的每一個小圓圈代表該水平下的一個分類,小圓圈的直徑大小代表了相對豐度的大小。
顏色: 無顯著差異的物種統一著色為黃色,差異顯著的物種Biomarker跟隨組別進行著色,紅色節點表示在紅色組別中起到重要作用的微生物類群,藍色節點表示在藍色組別中起到重要作用的微生物類群。未能在圖中顯示的Biomarker對應的物種名會展示在右側,字母編號與圖中對應(為了美觀,右側默認只顯示門到科的差異物種)。
3. 特征表:
第一列:Biomarker名稱;
第二列:各組分豐度平均值中最大值的log10,如果平均豐度小于10的按照10來計算;
第三列:差異基因或物種富集的組名;
第四列:LDA值;
第五列:Kruskal-Wallis秩和檢驗的p值,若不是Biomarker用“-”表示。
三LEfSe分析原理
A. 首先在多組樣本中采用的非參數因子Kruskal-Wallis秩和檢驗檢測不同分組間豐度差異顯著的物種;
B. 再利用Wilcoxon秩和檢驗檢查在顯著差異物種類中的所有亞種比較是否都趨同于同一分類級別;
C. 最后用線性判別分析(LDA)對數據進行降維和評估差異顯著的物種的影響力(即LDA score)。
四LEfSe分析中的檢驗
參數檢驗與非參數檢驗的區別
參數檢驗:即總體分布類型已知,用樣本指標對總體參數進行推斷或作假設檢驗的統計檢驗方法。
非參數檢驗:即不考慮總體分布類型是否已知,不比較總體參數,只比較總體分布的位置是否相同的統計方法。
參數檢驗分類:T檢驗,方差分析,(要求:方差齊性、正態分布)。
選用非參數檢驗的情況有:①總體分布不易確定(即不知道是不是正態分布)
②分布呈非正態而無適當的數據轉換方法③等級資料等。
一般地,微生物多樣性分析中,樣本群落分布不確定,多采用非參數檢驗。
1.秩和檢驗:
秩和檢驗是一種非參數檢驗法,它是一種用樣本秩來代替樣本值的檢驗法。根據樣本分組的不同可分為兩樣本Wilcoxon秩和檢驗和多樣本Kruskal-Wallis檢驗。
首先來了解幾個容易搞混的詞。
秩次(rank):秩統計量,是指全部觀察值按從小到大排列的位序;
秩和(rank sum):同組秩次之和。秩和檢驗就是通過秩次的排序列求出秩和,進行假設檢驗。
a)Wilcoxon秩和檢驗(Wilcoxon rank sum test,也稱為Mann-Whitney Test):
基本思想是:若檢驗假設成立,則兩組的秩和不應相差太大。通過編秩,用秩次代替原始數據信息來進行檢驗。
原理就是不管樣本中的數據到底是多少,將兩樣本數據混合后從小到大排序,然后按順序賦秩,最小的賦為1,最大的賦為n1+n2,分別對兩個樣本求平均秩,如果兩個樣本的平均秩相差不大,則說明兩個總體不存在顯著差異;反之,若相差較大,先分別求出兩個樣本的秩和,再計算檢驗統計量(含量較小的樣本秩和)和統計量(期望秩和,查T值表可知)的P值并作出決策。
補充材料:Wilcoxon秩和檢驗是由F. Wilcoxon于1945年提出,1947年,Mann和Wiltney對Wilcoxon秩和檢驗進行了補充,后面就有了Mann-Wiltney檢驗。
b) Kruskal-Wallis秩和檢驗:
原理與兩樣本Wilcoxon檢驗類似。不同的是Kruskal-Wallis秩和檢驗針對多組獨立樣本,且進行的是H檢驗;在實際秩和與期望秩和差值的基礎上計算檢驗統計量,最后計算出統計量的P值并作出決策。需注意的是,多組樣本差異顯著時,應進行多樣本的兩兩比較的秩和檢驗。
2.LDA:
LDA的全稱是Linear Discriminant Analysis(線性判別分析),是一種supervised learning(有監督學習)。有些資料上也稱為是Fisher’s Linear Discriminant,由Ronald Fisher發明自1936年,是在目前機器學習、數據挖掘領域經典且熱門的一個算法。
LDA的思想可以用一句話概括,就是“投影后類內方差最小,類間方差最大”。簡單來說就是一種投影,是將一個高維的點投影到一個低維空間,我們希望映射之后,不同類別之間的距離越遠越好,同一類別之中的距離越近越好。
是不是很抽象哇,讓小昌來幫你舉個栗子吧。假設我們有兩類數據:分別為紅色和藍色,如下圖所示,這些數據特征是二維的,我們希望將這些數據投影到一維的一條直線,讓每一種類別數據的投影點盡可能的接近,而紅色和藍色數據中心之間的距離盡可能的大。
從直觀上可以看出,右圖要比左圖的投影效果好,因為右圖的紅色數據和藍色數據各個較為集中,且類別之間的距離明顯。左圖則在邊界處數據混雜。當然在實際應用中,我們的數據是多個類別的,我們的原始數據一般也是超過二維的,投影后的也一般不是直線,而是一個低維的超平面。
我們不生產知識,我們只是知識的搬運工。
參考資料:
Segata N, Izard J, Waldron L, et al. Metagenomic biomarker discovery and explanation[J]. Genome Biol, 2011, 12(6): R60.
http://www.cnblogs.com/pinard/p/6244265.html
總結
以上是生活随笔為你收集整理的linux lefse分析,LEfSe分析,你真的懂了么(Linux.org)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python安装redis模块_安装re
- 下一篇: 二进制文件被拒_苹果商店上架,二进制文件