比较两组数据的差异用什么图更直观_芯片数据分析中常见的一些图的作用
今天給大家講講芯片數(shù)據(jù)分析中常見的一些圖的作用,讓大家伙兒知道它們在BB些啥。
箱式圖(Box plot)
基因芯片的原始數(shù)據(jù)是需要進行標準化處理的,主要目的是消除由于實驗技術(如熒光標記效率、掃描參數(shù)的設置、空間位置的差異等)所導致的基因表達量的變化,讓各個樣本和平行實驗的數(shù)據(jù)處于相同的水平,使得基因表達數(shù)據(jù)真實地反映測量樣品的生物學差異。
箱式圖反映的是標準化前后的基因表達數(shù)據(jù)情況,標準化后,整體數(shù)據(jù)的中位數(shù)會處于同一水平線上(見下方右圖),這表明標準化的結(jié)果很好。常用的芯片間數(shù)據(jù)標準化方法有Quantile Normalization和Global Normalization。
散點圖(Scatter plot)
芯片數(shù)據(jù)的散點圖常用于評估兩組數(shù)據(jù)總體分布集中趨勢,是由芯片分析的原始數(shù)據(jù)經(jīng)過標準化處理,轉(zhuǎn)化為log2的對數(shù)后,在一個二維直角坐標系平面中繪制而成的。如果集中趨勢不好,則表明芯片數(shù)據(jù)處理的不好(一般是標準化,歸一化做的不好)。散點圖中每個點代表一個探針信號,X軸Y軸數(shù)值分別對應該探針信號在不同樣本中的強弱(下圖X軸是Ctrl組,Y軸是Exp組),圖中的綠線是Fold change的閾值線(一般是±2),即綠線之外的點在信號強弱(基因表達量)上是具有顯著差異的。
聚類分析(Hierarchical cluster)圖
聚類分析是為了尋找數(shù)據(jù)之間的相似性進行分類。基因芯片數(shù)據(jù)分析中比較常用的是分層聚類,它是利用一系列計算,首先找到關系最近(基因表達行為具有相關性等)的兩群合并,再找關系相近兩群再合并,直到所有的群合并到一個組中。用挑選的差異基因的表達情況來計算樣本之間的相關性,對差異基因進行聚類分析可以全面地直觀地展示樣品之間的關系及差異情況(見下圖)。一般來說,同一類樣本能通過聚類出現(xiàn)在同一個簇(cluster)中(如果同一類樣本,比如實驗組3個樣本,不能被聚類,則說明芯片分析的結(jié)果不好),聚在同一個簇的基因可能具有類似的生物學功能。下圖就是比較常見的聚類分析的熱圖(Heat map)。
1、色表,表示由藍到紅對應到基因表達量的變化,藍色表示低表達,紅色表示高表達;
2、樹狀圖,X軸方向是樣本的聚類,Y軸方向是基因的聚類;
3、每個色塊代表一個基因的表達量,X軸對應所屬樣本,Y軸對應基因名稱。
火山圖(Volcano plot)
火山圖就是長得像火山噴發(fā)的圖(本宮真的沒在瞎BB)。火山圖在一張圖中顯示了兩個重要的指標,Fold change和P-value,可以非常直觀且合理地篩選出在兩樣本間發(fā)生差異表達的基因。比如下圖,X軸是log(Fold change),Y軸為-log(P-value),設置FC和P-value的閾值篩選差異基因,那些紅點表示的就是差異基因。
GO圖
在上次的文章(有關生物信息學你必須要知道的)中提到基因本體論(Gene ontology, GO)是對基因功能的注釋,它由許多個詞條構(gòu)成,而這些詞條是有層次的,它們具有從屬關系,所以這些詞條構(gòu)成了一個有向無環(huán)圖。GO的最頂層是細胞組分(Cellular Component, CC),分子功能(Molecular Function, MF)和生物學過程(Biological Process, BP)這三個詞條。下圖就是一個GO富集分析的結(jié)果。
維恩圖(Venn diagrams)
維恩圖用于顯示元素集合重疊區(qū)域,舉個應用的例子吧,芯片分析篩選出的差異表達基因是一個集合,數(shù)據(jù)庫中查詢的疾病相關基因是一個集合,我們把這兩個集合取一個交集,這個交集中的基因就是我們可能會感興趣的基因。下圖中,作者定義了4個集合,4個集合均取交集的結(jié)果為0,所以作者只能退而求其次,選3個集合的交集。
文中插圖的來源文獻:
1、Exploring functions of long noncoding RNAs across multiple cancers through co-expression network
2、Microarray profiling analysis of long non-coding RNAs expression in tendinopathy: identification for potential biomarkers and mechanisms
3、Identification of differentially expressed genes and small molecule drugs for the treatment of tendinopathy using microarray analysis
4、
最后,再給大家推薦兩篇文章練練手:
1、Circulating microRNA-150-5p as a novel biomarker for advanced heart failure: A genome-wide prospective study
2、Genome-wide analysis of long noncoding RNA (lncRNA) expression in colorectal cancer tissues from patients with liver metastasis
沒有下載權(quán)限的童鞋可以去SCI-HUB下載(http://www.sci-hub.io/)。
總結(jié)
以上是生活随笔為你收集整理的比较两组数据的差异用什么图更直观_芯片数据分析中常见的一些图的作用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。