可视化之为什么要使用箱线图?
生物信息學習的正確姿勢
NGS系列文章包括NGS基礎、高顏值在線繪圖和分析、轉錄組分析?(Nature重磅綜述|關于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細胞測序分析?(重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程)、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step))、批次效應處理等內容。
圖形解讀系列文章起源于易生信每個不同主題的培訓中都有的一節課 —- 闡述該領域常見圖形的含義解釋。幾十次課程下來,從氣氛活躍的現場交流和熱火朝天的培訓群討論中,發現一些共性問題和特色點,系統整理形成這一推文系列,希望大家多討論交流。
在圖形解讀之Volcano plot | 別再問我這為什么是火山圖中,我們提出圖形解讀的一般原則:從圖的基本構造入手,拆解圖的橫軸、縱軸、幾何對象和對象屬性的含義,理解圖的每一部分代表什么,然后再整體解讀圖中的差異點。統計圖就是用把數據映射到幾何形狀如點、線、柱的美學屬性如顏色、大小、形狀上。這是理解圖的關鍵,也是畫圖的關鍵。
對于箱線圖也是如此 。
箱線圖,顧明思義,是形狀像箱子并展示一組或多組數據分布的統計圖。通常從箱線圖可以直觀看出一組數據的四分位數。
以下面水平箱線圖為例(如果是垂直箱線圖,則把下圖逆時針旋轉90度):
首先看箱體:
左邊線代表下四分位數(第一四分位數,Q1),表示整體數據中有25%的數據少于該值;
右邊線代表上四分位數(第三四分位數,Q3),表示整體數據中有75%的數據少于該值;
箱體中間的線代表中位數,是一組數從小到大排列,居于正中間的單個數或正中間兩個數的均值;
箱體的長度代表第三四分位數和第一四分位數的差值,也稱為四分位間距(interquartile range,IQR);
箱體兩端的衍生線最左延伸至Q1 - 1.5 x IQR(下極限),最右延伸至 Q3 + 1.5 x IQR(上極限);
超出上下極限線的點(或其他標記)表示潛在異常值(outliers)。
為什么要使用箱線圖
因為箱線圖(包含其變體小提琴圖、Bean-plot)可以更真實的反應數據的分布。如果加上Jitter plot可以更好的體現樣品數,點越多,結果的穩定性、可靠性越好和工作量越大。
為了鼓勵科研者使用箱線圖,2014年的Nature Method專門推出2篇文章詳細論述了使用箱線圖的好處,并發布了一個在線繪制箱線圖的工具[1]。時隔4年,此工具已打不開,文后有生信寶典開發的工具可以更好的繪制箱線圖。
作者舉了一個特別形象的例子展示出不同的可視化方式對結果解讀的影響很大。文中模擬了4套不同分布模式的數據,每套數據由100個數據點組成,分別是均勻分布、不同方差大小的兩個單峰分布和雙峰分布的數據集。隨后用條形圖, 箱線圖,小提琴圖和bean plot對4套數據分別進行了可視化展示。
子圖a是4套模擬數據集的真實分布模式,差別較大;但體現在b, c, d圖上時,不同類型的圖傳達出的主要信息不同,我們也會得出不同的第一印象:
用柱狀圖展示時,四個柱子分別對應于4套模擬數據集。
第一印象柱子的高度一樣,反應出四套數據集的平均值是一樣的。
看起來只是誤差線高低不同,反應出數據存在一些波動。
從這個柱狀圖很難想到背后的數據分布會如子圖a中所示,差別那么大。
柱狀圖只用兩個統計量展示數據信息,會掩飾數據分布的差異。
另外,也可以看出數據標準差(SD,Standard Deviation)相比于標準誤(SEM,Standard Error of Mean)變化更大;
從箱線圖來看,四組數據的分布差異大體顯示出來了,尤其是前面3組數據,很好的反應了數據真實的分布模式。
但第一組數據和第四組數據因為四分位數的統計值相當,僅用箱線圖看不出來兩組數據的分布是否差別很大;
小提琴圖(Violin plot)展示數據分布的概率密度。
一般來講,圖中越胖(寬)的地方,表示處于該取值范圍的數據越多;
越瘦(窄)的地方表示對應區域數據越稀少;
結合箱線圖的5個核心數據,小提琴圖完美呈現了數據的真實分布模式;
這是比較推薦的展示方式。
Bean plot也可以展示數據的真實分布,而且對比更明顯。
但個人經驗是,Bean plot繪制的圖經常會展示怪異,通常自己畫出來不像這個模擬數據集一樣美觀,故不太常用。
小提琴圖(Violin plot)展示單細胞Marker基因的表達
上圖展示的是Seurat或其它工具繪制的單細胞基因表達小提琴圖。每個點可以視作一個細胞,其在Y軸對應的值表示該基因在相應簇(簇的名字在X軸顯示)的細胞里面的表達值。小提琴的寬度表示表達有對應表達值的細胞的密度。比如右圖中PF4基因在Cluster 7里面的各個細胞中表達顯著高,可以視作Cluster 7的Marker基因。左圖中NKG7基因,在Cluster 5中相對表達較高,在Cluster 3中整體表達較高,可以視作這兩個Cluster的Marker 基因。同時也提示Cluster 3是否有可能再繼續細分為2個亞簇?
箱線圖展示測序質量
二代測序獲得的原始FastQ數據通常會用FastQC進行質量評估,并用箱線圖展示測序reads的堿基質量值。如圖,橫坐標表示reads中每個堿基的位置,縱坐標表示對應位置堿基的質量值,質量值為20表示錯誤率是1/100,質量值為30表示錯誤率是1/1000;以此類推,數字越小,對應位置的堿基錯誤率越大。
這張圖的繪制方式可以這么理解一下:假如測序了10萬條reads,將所有reads從5'-3'每個位置的堿基垂直排列一起,第1位有10萬個堿基,對應10萬個質量值,用圖中左側第一個箱線圖展示10萬個質量值的分布;第2位有同樣有10萬個質量值,用圖中左側第二個箱線圖展示其分布;以此類推得到上圖。左圖顯示每個堿基的中位質量值(箱線圖中間的紅線)都比較高,而圖三右圖的的堿基質量值變化較大,5‘-3’測序質量逐漸下降;后續分析時可能需要進行一定的預處理比如移除低質量堿基等。
箱線圖展示標準化效果
箱線圖也可以用來展示數據之間是否做過標準化或標準化效果怎樣。轉錄組中我們有一個前提假設,相互比較的樣本之間總的基因表達量是一致的,繪制箱線圖時其整體數據分布也是一致的 (如下右圖)。如果數據未做標準化或標準化效果不好或存在批次影響,則數據可能會存在系統偏差,導致其值不可比(如下左圖,左側的淺藍色樣品整體低,深藍色樣品整體偏高)。
有人會有一個疑問,整體分布都一致,那還有差異基因嗎?有的,基因的相對表達變了,有的降了,有的升了,但整體一致,如下面連線的小提琴圖所示。
圖源:易生信PPT
為什么GEO2R/GEOquery的結果可能是錯的?
什么?你做的差異基因方法不合適?
WGCNA的Power值用對了嗎?
箱線圖展示菌群Alpha多樣性
在微生物組領域,通常用箱線圖展示樣品組中各樣本Alpha多樣性分布。比如上圖的三個箱線圖分別展示了三種Alpha多樣性計算結果。這個圖很具有代表性,首先是配色,土壤、根、莖、葉依次為白色、棕色、淺綠和深綠,尤其是后3個樣品,與器官實際顏色相對應,表意特別明確,讓人過目不忘;其次因為土壤中微生物多樣性遠高于植物不同器官內生菌的多樣性,Y軸的截斷圖展示,更能凸顯內生菌多樣性的差異;最后每個箱體上標記字母用于展示基于Anova統計差異分析的顯著性結果。如果兩個箱體上的字母不同,則代表兩組樣品的多樣性存在顯著差異。
當然,如果兩組樣品的Alpha多樣性整體沒有差異,也不能說明菌的構成都一致,可能是部分菌上調了,部分菌下調了,上下調幅度在計算Alpha多樣性時相抵了 (可結合上面標準化部分理解)。
關于Alpha多樣性更多的解釋,劉永鑫老師的文章-擴增子圖表解讀1箱線圖:Alpha多樣性,老板再也不操心的我文獻閱讀了一文內容詳實,推薦閱讀。
水平箱線圖
展示不同的腫瘤樣本中使用ABSOLUTE計算的腫瘤純度得分高低,亮點是不同樣本按照純度中位數進行排序,看上去更整齊,也更容易看出規律。這在繪圖網站imageGP(www.ehbio.com/ImageGP/)中簡單修改一個參數就能做到。
交互式箱線圖2.0,展示的是基因Ldha在不同樣本的表達分布。如圖所示,可以通過調整網頁的按鈕實現圖形旋轉、表達數據預處理、按中位數排序和調整圖形邊距等功能。想讓自己的數據呈現在這樣的網站上面嗎?來找易生信一起做個數據庫吧。
箱線圖與抖動圖
箱線圖只展示數據的5個核心指標,可以增加原始數據點,展示更多信息。同時當樣本數量過多的時候,為了保證樣本不重疊,可以jitter抖動一下,通過添加隨機噪音,在不影響數據真實性的基礎上予以展示。這個圖除了可以用函數ggbeeswarm繪制,還可以利用ggplot2包的 geom_boxplot+geom_jitter生成。
箱線圖繪制方法
R語言學習 - 箱線圖(小提琴圖、抖動圖、區域散點圖)
R語言 - 箱線圖一步法
ggplot2高效實用指南 (可視化腳本、工具、套路、配色)
推薦使用功能強大的在線繪圖網站-ImageGP - www.ehbio.com/ImageGP。
高顏值免費在線繪圖
BoxPlotR: a web tool for generation of box plots(https://www.nature.com/articles/nmeth.281
推薦閱讀
數據可視化基本套路總結
贈你一只金色的眼 - 富集分析和表達數據可視化
一個震撼的交互型3D可視化R包 - 可直接轉ggplot2圖為3D
學習津貼
單篇留言點贊數的第一位(點贊數至少為8)可獲得我們贈送的在線基礎課的9折優惠券。
越留言,越幸運。
主編會在每周選擇一位最有深度的留言,評論者可獲得我們贈送的任意一門在線課程的9折優惠券(偷偷告訴你,這個任意是由你選擇哦)。
往期精品
畫圖三字經?生信視頻?生信系列教程?
心得體會?TCGA數據庫?Linux?Python?
高通量分析?免費在線畫圖?測序歷史?超級增強子
生信學習視頻?PPT?EXCEL?文章寫作?ggplot2
海哥組學?可視化套路?基因組瀏覽器
色彩搭配?圖形排版?互作網絡
自學生信?2019影響因子?GSEA?單細胞?
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的可视化之为什么要使用箱线图?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Awesome R
- 下一篇: 诺奖文章里面的动图绘制教程来了!!