高通量数据分析必备|基因组浏览器使用介绍 - 1
基因組瀏覽器是高通量測序分析的一個重要的可視化工具。相比于最終提供的表格,基因組瀏覽器可以提供更多的信息,如直觀展示突變位點、查看有無新轉錄本或新的可變剪接形式、查看peak的可信度、上下游基因、區域保守性、重復元件、蛋白結合motif等。
我們前面有測序數據可視化列舉了4個常用的高通量數據可視化工具,詳細介紹了IGV基因組瀏覽器可視化高通量測序數據和UCSC 基因組瀏覽器的安裝使用。
最近幾次將以華盛頓大學(DC)開發的EPGG基因組瀏覽器為主要工具 (目前主流瀏覽器之一,不同的功能更新分別發表于NBT, Nature method等雜志),介紹下基因組瀏覽器的基本展示內容、各部分含義、使用方式等。
基因組瀏覽器都可以按照位置或基因名字搜索,可進行局部放大和縮小。雖然每個軟件略有不同,但基本操作是通用的。點一點,拽一拽,就都能用了。初次接觸一個軟件,多一點耐心,多一點操作,其實沒那么難。
基因信息展示包含基因的轉錄方向信息 (箭頭),基因結構信息 (CDS, UTR, intron),基因功能描述信息等。方向信息對我們識別轉錄起始位點及啟動子區域和啟動子上的ChIP peak至關重要。
另外還有個功能,基因只在基因組占1%,瀏覽起來不方便,Juxtapose模式可以只顯示基因區,其它區域隱藏,這樣截圖或瀏覽起來都更方便。
重復元件是我們做分析時需要關注的一個點,最近Cell文章發現 LINE元件 (A LINE-1-Nucleolin Patnership Regulates Early Development and ESC Identity)是胚胎發育的關鍵。如果我們的數據能在某個重復元件上有特殊分布,也可能催生重要發現呢。
“峰圖”是最常見的展示形式,reads的分布有高有低,在基因組上形成層戀疊嶂的山峰狀。峰頂表示對應區域的表達、修飾或結合比較高。
除了峰形圖,也可以展示熱圖、線圖等。
數值Track支持的數據一般是bigWig格式,在不同瀏覽器之間通用。不同Track之間比較時需要先對數據做標準化,也需要設置同等大小的Y軸。數據可以進行一定程度的擬合,使得結果更清晰 (圖中的Smooth window)。
這個線圖常用于比較富集樣品和對照樣品,或比較不同樣品之間的表達量高低等。把2個Track放到一起展示,高低立見。UCSC genome browser也有類似功能,而且展示效果更好,我們前面也已提過。
EPGG特有的甲基化數據展示,給定每個位點測序深度,CG甲基化比例,CHH,CHG甲基化比例等。還可以在線過濾,篩選不同支持reads數的甲基化位點,更有動態性。是甲基化分析的必備神器。
染色體的三維結構研究越來越多,用途也越來越大。關聯SNP位點的功能,尋找enhancer的靶基因,基因組區域互作,都可以通過Hi-C數據提供更多支持信息。EPGG可以用互作熱圖或loop連線兩種方式展示區域之間的互作。
互作熱圖的識別方式是:如果要看位點A和位點B之間是否有互作,只需在正負45度方向畫一條線,查看線是否有交點和交點處顏色強弱即可判斷。
還有圈圖形式,從宏觀展示某個位點與基因組其它區域的互作。
SNP位點展示及連鎖不平衡展示,這也是EPGG的特有功能。可視化與Hi-C染色體互作類似。
下一步將講一下EPGG的自帶數據和分析功能,以更方便使用。
訪問鏈接:http://epigenomegateway.wustl.edu/browser/
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的高通量数据分析必备|基因组浏览器使用介绍 - 1的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Celaref | 单细胞测序细胞类型注
- 下一篇: 送书 | 数据分析如烹小鲜