基因组浏览器使用 (EPGG)
基因組瀏覽器是高通量測序分析的一個重要的可視化工具。相比于最終提供的表格,基因組瀏覽器可以提供更多的信息,如直觀展示突變位點、查看有無新轉錄本或新的可變剪接形式、查看peak的可信度、上下游基因、區域保守性、重復元件、蛋白結合motif等。
我們前面有測序數據可視化列舉了4個常用的高通量數據可視化工具,詳細介紹了IGV基因組瀏覽器可視化高通量測序數據和UCSC 基因組瀏覽器的安裝使用。
最近幾次將以華盛頓大學(DC)開發的EPGG基因組瀏覽器為主要工具 (目前主流瀏覽器之一,不同的功能更新分別發表于NBT, Nature method等雜志),介紹下基因組瀏覽器的基本展示內容、各部分含義、使用方式等。
基因組瀏覽器都可以按照位置或基因名字搜索,可進行局部放大和縮小。雖然每個軟件略有不同,但基本操作是通用的。點一點,拽一拽,就都能用了。初次接觸一個軟件,多一點耐心,多一點操作,其實沒那么難。
基因信息展示包含基因的轉錄方向信息 (箭頭),基因結構信息 (CDS, UTR, intron),基因功能描述信息等。方向信息對我們識別轉錄起始位點及啟動子區域和啟動子上的ChIP peak至關重要。
另外還有個功能,基因只在基因組占1%,瀏覽起來不方便,Juxtapose模式可以只顯示基因區,其它區域隱藏,這樣截圖或瀏覽起來都更方便。
重復元件是我們做分析時需要關注的一個點,最近Cell文章發現 LINE元件 (A LINE-1-Nucleolin Patnership Regulates Early Development and ESC Identity)是胚胎發育的關鍵。如果我們的數據能在某個重復元件上有特殊分布,也可能催生重要發現呢。
“峰圖”是最常見的展示形式,reads的分布有高有低,在基因組上形成層戀疊嶂的山峰狀。峰頂表示對應區域的表達、修飾或結合比較高。
除了峰形圖,也可以展示熱圖、線圖等。
數值Track支持的數據一般是bigWig格式,在不同瀏覽器之間通用。不同Track之間比較時需要先對數據做標準化,也需要設置同等大小的Y軸。數據可以進行一定程度的擬合,使得結果更清晰 (圖中的Smooth window)。
這個線圖常用于比較富集樣品和對照樣品,或比較不同樣品之間的表達量高低等。把2個Track放到一起展示,高低立見。UCSC genome browser也有類似功能,而且展示效果更好,我們前面也已提過。
EPGG特有的甲基化數據展示,給定每個位點測序深度,CG甲基化比例,CHH,CHG甲基化比例等。還可以在線過濾,篩選不同支持reads數的甲基化位點,更有動態性。是甲基化分析的必備神器。
染色體的三維結構研究越來越多,用途也越來越大。關聯SNP位點的功能,尋找enhancer的靶基因,基因組區域互作,都可以通過Hi-C數據提供更多支持信息。EPGG可以用互作熱圖或loop連線兩種方式展示區域之間的互作。
互作熱圖的識別方式是:如果要看位點A和位點B之間是否有互作,只需在正負45度方向畫一條線,查看線是否有交點和交點處顏色強弱即可判斷。
還有圈圖形式,從宏觀展示某個位點與基因組其它區域的互作。
SNP位點展示及連鎖不平衡展示,這也是EPGG的特有功能。可視化與Hi-C染色體互作類似。
下一步將講一下EPGG支持的物種,自帶數據和分析功能,以更方便使用。
EPGG支持的物種有人、小鼠、大鼠、猴子、豬、狗、猩猩、雞、斑馬魚、果蠅、線蟲、擬南芥、玉米、大豆、白菜、酵母等,也可以把自己的基因組整理成所需要的格式,導入EPGG使用。
模式生物有比較多的高通量測序研究的大項目,如TCGA,Roadmap,ENCODE等和染色體三維結構或互作 Hi-C、ChIA-PET研究等公共數據,可以直接點擊Load加載,然后再選擇關注的樣品或數據類型,導入瀏覽器查看。
加載好,Track選擇界面如下,可以點擊+進一步展開,選擇對應數據。
更多Track操作見下圖,也可以導入自己的Track (小文件直接上傳,大文件提供可訪問的鏈接)。
文件上傳界面如下:
Track多了,分組就是問題。EPGG提供右側的Metadata colormap,用不同的顏色塊區分樣品和測序類型等,鼠標懸浮會有文字提示,是很方便的功能。
看到需要的結果,可以存儲下來,放到文章的圖中。
也可以分享給老師、同學、合作者們。
EPGG還提供了很多實用的分析功能,如下圖:
同時展示多個基因在多個樣品的表達或修飾狀態
基因組瀏覽器分成2個panel,對比展示區域。類似于基因集展示,但更靈活。
只展示基因區,移除基因間區,更方便瀏覽。
染色體范圍的Track分布。
同源基因、同源區域展示,兩物種共線性基因組聯動。
兩個數值Track在給定區域的比較,比如看啟動子區H3K4me1和K3K27me3的結合,識別Bivalent promoter。
TSS上下游區域H3K4me1, H3K27me3等修飾或TF結合圖譜繪制
Roadmap數據專用展示。
訪問鏈接:http://epigenomegateway.wustl.edu/browser/
生物信息博客 http://www.blog.genesino.com
總結
以上是生活随笔為你收集整理的基因组浏览器使用 (EPGG)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 好导师、选好题、保持创新; 然后坚定地
- 下一篇: 机房布线的最高境界 | 最后的暗黑系,真