MotifStack:多motif序列比较和可视化
授權轉載自 SimonCat。
最近大量跑chip-seq,看到一篇2016Cell的文章《Cistrome?and Epicistrome Features Shape the Regulatory DNA Landscape》感覺圖3好驚艷。
找了下材料和方法,發現是一個叫MotifStack(http://www.bioconductor.org/packages/release/bioc/html/motifStack.html)的包畫的。
什么是motif?
Motif是在生物學中是一個基于數據的數學統計模型,典型的是一段sequence也可以是一個結構。如轉錄因子傾向于結合某些特定的序列。把這個R包和數據下載下來自己畫一下,它motif的測試數據是pcm格式的文本。MotifStack 還有一些motif格式轉換的函數。(Cell重磅綜述:關于人類轉錄因子,你想知道的都在這)
motif的格式是什么?
Chip-seq鑒定出的motif,是一個ATCG的序列矩陣。對于這個字母矩陣,目前主流Motif的序列格式主要有JASPAR\MEME\RAW PFM。此外JASPAR數據庫 (http://jaspar.genereg.net/) 提供了轉錄因子與DNA結合位點motif最全面的公開數據,共收集了脊椎動物、植物、昆蟲、線蟲、真菌和尾索動物六大類不同類生物的數據 (AnimalTFDB 動物轉錄因子注釋和預測的綜合資源庫)。
1 Single motif log
2 Affinity motif log
需要畫出雙鏈。
motif<-matrix(c(.846, .631, .593, .000, .000, .000, .434, .410, 1.00, .655, .284, .000, .000, .771, .640, .961,.625, .679, .773, 1.00, 1.00, .000, .573, .238, .397, 1.00, 1.00, .000, .298, 1.00, 1.00, .996,1.00, 1.00, 1.00, .228, .000, 1.00, 1.00, .597, .622, .630, .000, 1.00, 1.00, .871, .617, 1.00,.701, .513, .658, .000, .000, .247, .542, 1.00, .718, .686, .000, .000, .000, .595, .437, .970), nrow=4, byrow = TRUE)rownames(motif) <- c("A", "C", "G", "T")motif<-new("psam", mat=motif, name="affinity logo")plot(motif)3 Stacked motif
當要畫多個motif以堆積起來,對不同的motif進行距離計算構建進化樹。導入的數據文件是單個motif一個pcm文件,通過file.path命令讀取整個目錄
motifs<-importMatrix(dir(file.path("/Users/zt/learn/軟件包/motifStack/test_data"),"pcm$", full.names = TRUE))motifStack(motifs, layout="stack", ncex=1.0)# 建立進化樹motifStack(motifs, layout="tree")4 ?Circle Motif4 Circle motif
設置layout的格式,可以設置成環形,有點像circles
motifStack(motifs, layout="radialPhylog",circle=0.5, cleaves = 0.3,clabel.leaves = 0.3,col.bg=rep(color, each=5), col.bg.alpha=0.3,col.leaves=rep(color, each=5),col.inner.label.circle=rep(color, each=5),inner.label.circle.width=0.05,col.outer.label.circle=rep(color, each=5),outer.label.circle.width=0.1,circle.motif=1.2,angle=350)原文:https://mp.weixin.qq.com/s/hiXEgwwgtKGxFhMawtg3fQ
R統計和作圖
- 在R中贊揚下努力工作的你,獎勵一份CheatShet 
- 別人的電子書,你的電子書,都在bookdown 
- R語言 - 入門環境Rstudio 
- R語言 - 熱圖繪制 (heatmap) 
- R語言 - 基礎概念和矩陣操作 
- R語言 - 熱圖簡化 
- R語言 - 熱圖美化 
- R語言 - 線圖繪制 
- R語言 - 線圖一步法 
- R語言 - 箱線圖(小提琴圖、抖動圖、區域散點圖) 
- R語言 - 箱線圖一步法 
- R語言 - 火山圖 
- R語言 - 富集分析泡泡圖 
- R語言 - 散點圖繪制 
- R語言 - 韋恩圖 
- R語言 - 柱狀圖 
- R語言 - 圖形設置中英字體 
- R語言 - 非參數法生存分析 
- R語言 - 繪制seq logo圖 
- WGCNA分析,簡單全面的最新教程 
- 一文看懂PCA主成分分析 
- 富集分析DotPlot,可以服 
- 基因共表達聚類分析和可視化 
- R中1010個熱圖繪制方法 
- 還在用PCA降維?快學學大牛最愛的t-SNE算法吧, 附Python/R代碼 
- 一個函數抓取代謝組學權威數據庫HMDB的所有表格數據 
- 文章用圖的修改和排版 
- network3D: 交互式桑基圖 
- network3D 交互式網絡生成 
- Seq logo 在線繪制工具??Weblogo 
- 生物AI插圖素材獲取和拼裝指導 
- ggplot2高效實用指南 (可視化腳本、工具、套路、配色) 
- 圖像處理R包magick學習筆記 
- SOM基因表達聚類分析初探 
- 利用gganimate可視化全球范圍R-Ladies(R社區性別多樣性組織)發展情況 
- 一分鐘繪制磷脂雙分子層:AI零基礎入門和基本圖形繪制 
- AI科研繪圖(二):模式圖的基本畫法 
- 你知道R中的賦值符號箭頭(<-)和等號(=)的區別嗎? 
- R語言可視化學習筆記之ggridges包 
- 利用ComplexHeatmap繪制熱圖(一) 
- ggplot2學習筆記之圖形排列 
- R包reshape2,輕松實現長、寬數據表格轉換 
- PCA主成分分析實戰和可視化 附R代碼和測試數據 
- 如何獲取目標基因的轉錄因子(上)——Biomart下載基因和motif位置信息 
- 如何獲取目標基因的轉錄因子(下)——Linux命令獲取目標基因TF 
更多閱讀
畫圖三字經?生信視頻?生信系列教程?
心得體會?癌癥數據庫?Linux?Python?
高通量分析?在線畫圖?測序歷史?超級增強子
培訓視頻?PPT?EXCEL?文章寫作?ggplot2
海哥組學?可視化套路?基因組瀏覽器
色彩搭配?圖形排版?互作網絡
后臺回復“生信寶典福利第一波”獲取教程合集
總結
以上是生活随笔為你收集整理的MotifStack:多motif序列比较和可视化的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 高并发02_同步锁的一些题目
- 下一篇: JVM_java内存区域
