从Richard Young教授的系列研究看超级增强子发现背后的故事 (附超级增强子鉴定代码)
歡迎關(guān)注天下博客:http://blog.genesino.com/2018/04/super-enhancer/
Richard Young教授,美國科學(xué)院院士,就職于Whitehead研究所,是基因轉(zhuǎn)錄和表觀調(diào)控研究的先驅(qū),做出了很多開創(chuàng)性發(fā)現(xiàn)。
2013年關(guān)于超級(jí)增強(qiáng)子的研究,引燃了這個(gè)領(lǐng)域。超級(jí)增強(qiáng)子的發(fā)現(xiàn)看上去是偶然,但遍歷其在轉(zhuǎn)錄調(diào)控領(lǐng)域的研究,這個(gè)發(fā)現(xiàn)又是必然,是知識(shí)積累到一定程度,融匯貫通的結(jié)果。
也許我們?cè)谔幚砀咄繑?shù)據(jù)的過程中,也發(fā)現(xiàn)過類似的區(qū)域,但因?yàn)椴幻舾谢虿淮_信,更多的是因?yàn)闆]有足夠的知識(shí)積淀來解釋這個(gè)現(xiàn)象存在的原因或意義,導(dǎo)致我們與大發(fā)現(xiàn)失之交臂。
超級(jí)增強(qiáng)子發(fā)現(xiàn)的那一年,有幸遇到Richard Young教授,就請(qǐng)教了下為啥會(huì)起這個(gè)名字,Young教授說,看到這個(gè)區(qū)域了,為了方便研究就隨便給了個(gè)名字。看來會(huì)起名字,是科學(xué)研究的第一步。要不然叫著都不順口,怎么去跟導(dǎo)師交流,怎么能讓人記住,讓自己記住。
當(dāng)然這只是大牛的謙虛,人家起這個(gè)名字是因?yàn)榭吹眠h(yuǎn),一語道出了重要作用。
接下來我們捋一捋大牛10年間做過的研究,跟隨大牛的腳步,去學(xué)下如何做數(shù)據(jù)分析。
2000年發(fā)明 ChIP-chip,鑒定了Gal4和Ste12的結(jié)合圖譜,并結(jié)合不同生長條件下的轉(zhuǎn)錄圖譜,進(jìn)行了轉(zhuǎn)錄因子結(jié)合和基因表達(dá)的關(guān)聯(lián)分析。這篇文章,放在現(xiàn)在,也很具有參考意義。
這是華人大牛任兵教授在Richard Young教授做博后時(shí)的重要產(chǎn)出之一。
2002年,擴(kuò)大樣本量,整合分析106個(gè)調(diào)控因子的結(jié)合圖譜。構(gòu)建了106個(gè)調(diào)控因子與2343個(gè)基因之間的4000多調(diào)控結(jié)合關(guān)系,構(gòu)建調(diào)控網(wǎng)絡(luò) (網(wǎng)絡(luò)構(gòu)建),發(fā)現(xiàn)調(diào)控因子之間存在較強(qiáng)的互調(diào)控關(guān)系。
2004年綜合結(jié)合圖譜、Motif分析、序列保守性揭示轉(zhuǎn)錄調(diào)節(jié)代碼,即轉(zhuǎn)錄因子在啟動(dòng)子區(qū)的結(jié)合模式及其在不同環(huán)境下的調(diào)控變化。(現(xiàn)在做motif分析,也無外乎這些)
這樣就把轉(zhuǎn)錄因子的分析工作能做的都做了,下面就到了組蛋白修飾方面。
2008年,活性啟動(dòng)子區(qū)的雙向轉(zhuǎn)錄,發(fā)現(xiàn)轉(zhuǎn)錄延伸與H3K79me2相關(guān)。
2010年,承接上面的工作,發(fā)現(xiàn)cMyc調(diào)節(jié)Pol II啟動(dòng)轉(zhuǎn)錄延伸。在人胚胎干細(xì)胞中,約30%的基因有轉(zhuǎn)錄起始進(jìn)程,卻檢測(cè)不到轉(zhuǎn)錄延伸。轉(zhuǎn)錄復(fù)合體招募形成后不會(huì)立即轉(zhuǎn)錄,而是在啟動(dòng)子近端停留;轉(zhuǎn)錄因子cMyc則發(fā)揮促進(jìn)轉(zhuǎn)錄復(fù)合體運(yùn)轉(zhuǎn)的作用。
這篇文章也是研究的一個(gè)很好的范例,首先確認(rèn)是不是 (轉(zhuǎn)錄起始和延伸不成比例),然后看誰參與 (關(guān)聯(lián)不同轉(zhuǎn)錄因子,這里有個(gè)背景是cMyc與之前發(fā)現(xiàn)的轉(zhuǎn)錄釋放因子PTEFb存在互作),然后多方證據(jù)證明cMyc確實(shí)與POL II的釋放有關(guān) (這里選取的對(duì)照、和采用的計(jì)量方式都值得借鑒)。最后干擾下,確實(shí)有效果。完美結(jié)束故事。
當(dāng)然關(guān)于cMyc的研究卻沒結(jié)束,2012年有一篇cell,發(fā)現(xiàn)cMyc可以引起腫瘤細(xì)胞中整體轉(zhuǎn)錄水平升高。(注意:cMyc腫瘤中絕大部分活性基因的增量表達(dá),做腫瘤轉(zhuǎn)錄組時(shí),嚴(yán)格一些記得要加spike-in,不然相對(duì)定量就容易把差異抹去了)
還是2010年,發(fā)現(xiàn)Mediator和cohesin可以通過介導(dǎo)染色體結(jié)構(gòu)調(diào)節(jié)基因表達(dá)。Mediator很關(guān)鍵,也是后面發(fā)現(xiàn)超級(jí)增強(qiáng)子的一個(gè)功臣。
大規(guī)模shRNA篩選哪些基因的敲除對(duì)多能性基因的表達(dá)影響最大。
從結(jié)合圖譜確認(rèn)Mediator和cohesin敲低后,影響基因表達(dá)的機(jī)理。后續(xù)有3C實(shí)驗(yàn)驗(yàn)證染色體結(jié)構(gòu)確實(shí)發(fā)生了變化。
2013年發(fā)現(xiàn)超級(jí)增強(qiáng)子 (super enhancer),成簇的增強(qiáng)子。最開始定義是:Oct4,Sox,Nanog共結(jié)合的區(qū)域包含成簇的增強(qiáng)子定義為超級(jí)增強(qiáng)子,其調(diào)控轉(zhuǎn)錄的強(qiáng)度和敏感性都更高。
后來關(guān)聯(lián)到上一篇工作提到的Mediator:Med1的結(jié)合強(qiáng)度把增強(qiáng)子分成2類,大約40%的Med1信號(hào)出現(xiàn)在231個(gè)大的增強(qiáng)子上。這個(gè)關(guān)聯(lián)就成了超級(jí)增強(qiáng)子鑒定的一個(gè)依據(jù)。
隨后是超級(jí)增強(qiáng)子的結(jié)構(gòu)特征和功能分析,這個(gè)GSEA圖很有意思,充分利用上一篇文章中的大規(guī)模敲除結(jié)果,發(fā)現(xiàn)超級(jí)增強(qiáng)子調(diào)控的基因富集與對(duì)多能性因子影響最強(qiáng)的基因中,定格了超級(jí)增強(qiáng)子的重要功能。GSEA還不會(huì),看這里。
超級(jí)增強(qiáng)子的富集峰圖很有意思,平常見多了Gene body區(qū)域的富集,習(xí)慣了有高有低的分布。而超級(jí)增強(qiáng)子內(nèi)TF的結(jié)合分布均一,這個(gè)圖咋一看上去沒什么特色,而這個(gè)沒特色作者卻能解釋成很重要的特色,是很好的看問題視角。區(qū)域內(nèi)怎么分布沒關(guān)系,反正是普遍高,高于兩端區(qū)域,就是好的現(xiàn)象。
關(guān)聯(lián)完轉(zhuǎn)錄因子,再關(guān)聯(lián)組蛋白修飾,畢竟轉(zhuǎn)錄組因子數(shù)據(jù)少,又有細(xì)胞特異性,不適合用于大規(guī)模鑒定,發(fā)現(xiàn)H3K27ac可以標(biāo)記超級(jí)增強(qiáng)子,并有細(xì)胞特異性。再刷一波cell。
來一張圖,檢驗(yàn)下做調(diào)控的你知識(shí)儲(chǔ)備是否足夠,看看這些調(diào)控元件知道多少?如果都不知道,怎么能談得上活學(xué)活用、關(guān)聯(lián)分析呢?
Richard Young教授的文章還有很多,這里選了一部分表觀調(diào)控為主的文章,其在胚胎干細(xì)胞調(diào)控網(wǎng)絡(luò)、miRNA調(diào)控等領(lǐng)域都有很多好工作,每一篇文章都值得拿過來掰開了慢慢看。也許看的多了,可以從中看出大牛思考的蛛絲馬跡,給自己的科研加一些助力。后臺(tái)回復(fù) RA獲取文章全文和采訪視頻。想重復(fù)文章的圖,參考之前發(fā)布的ChIP-seq基本分析流程,和我們的視頻課 https://ke.qq.com/course/291881。
超級(jí)增強(qiáng)子鑒定代碼
這個(gè)是基于super-enhancer的文章描述和Richard Young教授實(shí)驗(yàn)室發(fā)表的ROSE軟件,制作的一個(gè)簡(jiǎn)化版,也是我們?cè)诒酒贑hIP-seq培訓(xùn)時(shí)大家一起討論出來的解決方式,發(fā)布出來,供大家批評(píng)指教。線下集訓(xùn)是很好的方式,歡迎大家參加正在籌備的二代三代轉(zhuǎn)錄組測(cè)序分析實(shí)戰(zhàn)班。
這個(gè)流程沒有考慮鑒定出的增強(qiáng)子與基因區(qū)的關(guān)系,另外流程稍作修改,可用于鑒定各種超級(jí)圖譜,如超級(jí)TF結(jié)合,超級(jí)組蛋白修飾結(jié)合,都可以。
組成型增強(qiáng)子排序
bedtools sort -i mm10.enhancer.bed >mm10.enhancer.sort.bed
距離在12.5 kb內(nèi)的增強(qiáng)子歸為一簇
bedtools cluster -d 125000 -i mm10.enhancer.sort.bed >mm10.cluster.enhancer.bed
計(jì)算每個(gè)增強(qiáng)子的H3K27ac結(jié)合強(qiáng)度
bedtools coverage -c -a mm10.cluster.enhancer.bed -b MESC_H3K27ac/MESC_H3K27ac.rmdup.bam \
mm10.cluster.enhancer.H3K27ac.profile_tmp
對(duì)每簇增強(qiáng)子的結(jié)合強(qiáng)度做簇內(nèi)加和
注意: -g 指定以那一列分組,指定的應(yīng)該是標(biāo)記分簇的數(shù)字所在的列;
-c 表示對(duì)coverage所在的列計(jì)算加和 (-o sum),注意列需要根據(jù)實(shí)際指定
bedtools groupby -i mm10.cluster.enhancer.H3K27ac.profile_tmp -g 5 -c 6 -o sum \
mm10.cluster.enhancer.H3K27ac.profile
以下為R代碼請(qǐng)?jiān)赗中運(yùn)行
以下為R代碼
enhancer = read.table(“mm10.cluster.enhancer.H3K27ac.profile”,
header=F, row.names=NULL, sep=”\t”)
head(enhancer)
注意查看豐度信息是否在第二列,若不在,則需做相應(yīng)修改
H3K27ac = sort(enhancer$V2)
plot(H3K27ac, col=2, type=”l”)
計(jì)算拐點(diǎn), 代碼取自ROSE
numPts_below_line <- function(myVector,slope,x){
yPt <- myVector[x]
b <- yPt-(slope*x)
xPts <- 1:length(myVector)
return(sum(myVector<=(xPts*slope+b)))
}
inputVector <- H3K27ac
set those regions with more control than ranking equal to zero
inputVector[inputVector<0]<-0
This is the slope of the line we want to slide. This is the diagonal.
slope <- (max(inputVector)-min(inputVector))/length(inputVector)
Find the x-axis point where a line passing through that point has the minimum number
of points below it. (ie. tangent)。
該點(diǎn)就是切點(diǎn)
xPt <- floor(optimize(numPts_below_line, lower=1, \
upper=length(inputVector),myVector= inputVector,slope=slope)$minimum)
y_cutoff <- inputVector[xPt] #The y-value at this x point. This is our cutoff.
b <- y_cutoff-(slope* xPt)
abline(v= xPt,h= y_cutoff,lty=2,col=8)
points(xPt,y_cutoff,pch=16,cex=0.9,col=2)
abline(coef=c(b,slope),col=2)
title(paste(“x=”,xPt,”\ny=”,signif(y_cutoff,3),”\nFold over Median=”,
signif(y_cutoff/median(inputVector),3),”x\nFold over Mean=”,
signif(y_cutoff/mean(inputVector),3),”x”,sep=”“))
Number of regions with zero signal
axis(1,sum(inputVector==0),sum(inputVector==0),col.axis=”pink”,col=”pink”)
超級(jí)增強(qiáng)子cluster
enhancer[enhancer$V2>=y_cutoff,1]
PYTHONBIOINFO生物信息
CHENTONG
版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請(qǐng)注明出處。
alipay.png WeChatPay.png
總結(jié)
以上是生活随笔為你收集整理的从Richard Young教授的系列研究看超级增强子发现背后的故事 (附超级增强子鉴定代码)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 聚类分析(三)Mini Batch KM
- 下一篇: 曾国藩36字诀,改变你的人生