易基因|ENCODE组蛋白ChIP-seq和转录因子ChIP-seq数据标准及处理流程
大家好,這里是專注表觀組學十余年,領跑多組學科研服務的易基因。
ENCODE (Encyclopedia of DNA Elements) 作為DNA調控元件百科全書整合了1w+個來自不同組織或細胞系的各類實驗數據標準。以表觀組學研究中的ChIP-seq為例,ENCODE Consortium使用不同的表觀基因組分析,并制定對應的分析方案和指南,具有絕對的權威和參考意義。
本期,易基因小編為大家說明ENCODE數據庫的組蛋白ChIP-seq和轉錄因子ChIP-seq指標要求,包括測序分析概述、處理流程(Pipeline)指南和不同分析類型的數據標準。
組蛋白 ChIP-seq 數據標準和處理流程
(1)分析概述
ChIP-seq是一種用于分析蛋白質與DNA互作的方法。ChIP-seq將染色質免疫沉淀與DNA高通量測序相結合,以推斷DNA相關蛋白的可能結合位點。ENCODE Consortium開發了兩個分析pipeline來研究兩種不同類別的蛋白質-染色質互作(組蛋白ChIP-seq和轉錄因子ChIP-seq)。組蛋白ChIP-seq的pipeline適用于與較長區域或結構域上的DNA相關蛋白質。典型的靶點是組蛋白或特定的翻譯后組蛋白修飾。
(2)處理流程
組蛋白ChIP-seq和轉錄因子ChIP-seq的流程具有相同的比對步驟,但在信號和peak calling方法以及隨后的重復樣本統計處理方面有所不同。
組蛋白分析流程可以解析點狀結合和更長的染色質結構域,這些結構域由許多靶蛋白或靶修飾實例結合。組蛋白ChIP-seq 流程的output適合作為將染色質區域分類為功能類別的染色質分割模型的input。
圖1:具有生物學重復實驗的組蛋白ChIP-seq分析流程
圖2:沒有生物學重復實驗的組蛋白ChIP-seq分析流程
表1:組蛋白ChIP-seq分析流程的inputs
表2:組蛋白ChIP-seq分析流程的outputs
(3)流程指南
- 讀長應至少為50個堿基對,鼓勵更長的讀長;分析流程可以處理低至25個堿基對的讀長??梢耘鋵騿味藴y序。
- 應注明使用的測序平臺。不同的測序平臺可能沒有可比性。如HiSeq2000與HiSeq4000的重復不同,沒有可比性。
- 生物學重復應在讀長和運行類型方面相匹配。
- Pipeline文件比對到人(GRCh38)和鼠(mm10)序列。
(4)現行標準
- 實驗應該有兩個或多個生物學重復。由于實驗材料的可用性有限,使用EN-TEx樣品進行分析可以例外。
- 抗體必須根據ENCODE Consortium制定的標準進行鑒定。
- 每個ChIP-seq實驗應該有相應的input控制實驗,具有匹配的運行類型,讀長和重復結構。
- 使用非冗余分數(NRF)和PCR瓶頸系數1和2,PBC1和PBC2衡量文庫復雜性。優選值如下:NRF>0.9,PBC1>0.9,PBC2>10。
特定目標標準
- narrow-peak組蛋白實驗,每個重復應該有不低于20M可用片段。
- broad-peak組蛋白實驗,每個重復應該有不低于45M可用片段。
- H3K9me3是一個例外,因為它在基因組重復區域富集。與其他broad Marks相比,在組織和原代細胞中基因組的非重復區域中幾乎沒有H3K9me3 peaks。導致許多ChIP-seq reads比對到基因組中的非唯一位置。組織和原代細胞每個重復應該有不低于45M總比對 reads。
圖3:特定目標標準
轉錄因子ChIP-seq 數據標準和處理流程
(1)分析概述
轉錄因子ChIP-seq (TF ChIP-seq) 處理流程適用于預測以點狀方式結合的蛋白質,例如特定 DNA 序列或特定染色質結構。其中,IP標靶通常是已知或推定的轉錄因子或染色質重塑蛋白,也可以是 RNA 結合蛋白、其他 DNA 或染色質特異性因子。
(2)處理流程
組蛋白ChIP-seq和轉錄因子ChIP-seq的流程具有相同的比對步驟,但在信號和peak calling方法以及隨后的重復統計處理方面有所不同。轉錄因子ChIP-seq(TF ChIP-seq)專門研究被認為與特定DNA序列相關聯以影響轉錄速率的蛋白質。
圖4:具有生物學重復實驗的轉錄因子ChIP-seq分析流程
圖5:沒有生物學重復實驗的轉錄因子ChIP-seq分析流程
表3:轉錄因子ChIP-seq分析流程的inputs
表4:轉錄因子ChIP-seq分析流程的outputs
(3)流程指南
- 讀長應至少為50個堿基對,鼓勵更長的讀長;分析流程可以處理低至25個堿基對的讀長。可以配對或單端測序。
- 應注明使用的測序平臺。不同的測序平臺可能沒有可比性。如HiSeq2000與HiSeq4000的重復不同,沒有可比性。
- 重復應在讀長和運行類型方面相匹配。
- Pipeline文件比對到人(GRCh38)和鼠(mm10)序列。
(4)現行標準
- 實驗應該有兩個或多個生物學重復。由于實驗材料的可用性有限,使用EN-TEx樣品進行分析可以例外。
- 抗體必須根據ENCODE Consortium制定的標準進行鑒定。
- 每個ChIP-seq實驗應該有相應的input控制實驗,具有匹配的運行類型,讀長和重復結構。
- 使用非冗余分數(NRF)和PCR瓶頸系數1和2,PBC1和PBC2衡量文庫復雜性。優選值如下:NRF>0.9,PBC1>0.9,PBC2>10。
特定目標標準
- 每個重復應該有不低于20M可用片段。
- 低reads深度:10M到20M可用片段
- reads深度不足:5M到10M可用片段
- 極低的reads深度:< 5M可用片段
- 對于轉錄因子ChIP-seq實驗,通過計算IDR值(Irreproducibility Discovery Rate)來檢測生物學重復之間的重復性。如果rescue和self consistency ratio均小于2,則實驗成功。
其他指標
在沒有定義閾值的情況下計算額外的指標,例如FRiP(fraction of reads in peaks),在比較類似實驗時很有用。
以上為ENCODE數據庫中組蛋白ChIP-seq和轉錄因子ChIP-seq數據標準及處理流程是簡要說明。
參考來源:https://www.encodeproject.org/data-standards/
手把手教你做染色質免疫共沉淀測序(ChIP-seq)分析實驗
項目文章 | ChIP-seq揭示HIV-1感染細胞轉錄抑制因子Schlafen 5的表觀遺傳調控機制
項目文章|ChIP-seq揭示H3K27me3去甲基化酶在體細胞重編程調控轉錄機制
一文看懂:ChIP實驗和qPCR定量分析怎么做
ENCODE組蛋白ChIP-seq和轉錄因子ChIP-seq數據標準及處理流程https://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s%3F__biz%3DMzAwNTY3NDIxMw%3D%3D%26mid%3D2650651226%26idx%3D1%26sn%3D82d0baa66a6f2d2b67c7c6dcac64dae9%26chksm%3D83101fd0b46796c6bbb4d19cee2e0f5f72532880f6d082ba006fd90b37940d7856979fd73304%26token%3D378077105%26lang%3Dzh_CN%2522%2520%255Cl%2520%2522rd
http://www.egenetech.com
總結
以上是生活随笔為你收集整理的易基因|ENCODE组蛋白ChIP-seq和转录因子ChIP-seq数据标准及处理流程的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于三星手机的刷机
- 下一篇: 生成工资条 恢复工资表 宏 巨集 vba