文献学习笔记丨转录组表达数据的生信挖掘研究
基因的表達是一個非常重要的過程,轉錄組測序是檢測基因表達的技術,本篇文獻對轉錄組分析流程和數據分析方法進行介紹。
引言
- 基因表達特征:時空特異性
- 轉錄層面研究基因表達的技術:PCR、基因芯片、轉錄組測序(RNA-seq)、Nanostring等
- 高通量技術:檢測樣品中的大量基因表達情況,目前的熱門研究領域。
- 關鍵詞:轉錄組、生信、數據發掘
大規模轉錄組數據
常規轉錄組測序
轉錄組是一個細胞或者樣本中全部的基因表達轉錄本信息,研究轉錄組是解析基因組中功能元件和生命活動的發生及調控機制的必要基礎。
- 普通轉錄組
多細胞啊混池的mRNA測序,便宜應用廣泛。通常用于分析基因表達、表達差異、可變剪切體、融合基因、檢測SNP、RNA編輯變化。
- 小RNA測序
小RNA是指序列比較短的非編 碼RNA(noncoding RNA)。用于研究miRNA和piRNA,前者被證明對蛋白質的表達調控有影響。
- 全轉錄組
研究發現一些非編碼RNA有調控功能,因此對細胞內除rRNA外其他所有RNA測序的技術逐漸發展,包括mRNA、IncRNA、環形RNA(cir-cular RNA, circRNA)和小RNA進行測序的技術。
- 全長轉錄組
三代測序技術能夠檢測完整的全場RNA序列,如Pacbio等技術,可用于新轉錄本發現。
數據庫
- NCBI GEO和SRA. GEO
簡介:儲存表達芯片和轉錄組測序數據(RNA和DNA)
用途:分析多組樣本間差異表達基因。
- EBI ArrayExpress
歐洲生物信息研究所(The European Bioinformatics Institute, EBI)用于存儲高通量功能基因組實驗數據的數據庫,主要包括基因表達芯片和轉錄組測序數據,該數據庫也提供工具方便用戶上傳和下載數據,以及分析芯片數據。
- GSA
國家基因組科學數據中心(NGDC),其主要數據庫為GSA(Genome Sequence Archive),用于存儲各種高通量測序數據的原始數據,包括DNA-seq和RNA-seq數據.
轉錄組常規分析
分析流程
- 計算差異表達量
- 差異表達分析(NOIseqW和DEseq)
- 差異表達基因的功能富集分析(Fishier、DAVID(https://david.ncifcrf.gov)、Metascape(http://metas-cape.org/gp/index.html)和PANTHER(http://pantherdb.org/) ,以及clusteprofiler這款R軟件包)
根據不同轉錄組測序的方法,可以分析RNA可變剪切、全長轉錄本和IncRNA,circRNA,miRNA等非編碼RNA,及其競爭性內源RNA(ceRNA)調控關系.
1.Tophat2或STAR比對+Cufflinks系列軟件
2.HISAT, StringTie和Ballgown流程
3.免比對(alignment fiee)流程Salmon, Sailfish和Kallis
基因特異表達分析
不同的組織和樣本中有特異的表達譜,可以用于檢測標志物。 工具軟件:SEGtool
基因表達的調控分析
基因表達受到DNA甲基化、組蛋白修飾、增強子、染色質開放性和轉錄因子 (TF)的調控,PlantTFDB是重要的植物轉錄因子庫。
miRNA轉錄后調控基因表達也非常普遍,轉錄因子和miRNA分別在轉錄和轉錄后進行調控,形成前饋環實現精細調節。
差異共調控分析
差異共調控網絡能比較突變和正常之間的調控差異,目前常用的方法和工具是WGCNA,DCGL, DifTCorr和DysRegSig。
- WGCNA
加權基因共表達網絡分析,目的是尋找共表達基因模塊、基因和表型之間的關系、尋找核心基因。
- DCGL和DiffCorr
芯片表達數據檢測差異共表達的R包
- DysRegSig
機器學習方法分析基因失調的框架,從高緯度中發掘信息。
時間序列基因表達分析
基因表達是動態過程,對不同時間點的樣品進行轉錄組測序,然后進行轉錄組分析,研究表達趨勢和規律。
常用軟件:STEM、TRAP
細胞組分和豐度分析
普通轉錄組是混池樣本,包含多種細胞類型,不同細胞有不同的功能和基因表達規律,因此,分析組分和豐度至關重要。
常用軟件或方法:xCell, CIBERSORTx, Immu-CellAI, TIMER和seq-ImmuCC
轉錄組新技術
單細胞測序
檢測單個細胞中的基因表達,以獲得不同細胞的基因表達特征的測序方法。單細胞轉錄組測序能準確分析每個細胞的基因表達、區分不同細胞群體、發現新的細胞類型等。
常見的單細胞測序方式有Smart- Seq2, 10x Genomics和microwell-seq
單細胞轉錄組數據分析:
質控、測序片段比對、條形碼矩陣生成、數據歸一化、降維和聚類、可視化、差異表達、細胞類型鑒定和細胞軌跡推斷。
常見方法有Seurat, Scanpy和Cell Ranger
空間轉錄組
具有不同組織器官的多細胞生物是立體的復雜生命體,其基因表達具有時間特異性和空間特異性。
空間轉錄組中最難的點是不同空間樣本的獲取和重定位,一般是結合組織冷凍切片、顯微解剖、熒光原位雜交和不同探針條形碼等技術來獲取和定位樣本。
Spa-tialCPie是一個分析空間轉錄組聚類的R軟件包。
SPARK是一個新的統計方法,用于從不同空間轉錄組數據中發現基因的空間表達模式。
ST Viewer是一個交互式分析和可視化空間轉錄組數據的工具。
總結
基因表達研究基礎而重要,轉錄組測序作為最常見的高通量表達技術,其數據分析和挖掘也逐漸成熟、深入和延展。分析的方法比較多,目前還在不斷完善,還需通過學習進行深入討論。
文獻:基因轉錄表達數據的生物信息挖掘研究-郭安源-華中科技大學生命科學與技術學院,人工智能生物學中心
本文由 mdnice 多平臺發布
總結
以上是生活随笔為你收集整理的文献学习笔记丨转录组表达数据的生信挖掘研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PreferenceScreen 悬浮清
- 下一篇: 基于JavaWeb的网上书店系统