DNA 4. SCI 文章中基因组的突变信号(maftools)
點擊關注,桓峰基因
桓峰基因
生物信息分析,SCI文章撰寫及生物信息基礎知識學習:R語言學習,perl基礎編程,linux系統命令,Python遇見更好的你
87篇原創內容
公眾號
突變信號(Mutational Signatures)首次2013年在《nature》進行報道。并做了相關的定義:細胞在成長過程中,基因組不斷受到內源性和外源性DNA損傷的威脅,正是由于這些威脅,使得細胞基因組不斷發生變化,并最終發生一些突變的積累。每一個突變過程都會留下一個不同的基因組標記,也就稱為突變信號。
有需要上述分析內容的老師可以加我微信:
前 言
研究人員對TCGA數據的深度挖掘,從而提出的一個統計學概念。文章研究了30種癌癥,發現21種不同的mutation signature。如果理解了,就會發現這個其實蠻簡單的,他們并不重新測序,只是拿已經有了的TCGA數據進行分析,而且居然是發表在nature上面!
研究了4,938,362 mutations from 7,042 cancers樣本,突變頻譜的概念只是針對于somatic 的mutation。一般是對癌癥病人的腫瘤組織和癌旁組織配對測序,過濾得到的somatic mutation,一般一個樣本也就幾百個somatic 的mutation。
基本概念
Signature 概念
突變信號(Mutational Signatures)是細胞在成長過程中,基因組不斷受到內源性和外源性DNA損傷的威脅,正是由于這些威脅,使得細胞基因組不斷發生變化,并最終發生一些突變的積累。每一個突變過程都會留下一個不同的基因組標記,也就稱為突變信號。今天突變信號分析已成為基因組研究的標準組成部分,因為它們可以揭示每個腫瘤中突變的環境和內源性來源。事實上,這一新生領域正變得越來越突出,并朝著臨床意義上的應用方向發展。雖然這些都是積極的趨勢,但這一領域的大幅擴大是否存在局限性?隨著越來越多的不同突變類別的信號被報道,它們與各種因素之間的相關性正在被解釋。然而,許多信號的起源仍然是神秘的。
APOBEC 富集
我們先來介紹一下APOBEC(apolipoprotein B mRNA editing enzyme catalytic polypeptide like)富集的意義。APOBEC家族(載脂蛋白BmRNA 編輯酶催化多肽家族)是一種具有抗病毒活性的蛋白分子。先前的研究認為APOBEC家族的亞型APOBEC3G具有抗艾滋病病毒的能力。
家族成員:
老大:APOBEC1
老二: APOBEC2
老三:APOBEC3A-G
老四:AID(活化誘導脫氨酶)
APOBEC1 、AID以串聯重復形式排列于第12號染色體; APOBEC2位于第6號染色體; APOBEC3A-G以串聯重復形式排列于第22號染色體。APOBEC1:最早發現的 APOBEC 家族成員。參與載脂蛋白 B mRNA 的編輯,是 RNA編輯典型范例之一。RNA 編輯:轉錄后mRNA發生特異性位點的核苷酸改變,結果產生無義突變或錯義突變而導致mRNA編碼容量的變化。
主要表達于腸道和某些哺乳動物的肝臟內,能導致apoB(載脂蛋白B)mRNA特異性位點單個核苷酸C (C6666)轉變為U,使得編碼谷氨酰胺的密碼子CAA轉變為終止密碼子UAA ,導致翻譯提前終止,生成 apoB100蛋白的截短形式apoB48 。在大腸桿菌的胞苷脫氨酶中發現APOBEC1有保守的活性位點功能域。此外,它有一個獨特的功能域含有兩個苯丙氨酸殘基和插入的4個氨基酸殘基跨越活性位點功能域。該功能域在APOBEC家族包括激活誘導的胞苷脫氨酶(AID ) ,APOBEC2,APOBEC3A和APOBEC3G在內的成員中均存在。APOBEC3 : 主要表達于淋巴細胞和骨髓細胞譜系。APOBEC3G 基因位于人的第22號染色體長臂22q13.1-q13.2,含有8個外顯子和 7個內含子,編碼384 個氨基酸,其中第128 - 194位和第320-380位氨基酸殘基為兩個重要的活性功能區:鋅離子結合功能區和水解酶功能區 除APOBEC3G外,APOBEC3 家族其它成員APOBEC3B 、 APOBEC3F等均有很強的抗逆轉錄病毒活性 AID(活化誘導脫氨酶) 它在啟動抗體類型轉換重組,體細胞高突變和基因轉化中至關重要。通過將免疫球蛋白位點上的胞喀啶脫氨基化來啟動這些過程,具有潛在的基因突變活性 在大腸桿菌中表達AID,發現細菌對抗抗生素的能力上升了,就是說基因突變率增加了,突變的傾向也是C-T和G-A,這說明AID確實具有對脫氧胞苷的脫氨能力。AID/APOBEC蛋白家族的許多成員都能夠將單鏈多核苷酸上的胞喀啶脫氨基化為尿嚰啶,從而實現各種各樣的生理功能。該家族的酶的過度表達會導致癌癥,提示編碼APOBEC家族的蛋白的基因是原癌基因,與細胞增殖密切相關。它們能夠在DNA或RNA水平上改變病毒的遺傳信息,這一稱為編輯(editing)的修飾和加工過程,可以在多種病毒的基因組或其逆轉錄產物中引入高頻突變,進而誘導其降解、干擾其復制或者嚴重影響病毒蛋白的生物學功能。研究發現人體細胞內的特定酵素可增強蛋白質APOBEC抑制HIV病毒繁殖的能力。APOBEC通過使HIV的遺傳基因的變異來阻礙其繁殖。通常情況下HIVC會在分泌病毒感染因子蛋白(Vif ),分解APOBEC,所以APOBEC不能發揮足夠的防御力。將酵素注射進感染了HIV病毒的細胞中,可抑制Vif分解APOBE,促進 APOBEC發揮抑制HIV增殖的作用。APOBEC3G會在HIV進行反轉錄成cDNA的階段時,造成其cDNA上堿基的突變(胞嚰啶(cytidine)轉變成尿嚰啶(uraci1 )),使得HIV的感染力下降。APOBEC3G及其家族成員在除HIV 、 HBV外的其它病毒的影響: APOBEC1家族成員之一的hA1 ( ratAPOBEC1,)對DNA 、RNA均有編輯作用,提示該因子對包括RNA病毒在內的其它病毒也有潛在的抑制作用;除胞喀啶脫氨酶作用外, APOBEC3G在免疫系統中是否具有其它作用機制;APOBEC3G 家族在人類腫瘤性疾病中的作用; APOBEC3G與機體其它細胞因子相互作用等問題是目前研究的熱點。對上述機制的研究對于闡明體內固有的對病毒的限制因素至關重要并可在將來進一步對病毒進行藥物干預研究產生重要影響。
分析步驟
estimatsignatures——它在一系列值上運行NMF,并度量擬合度——就Cophenetic相關性而言;
plotCophenetic 繪制一個elblow plot,并幫助您決定Signatures的最佳數量。最好的可能標志是Cophenetic相關性顯著下降的值;
extractSignatures—使用非負矩陣分解將矩陣分解為n個簽名。根據以上兩步選擇N。如果你已經對n有一個很好的估計,你可以跳過以上兩步;
compareSignatures -從以上步驟提取的Signatures可以與COSMIC數據庫中的已知簽名11進行比較,并計算余弦相似度以確定最佳匹配;
plotSignatures—繪制Signatures。
實例講解
1. 軟件安裝
在安裝這個軟件maftools時,需要先安裝BioManager,然后在安裝maftools,BSgenome.Hsapiens.UCSC.hg19,NMF,barplot3d,如下:
if (!require("BiocManager")) install.packages("BiocManager")if (!require("maftools")) BiocManager::install("maftools")if (!require("BSgenome.Hsapiens.UCSC.hg19")) BiocManager::install("BSgenome.Hsapiens.UCSC.hg19")if (!require("NMF")) BiocManager::install("NMF")if (!require("barplot3d")) BiocManager::install("barplot3d")if (!require("pheatmap")) install.packages("pheatmap")library("maftools") library("BSgenome.Hsapiens.UCSC.hg19", quietly = TRUE) library("NMF") library("pheatmap") library("barplot3d")2. 數據讀取
maftools工具需要讀入兩個文件,如下:
1.MAF文件-可以是gz壓縮。必需的;
2.與MAF中每個樣本/腫瘤樣本條碼相關的可選但推薦的臨床數據;
3.一個可選的拷貝數數據:可以是GISTIC輸出或自定義表。
# path to TCGA LAML MAF file laml.maf = system.file("extdata", "tcga_laml.maf.gz", package = "maftools") # clinical information containing survival information and histology. This is # optional laml.clin = system.file("extdata", "tcga_laml_annot.tsv", package = "maftools")laml = read.maf(maf = laml.maf, clinicalData = laml.clin) ## -Reading ## -Validating ## -Silent variants: 475 ## -Summarizing ## -Processing clinical data ## -Finished in 5.440s elapsed (1.550s cpu) laml ## An object of class MAF ## ID summary Mean Median ## 1: NCBI_Build 37 NA NA ## 2: Center genome.wustl.edu NA NA ## 3: Samples 193 NA NA ## 4: nGenes 1241 NA NA ## 5: Frame_Shift_Del 52 0.269 0 ## 6: Frame_Shift_Ins 91 0.472 0 ## 7: In_Frame_Del 10 0.052 0 ## 8: In_Frame_Ins 42 0.218 0 ## 9: Missense_Mutation 1342 6.953 7 ## 10: Nonsense_Mutation 103 0.534 0 ## 11: Splice_Site 92 0.477 0 ## 12: total 1732 8.974 93. 實例操作
第一步:Signature分析的第一步是獲取突變基周圍的相鄰基,形成突變矩陣。注意:maftools的早期版本需要一個fasta文件作為輸入。但是從1.8.0開始,BSgenome對象被用于更快的序列提取。包括兩部:
Estimates APOBEC enrichment scores;
Prepares a mutational matrix for signature analysis.
APOBEC 富集分析
APOBEC誘導的突變在實體腫瘤中更為常見,主要與TCW motif中發生的C>T轉換事件有關。使用Roberts等人所描述的方法計算上述命令中的APOBEC富集分數。簡單地說,在一個給定的樣本中,將TCW motif中發生的C>T突變與所有C>T突變的富集情況的比例與背景胞密啶和發生在突變堿基20bp內的TCWs進行比較。
我們還可以分析APOBEC富集和非APOBEC富集的樣品在突變模式上的差異。plotApobecDiff 函數采用trinucleotideMatrix計算APOBEC富集分數,將樣本分為APOBEC富集和非APOBEC富集。分組后,比較這兩組,以確定改變的基因的差異。
plotApobecDiff(tnm = laml.tnm, maf = laml, pVal = 0.5) ## -Processing clinical data ## -Processing clinical data ## $results ## Hugo_Symbol Enriched nonEnriched pval or ci.up ## 1: TP53 2 13 0.08175632 5.9976455 46.608861 ## 2: TET2 1 16 0.45739351 1.9407002 18.983979 ## 3: FLT3 2 45 0.65523131 1.4081851 10.211621 ## 4: DNMT3A 1 47 1.00000000 0.5335362 4.949499 ## 5: ADAM11 0 2 1.00000000 0.0000000 164.191472 ## --- ## 132: WAC 0 2 1.00000000 0.0000000 164.191472 ## 133: WT1 0 12 1.00000000 0.0000000 12.690862 ## 134: ZBTB33 0 2 1.00000000 0.0000000 164.191472 ## 135: ZC3H18 0 2 1.00000000 0.0000000 164.191472 ## 136: ZNF687 0 2 1.00000000 0.0000000 164.191472 ## ci.low adjPval ## 1: 0.49875432 1 ## 2: 0.03882963 1 ## 3: 0.12341748 1 ## 4: 0.01101929 1 ## 5: 0.00000000 1 ## --- ## 132: 0.00000000 1 ## 133: 0.00000000 1 ## 134: 0.00000000 1 ## 135: 0.00000000 1 ## 136: 0.00000000 1 ## ## $SampleSummary ## Cohort SampleSize Mean Median ## 1: Enriched 6 7.167 6.5 ## 2: nonEnriched 172 9.715 9.0APOBEC 富集分析
NMF 算法
非負矩陣分解(NMF)是一種無監督學習算法,其目的在于提取有用的特征。它的工作原理類似于PCA,也可以用于降維。與PCA相同,我們試圖將每個數據點寫成一些分量的加權求和。但在PCA中,我們想要的是正負分量,并且能夠解釋盡可能多的數據方差;而在NMF中,我們希望分量和系數均為負,也就是說,我們希望分量和系數都大于或等于0。因此,NMF只能應用于每個特征都是非負的數據,因為非負分量的非負求和不可能變為負值。
將數據分解成非負加權求和的這個過程,對由多個獨立源相加(或疊加)創建而成的數據特別有用,比如多人說話的音軌或包含很多樂器的音樂。在這種情況下,NMF可以識別出組合成數據的原始分量。總的來說,與PCA相比,NMF得到的分量更容易解釋,因為負的分量和系數可能會導致難以解釋的抵消效應。
從圖上可以看到,在3的時候是最優的選擇,如下:
library("NMF") laml.sign = estimateSignatures(mat = laml.tnm, nTry = 6, pConstant = 0.1) ## -Running NMF for 6 ranks ## Compute NMF rank= 2 ... + measures ... OK ## Compute NMF rank= 3 ... + measures ... OK ## Compute NMF rank= 4 ... + measures ... OK ## Compute NMF rank= 5 ... + measures ... OK ## Compute NMF rank= 6 ... + measures ... OK ## -Finished in 39.1s elapsed (10.8s cpu) plotCophenetic(res = laml.sign)提取n=3的最優數據,然后與COSMIC數據庫進行比較,如下:
laml.sig = extractSignatures(mat = laml.tnm, n = 3, pConstant = 0.1) laml.og30.cosm = compareSignatures(nmfRes = laml.sig, sig_db = "legacy") # Compate against updated version3 60 signatures laml.v3.cosm = compareSignatures(nmfRes = laml.sig, sig_db = "SBS")4. 結果展示
1. 繪制熱圖
熱圖顯示了檢測 Signatures 與驗證 Signatures 的相似性比較,如下:
library("pheatmap") pheatmap(mat = laml.og30.cosm$cosine_similarities, cluster_rows = FALSE, main = "cosine similarity against validated signatures")2.繪制 Signatures
plotSignatures(nmfRes = laml.sig, title_size = 1.2, sig_db = "SBS")3. 繪制3D效果圖
library("barplot3d") # Visualize first signature sig1 = laml.sig$signatures[, 1] barplot3d::legoplot3d(contextdata = sig1, labels = FALSE, scalexy = 0.01, sixcolors = "sanger",alpha = 0.5)結果解讀
注意事項:
如果您在運行extractSignatures時收到一個錯誤,抱怨沒有加載任何包,請手動加載NMF庫并重新運行。
如果extractSignatures或estimatessignatures在中間停止,可能是因為矩陣中的突變計數很低。在這種情況下,重新運行將pConstant參數設置為小正值(例如0.1)的函數。
References:
Mayakonda A, Lin DC, Assenov Y, Plass C, Koeffler HP. 2018. Maftools: efficient and comprehensive analysis of somatic variants in cancer. Genome Resarch.
Revathidevi S, Murugan AK, Nakaoka H, Inoue I, Munirajan AK. APOBEC: A molecular driver in cervical cancer pathogenesis. Cancer Lett. 2021;496:104-116. doi:10.1016/j.canlet.2020.10.004
Alexandrov LB, Nik-Zainal S, Wedge DC, et al. Signatures of mutational processes in human cancer [published correction appears in Nature. 2013 Oct 10;502(7470):258. Imielinsk, Marcin [corrected to Imielinski, Marcin]]. Nature. 2013;500(7463):415-421. doi:10.1038/nature12477
總結
以上是生活随笔為你收集整理的DNA 4. SCI 文章中基因组的突变信号(maftools)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 淘宝返利攻略
- 下一篇: 嵌入式系统与通用计算机操作系统的区别