datagrid出现相同两组数据_多数据库联用挖掘肝细胞癌症的血管侵犯特征基因
作者:Lancelot
排版,審核:愷忻
今天通過這篇發表在BIOMED PHARMACOTHER的文章來簡單介紹一下癌癥特征基因的篩選以及預后模型構建的思路。
Introduction
血管侵犯在腫瘤的生長、遷移過程中起著重要的作用,在致死率極高的腫瘤肝細胞癌(HCC)中,血管侵犯也發揮著重要的作用。為了尋找與HCC血管侵犯過程相關的特征基因,作者對TCGA數據庫的數據進行了挖掘,最終找到了兩個關鍵基因: TKT and OLFM2。這篇文章思路比較清晰、使用的生物信息學手段也不復雜,但涉及到表達譜數據、構建機器學習模型等一些生信的基礎操作,極其適合一些對類似套路生信文章了解不多的讀者。
WorkFlow
本文作者將HCC患者劃分為有血管浸潤和無血管浸潤兩組,對兩組患者的基因表達及基因拷貝數進行了差異分析,將得到的差異基因作為分類特征輸入到SVM分類器以及Cox回歸模型中,分別構建了識別HCC患者有無血管浸潤的分類模型以及患者的預后模型。在構建SVM分類器的過程中,作者使用了Recursivefeature elimination ?(RFE、遞歸式特征消除)算法對在分類過程中其關鍵作用的基因進行了篩選,并將這些基因與在預后模型中起關鍵作用的基因取交集,得到了與HCC血管浸潤相關的特征基因。
Data Collection
作者獲得了來自TCGA、GEO(GSE9828,GSE20017)、EBI(E-TABM-36)數據庫的4組RNA表達譜數據,其中來自TCGA數據庫的292個樣本作為訓練集,來自GEO數據庫的兩組樣本作為驗證集,來自EBI數據庫的樣本作為測試集。(下圖為測試集的樣本信息)值得注意的是,這里作者還獲得了這些樣本的基因拷貝數信息,這些數據的作用,我們會在DataProcess部分講到。
DataProcess
數據標準化:
數據標準化的目的在于消除變量間的量綱關系,同時減小芯片制備和采樣時的系統誤差和隨機誤差,從而使來自不同平臺的數據具有可比性。這里作者使用了preprocessCore、limma、oligo等bioconductor等R包。這些工具的使用,我們之后會有詳細的教程。
差異基因的提取和差異拷貝數的提取:作者將閾值設置為FDR? 0.5使用limma(R)來提取具有表達差異的基因和具有拷貝數差異的基因。將兩組差異基因取交集,得到了在RNA水平上和DNA水平上都具有差異的143個基因。
將得到的143個基因進行KEGG通路分析,得到了14條與血管侵犯有關的信?號通路,其中包括“path in cancer”,“ Wnt信號傳導途徑”和各種代謝信號傳導途徑。進行KEGG等通路分析的方法,可以參考我們的往期文章:GO和KEGG通路分析教程。
Model Construction
1.SVM分類器的構建:
這里作者使用了RFE算法對特征進行了選擇。這里對RFE進行一下簡單的介紹,REF可以根據機器返回的特征重要性進行選擇,按照重要性順序針對不通的樣本數進行交叉驗證,最終得到最優化的特征,達到減小運算量的目的。發現將其中59個差異基因作為分類特征時交叉驗證的準確率最高,所以將這59個基因作為特征用于訓練分類器,并在GEO數據庫的兩個驗證集對數據進行了驗證,并繪制了ROC曲線。我們可以看到AUC值在0.95以上,說明了模型的穩定性。
2.預后模型的構建:
首先對143個特征基因進行單變量Cox回歸分析,以p值<0.05為截止標準,通過對數秩檢驗篩選與預后顯著相關的基因,總共得到了20個顯著相關的基因。將篩選出的20個基因和應用于Cox-比例風險模型,發現6個與預后最相關的基因,分別是ANO1、EPHX2、GFRA1、OLFM2、SERPINA10、TKT,并得到了預后風險的預測公式:
PS?=(-1.0714)×ExpANO1?+(-0.2671)×ExpEPHX2??(-1.9019)×?ExpGFRA1?+?(-1.2053)?×?ExpOLFM2?+?(0.3837)×ExpSERPINA10?+(0.327)×ExpTKT3.作者將公式用于訓練集和測試集,將樣本按預后風險得分的中位值劃分為高風險組和低風險兩組,在訓練集和EBI測試集進行了K-M生存分析,發現低風險組的生存明顯優于高風險組,進一步驗證可模型的準確性。
4.接著作者分析了高風險組和低風險組之間的基因表達差異,得到了1039個差異基因,包括239個下調的基因和800個上調基因,并繪制了熱圖,發現這些基因可以區分高低風險兩組,而且對差異基因進行了GSEA富集分析,得到了8條富集的通路,基本上都是一些與代謝有關的通路。
5.在預后模型的6個最優的基因中,TKT和OLFM2也出現在了SVM模型的分類特征中,也就是說這兩個基因可能是HCC血管侵犯的關鍵基因。
In Vitro?
為了進一步確定模型結果的可信度,作者用體外實驗進行了驗證。
首先他們測定了TKT、OLFM2在高轉移潛力的HCC細胞系(MHCC-97H、SK-HEP-1)、低轉移潛力的HCC細胞系(Huh7)和永生化的肝細胞中(LO2)的表達量,發現在MHCC-97H細胞系中,TKT表達較高,而OLFM2表達較低,這也與預后模型的結果一致。接下來,在MHCC-97H細胞系中敲除TKT,進行跨膜實驗發現腫瘤的遷移能力和浸潤明顯下降;在SK-HEP-1細胞系中轉染含有OLFM2的質粒,得到了相同的結果。同時在這兩個細胞系中還檢測到了E-鈣調蛋白(抑制腫瘤遷移)表達的提高和波形蛋白(腫瘤遷移的標志物)表達的下降,說明抑制TKT的表達和提高OLFM2的表達可以抑制HCC的轉移。
Summary
?這項工作建立了分類器和預后的“雙模型”。對HCC的血管侵犯的生物標志物進行了分析和實驗驗證,但文章使用的方法不局限于該種癌癥,對于其他腫瘤也有應用價值。另外換一種思路,比如不去關心血管侵犯,而是關心其他腫瘤關鍵過程。比如染色體不穩定性,無氧呼吸,腫瘤干細胞,免疫浸潤等等。每一個過程都值得用類似的方法進行嘗試,又或者可以把不同的過程相結合,可能也會有新的發現。
Refernence
Zhang R, Ye J, Huang H, Du X. Mining featured biomarkers associated with vascular invasion in HCC by bioinformatics analysis with TCGA RNA sequencing data. Biomed Pharmacother. 2019 Oct;118:109274. doi: 10.1016/j.biopha.2019.109274. Epub 2019 Aug 28. PMID: 31545220.
我們建立了一個讀者群,將在里面分享一些生信編程小知識,生物信息化學信息文獻,歡迎加入:
總結
以上是生活随笔為你收集整理的datagrid出现相同两组数据_多数据库联用挖掘肝细胞癌症的血管侵犯特征基因的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ie 访问 java接口_Java基础面
- 下一篇: bms中soh计算方式_BMS电池管理系