Cell | 大规模多组织转录组学研究揭示长非编码RNA与人类复杂疾病的联系
長非編碼RNA(long noncoding RNA, lncRNA)是一類普遍存在的異質(zhì)RNA。與蛋白質(zhì)編碼基因不同,lncRNA的表達較低,組織特異性強,個體間的表達差異較大,因此,其表觀遺傳標記、剪接和轉(zhuǎn)錄結(jié)構(gòu)各不相同。許多l(xiāng)ncRNA基因在基因調(diào)控中起著重要作用,是一類廣泛參與人類疾病發(fā)生機制的調(diào)控元件。但目前只有少數(shù)lncRNA基因與人類疾病的關(guān)系已知,例如癌癥中的HOTAIR、阿爾茨海默病的BACE1-AS、前列腺癌中的PRNCR1和PCGEM1。而在成千上萬的lncRNA基因中識別具有重要功能的lncRNA仍然是一個重大挑戰(zhàn)。
文章發(fā)表于Cell
近日,斯坦福大學Stephen B. Montgomery研究團隊在Cell上發(fā)表題為“Population-scale tissue transcriptomics maps long non-coding RNAs to complex disease”的研究文章。在該研究中,研究團隊利用基因型組織表達項目(The Genotype Tissue Expression (GTEx) Project)的v8數(shù)據(jù)和多組織轉(zhuǎn)錄組學數(shù)據(jù),對來自49個不同組織中14100個lncRNA基因的表達、遺傳調(diào)控、細胞環(huán)境和性狀關(guān)聯(lián)進行了分析,確定了1432個lncRNA基因特有的性狀和疾病關(guān)聯(lián),其中800個不能通過鄰近蛋白質(zhì)編碼基因的強效應(yīng)來解釋,揭示了lncRNA與人類疾病發(fā)生之間的聯(lián)系。
圖1.研究概要。來源:Cell
首先,該研究通過比較不同組織轉(zhuǎn)錄組中l(wèi)ncRNA基因的表達情況,探究了lncRNA基因的組織特異性。研究人員觀察到,在14100個lncRNA基因中約95%至少在一個組織中表達。進一步將lncRNA基因分為反義基因和基因間基因,發(fā)現(xiàn)其表達率分別為96.5%和94%。同時,GTEx數(shù)據(jù)分析結(jié)果也顯示出lncRNA基因表達的組織特異性,特別是基因間lncRNA基因。此外,研究團隊開發(fā)了一種基于微陣列的檢測新方法,以檢測到更多組織特異性lncRNA基因。在上述14100個基因中,最終檢測到316個組織特異性lncRNA基因(圖2A),且組織特異性lncRNA基因在睪丸、大腦、血液和皮膚組織中表達最頻繁。
為探究基因變異對lncRNA表達的影響,研究人員通過表達數(shù)量性狀定位(expression quantitative trait locus,eQTL)分析了基因突變與lncRNA基因表達量之間的相關(guān)性。研究發(fā)現(xiàn),在14100個lncRNA基因中,有67.3%是eGenes,意味著它們至少與一種遺傳變異顯著相關(guān)。在每個組織中,約50%的lncRNA基因檢測為eGenes,約80%表達蛋白質(zhì)編碼基因(圖2B)。除了觀察到含有eQTLs的lncRNA基因豐度較低之外,還發(fā)現(xiàn)與蛋白質(zhì)編碼基因相比,lncRNA基因與其相關(guān)基因轉(zhuǎn)錄起始位點(TSS)之間的距離較短(圖2C),表明lncRNA基因比蛋白質(zhì)編碼基因具有更簡單的調(diào)控機制。此外,lncRNA eQTLs比編碼蛋白質(zhì)的eQTLs具有更高的效應(yīng)大小(圖2D),表明lncRNA表達的調(diào)控靶點較少,調(diào)控方式更簡單。
在發(fā)現(xiàn)的lncRNA基因中,觀察到2783例有組織特異性,比蛋白質(zhì)編碼基因更為常見(圖2F),睪丸、皮膚、血液、甲狀腺和大腦的數(shù)量最多。此外,15%的組織特異性基因在所有組織類別中都有表達(圖2G),表明lncRNA基因調(diào)控效應(yīng)具有組織特異性。
圖2. GTEx組織中基因表達的特異性和eQTLs。來源:Cell
研究團隊發(fā)現(xiàn),相對于所有的lncRNA基因,無組織特異性的eGenes在線粒體和胞質(zhì)核糖體的細胞間中富集,組織特異性eGenes主要在精細胞中富集,這與許多睪丸組織特異性eGenes一致。在鑒定其他與細胞類型相關(guān)的lncRNA基因過程中,研究人員發(fā)現(xiàn),與蛋白質(zhì)編碼基因相比,lncRNA基因的連接程度不高(圖3D)。高度連接的lncRNA基因常分配給早期精子細胞、肌肉細胞、上皮和組織駐留B細胞(圖3E)。
圖3.共表達網(wǎng)絡(luò)注釋lncRNA基因的細胞環(huán)境。來源:Cell
人類基因組中存在數(shù)千種罕見變異,這些罕見的遺傳變異會帶來疾病風險。研究人員試圖通過離群點富集方法(outlier enrichment approach)來尋找lncRNA基因表達與罕見遺傳變異之間的關(guān)系。該研究重點分析了1119個離群點,在所有組織中這些離群點都檢測到基因間lncRNA基因(圖4A)。
基因間lncRNA基因離群點因附近遺傳變異的存在而富集,特別是對于罕見遺傳變異和罕見結(jié)構(gòu)變異(SVs)。研究團隊通過對罕見變異所在位點的離群值與非離群值(RR)進行評估,發(fā)現(xiàn)SNVs的RRs為1.14,小的插入或缺失(indels)的RRs為1.31,結(jié)構(gòu)變異的RRs為16.52,在較高的Z值閾值下富集度增加(圖4B),蛋白質(zhì)編碼基因結(jié)果與之相反。總的來說,受測個體中55%的基因間lncRNA異常事件與附近的罕見變異有關(guān)。
缺失、拷貝數(shù)變異(CNVs)和重復(fù)都在離群基因附近的離群個體中特別富集(圖4C)。研究人員利用UK Biobank全基因組關(guān)聯(lián)數(shù)據(jù)(GWAS),分析這些變異體是否受復(fù)雜性狀的影響而富集。結(jié)果顯示,與非異常罕見變異體相比,相關(guān)異常罕見變異對體重指數(shù)的影響更大(圖4D),表明與基因間lncRNA基因表達相關(guān)的罕見變異會影響常見的復(fù)雜性狀。
圖4.罕見遺傳變異影響基因間lncRNA基因表達和復(fù)雜性狀。來源:Cell
為進一步揭示lncRNA基因與疾病的相關(guān)性,研究人結(jié)合了多種共定位分析方法:SMR+HEIDI、FINEMAP+eCAVIAR和coloc,系統(tǒng)地評估了lncRNA基因在復(fù)雜性狀和疾病中的作用。結(jié)果顯示,QTL和GWAS信號的共定位產(chǎn)生了1432個與性狀相關(guān)的lncRNA基因。狼瘡、多發(fā)性硬化癥和血細胞計數(shù)等性具有高比例的lncRNA eQTL共定位事件狀。對于其他性狀,如肌萎縮側(cè)索硬化癥、帕金森病等,均未觀察到lncRNA共定位事件。
此外,研究團隊還發(fā)現(xiàn)lncRNA基因LINC01475和RP11-129J12.1共定位的組織(腸組織、脾臟和小唾液腺)與潰瘍性結(jié)腸炎相關(guān),并在炎癥性腸病和克羅恩氏病的GWAS數(shù)據(jù)中也發(fā)現(xiàn)這兩種lncRNA的共定位模式,表明這兩種lncRNA的調(diào)控途徑參與了潰瘍性結(jié)腸炎和克羅恩氏病的發(fā)展。
綜上所述,該研究利用GTEx的v8數(shù)據(jù),結(jié)合多種方法,包括eQTL分析、基因表達異常分析、WGCNA和GWAS共定位分析,探究了lncRNA的表達模式和功能,確定了1432個lncRNA基因-性狀關(guān)聯(lián),補充了lncRNA基因表達的證據(jù)。此外,通過系統(tǒng)地評估lncRNA基因的調(diào)控模式,揭示了其在特定細胞環(huán)境中與各種復(fù)雜性狀和疾病之間的關(guān)聯(lián),有助于增強我們對lncRNA基因?qū)θ祟惣膊∽饔玫牧私狻?/p>
參考文獻:
Goede, O. M. D. , Nachun, D. C. , Ferraro, N. M. , Gloudemans, M. J. , Rao, A. S. , & Smail, C. , et al. (2021). Population-scale tissue transcriptomics maps long non-coding rnas to complex disease.?Cell, S0092-8674(21)00381-0.
往期精品(點擊圖片直達文字對應(yīng)教程)
機器學習
后臺回復(fù)“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的Cell | 大规模多组织转录组学研究揭示长非编码RNA与人类复杂疾病的联系的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: “你都硕士博士了,竟然还不如我!”
- 下一篇: 你的数据可也可以发三篇NAR的文章