刷新认知!基因表达,男女有别|Science、Cell等发布15篇人类遗传调控新成果
生物信息學習的正確姿勢
NGS系列文章包括NGS基礎、在線繪圖、轉錄組分析?(Nature重磅綜述|關于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細胞測序分析?(重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程)、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step))、批次效應處理等內容。
大約20年前,耗資30億美元的人類基因組計劃繪制出了首個人類基因組草圖。隨著這項規模宏大、影響深遠的基因測序項目的落幕,許多研究者相信他們能夠迅速找到導致糖尿病或精神分裂癥等復雜疾病的基因。但是他們很快就陷入了僵局,部分原因在于當時的研究忽視了對控制基因在體內表達位置和方式的“開關系統”。例如,正是這種基因調控系統使心臟細胞有別于腦細胞,使腫瘤有別于健康組織。如今,通過將人類2萬個編碼蛋白質基因的活性水平與數百萬條調控DNA序列的變異相關聯,一項長達10年的大規模研究已經開始填補這一空白。
本周,“基因型-組織表達研究聯盟”(Genotype-Tissue Expression Consortium)結束了為期10年的多機構研究工作,于Science、Cell等期刊發布了斥資1.5億美元的“基因型-組織表達項目”(The Genotype-Tissue Expression (GTEx) Project)最后一期共計15項研究成果,介紹了跨細胞類型和組織的遺傳調控變異綜合圖譜,并分析了這些調控變化如何增加疾病風險和促進疾病特征的發展。據悉,本周發表的15篇最新論文基于GTEx V8版本數據集。研究人員對來自838名死亡捐贈者49個組織的15,201份樣本進行了RNA測序,并分析了每個捐贈者的全基因組測序數據。整個研究使用的一種關鍵方法為基因表達數量性狀位點(eQTL)分析,以鑒定影響基因表達的遺傳變異以及分析剪接變異數量性狀位點(sQTL);其中一篇論文還使用CRISPR分析了罕見病的調控變異。最終,共有五篇論文發表于Science,兩篇發表于Science Advances,一篇發表于Cell,五篇發表于Genome Biology,一篇發表于Genetic Epidemiology,最后一篇發表于Genome Medicine。
圖:GTEx v8研究樣本及數據類型
正如前文所言,科學家們多年以來就意識到,基因組并不僅僅只是編碼蛋白質的一系列遺傳密碼。它同時也是一塊巨大的“開關板”,充滿了可控制基因活性的DNA序列。事實上,基因組在調控方面的復雜性已極大地阻礙了研究者們對疾病遺傳學基礎的探索和靶向特定致病性DNA藥物的開發。但近年來,一些大型研究也已聚焦于基因調控開關的位置、調控開關所控制的特定基因以及調控開關在體內激活或抑制基因活性的具體部位。
為了深入了解基因在人體中的表達方式以及調控方式,美國國立衛生研究院共同基金(NIH Common Fund)于2010年啟動了“基因型-組織表達項目”(The Genotype-Tissue Expression (GTEx) Project),并在2013年提供了對GTEx數據資源訪問的GTEx門戶網站(http://www.gtexportal.org/home/)。當時,上百位科學家聯名在Nature Genetics期刊發表文章介紹了GTEx項目,并成立了“基因型-組織表達研究聯盟”(Genotype-Tissue Expression Consortium)。目前,GTEx項目已經建立了一個數據資源和組織庫,用于研究在多種人類組織和個體中遺傳變異與基因表達之間的關系,以及男性和女性之間基因表達的差異。對于此類研究,研究人員往往需要獲取大量人類器官的組織樣本,但由于GTEx項目所需組織樣本種類太多,因此研究人員將視線轉移到短期逝世的個體中——這些死者的親屬將遺體捐贈出來用于研究。截至目前,GTEx項目已經從約960名捐獻者中收集了多種人體組織(包括腦、心臟、肺、乳房、皮膚和全血等)和30,000多份樣本。這些組織和樣本由美國國家癌癥研究所的人類癌癥生物樣本信息資源庫代表GTEx項目進行存儲。
GTEx項目獲得了具體的基因調控情況,確定了當某基因附近200萬個堿基范圍內的DNA序列發生細微改變后會開啟或者關閉哪些基因的表達。此外,GTEx項目也從每位捐贈者體內獲取了多個組織的遺傳物質,評估這些遺傳物質之間的差異,從而詳細記錄基因調控序列在不同細胞類型中的影響范圍——有的調控序列能夠影響所有組織中某個基因的表達,而其他調控序列只會影響幾種或一種組織內的基因表達情況。2015年,GTEx項目發布了第一個階段性成果,在Science期刊上發表3項基因表達相關研究成果。隨著研究的深入,GTEx項目進一步于2017年10月在Nature期刊發表了二期共計4項研究成果。目前,GTEx項目資源正在幫助研究人員了解癌癥、心臟病、帕金森癥和糖尿病等常見疾病的遺傳易感性。
對于本次發布的最新研究成果,在Science的核心論文中,研究人員描述了其目標和方法,并強調了數據集中捐贈者祖先和性別的多樣性。在838名捐贈者中,有715名(85.3%)為歐洲裔美國人,103名(12.3%)為非裔美國人,12名(1.4%)為亞裔美國人,16名(1.9%)為西班牙裔或拉丁裔;其中男性557名(66.4%),女性281名(33.5%)。研究人員指出,這些跨組織不同類型數據之間共享的高度相似模式表明,從細胞類型組成到轉錄組變異和遺傳調控效應具有共享的生物學基礎。這些結果表明,組織間共享的細胞類型可能是組織共享遺傳調控作用的關鍵因素。在Science雜志發表的其他四篇論文中,研究人員還分別探討了性別對人體組織基因表達的影響、跨組織基因表達的細胞類型特異性遺傳調控、人類組織中端粒長度的決定因素,以及在人類組織中轉錄組特征中發現的功能性稀有遺傳變異。另外,在發表于Science Advances的兩篇文章中,研究人員分別分享了組織特異性遺傳特征如何在臨床試驗中為藥物副作用的預測提供信息,以及其開發的一種名為“PhenomeXcan”的資源,可通過轉錄組將基因組映射到表型組。而在發表于Cell的文章中,由斯坦福大學研究人員領導的小組則報告了人體的定量蛋白質組圖譜。
圖:GTEx最新研究總覽
回顧GTEx項目的十年歷程以及該聯盟完成的工作,GTEx的共同負責人、紐約基因組中心人類遺傳學家Tuuli Lappalainen表示,研究人員已經獲得了大量了生物學知識,并且能夠回答有關基因組功能的許多問題。“我認為GTEx在許多方面都履行了諾言。它提供了非常全面的數據。而且,這些年來的技術發展引入了回答這些問題的新途徑和方法。”她還表示,在過去的10年中,GTEx數據可以通過門戶網站廣泛獲取。與此同時,該聯盟還向更大的研究團體授權以推動功能基因組學研究,為GWAS研究提供支持,并為疾病相關變異的潛在調控作用研究提供理解。癌癥基因組學界也廣泛使用GTEx來推動其研究,研究人員也在使用GTEx來尋找尋找特定基因剪接模式或變異的答案。她還補充說,盡管該GTEx目前已經發布了海量數據和大量論文,但仍有更多工作要做。例如,她計劃研究將基因組和RNA測序數據以及表型數據結合起來的方法,以更好地了解疾病機制,并且還正在考慮研究環境因素和遺傳因素的結合如何影響疾病風險。
隨著GTEx項目的結束,據悉美國國立衛生研究院正在計劃一項發育性GTEx研究,將招募20歲以下的志愿者來創建一個從出生到成年的基因表達圖譜。研究人員表示,對于這樣的后續項目,一個更加多樣化的組織捐贈者群體將是非常有價值的。雖然GTEx項目一開始也是為了這個目標而努力的,但由于組織和器官捐贈者大多為白人,導致該愿景最終并未完全實現。到目前為止,雖然GTEx項目還不能完全說明基因組是如何驅動人類各種組織的產生或引發各類疾病。但研究人員預測,GTEx資源一定會被反復使用,并將產生一些他們無法預測的用途。
附15項研究成果速覽
Science
題目:GTEx項目構建人體組織遺傳調控效應圖譜
The GTEx Consortium atlas of genetic regulatory effects across human tissues
研究團隊介紹了GTEx(v8)版本數據的分析,檢測了來自838個死后捐贈者49個組織的15201個RNA測序樣本。該研究全面表征了順式和反式基因表達和剪接的遺傳關聯,表明幾乎所有基因都存在調節關聯,并描述了潛在的分子機制及其對等位基因異質性和復雜性狀的多效性的貢獻。
文章鏈接:
https://science.sciencemag.org/content/369/6509/1318.abstract
題目:性別對跨人體組織基因表達的影響
The impact of sex on gene expression across human tissues
研究團隊通過GTEx(v8)版本數據,分析了44個人體組織來源的基因表達和基因表達的遺傳調控中的性別差異。結果證明,性別可影響整個人體組織樣本的基因表達水平和細胞組成,人類37%的基因在至少一個組織中表現出性別偏向的表達。同時,研究人員確定了具有性別差異作用的順式表達定量性狀基因座(eQTLs),并表征其細胞起源。通過將性別偏見的eQTL與全基因組關聯研究數據進行整合,最終確定了58個由單一性別基因表達的遺傳調控驅動的基因-性狀關聯。
文章鏈接:
https://science.sciencemag.org/content/369/6509/eaba3066
題目:細胞類型特異性基因調控基因在人體組織中的表達
Cell type–specific genetic regulation of gene expression across human tissues
GTEx項目已經確定了人體組織中大部分基因的順式數量性狀基因座(QTL)表達和剪接定量性狀基因座。該研究繪制了細胞類型豐度和基因型的計算估計之間的相互作用,以確定七種細胞類型的細胞類型-相互作用QTL,并表明細胞類型相互作用表達QTL比組織特異性順式eQTL能提供更好的組織特異性分辨率。對87個復雜性狀遺傳關聯的分析表明,細胞類型-相互作用QTL發揮了作用,并能夠發現數百個此前未知的共定位基因座。
文章鏈接:
https://science.sciencemag.org/content/369/6509/eaaz8528
題目:端粒長度在人體組織中的決定性作用
Determinants of telomere length across human tissues
研究團隊表征了來自6391個組織樣本端粒長度的變異性,這些樣本代表了GTEx項目的20多個組織類型和952個個體。研究描述了不同組織類型之間的差異,以及組織類型之間的正相關以及與年齡和血統的關聯,發現遺傳變異可影響多種組織類型中的端粒長度,并且端粒長度可能介導年齡對基因表達的影響。
文章鏈接:
https://science.sciencemag.org/content/369/6509/eaaz6876
題目:跨人體組織的轉錄特征可識別功能性罕見遺傳變異
Transcriptomic signatures across human tissues identify functional rare genetic variation
確定稀有遺傳變異的功能和表型影響是一項重大挑戰。研究團隊通過分析基因表達、等位基因特異性表達和多組織RNA測序數據的可變剪接,擴展了基因驅動的轉錄組異常檢測,并證明了每種信號都可以指導稀有變異的獨特分類。該研究結果將成千上萬的稀有變異鏈接到各種分子效應,為將稀有變異影響轉錄組與人類特征相關聯提供了證據。
文章鏈接:
https://science.sciencemag.org/content/369/6509/eaaz5900
Science Advances
題目:組織特異性遺傳特征為臨床試驗中藥物副作用的預測提供依據
Tissue-specific genetic features inform prediction of drug side effects in clinical trials
通過結合48個組織中的基因表達和eQTL,該研究評估了> 360000個英國生物庫個體中1167個表型的全表型關聯研究(PheWAS),以分析是否可在臨床試驗中預測藥物副作用。研究確定了具有五個遺傳特征的藥物靶基因,包括基因表達的組織特異性。與沒有這種特征的基因相比,其帶來的副作用風險增加了2.6倍。該研究展示了來自多個組織的PheWAS和eQTL數據用于藥物副作用預測的效用,并強調了組織特異性藥物遞送的需求。
文章鏈接:
https://advances.sciencemag.org/content/6/37/eabb6242
題目:PhenomeXcan:通過轉錄組將基因組映射到表型
PhenomeXcan: Mapping the genome to the phenome through the transcriptome
PhenomeXcan是將來自GTEx(v8)49個組織的4091個性狀轉錄組數據與GWAS研究統計數據中887萬個變體整合的一個可查詢基因平臺,其中包括22515個基因。研究團隊開發了一種新穎的貝葉斯共定位方法,即快速富集估計輔助共定位分析(fastENLOC),可先考慮可能的因果基因-性狀關聯。利用PhenomeXcan,研究團隊提供了新的和未報告的基因與表型關聯以及復雜的基因特征簇。PhenomeXcan(phenomexcan.org)為轉錄研究提供了對復雜數據的廣泛及用戶友好的訪問。
文章鏈接:
https://advances.sciencemag.org/content/6/37/eaba2083
Cell
題目:人體定量蛋白質組圖譜
A Quantitative Proteome Map of the Human Body
研究團隊從32個正常人體組織中超過12000個基因中定量了相對蛋白質水平。通過鑒定組織特異性或組織富集的蛋白質,并將其與轉錄組數據進行比較,許多普遍存在的轉錄本被發現可編碼組織特異性蛋白質。RNA和蛋白質富集的差異揭示了分泌蛋白合成和作用的潛在位點。此外,該研究表明蛋白質組織富集信息可以解釋遺傳疾病的表型,而僅靠轉錄本信息是無法獲得的。
文章鏈接:
https://www.cell.com/cell/fulltext/S0092-8674(20)31078-3
Genome Biology
題目:Primo:整合多個GWAS和omics QTL匯總統計數據,闡明與性狀相關SNP的分子機制并檢測復雜性狀的多效性
Primo: integration of multiple GWAS and omics QTL summary statistics for elucidation of molecular mechanisms of trait-associated SNPs and detection of pleiotropy in complex traits
為全面解釋已知的性狀相關SNP如何影響復雜性狀,研究團隊提出了一種Primo方法,用于對來自不同細胞條件或研究的系列omics QTL匯總統計數據進行GWAS統計數據的綜合分析。Primo方法可研究SNP與復雜和組學特征的關聯模式。在含有已知易感位點的基因區域,Primo可進行條件關聯分析,以解釋連鎖不平衡問題。Primo允許進行未知的異質性和樣本相關性研究。
文章鏈接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02125-w#auth-Lin_S_-Chen
題目:sn-spMF:基質分解告知組織特異性基因表達的遺傳調控
sn-spMF: matrix factorization informs tissue-specific genetic regulation of gene expression
研究團隊開發了一個受約束的矩陣分解模型sn-spMF,以學習組織共享的模式將其應用于GTEx項目的49個人體組織。學習因子(learned factors)可反映具有已知生物學相似性的組織,并識別可能介導組織特異性作用的轉錄因子。sn-spMF可在https://github.com/heyuan7676/ts_eQTLs獲取。
文章鏈接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02129-6
題目:大量跨人體組織等位基因的表達數據
A vast resource of allelic expression data spanning human tissues
研究團隊介紹并演示了從GTEx(v8)版本中生成的大量等位基因表達資源的實用性,其中包含15253個樣本,覆蓋54個人體組織,SNP級別的等位基因總計為4.31億,單倍型水平的總量為1.53億。此外,研究團隊擴展了phASER工具,允許使用單倍型水平的等位基因數據估算順式調節變體的效應大小。這是迄今為止最大的等位基因資源,且能夠公開提供單倍型水平的等位基因數據。
文章鏈接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02122-z
題目:GTEx中外源和祖源對eQTL分析和GWAS共定位的影響
Impact of admixture and ancestry on eQTL analysis and GWAS colocalization in GTEx
研究團隊在GTEx(v8)中識別了117個具有高度群體混合個體的子集,并估計了全基因組的局部祖源信息。在七個組織中使用混合樣本進行全基因組順-eQTL定位,并通過祖源信息進行調整。最后,該研究確定了與本地祖先高度相關的一部分eQTL變體。為GTEx(V8)版本中的混合個體提供了本地祖先圖,并描述了祖先和混合物對基因表達,eQTL和GWAS共定位的影響。
文章鏈接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02113-0
題目:PTWAS:利用TWAS概率分析研究組織相關復雜性狀的因果分子機制
PTWAS: investigating tissue-relevant causal molecular mechanisms of complex traits using probabilistic TWAS analysis
研究團隊提出了一種新的計算框架,即概率全轉錄組關聯研究(PTWAS),以研究基因表達與復雜性狀之間的因果關系。PTWAS應用工具變量分析的既定原則,利用概率eQTL注釋來描述和解決TWAS中出現的獨特挑戰。PTWAS不僅具有比現有方法更高的功能,而且還提供了新穎的功能來評估因果關系假設,以及評估組織或細胞類型特異性基因對性狀的影響。研究團隊通過分析來自GTEx(v8)49個組織的eQTL數據和114個復雜性狀的GWAS統計數據證明了PTWAS的強大功能。
文章鏈接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02026-y
Genetic Epidemiology
題目:精細映射和QTL組織共享信息提高了因果基因識別的可靠性
Fine‐mapping and QTL tissue‐sharing information improves the reliability of causal gene identification
近年來,通過轉錄表達整合轉錄組學研究和GWAS研究已得到廣泛應用,使得GWAS基因座的功能表征和因果基因的預測成為可能。但最佳的預測性能模型不一定會導致更可靠的因果基因發現。為在不增加假陽性的情況下改善目標基因的發現,研究團隊使用GTEx項目中948個供體54個組織的17382個RNA測序樣本的表達和剪接數據,開發并比較了多種轉錄組預測方法。研究發現,通過精細映射(dap-g)和跨組織借用信息(masher)來反映具有因果概率的預測模型可以在重要關聯的數量和比例方面提供更好的性能。所有的預測模型都可以在predictdb.org上公開獲得。
文章鏈接:https://onlinelibrary.wiley.com/doi/full/10.1002/gepi.22346
Genome Medicine
題目:用于檢測轉錄物變體調控作用的多克隆等位基因表達測定方法
A polyclonal allelic expression assay for detecting regulatory effects of transcript variants
研究團隊提出了一種利用CRISPR / Cas9檢測基因變異在轉錄組中調節作用的實驗方法,然后進行靶向測序。利用該檢測方法,研究團隊對整個基因組和兩個孟德爾遺傳病基因中的32個提前終止變異體,HEK293T細胞中的33個eQTL預測因果變異體和62個對照變異體進行了分析,并復制HeLa細胞中的一部分變異體。結果顯示,該方法能夠捕獲eQTL變體以及提前終止變異體觸發的無意義介導衰變的調節作用,表明該方法可用于驗證遺傳變異的轉錄組水平效應。
文章鏈接:
https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-020-00777-8#article-info
參考資料:
1.?‘Invaluable’ database helps solve mystery of how genes are regulated
https://www.sciencemag.org/news/2020/09/invaluable-database-helps-solve-mystery-how-genes-are-regulated
2. GTEx Studies Provide Comprehensive Map of Genetic Regulatory Variation Across Cell Types, Tissues
https://www.genomeweb.com/genetic-research/gtex-studies-provide-comprehensive-map-genetic-regulatory-variation-across-cell#.X1rSiHot1PY
3.?https://commonfund.nih.gov/GTex
4.?https://commonfund.nih.gov/gtex
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
喜歡別忘了點“在看”呦!
總結
以上是生活随笔為你收集整理的刷新认知!基因表达,男女有别|Science、Cell等发布15篇人类遗传调控新成果的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 26岁一年发4篇Cell,他说搞科研要有
- 下一篇: RFE筛选出的特征变量竟然是Boruta