Science发布基因组比对革新技术:泛基因组学映射工具Giraffe
目前,基因測序普遍使用的DNA測序儀主要基于短讀長測序技術,在獲得基因組序列片段后,將其映射到參考基因組序列中來確定染色體位置,識別出其與基因組參照的差異。但完全依賴單一參考序列來鑒別具有遺傳多樣性的人類亞群中的遺傳變異時,不可避免會出現(xiàn)對不同基因組參照序列的錯誤映射。近年來,隨著參考基因組的不斷發(fā)布以及基因組間的相互比較,人們逐漸認識到單一參考基因組不能代表物種內的多樣性,由此,泛基因組(Pan-genome)應運而生。?
泛基因組能夠在短讀長測序數(shù)據(jù)集中識別單一參考基因組難以發(fā)現(xiàn)的結構變異(SV),了解這些SV的功能影響、與疾病的關聯(lián)或和進化中的作用。此外,泛基因組還包含多種完整基因組組裝及其同源信息。
近日,美國加州大學圣克魯斯基因研究所的Benedict Paten研究團隊在Science雜志上發(fā)表了題為“Pangenomics enables genotyping of known structural variants in 5202 diverse genomes”的研究文章。研究團隊開發(fā)了一種泛基因組短讀長映射工具——Giraffe,能夠高效地將單個測序reads映射到包含數(shù)千個人類基因組的泛基因組上,其運行速度與VG-MAP等現(xiàn)有標準映射方法相當,且減少了映射偏差。Giraffe可基于短讀長測序數(shù)據(jù)對SNV、InDel以及SV進行更準確地基因型分析。研究團隊利用Giraffe對5,202個不同人類基因組中的167,000個SV進行基因分型,結果顯示Giraffe對SV基因分型具有較高的準確度。同時,Giraffe可以更全面地描述遺傳變異的特征,對變異進行更全面的表征,進而改進基因組分析。?
文章發(fā)表于Science?
Giraffe的設計基礎是:單個測序reads可以與GBWT無間隙局部比對直至末端,序列中不匹配的間隙能夠通過間隙比對的方法解決,有效地處理了復雜的圖形區(qū)域(圖1)。Giraffe首先通過讀取個體基因組中的參考單倍型將其graph Burrows-Wheeler transform (GBWT)作為輸入,并表示為一系列彩色矩形,然后再按照它們在序列中對應的節(jié)點進行分割,根據(jù)GBWT與序列中節(jié)點的同源性進行著色。其中,單個測序reads和GBWT所匹配的最小長度片段被定義為“Seed”(黑框部分),Giraffe可以列舉出Seed并按其在序列中的間距(以核苷酸為單位測量)進行聚類,對“高分”的Seed進行線性拓展使其與GBWT最大化地無間隙局部比對。
圖1. Giraffe 操作視圖。來源:Science
參考泛基因組可以從多個基因組序列中創(chuàng)建,使用數(shù)學圖形結構來表示不同序列之間的關系。研究人員利用公開的GRCh38人類參考基因組構建了“1000GP”和“HGSVC”(圖2B)兩個人類基因組參考圖來替代傳統(tǒng)線性參考圖(圖2A)評估Giraffe。?“1000GP”主要包含來自2503個人的76,749,431個SNV,其中包含3,177,111個InDels(<50bp)和181個SV(≥50bp);“HGSVC”主要包含來自三個使用長讀長測序的個體的數(shù)據(jù):HG00514、HG00733 和 NA19240,其中包含78,106 個較大的SV(≥50 bp)。
圖2. 傳統(tǒng)線性參考和參考序列圖。來源:Science
在人類基因組參考圖構建完成后,研究團隊分別使用Giraffe和其他映射程序將reads序列映射到泛基因組和線性參考基因組上,并對映射的準確性、等位基因覆蓋平衡和速度進行了評估。評估結果表明,Giraffe可以像現(xiàn)有的工具一樣,準確地映射到泛基因組中嵌入的數(shù)千個基因組。在模擬中,每個reads的真實映射都是已知的,表明Giraffe與之前發(fā)布的最精確工具一樣準確。
Giraffe是通過使用各種算法來實現(xiàn)這種速度和準確性。與以前的工具不同,Giraffe側重于映射到個體基因組觀察到的泛基因組路徑:參考單倍型。這有兩個關鍵好處。首先,優(yōu)先考慮與已知序列一致的比對,避免在生物學上不太可能的等位基因組合。其次,通過限制reads可以對齊的序列空間來減小尺寸。有效處理了復雜序列區(qū)域。
研究團隊利用Giraffe對5202人基因數(shù)據(jù)(短讀長測序)中發(fā)現(xiàn)的16.7萬個SV(長讀長測序)進行了基因分型,平均成本為每個樣本1.5美元。結果顯示,Giraffe對SV基因分型非常準確(圖3),并得到了SV在整個人群和各個亞群體中的頻率估計,確定了數(shù)千個作為表達數(shù)量性狀位點(eQTL)的SV。
圖3. 實驗概述。來源:Science
論文通訊作者、加州大學圣克魯茲分校生物分子工程副教授Benedict Paten表示:“我們多年來一直朝著這個方向努力,如今我們第一次有了實質性的突破。Giraffe算法可以迅速、高效地工作,比單一參考基因組的效果更好。”?
綜上所述,Giraffe算法通過使用短讀長測序數(shù)據(jù)可以準確地對SNV、InDels和SV進行基因分型,其速度可與映射到單一參考基因組的標準方法相媲美。Giraffe映射精度的提高使全基因組的基因分型在下游得到了改善,既適用于微小變體,也適用于較大的結構變體。Giraffe改進了基因組多態(tài)性區(qū)域中的泛基因組圖譜構建,使具有更廣泛代表性的泛基因組參考變得更加實用,有助于更全面地表征SV、改善基因組分析,使基因組學更具包容性。?
參考文獻:
Sirén J, Monlong J, Chang X, et al. Pangenomics enables genotyping of known structural variants in 5202 diverse genomes. Science. 2021;374(6574):abg8871.
https://www.science.org/doi/10.1126/science.abg8871
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
喜歡就點個“在看”吧!
總結
以上是生活随笔為你收集整理的Science发布基因组比对革新技术:泛基因组学映射工具Giraffe的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【转】理解小波消失矩
- 下一篇: 统计学习方法 第一章 学习笔记