Oxford Nanopore MinION Sequencing and Genome Assembly
Oxford Nanopore MinION Sequencing and Genome Assembly??
Oxford Nanopore MinION測序和基因組組裝
摘要
? ? ? ?在成功的第二代測序(secondgeneration sequencing, SGS)技術(shù)之后,基因組測序的革命仍在繼續(xù)。由太平洋生物科學公司(PacBio)領(lǐng)導的第三代測序(TGS)技術(shù)正在迅速發(fā)展,從以前只能提供數(shù)據(jù)進行小型基因組分析或進行靶向篩選,發(fā)展到可以為人類大小基因組提供高質(zhì)量的從頭組裝和結(jié)構(gòu)變異檢測。
2014年,MinION,第一個使用納米孔技術(shù)的商業(yè)化測序器,由牛津納米孔技術(shù)(ONT)發(fā)布。MinION通過測量DNA鏈通過生物孔時產(chǎn)生的電導率變化來識別DNA堿基。它的可移植性、可負擔性和數(shù)據(jù)產(chǎn)生的速度使它適合實時應用,長讀排序器MinION的發(fā)布因此在基因組學界引起了極大的興奮和興趣。雖然新生基因組裝配可以從SGS數(shù)據(jù)廉價生產(chǎn),但裝配連續(xù)性通常較差,因為短讀處理長重復的能力有限。通過使用TGS長讀,可以極大地提高裝配質(zhì)量,因為重復區(qū)域可以很容易地擴展為使用更長的測序長度,盡管在基本級別有更高的錯誤率。在需要快速和可靠的測序但資源有限的地方進行基因組監(jiān)測的各種研究已經(jīng)證明了納米孔測序的潛力。
Introduction
? ? ? ?在過去的20年里,隨著第一代和第二代測序技術(shù)的發(fā)展,基因組學發(fā)生了革命性的變化,使許多其他著名的項目得以完成,其中包括人類基因組計劃[1,2]和1000個基因組計劃[3]。第一種DNA測序方法是Sanger在1975年提出的[4,5],另一種方法是Maxam和Gilbert在1977年提出的[6],分別稱為鏈終止法和化學測序法。與化學測序方法相比,鏈終止法更簡單、更可擴展,最終被廣泛應用于第一代測序。不同插入大小的DNA文庫可以很容易地生成,這是很有用的,因為整個基因組裝配受益于混合插入大小的讀取。然而,第一代測序的低通量和高成本導致了方法上的根本性轉(zhuǎn)變,使我們轉(zhuǎn)向SGS。大規(guī)模并行測序的革命始于2005年羅氏454 's焦磷酸測序系統(tǒng)的引入。隨后,Illumina/Solexa公司于2007年推出了基于合成測序的基因組分析儀平臺,ABI公司的固體系統(tǒng)采用了測序-連接[7]技術(shù)。SGS技術(shù)在過去十年中一直主導著測序市場,因為它能夠以低廉的成本產(chǎn)生大量的數(shù)據(jù)。然而,由于很難解決基因組[7]中的重復序列,SGS產(chǎn)生的短讀導致較大基因組的從頭組裝高度碎片化。與化學測序方法相比,鏈終止法更簡單、更可擴展,最終被廣泛應用于第一代測序。不同插入大小的DNA文庫可以很容易地生成,這是很有用的,因為整個基因組裝配受益于混合插入大小的讀取。然而,第一代測序的低通量和高成本導致了方法上的根本性轉(zhuǎn)變,使我們轉(zhuǎn)向SGS。大規(guī)模并行測序的革命始于2005年Roche 454's焦磷酸測序系統(tǒng)的引入。隨后,Illumina/Solexa公司于2007年推出了基于合成測序的基因組分析儀平臺,ABI公司的固體系統(tǒng)采用了測序-連接[7]技術(shù)。SGS技術(shù)在過去十年中一直主導著測序市場,因為它能夠以低廉的成本產(chǎn)生大量的數(shù)據(jù)。然而,由于很難解決基因組[7]中的重復序列,SGS產(chǎn)生的短讀導致較大基因組的從頭組裝高度碎片化。
? ? 對操作速度更快、讀取時間更長技術(shù)的需求導致了新測序方法的出現(xiàn),即所謂的第三代測序(TGS)。主要的SGS平臺通過合成(SBS)技術(shù)來調(diào)整測序,這些技術(shù)依賴于PCR來擴大給定DNA模板的簇。相比之下,TGS技術(shù)直接針對單個DNA分子,實現(xiàn)了實時測序,讀取數(shù)據(jù)一旦通過測序器,就可以進行分析。TGS平臺有三個重要的改進:(1)每次讀取的讀長從幾十個堿基增加到幾萬個堿基;(2)將測序時間從天減少到小時(實時應用為分鐘);(3)通過PCR擴增[8]減少或消除測序偏差。除了Helicos熒光測序(http://seqll.com/),第一個成功的單分子實時(SMRT)技術(shù)是由Pacific Biosciences (PacBio, http://www.pacb.com/)引進的。使用現(xiàn)代試劑和測序試劑盒,PacBio RS II系統(tǒng)的典型通量為每個SMRT細胞0.5-1 GB,平均讀長約為10 kb。Nonetheless, PacBio reads 有 更高 的 錯誤率 (10%-15%) than SGS 讀取 (<2%) [9].幸運的是,這些測序錯誤是隨機分布的,因此可以通過使用循環(huán)一致測序(CCS)[10]大大降低測序率,其中一個分子模板及其補體鏈被測序多次,以產(chǎn)生一個獨特的一致。
2014年,牛津納米孔技術(shù)公司(ONT)通過一個早期訪問項目(MinION access program, MAP)發(fā)布了一個新的TGS平臺——MinION設(shè)備。ONT數(shù)據(jù)的讀長剖面與PacBio非常相似,最大讀長可達幾十萬堿基對[11,12]。然而,ONT reads的錯誤率高于PacBio reads,準確率在65%- 88%之間[11-13]。此外,此時,每MinION flowcell運行的通量不是很穩(wěn)定,從低于0.1 GB到1 GB的原始序列數(shù)據(jù)[13]不等。由于其體積小,設(shè)備成本低,MinION測序儀吸引了基因組學界相當大的興趣,特別是在病原體監(jiān)測和臨床診斷應用,因為這些領(lǐng)域?qū)⑹芤嬗谠摐y序平臺的實時性質(zhì)。Rhoads和Au[14]對PacBio測序及其應用進行了全面的綜述,并對PacBio測序與SGS平臺的性能進行了比較。在這篇綜述中,我們重點介紹了MinION測序、數(shù)據(jù)特征、基因組組裝算法以及PacBio和ONT平臺的區(qū)別。
?
?
重新組裝基因組TGS數(shù)據(jù)的技術(shù)優(yōu)勢之一是讀取長度,這為基因組裝配提供了廣闊的前景。一般來說,組裝器是基于幾種不同類型的算法,如貪心、重疊布圖一致性(OLC)、德布魯因圖(DBG)和字符串圖(Henson et al.[34]綜述)。早期的裝配者通常使用OLC范式來裝配Sanger測序讀,而現(xiàn)代的裝配者使用DBG范式來裝配SGS短讀。盡管DBG方法速度更快,但是基于olc的算法對于長時間讀取具有更高基本錯誤率的[35]有更好的性能。因此,針對長PacBio和ONT讀設(shè)計的組裝器主要是基于OLC方法的流水線。
為了制造一個全新的olc為基礎(chǔ)的組裝,通常有三個基本階段的過程:預組裝,共識建設(shè),共識拋光(preassembly, consensus build up, and consensus polishing.)。裝配前數(shù)據(jù)處理的目標是通過修正基誤差來生成長而精確的序列。根據(jù)讀取長度分布選擇種子讀取(排序讀取的子集)。然后將每個讀操作映射到種子讀操作,從而為映射讀操作生成一致序列,從而生成目標基因組的長而準確的片段。這一步的計算非常密集,因為它涉及所有vs-all原始讀映射和基本錯誤校正。下一步是從重疊的read中建立共識。在選擇組裝算法時有一些可用的選項,但是OLC匯編器為使用多kb長讀的從頭匯編提供了明顯的優(yōu)勢。對于任何長度重復的基因組,一次較長的錯誤糾正讀可以簡單地填補唯一序列的缺口,并確保一致構(gòu)建過程不間斷地繼續(xù)進行。當設(shè)計一個從頭開始的基因組測序項目時,需要合理的讀覆蓋(50 - 60)來產(chǎn)生足夠的讀覆蓋,從而唯一地錨定基因組裝配中最長的重復區(qū)域。對于預組裝讀取,在重復區(qū)域可能存在基本錯誤,其中原始基本錯誤與重復相耦合。在預先組裝的解讀中,諸如indels和替換之類的錯誤也可以很容易地傳遞到共識。因此,需要對從TGS數(shù)據(jù)生成的程序集進行一致的拋光。為了顯著減少草案中剩余的錯誤數(shù)量,可以使用PacBio bas中嵌入的豐富的質(zhì)量分數(shù)來實現(xiàn)一種質(zhì)量意識一致的算法。h5文件或事件的原始離子電流在ONT MinION FAST5文件。Quiver[36]算法處理PacBio bas中可用的四種不同的每基質(zhì)量值(QV分數(shù))。h5文件,它表示在單次讀取中插入、刪除、替換和合并堿基調(diào)用的內(nèi)在計算的錯誤概率。對于MinION平臺,裝配的最后拋光可以使用Loman等人開發(fā)的Nanopolish進行,該技術(shù)通過根據(jù)事件的原始離子電流重新評估和最大化每個基的概率來改進裝配的基礎(chǔ)質(zhì)量,FAST5文件中可以訪問這些基。
PacBio糾正讀取匯編和Canu
PacBio Corrected Reads assembler and Canu
PacBio Corrected Reads(PBcR)組裝程序(http://wgsassembler.sourceforge.net/wiki/index.php/PBcR)是第一個使用分層裝配方法(正確、重疊、裝配)的流水線,這表明在基本錯誤糾正之后,可以使用有噪聲的長讀來進行裝配。針對PacBio特異性h5文件[41]的輸入,建立了PacBio長讀的層次化基因組裝配過程(HGAP)[40]。然而,當原始測序數(shù)據(jù)轉(zhuǎn)化成FASTQ / FASTA文件,對齊工具等基本的局部比對連續(xù)細化(BLASR) [42], DALIGNER (https://github.com/thegenemyers/ DALIGNER)或Celera Assembler可以用來計算多個比對基礎(chǔ)誤差校正和重疊檢測共識布局緊隨其后。易出錯長序列讀取的快速、敏感映射是關(guān)鍵,對多比對的計算要求很高。在過去幾年里,PBcR在組裝細菌基因組[43,44]、中型果蠅和擬南芥基因組[45],以及最近的人類基因組[46,47]方面取得了顯著的性能改進,這要歸功于一種新的、更快的算法,稱為MinHash比對過程(MHAP)[45]。MHAP采用概率方法對長讀進行基于重疊的匯編(overlap-based assembly of long reads)。為了加速千兆字節(jié)大小的基因組的裝配,MinHash將長而稀疏的文本表示為種子序列,或者將一串信息表示為一組指紋,這樣裝配過程就可以使用更少的計算資源,以更緊湊的數(shù)據(jù)進行。最新的努力已經(jīng)導致了一種新的組裝器Canu (https://github.com/marbl/canu)的開發(fā),它采用了與PBcR相同的策略和方法,但提供更高的速度和更好的可用性。Canu的第一個版本于2015年底發(fā)布。
Falcon組裝器
由PacBio的Jason Chin開發(fā)的Falcon[48]組裝器是另一種采用HGAP策略的流水線。它與PBcR具有許多相同的特性,如使用DALIGNER進行基本錯誤校正的原始讀重疊和重疊濾波。主要的區(qū)別在于其重疊共識的產(chǎn)生。給定重疊數(shù)據(jù),從數(shù)據(jù)集構(gòu)造一個string graph來表示具有重疊的讀操作的連接,其中路徑是讀操作之間的連接,邊是連接讀操作。由于基因組多態(tài)性和測序錯誤,我們進行了圖邊緣約簡來去除復雜性。創(chuàng)建draft contigs的共識步驟是找到每個contig圖對應的一條路徑,然后生成相應的序列。人們一直在努力使Falcon成為一種能夠識別多倍體的組裝器,并設(shè)計了新的算法來重建完整的單倍型。對于輸入邊和輸出邊唯一的簡單圖,以一種簡單的方式生成疊架。在疊架圖不是簡單路徑的情況下,首先生成主疊架圖,主疊架圖的底重疊最多的端到端路徑。此外,在一個多路徑圖中,如果可能有一條與主路徑不同的可選路徑,就會構(gòu)造另一條contig,稱為關(guān)聯(lián)的contig。主群和副群(primary and associated contigs)的同源性比較可以揭示基因組多態(tài)性。當相關(guān)的contig被測序錯誤誘導時,備用的contig和主的contig會有很高的一致性(大部分時間為>99%)。在存在真正的結(jié)構(gòu)多態(tài)性的情況下,主群和相關(guān)群被分離,每一個從基因組中代表一個不同的單倍型。
總結(jié)
以上是生活随笔為你收集整理的Oxford Nanopore MinION Sequencing and Genome Assembly的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JavaScript日期格式化及解析
- 下一篇: Mesh Baker的基本操作与功能演示