基因组装配新前沿:长片段完成完整的基因组
基因組裝配新前沿:長片段完成完整的基因組
PacBio?長讀序為基因組完成帶來了新變革。資深基因組裝配專家開發的錯誤校正軟件使科學家能在其短讀取數據中添加長讀序數據,最終將那些未完成的基因組補全。
? ? ? ??PacBio?長讀序為基因組完成帶來了新變革。資深基因組裝配專家開發的錯誤校正軟件使科學家能在其短讀取數據中添加長讀序數據,最終將那些未完成的基因組補全。!--?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /--
????????在過去的十年,基因組裝配讓一些科學家渴望轉向新的挑戰,但Michael Schatz卻不同,他認為近來創新測序技術的長讀序為這一領域帶來了新的生命力?!盎蚪M裝配的前沿發展迅速,”他說?!斑@正是基因組測序激動人心的時刻?!?/span>
????????Schatz是冷泉港實驗室的助理教授,在國家生物防衛分析和對策中心的Adam Phillippy?和?Sergey Koren領導的基因組裝配項目中做出了卓越貢獻。他們的目標是應用PacBio?RS測序儀生成的長讀序顯著提高基因組裝配的質量,甚至直接將讀序裝配成高質量的完成基因組。他們的研究成果發表在!--?xml:namespace prefix = st1 ns = "urn:schemas-microsoft-com:office:smarttags" /--2012年7月1日的Nature Biotechnology雜志上。
?
???Phillippy和Schatz從事了十余年基因組裝配,Schatz回憶起他們在基因組研究所進行細菌基因組裝配項目時的情形,“那時要完成基因組裝配的最后一步,補全每一個缺口,極其昂貴?!?/span>
?
?????? ?那還是Sanger測序的時代,Sanger測序被認為是高質量基因組裝配的基礎金標方法。幾年后短讀序測序技術開始流行,Schatz及其同事發現隨著contigs重疊群數量、重復、片段倍增的顯著增加,要準確裝配基因組反而變得更加困難。從那時起,Phillippy、Koren and Schatz就開始致力于需求昂貴的Sanger測序以外的方法,來獲得高質量的基因組裝配。
?
????“我們非常興奮,這一技術能解決我們數年來面臨的許多困難”
?
????????當他們聽說Pacific Biosciences公司將推出長讀序的測序平臺,“我們非常興奮,這一技術能解決我們數年來面臨的許多困難,”Schatz說。
?
?????? ?和其他新測序技術一樣,PacBio SMRT?測序方法意味著科學家們需要學習如何對數據進行評估和應用。該測序技術的單分子特性所得初始讀取的錯誤率較高。
?
?????? ?短讀序測序儀將許多序列重合在一起只報告檢出一致的堿基,從而提高單次讀序的準確性,Phillippy、Koren和Schatz相信也能以同樣的方式優化PacBio的讀取。他們決定對Celera?裝配程序進行升級來適應新型數據,并在這一過程中意識到長讀序數據的確是獲得更清晰的高質量基因組裝配的良機。
?
研究團隊的主要突破是開發出了一種錯誤校正方法,該方法利用PacBio?RS測序儀的長讀序優勢,混入精確度高的短讀取數據,然后通過Celera Assembler軟件進行處理,生成高質量的基因組裝配。“我們開發的軟件結合了多方優勢,處理數據非常完美?!?span style="font-family:'Times New Roman';">Schatz說?!皫缀跬耆a償了明顯較高的初始錯誤率。”這篇發表在Nature Biotech雜志的文章顯示,通過這一方法,讀取精確性達到了99.9%以上,并且contig的平均長度是短讀序技術的兩倍。
?
?“研究團隊在多種生物的基因組測序中證明了該方法的有效性,從簡單的微生物到高等真核生物,‘這一方法十分有效’”
?
長讀序的優勢
?
???????Phillippy、Koren和Schatz堅信長讀序技術是高質量基因組裝配的關鍵,這在某種程度上與科學界的趨勢背道而馳。使用短讀序測序儀的大多數科學家只是簡單的通過他們的平臺獲取更高的覆蓋度,以期改善其感興趣的生物基因組的裝配。
?
????????那為何Phillippy、Koren和Schatz不采取同樣的措施呢?他們深厚的基因組裝配背景告訴大家,這樣不可行。“我們知道短讀取的信息不夠,”Schatz說?!叭绻覀兡軓拈L讀序中提取信息,我們就能確定能夠做出好的裝配。”
?
????????這些科學家知道長讀序對于基因組裝配是關鍵的,而短讀序測序儀永遠無法將讀長提高到數千堿基。“我對合成測序技術感興趣的原因就在于它的反應能達到10,000個堿基長,而化學過程是無法維持這么多循環的,”Schatz說?!耙玫介L讀序,就只能使用單分子測序?!?/span>
?
????????而單分子測序存在的問題就是該技術固有特性會使初始數據錯誤率高,Schatz補充道?!坝捎谖覀円淮螜z測一個單分子,這一過程中就會遇到各種各樣的錯誤,”相比之下,短讀序測序系統采用多個序列的一致序列,掩蓋了單個錯誤,這些系統不會報告單分子錯誤率。
?
????????單分子測序技術特別有利的一點在于,一些短讀序測序平臺生成的數據帶有系統誤差,而PacBio數據的誤差是隨機性的。而對于信息學專家來說,隨機誤差可以通過算法來識別并校正,而系統誤差則不能。
?
????????Schatz還強調,單分子測序還具有基因組裝配以外的優勢。在他們的文章中,Phillippy和Koren對其合作者聯合基因組研究所的Zhong Wang生成的玉米轉錄組數據進行了初步分析。Schatz說,“在這項工作中,我們并不是嘗試推斷選擇性剪切,而是直接讀取了選擇性剪切的位點。而沒有單分子測序技術這就無法實現。”錯誤修正軟件,使此前無法實現的應用成為可能。
?
軟件的開發
?
???????這一項目的研究團隊成立于多年以前:Phillippy、Koren和Schatz都是馬里蘭大學Steven Salzberg和Mihai Pop的學生,同時也是TIGR和JCVI研究所的同事。研究團隊還包括,以鸚鵡作為語言發育研究模型的共同作者Erich Jarvis,以及JCVI的Brian Walenz。
?
????????在為PacBio數據開發糾錯工具的過程中,科學家對幾種長讀序校正方法進行了評估。研究人員評估其中的一個變量是時間點,即何時進行錯誤校正?!耙粋€常用策略是先只對Illumina只是短片段的數據進行裝配,然后比對PacBio讀序,我們稱之為混合搭建技術,”Schatz說。“將PacBio長讀序與Illumina的重疊群進行比對能有效對長讀序的錯誤進行校正?!?/span>
?
????????但這種方法并沒有達到Phillippy和Schatz的預期效果?!拔覀儼l現如果在短讀序?裝配中存在任何問題——例如重復序列重疊collapsed、存在嵌合contigs或者裝配出許多分散的片段——就很難有效應用那些長讀序,”Schatz說。“這使我們轉而致力于提前進行錯誤校正。”
?
????????的確,最終的方法需要先將短讀序定位到PacBio長讀序上,然后用校正過的讀序進行裝配。事實證明要有效將短讀序定位到長讀序上也是一個挑戰,“我們最終使用了一種較為強力的方法,采用非常短而精確的配對,”Schatz說。“我們通過改進Celera Assembler做到了這一點?!?/span>
?
?????另一個復雜的問題是,當長讀序主要由重復序列構成時,如何精確比對短讀序?!坝绕涫钱斶@一重復具有高于99%的一致性時,要正確識別相應短讀序并將其定位到長讀序上,就相當麻煩。”為了解決這一難題,研究人員對每條短讀序最可能的比對序列進行了評估,然后仔細評價比對覆蓋度,最終確定最佳配對。?“我們花了很多時間來優化能區分這些重復的最佳算法,”Schatz說。
?
????????這一項目的所有代碼都是公共資源,能通過SourceForge網站上的Celera Assembler軟件取得相關文檔。http://wgs-assembler.sourceforge.net.
?
短讀序數據集結號
?
“這一領域潛伏著PacBio應用的巨大需求”
?
研究團隊評估的另一個變量是哪種短讀序用來校正PacBio數據最好,但他們并沒有發現強偏向性,Schatz說。“PacBio CCS、Illumina?或者454?生成的讀序都能適用?!比魏螠y序平臺都適用,不過他推薦用戶采用25x到50x的短讀序覆蓋度,然后加入PacBio長讀序的“even moderate?覆蓋度”。
?
????????這種錯誤校正方法不僅能為準備進行基因組測序的研究者帶來幫助,同樣也為長期使用Illumina??或454?系統進行測序但還未得到高質量基因組裝配的研究者帶來了福音。結合PacBio長讀序數據,能使舊日蒙塵的測序數據產生新的價值?!斑@一領域潛伏著PacBio應用的巨大需求,”?Schatz說。
?
????????對于那些有短讀序數據并且在對同一生物進行測序的科學家來說,“錯誤校正方法是一個即用型實用工具,”Schatz說。研究團隊在多種生物的基因組測序中證明了該方法的有效性,從簡單的細菌到高等真核生物,“都相當有效”?Schatz補充道。
?
“就是這么簡單,運行一個命令,軟件就能將15%錯誤率的讀取變成完美的數據,”他說?!翱吹竭\行前后的差別,效果相當驚人。”
?
?“將細菌染色體組裝為單個重疊群,這絕對是你能期望得到的最好結果?!?/strong>
?
???????對于選擇性剪切或者宏基因組學研究等更復雜的項目,Schatz建議研究人員與文章作者直接聯系,聽取能有效調試這一程序的建議。該軟件也能用于轉錄組或宏基因組研究,他說,但SourceForge網站上的這個軟件?“實際上是設計并調試用于單個基因組的。”更多信息參見研究團隊發表在Nature Biotechnology雜志上的文章,文中包括1.2Gb鸚鵡基因組的de novo重頭組裝。Schatz強調說,文章中分析的數據是約一年前的,此后PacBio技術的新進展已經改善了基因組的裝配?!艾F在又有了激動人心的新進展,”他說,尤其是Sergey Koren“將細菌染色體組裝為單個重疊群,這絕對是你能期望得到的最好結果?!?/p>
?
?
?
轉載于:https://www.cnblogs.com/wangprince2017/p/10858816.html
總結
以上是生活随笔為你收集整理的基因组装配新前沿:长片段完成完整的基因组的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: .net core编写转发服务(三) 接
- 下一篇: css display属性理解