短序列组装Sequence Assembly(转载)
轉載:http://blog.sina.com.cn/s/blog_4af3f0d20100fq5i.html
短序列組裝(Sequence assembly)幾乎是近年來next-generation sequencing最熱門的話題。簡單來說,就是把基因組長長的序列打斷(shotgun sequencing),因為我們不知道基因組整條序列是如何排列(成一條鏈,最后成為一條染色體)組合(如何區分不同染色體)的,而我們又無法實現一次 把整條長序列完整測序(現在有單子測序可能是一個新的sunlight)。然后,我們通過算法,計算機的幫助,把這些短的序列組裝起來成為一條完整有序的序列。
就好比我們有這樣一句話:
????it is just a hypothesis, so don't be seriously!
????假設,我們現在不知道這句話到底是什么,就像我們有一個box,我們抽到一張紙,但沒打開,我們把這張紙撕成pieces,當然可能還發生了變化,所有的空格和標點都消失了(魔術!)我們得到:
??? itis ypo stah the sodo eriou siss ju ntbes sly……
????因為我們測了幾次,為了增加覆蓋度,這樣我們能通過高覆蓋度而提高置信度:
??? itis ypo stah the sodo eriou siss ju ntbes sly tis yopth sodon beser beser ssod iti sju……
????另外,我們又發明了一種稱作為paired-ends的序列測序方法,即兩頭定長,中間插入片段一定的序列,像這樣:
????iti*****ahyp sju*****pot the*****don sod*****ser bes*****sly ……
????這樣我們根據如下圖的方法,我們可以把這句話拼回來:
???? itisjustahypothesissodontbeseriously
但它不是最終結果,我們根據我們的現有的語法習慣,我們給它們加上空格(gap)和標點(遺漏的關鍵東西),我們能夠還原原話!
第一:介紹一下組裝的方法:
方法一:對序列進行組裝,如果是重測序,可以用MAQ進行組裝:Map to reference genome
方法二:如果是對新物種進行(de novo)測序,用velvet進行組裝:De novo assembly
第二:組裝的原理和流程圖:
?
????
方法一和方法二的區別是有無參考基因組(reference genome):下面是有參考基因組的一個結果顯示
???????????????????????
?
Mapping short reads to a reference
Eland
aligner for Illumina data
alignment policies:
??allows up to 2 mismatches/alignment
??non-unique alignments are discarded
Maq
??quality aware - takes seq quality into
? account
??allows non-unique alignments
Index methods
??reference genome is loaded into active
?memory as k-mers
??very fast alignments
??SOAP
??Bowtie
SNP detection, paired-end mapping, RNA-seq, ChIP-seq, etc.
?????? ????????????????????
Analysis depends on application
Mapping to reference genome
??useful for interrogating the “known” genome
??RNA sequencing
??ChIP sequencing
??SNP detection (targeted and whole-genome)
??methyl-seq
??CNV detection (sometimes)
De novo assembly
??no genome sequence
??unbiased ascertainment of variation in
? known genome by whole-genome reseq
第三:short reads alignment by MAQ
?
???
第四:velvet示意圖:
???
????通過上述兩種方法可以完成高通量短序列數據的組裝,但事實它并不簡單,因為基因組中含有大量的重復序列(Repeats),多態性變異(Polymorphism),測序錯誤(Sequencing error),這三個方面就是組裝過程中出現組裝錯誤的主要來源.
參考資料:http://blog.sina.com.cn/s/blog_4860086b0100dnos.html
http://seqanswers.com/forums/showthread.php?t=1024
?
轉載于:https://www.cnblogs.com/steamed-bread/p/5611058.html
總結
以上是生活随笔為你收集整理的短序列组装Sequence Assembly(转载)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: iOS 开发各种传值
- 下一篇: jQuery的三种$()