序列两两比对算法_学会正确选择多序列比对(coding-sequences)软件
前幾天,實(shí)驗(yàn)室的師弟師妹通過(guò)本地blast獲取一些沒(méi)有基因組注釋物種的蛋白編碼序列。原本以為可以快速地進(jìn)行下一步的選擇壓力分析,沒(méi)想到卻在多序列比對(duì)這一環(huán)節(jié)出現(xiàn)了棘手的問(wèn)題。以前,我都是經(jīng)過(guò)PRANK軟件進(jìn)行多序列比對(duì),然后再使用Gblocks軟件對(duì)數(shù)據(jù)進(jìn)行過(guò)濾的?,F(xiàn)在,由于師弟師妹在拼接CDS序列時(shí),有些堿基并不是保留3的倍數(shù),造成很多編碼序列出現(xiàn)移碼突變,甚至變成了偽假基因(幾百個(gè)基因)。雖然,現(xiàn)在可以進(jìn)行多序列比對(duì)的軟件有很多,比如Muscle、MAFFT、PRANK等,但它們均不能解決移碼突變的問(wèn)題。于是,我開(kāi)始去google搜尋解決方案。功夫不負(fù)有心人,我最終找到了完美的解決辦法,收獲頗豐,所以把這個(gè)過(guò)程記錄下來(lái)。
多序列比對(duì)(multiple sequences alignment,MSA)是開(kāi)展進(jìn)化生物學(xué)研究的前提,后續(xù)可以進(jìn)行選擇壓力分析以及推斷物種系統(tǒng)發(fā)育歷史。
多序列比對(duì)表示不同序列中的氨基酸/核苷酸的位點(diǎn)同源性。將序列比對(duì)用于進(jìn)化分析時(shí),處于相同位置的氨基酸/核苷酸位點(diǎn)則被認(rèn)為在進(jìn)化上是同源的,并且具有共同的祖先。通過(guò)研究序列比對(duì)中同源序列是如何隨時(shí)間變化的,可以推斷序列的結(jié)構(gòu)和功能是如何進(jìn)化的。比如,對(duì)多個(gè)物種同源序列的比較可以發(fā)現(xiàn)發(fā)生替換的位點(diǎn),進(jìn)而判斷出哪個(gè)序列在哪個(gè)位置發(fā)生變化。另外,兩個(gè)序列之間的長(zhǎng)度差異可以通過(guò)刪除一個(gè)序列中的現(xiàn)有堿基位點(diǎn)或插入另一個(gè)序列中的新堿基位點(diǎn)來(lái)解釋。兩個(gè)序列之間發(fā)生替換差異的進(jìn)化譜系,可以用外群序列來(lái)解決,也可以通過(guò)推斷兩個(gè)序列的祖先的特征狀態(tài)來(lái)解決。因此,以上所有情況的結(jié)論準(zhǔn)確性很可能取決于多序列比對(duì)(MSA)的準(zhǔn)確性。
最近的研究表明,MSA算法在分析基因組序列時(shí)會(huì)產(chǎn)生不同的結(jié)果,包括系統(tǒng)發(fā)生樹(shù)推斷和適應(yīng)性進(jìn)化的檢測(cè)。換句話說(shuō),錯(cuò)誤的MSA將會(huì)產(chǎn)生一個(gè)非真實(shí)的進(jìn)化歷史信號(hào),從而導(dǎo)致錯(cuò)誤的推斷。為了減少M(fèi)SA錯(cuò)誤的影響,許多研究人員在優(yōu)化MSA算法和MSA質(zhì)量過(guò)濾軟件等方面做出了大量的努力。然而,MSA不僅包含比對(duì)錯(cuò)誤,而且還包含序列自身錯(cuò)誤(如測(cè)序錯(cuò)誤、組裝錯(cuò)誤或錯(cuò)誤的基因注釋等)。所以,正確選擇MSA分析流程可以顯著減少這些錯(cuò)誤的產(chǎn)生,從而獲得高質(zhì)量的保守同源序列用于下游的分子進(jìn)化分析。
接下來(lái),我主要是介紹一些平時(shí)比較常用的主流分析軟件以及它們的優(yōu)缺點(diǎn)??赡苓€有很多優(yōu)秀的軟件,由于個(gè)人精力有限,暫時(shí)只講一下我自己比較熟悉的工具,請(qǐng)大家見(jiàn)諒。
01. Multiple Sequence Alignment
2013年,Blackburne 和 Whelan 在Molecular Biology and Evolution期刊發(fā)表他們的研究成果,該成果證明了MSA方法在下游分析中的關(guān)鍵作用,突出了在分析中選擇的不同的MSA軟件對(duì)其結(jié)果有明顯的影響。
是最早開(kāi)始使用的多序列比對(duì)工具,由 Feng 和 Doolittle 于1987年提出,該程序有許多版本,可以基于多種平臺(tái),目前引用次數(shù)已近100000次(Thompson et al. 1994; Larkin et al. 2007)。它采用一種漸進(jìn)的比對(duì)方法,先將多個(gè)序列兩兩比對(duì)構(gòu)建距離矩陣,反應(yīng)序列之間兩兩關(guān)系;然后根據(jù)距離矩陣計(jì)算產(chǎn)生系統(tǒng)進(jìn)化指導(dǎo)樹(shù),對(duì)關(guān)系密切的序列進(jìn)行加權(quán),然后從最緊密的兩條序列開(kāi)始,逐步引入臨近的序列并不斷重新構(gòu)建比對(duì),直到所有序列都被加入為止。因此,它是一種試探算法,所以漸進(jìn)比對(duì)不能保證能夠得到最優(yōu)的比對(duì)。
是一款速度最快的比對(duì)軟件之一,在速度和精度上都優(yōu)于ClustalW,目前引用次數(shù)高達(dá)26246次(Edgar 2004)。Muscle采用的是迭代方法進(jìn)行比對(duì)運(yùn)算,每一次最優(yōu)化過(guò)程就是迭代過(guò)程,通過(guò)不斷地使用動(dòng)態(tài)規(guī)劃法重排來(lái)糾正這種錯(cuò)誤,同時(shí)對(duì)這些亞類群進(jìn)行比對(duì)以獲得所有序列的全局比對(duì)。一個(gè)形象的例子是,10000條長(zhǎng)度為350bp的數(shù)據(jù)進(jìn)行比對(duì)只需要十幾分鐘,而用ClustalW則可能需要1年。但是,速度快的后果就是準(zhǔn)確度降低。
的第一個(gè)版本于2002年發(fā)布,它使用了一種基于漸進(jìn)對(duì)齊的算法,利用快速傅里葉變換對(duì)序列進(jìn)行聚類(Katoh K et al. 2002)。其后版本的MAFFT增加了其他算法和操作模式,包括更快地對(duì)大量序列進(jìn)行比對(duì)的選項(xiàng)、更高精度的比對(duì)、非編碼RNA序列的比對(duì)以及在現(xiàn)有比對(duì)中添加新的序列,目前其引用次數(shù)也近達(dá)20000次。它的比對(duì)精度要高于Muscle,速度也較快,但相比其他依賴物種進(jìn)化關(guān)系的比對(duì)軟件,它的準(zhǔn)確度還有一些差距。
是由 L?ytynoja 于2005年開(kāi)發(fā)的軟件,目前它的引用數(shù)達(dá)到1662次。它是一種針對(duì)DNA、密碼子(codon)和氨基酸序列的概率多重比對(duì)程序,基于一種新的算法,能夠確定各序列在與其共同的祖先分化后發(fā)生的堿基替換,插入(insertion)或缺失(deletion)事件。此外,PRANK可以重新構(gòu)建其祖先序列,有DNA翻譯以及回譯選項(xiàng)( DNA translation/back-translation)。最后,由于PRANK比對(duì)準(zhǔn)確度高,相對(duì)比較耗時(shí),不太適合基因組數(shù)據(jù)分析。
是一種貝葉斯后驗(yàn)比對(duì)軟件,它利用馬爾可夫鏈蒙特卡羅來(lái)探索給定分子序列數(shù)據(jù)的比對(duì)和系統(tǒng)發(fā)育的聯(lián)合空間,同時(shí)估計(jì)消除了對(duì)不準(zhǔn)確的比對(duì)引導(dǎo)樹(shù)的偏差,在比對(duì)過(guò)程中采用了更復(fù)雜的替換模型,并且自動(dòng)利用共享插入/刪除中的信息來(lái)幫助推斷系統(tǒng)發(fā)育關(guān)系(Suchard et al. 2006)。其準(zhǔn)確度,與PRANK幾乎差不多(我自己并沒(méi)有使用過(guò)這款軟件)。
Blackburne 的研究結(jié)果顯示,基于進(jìn)化方法的PRANK與BAli-Phy軟件,可以根據(jù)序列的差異性靈活地使用不同的比對(duì)標(biāo)準(zhǔn)(評(píng)分矩陣與罰分),然而ClustalW、Muscle以及MAFFT等經(jīng)典比對(duì)軟件則不能。他們的結(jié)果表明,在構(gòu)建序列比對(duì)時(shí)把物種的進(jìn)化關(guān)系及距離考慮進(jìn)去能有效提高比對(duì)準(zhǔn)確性,因此比起僅應(yīng)用新的計(jì)算方法,可能會(huì)產(chǎn)生更大的改進(jìn)潛力。
除此以外,還有許多研究也同樣揭示ClustalW、Muscle以及MAFFT等經(jīng)典比對(duì)軟件在MSA精確度方面還存在許多缺陷(如下圖所示)。
L?ytynoja A. 2014
Fletcher W & Yang Z. 2010
是第一個(gè)可以用于自動(dòng)調(diào)整含有移碼變異以及假基因的蛋白編碼序列,而不破壞潛在密碼子結(jié)構(gòu)的多序列比對(duì)工具(Ranwez et al. 2011)。它的關(guān)鍵特征是在核苷酸水平上對(duì)DNA序列進(jìn)行比對(duì),但有可能包括不是三個(gè)堿基的倍數(shù)的間隙長(zhǎng)度,即產(chǎn)生移碼,同時(shí)基于其氨基酸翻譯對(duì)產(chǎn)生的核苷酸比對(duì)進(jìn)行評(píng)分。這使得可以產(chǎn)生保留潛在密碼子結(jié)構(gòu)的核苷酸比對(duì),同時(shí)受益于氨基酸序列的更高相似性(Ranwez et al. 2018)。現(xiàn)在,這個(gè)軟件已被許多基因組分析所廣泛使用,其準(zhǔn)確度也相對(duì)較好,然而目前并沒(méi)有研究去仔細(xì)分析過(guò)它的性能。
OrthoMAM v8/v10數(shù)據(jù)庫(kù)就是采用這個(gè)軟件的分析流程:CDS and exon sequences are aligned at the codon level in two steps. First, the translated amino acids are aligned using MAFFT (Katoh et al. 2005) and gaps are reported onto the nucleotide sequences. This alignment is then refined using MACSE (Ranwez et al. 2011) to obtain a final codon alignment unaffected by frameshifts, misassemblies, and sequencing errors. Amino acid alignments are then filtered to reduce the impact of errors on evolutionary inferences using HMMcleaner (Philippe et al. 2017).
Ranwez 2018
此外,還有幾種基于隱馬爾科夫模型(Profile HMM Methods)的多序列比對(duì)工具,這些工具目前我還不清楚它們的具體優(yōu)缺點(diǎn)。
SEPP(SATé-enabled Phylogenetic Placement):解決將short reads放入?yún)⒖夹蛄泻蜆?shù)的系統(tǒng)發(fā)育問(wèn)題;
TIPP(Taxonomic Identification and Phylogenetic Profiling):解決元組數(shù)據(jù)的分類識(shí)別和豐度分析問(wèn)題
UPP(Ultra-large alignments using Phylogeny-aware Profiles):解決非常大的數(shù)據(jù)集對(duì)齊的問(wèn)題,這些數(shù)據(jù)集可能包含一些零碎的數(shù)據(jù),可以將數(shù)據(jù)集多達(dá)1,000,000條序列對(duì)齊;
HIPPI(Highly Accurate Protein Family Classification with Ensembles of HMMs):解決蛋白質(zhì)家族分類的問(wèn)題;
02. Trimming
當(dāng)獲得精準(zhǔn)的多序列比對(duì)后,接下來(lái)的任務(wù)就是要過(guò)濾掉一些低質(zhì)量以及高變異度的序列區(qū)域,僅保留進(jìn)化保守的區(qū)域用于后續(xù)分析。其中,產(chǎn)生這些低質(zhì)量區(qū)域的原因主要有兩個(gè)方面:
生物學(xué)因素:如果比較來(lái)自遠(yuǎn)緣物種的蛋白序列,很有可能只有蛋白質(zhì)的功能部分在序列上具有較高的保守性。其他部分,如第一個(gè)外顯子或最后一個(gè)外顯子區(qū)域,更有可能改變它們的氨基酸序列,無(wú)論是在氨基酸含量方面,還是在insertion/deletion存在的情況下。即使當(dāng)多個(gè)序列對(duì)齊的預(yù)測(cè)是正確的,它也可能對(duì)系統(tǒng)發(fā)育樹(shù)的推斷產(chǎn)生負(fù)面影響;
錯(cuò)誤:測(cè)序錯(cuò)誤,基因組組裝錯(cuò)誤、基因預(yù)測(cè)錯(cuò)誤以及多序列比對(duì)錯(cuò)誤;
目前主流的多序列比對(duì)過(guò)濾軟件可分為以下幾個(gè)方面:一是,block-filtering:trimAl、Gblocks;二是,segment filtering:HmmCleaner、PREQUA;三是,sliding window analysis:FasParser2。
是較早時(shí)間(2000年)就應(yīng)用于MSA過(guò)濾的軟件,由Castresana實(shí)驗(yàn)室所開(kāi)發(fā),被引用次數(shù)為6194次。它可以將MSA中大片斷非保守性或者是非同源片段給刪除(6-10bp左右的非同源片段則不能很好識(shí)別出來(lái)),另外它還對(duì)Block(即一段連續(xù)的且中間不含Gap的列)的長(zhǎng)度進(jìn)行了限制。有研究把這種方法應(yīng)用于構(gòu)建系統(tǒng)發(fā)育樹(shù),發(fā)現(xiàn)通過(guò)刪除原始比對(duì)中得分比較低的片段以后,Gblocks有效地提高了系統(tǒng)發(fā)育關(guān)系的確定性(Talavera et al. 2007)。但是,Gblocks的問(wèn)題在于它太武斷地規(guī)定了某個(gè)具體的閾值來(lái)判斷比對(duì)片段的保留或刪除。比較科學(xué)的閾值選擇應(yīng)該要根據(jù)序列的具體情況來(lái)確定,而不是對(duì)所有基因的比對(duì)都采用同一個(gè)閾值,因?yàn)椴煌幕蚧蛲粋€(gè)基因的不同片段,其進(jìn)化速率可能都不相同。
Capella-Gutiérrez等人于2009年開(kāi)發(fā)的另一款MSA自動(dòng)調(diào)整過(guò)濾軟件,特別適用于大規(guī)模的系統(tǒng)發(fā)育分析,目前引用次數(shù)已有2157次。它的主要優(yōu)點(diǎn)就是速度快,準(zhǔn)確度高,相比于Gblocks,它可以自動(dòng)選擇在每個(gè)特定比對(duì)中使用的參數(shù),主要包括Gap的比例以及氨基酸相似性的水平,從而優(yōu)化 signal-to-noise ratio 。
該軟件是由中國(guó)科學(xué)院昆明動(dòng)物研究所孫艷波副研究員所開(kāi)發(fā) link地址,并于2018年在bioinformatics期刊發(fā)表。FasParser2主要是可以在友好界面窗口下對(duì)一些常規(guī)序列的操作,尤其是對(duì)多基因串聯(lián)合并、序列提取、低質(zhì)量序列鑒定、快速尋找趨同氨基酸變異位點(diǎn)等進(jìn)行批處理化。尤其是,該軟件增加了有效過(guò)濾序列比對(duì)質(zhì)量的模塊(滑窗分析),可實(shí)現(xiàn)序列中對(duì)非同源序列的清除,適用于大規(guī)模檢測(cè)序列中經(jīng)歷達(dá)爾文正選擇的位點(diǎn),以及重建系統(tǒng)發(fā)育等分析。軟件作者通過(guò)序列模擬測(cè)試發(fā)現(xiàn),其修剪效率非常高,它能夠刪除95%以上的錯(cuò)誤列,且基本不依賴于比對(duì)軟件的選擇,明顯優(yōu)于其他同類程序,如Guidance和Gblocks。另外,經(jīng)過(guò)AlignTrim處理后的比對(duì)結(jié)果,可顯著降低正選擇檢測(cè)中的檢陽(yáng)性事件(低于5%),且不會(huì)導(dǎo)致正選擇的檢測(cè)率降低,從而提高了檢測(cè)正選擇基因的準(zhǔn)確性。該作者,將其與Gblocks、trimAl軟件進(jìn)行了比較,結(jié)果發(fā)現(xiàn)FasParser2的處理效果要優(yōu)于這兩款軟件(該成果還未正式發(fā)表)。
Yanbo Sun
FasParser
與
這兩款軟件也是近兩年新發(fā)表的軟件,它們采取了新的過(guò)濾算法(主要基于隱馬爾可夫模型),能夠準(zhǔn)確識(shí)別多序列比對(duì)中的非同源片段,排除了由于測(cè)序質(zhì)量、基因注釋以及可變剪切造成的序列錯(cuò)誤,其準(zhǔn)確度以及速度相對(duì)較快,適用于大規(guī)模數(shù)據(jù)分析(Di Franco A. 2019;Whelan S. 2018)。值得注意的是,PREQUAL針對(duì)于非比對(duì)的蛋白編碼序列以及氨基酸序列,而HmmCleaner只能操作氨基酸序列(可以是比對(duì)后的)。另外,它們對(duì)輸入文件要求較高,一般fasta格式,序列中只能存在Gap和序列,不允許存在“?”、“!”、“X”等非編碼字符,還要注意換行符問(wèn)題。
03. Know Your Limits
數(shù)據(jù)類型: DNA vs. RNA, coding vs. non-coding nucleotides (wobble bp), AAs, proteins, etc.
數(shù)據(jù)特性:substitution (≠ mutation) rate strength (↑ vs. ↓), indel size and rate (% gap & gap length), pairwise sequence identity (PID), etc.
數(shù)據(jù)矩陣特性:# of tips, # of sequences, (alignment length ∝) data matrix weight, e.g., light (K, M) vs. heavy (G, T), etc.
計(jì)算資源:CPU time and RAM memory
04. Summary
每個(gè)人的數(shù)據(jù)可能與其他人的數(shù)據(jù)有很大差別,一定要學(xué)會(huì)正確選擇適合自己數(shù)據(jù)的軟件類型,這樣得到的結(jié)果才是準(zhǔn)確、可靠、可重復(fù)的。
生物信息學(xué)與計(jì)算機(jī)類似,更新速度很快,幾年前還在使用的經(jīng)典軟件,現(xiàn)在可能已經(jīng)過(guò)時(shí)了,因而保持與時(shí)俱進(jìn)對(duì)生物信息人員是十分重要的。
最后,感謝中國(guó)科學(xué)院昆明動(dòng)物所孫艷波老師給與的指導(dǎo)與幫助。
05. 這里放一張?zhí)幚硇蛄兄写嬖谝拼a突變的序列比對(duì)流程,已親測(cè)(歡迎交流)
圖片發(fā)自簡(jiǎn)書(shū)App
問(wèn)題解決了,收獲滿滿,開(kāi)心!!!
參考文獻(xiàn):
Blackburne B P, Whelan S. Class of multiple sequence alignment algorithm affects genomic analysis[J]. Molecular biology and evolution, 2012, 30(3): 642-653.
L?ytynoja A. Phylogeny-aware alignment with PRANK[M]//Multiple sequence alignment methods. Humana Press, Totowa, NJ, 2014: 155-170.
L?ytynoja A, Goldman N. Phylogeny-aware gap placement prevents errors in sequence alignment and evolutionary analysis[J]. Science, 2008, 320(5883): 1632-1635.
Fletcher W, Yang Z. The effect of insertions, deletions, and alignment errors on the branch-site test of positive selection[J]. Molecular biology and evolution, 2010, 27(10): 2257-2267.
Ranwez V, Douzery E J P, Cambon C, et al. MACSE v2: toolkit for the alignment of coding sequences accounting for frameshifts and stop codons[J]. Molecular biology and evolution, 2018, 35(10): 2582-2584.
Sun Y B. FasParser2: a graphical platform for batch manipulation of tremendous amount of sequence data[J]. Bioinformatics, 2018, 34(14): 2493-2495.
Whelan S, Irisarri I, Burki F. PREQUAL: detecting non-homologous characters in sets of unaligned homologous sequences[J]. Bioinformatics, 2018, 34(22): 3929-3930.
Di Franco A, Poujol R, Baurain D, et al. Evaluating the usefulness of alignment filtering methods to reduce the impact of errors on evolutionary inferences[J]. BMC evolutionary biology, 2019, 19(1): 21.
總結(jié)
以上是生活随笔為你收集整理的序列两两比对算法_学会正确选择多序列比对(coding-sequences)软件的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【预测模型】Logistic 人口阻滞增
- 下一篇: c语言编程串行静态数码显示实验,十天学会