linux系统发育树的构建步骤,分子进化树构建的简要步骤(以蛋白为例)
PhyML利用氨基酸序列建樹步驟
(核酸建樹也可以作為參考)
前言:本文閱讀對(duì)象適合建樹新手,生物信息學(xué)高手請(qǐng)勿嘲笑,其中有什么錯(cuò)誤還懇請(qǐng)指點(diǎn)。為什么要建樹及其你要解決什么問題這里不做討論,只是一個(gè)純粹的建樹過程,前期的序列收集過程自己費(fèi)心,根據(jù)自己的需要來做。這里主要是最大似然法來建樹,NJ法像mega這些軟件中都有集成,最新的mega7也集成ML法,不過模型及各種參數(shù)不一定適合你,所以學(xué)習(xí)多種多種方法也是有用的,PhyML速度較慢,如果數(shù)列數(shù)量較多、步長(zhǎng)檢驗(yàn)次數(shù)多,等待時(shí)間會(huì)很長(zhǎng),有可能達(dá)到幾十小時(shí),也與電腦配置有關(guān),一般時(shí)間都是以小時(shí)計(jì)數(shù),所以要有心理準(zhǔn)備,如果數(shù)據(jù)量大,推薦用RaxML或其他方法建樹,它處理速度要比PhyML 快,不過RaxML是純命令操作,對(duì)不熟悉命令及參數(shù)意義的人有一定難度,我只在linux 下操作過,在win下沒有使用過。本文是用氨基酸建樹過程,如果你是用核酸序列建樹,也可以參考這個(gè)過程,核酸替代模型請(qǐng)用jmodeltest或其他同功軟件計(jì)算。
由于PhyML計(jì)算過程比較長(zhǎng),做一遍比較耗時(shí),推薦你用其他軟件用NJ法先行試驗(yàn)建樹,看看你選擇的序列是否有效及符合你的預(yù)期結(jié)果,調(diào)整好序列后再用PhyML跑一遍看結(jié)果是否符合自己的要求。
PhyML有線上版本,只需要提交序列比對(duì)結(jié)果,設(shè)置模型參數(shù),留下郵箱等待就會(huì)給你返回結(jié)果,不過時(shí)間不可控,根據(jù)自身情況選擇線上還是本地自己建樹。水平有限,如有錯(cuò)誤遺漏懇請(qǐng)各位指點(diǎn)。如果在文庫(kù)不能下載,可以去網(wǎng)盤下載,見文末。
●建樹過程:序列準(zhǔn)備-模型選擇-建樹及樹的驗(yàn)證。
●環(huán)境準(zhǔn)備:電腦^-^Windows或者Linux都可以(沒試過mac,如果是mac環(huán)境,請(qǐng)參考
具體的操作手冊(cè))、ProtTest、PhyMl及序列比對(duì)的軟件,線上或本地都可以。
1.序列準(zhǔn)備:
在自己熟悉的數(shù)據(jù)庫(kù)中(我自己比較熟悉Ncbi)上做blast,選取跟要建樹蛋白同源的各物種序列,下載到本地,整合到一個(gè)fasta文件中,注意修改物種名稱,字?jǐn)?shù)最好不要太長(zhǎng),序列比對(duì)后.phy格式文件對(duì)文件名長(zhǎng)度有限制(這個(gè)可能跟軟件有關(guān)系,只要自己知道是什么物種,不至于混淆就行),注意規(guī)范性,fasta文件中最好除了>頭標(biāo),字母及下劃線不要有其他不相關(guān)的字符,因?yàn)槿绻竺婺阋密浖治?phy文件的時(shí)候這些軟件對(duì).phy的格式要求比較變態(tài),有其他多余字符它都會(huì)報(bào)錯(cuò)的(你如果在dos 下用命令合并文件請(qǐng)注意文件中最后一行的字符,請(qǐng)刪除)。做序列分析,常用的分析軟件有clustalW系列,mega也集成了蛋白比對(duì)工具,線上線下各種軟件自由選擇,區(qū)別不大,保存的格式可以選擇多一點(diǎn),主要是看你后續(xù)操作。如clustalx 比對(duì)可以保存的結(jié)果格式如圖1所示。選中你希望的格式保存即可。
總結(jié)
以上是生活随笔為你收集整理的linux系统发育树的构建步骤,分子进化树构建的简要步骤(以蛋白为例)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于X5内核的UI自动化
- 下一篇: 原创:伊朗为何推翻富裕发达的巴列维王朝,