Getfasta--根据Acession Number(Ac号)批量下载GenBank分子序列数据的自动化程序
? ?推斷分子系統(tǒng)發(fā)育樹(shù)時(shí),很多分子序列數(shù)據(jù)都是從GenBank等公共數(shù)據(jù)庫(kù)下載的。當(dāng)數(shù)據(jù)很多時(shí),每條序列都要檢索、下載十分耗時(shí),而且容易出錯(cuò)。作者基于NCBI官方提供的Entrez direct軟件包,二次開(kāi)放了能批量下載GenBank分子序列數(shù)據(jù)的程序——Getfast。此程序能解析用戶提供的ACLIST文件,并自動(dòng)下載生成包含所有序列的fasta文件,供構(gòu)建分子系統(tǒng)發(fā)育樹(shù)使用。
一、運(yùn)行環(huán)境
? ? ? ?Linux系統(tǒng),安裝有NCBI的Entrez direct軟件包
?
二、使用方法
1. 準(zhǔn)備aclist文件(見(jiàn)示例L122_16S.aclist)。在GenBank中,每一條序列都有唯一的“ID號(hào)”--ACCESSION(簡(jiǎn)稱(chēng)AC號(hào)。如KT003151:代表皿蛛Nippononeta coreana的 16S 核糖體?RNA基因片段,長(zhǎng)度401bp)。用戶將所需下載序列的AC號(hào)列表保存到擴(kuò)展名為".aclist"的文本文件中,AC號(hào)間用半角逗號(hào)","分隔。注意:aclist中所有序列必須為同源序列,既相同基因的片段。
2. 運(yùn)行Getfasta(見(jiàn)示例L122.sh)。運(yùn)行Getfasta添加如下參數(shù):
? ? ? -f? “[aclist文件路徑]”(如“$DIR/L122_16S.aclist”)(必填)
? ? ? -g “[同源序列的產(chǎn)物名]” (如“16S ribosomal RNA”)(選填,當(dāng)aclist中的一條或多條序列包含多個(gè)多個(gè)基因時(shí),須用-g參數(shù)限定下載序列中包含指定基因的片段。)
? ? ?-t "TAXON"/"TID"(-t 的參數(shù)為固定值“TAXON”或"TID",添加此參數(shù)表示最后生成的fasta每條序列的標(biāo)簽不用AC號(hào)而是用taxon的名稱(chēng)表示/TID表示。)
? ? ? | tee [日志文件名]?(如$DIR//L122.log)(必填)
3. 查看結(jié)果(見(jiàn)示例L122_16S.aclist.ft2,L122_16S.aclist.fasta,L122.log)
(1)日志文件。日志文件記錄了Getfasta整個(gè)運(yùn)行過(guò)程,包括每一條序列的下載情況。特別要說(shuō)明的是,GenBank中某些序列含有多個(gè)基因片段,用戶所要的只是-g參數(shù)顯示同源基因的片段。本軟件可根據(jù)設(shè)定參數(shù),自動(dòng)識(shí)別所需片段的起止點(diǎn),只下載所需片段,并將此過(guò)程記錄在日志文件中(如示例中第62條-第65條序列屬此情況)。
(2)ft2文件。基于Entrez Direct,本程序最初下載的是NCBI提供的ft2格式的數(shù)據(jù)。該文件含有AC號(hào)、序列、長(zhǎng)度、物種名、產(chǎn)物名等多個(gè)信息。由于該格式無(wú)法直接用于跑樹(shù),因此還要將其進(jìn)一步編輯,生成fasta格式文件。
(3)fasta文件。這是最終得到的序列數(shù)據(jù),保存為各種建樹(shù)軟件均能識(shí)別的fasta格式。其中,每條序列的標(biāo)簽用該序列在GenBank中的AC號(hào)標(biāo)識(shí)。
最后需要說(shuō)明的是,由于Getfasta是基于E-direct開(kāi)發(fā)的下載程序,其運(yùn)行速度與網(wǎng)速、aclist序列數(shù)量、Linux主機(jī)配置有關(guān)。當(dāng)數(shù)據(jù)量較大時(shí),請(qǐng)根據(jù)屏幕提示耐心等待。。。
?
附件:
Getfasta
示例文件
總結(jié)
以上是生活随笔為你收集整理的Getfasta--根据Acession Number(Ac号)批量下载GenBank分子序列数据的自动化程序的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 河北大学生命科学学院期末Biopytho
- 下一篇: 几个常用的ASP木马