linux序列比对程序,序列比对软件简单使用教程
linux可以使用的序列比對的工具有三個。blast、blat、seqmap。這三個軟件都需要把待blast的序列做成fa格式
構(gòu)建fa格式的序列
如果有個待比對的序列是含有兩列,其中包括第一列(ID),第二列(sequence)。如果需要形成fa格式的話,可以使用下面的linux代碼
awk '{print">"$1"\n"$2}' file
blast
linux 的blast軟件分為基本上分為兩個個步驟:
構(gòu)建參考數(shù)據(jù)庫
###下載軟件
conda install blast
##下載genecode的參考基因組的fa
wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_29/gencode.v29.transcripts.fa.gz
##解壓文件
gunzip gencode.v29.transcripts.fa.gz
##構(gòu)建基因組的離線數(shù)據(jù)庫
makeblastdb -in gencode.v29.transcripts -dbtype nucl -out humanGenome
構(gòu)建離線數(shù)據(jù)庫的參數(shù)中dbtype含有兩種參數(shù):nucl,prot分別代表核苷酸和蛋白
構(gòu)建完成的數(shù)據(jù)庫包括三個以out參數(shù)為開頭的文件。比如示例的三個文件分別為:humanGenome.nhr humanGenome.nin humanGenome.nsq
選擇blast的工具(blastn/blastp)對序列進(jìn)行blast
blast可以分為很多的工具,
具體工具的選擇看下表
img
blast數(shù)據(jù)庫參數(shù)詳解
blast軟件詳細(xì)的參數(shù)信息可以參見,官網(wǎng)上的描述。
-db 格式化了的數(shù)據(jù)庫路徑及數(shù)據(jù)庫名
-query: 檢索文件
-query_loc : 指定檢索的位置
-strand: 搜索正義鏈還是反義鏈,還是都要
out : 輸出文件
-remote: 可以用NCBI的遠(yuǎn)程數(shù)據(jù)庫, 一般與 -db nr
-evalue 科學(xué)計數(shù)法,比如說1e3,定義期望值閾值。E值表明在隨機(jī)的情況下,其它序列與目標(biāo)序列相似度要大于這條顯示的序列的可能性
-outfmt: 輸出的格式。有18個選項。其中6,7,8為自定義選型。6為正常的blast m8格式。
-num_descriptions:tabular格式輸出結(jié)果的條數(shù)
-num_threads:線程數(shù)
-task:比對的時候的選項。有四個選項。1.)megablast,用于非常相似的序列(例如,測序錯誤),2. dc-megablast,通常用于種間比較,3. blastn,用于種間的傳統(tǒng)程序 比較,4. blastn-short,針對小于30個核苷酸的序列進(jìn)行了優(yōu)化。
blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -task blastn-short -evalue 1e-5 -num_descriptions 10 -num_threads 8
blat軟件使用
blat是UCSC用來比對序列序列的方式。網(wǎng)頁版也是可以使用的。這里介紹linux版的。
###安裝軟件
conda install blat
blat軟件參數(shù)詳解
軟件的基本格式:blat database query [-ooc=11.ooc] output.psl
軟件的具體參數(shù)可以參見官方網(wǎng)站。這里介紹一下常見參數(shù)
-t=type: 參考數(shù)據(jù)庫的數(shù)據(jù)類型。接受三個選項。1.dna(默認(rèn)選項) ;2.prot;3.dnax(DNA sequence translated in six frames to protein)
-q=type:想要blat的數(shù)據(jù)類型。接受五個選項。1.dna - DNA sequence;2.rna - RNA sequence;3. prot - protein sequence;4.dnax - DNA sequence translated in six frames to protein;5. rnax - DNA sequence translated in three frames to protein
-out=type: 輸出的格式。接受9中參數(shù)。1.psl - (Default) tab-separated format, no sequence;2. pslx - tab separated format with sequence;3.axt - blastz-associated axt format;4.maf - multiz-associated maf format;5. sim4 - similar to sim4 format;6. wublast - similar to wublast format;7.blast - similar to NCBI blast format;8. blast8 - NCBI blast tabular format;9.blast9 - NCBI blast tabular format with comments
blat常規(guī)設(shè)置
表達(dá)序列標(biāo)簽(EST)是cDNA序列的短子序列。
Mapping expressed sequence tag (EST) to the genome within the same species: -ooc=11.ooc
Mapping full length mRNAs to the genome in the same species: -ooc=11.ooc -fine -q=rna
Mapping ESTs to the genome across species: -q=dnax -t=dnax
Mapping mRNA to the genome across species: -q=rnax -t=dnax
Mapping proteins to the genome: -q=prot -t=dnax
Mapping DNA to DNA in the same species: -ooc=11.ooc -fastMap
Mapping DNA from one species to another species: -q=dnax -t=dnax
##比對芯片序列到基因組上且輸出為blast格式
blat GCF.fa test_R1.fasta -out=blast8 -ooc=11.ooc
seqmap
seqmap是用于短序列比對特別快的工具。但是它出來的結(jié)果沒有blast和blat多。如果要對芯片的序列進(jìn)行重注釋。是很好的一個工具
軟件的安裝
conda install seqmap
seqmap常規(guī)參數(shù)
軟件的基本格式為:seqmap [options]
1.輸入格式中參考基因組和比對的基因組必須是fa格式
2.num_mismatch代表比對的時候不匹配的個數(shù)
3.輸出文件的格式分為兩種。其中默認(rèn)的是:Eland格式。另外一種是我們可以看得比較清楚的。用來顯示所有匹配結(jié)果的格式:/output_all_matches
seqmap 0 GPL.fasta gencode.v29.transcripts.fa seqmap_gene.tmp /output_all_matches
在使用seqmap的時候。這個順序不能錯
上述的顯示結(jié)果為
trans_id trans_coord target_seq probe_id probe_seq num_mismatch
1 313902 AACTCCGGGAGGGCCGCTTTGTATG 509644 AACTCCGGGAGTGCCGCTTTGTAGG 2
1 423680 TTTCACAATCAATGGATCAGGCCGC 129326 TTTCACAATCATTGGATCAGGCCAC 2
1 537816 CTTGAATTCAGTAAATAGTTTAACG 330515 CTTGAATTTAGTAAATAGTTTACCG 2
2 297292 CGTCAAATTTCGTCCTTTTCGCTGT 636826 CGTCAATTTTCGTCCTTTTCGGTGT 2
2 326279 CGTAGGACCATTCAGGCCGTTAAGC 986424 CGTAGGAGCATTCAGGCCGTTATGC 2
2 870729 GTTAACCTGTGGTAAGTAACGTAGT 433048 GTTAACCTGGGGTAAGTAACGTATT 2
3 204747 TAGCTCATTAACAGGGGATCTTAGG 917614 TAGCTCATTAATAGCGGATCTTAGG 2
3 601827 GTCGTTTTATTCCGCCTGGAGAGGT 321632 GTCGTCTGATTCCGCCTGGAGAGGT 2
3 674797 TCGCACTTGGGGCTAAATGGGCATC 336321 TCGCACTTCGGGCTAAATGGGAATC 2
3 927627 CAGCCAAAGATACGCAGCTCAGTCT 619563 GAGGCAAAGATACGCAGCTCAGTCT 2
4 305440 GACGGAAATCCATATAAGGTAGGGA 80583 GACGGAAATCGAGATAAGGTAGGGA 2
總結(jié)
以上是生活随笔為你收集整理的linux序列比对程序,序列比对软件简单使用教程的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux防火墙 限制端口,Linux开
- 下一篇: linux css 工具,7个Linux