Blastall常用参数简析

评论6,959
         BLAST (Basic Local Alignment Search Tool)  基本局部比对搜索工具,是一套在蛋白质数据库或 DNA 数据库中进 行相似性比较的分析工具,它是基于 Altschul 等人在 J.Mol.Biol 上发表的方  法(J.Mol.Biol.215:403-410(1990)),在序列 数据库中对查询序列进行同源性比对工作。BLAST 程序 能迅速与公开数据库进行相似性序列比较,利用比较结果 中的得分对序列相似性进行说明。 BLAST 可以 对一条或多条序列(可以是 任何形式的序列)在一个 或多个核酸或 蛋白序列库中进行比对,并且从最初的 BLAST 发展到现在 NCBI 提供的 BLAST2.0,已将有缺口  的比对序列也考虑 在内了。BLAST 可处理任何数量的序列,包括蛋白序列和核酸序列;也可选择多个数据库但数据库必须是同一类型的, 即要么都是蛋白数据库要么都是核酸数据库。所查询的序 列和调用的数据库则可以是任何形式的组合,既可以是核酸 序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。 由于 Blast 功能强大,检索速度快, Blast 工具流行于世界上几乎所有的生物信息中心。
BLAST 提供的检索功能:
BLASTn:  核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 BLASTp:  蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比 对。
BLASTx:  核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的 6 条蛋 白),再对每一条作一对一的蛋白序列比对。
TBLASTn:  蛋白序列到核酸库中的一种查询。与 BLASTx 相反,它是将库中的核酸序列翻译成蛋白序列,再同所查 序列作蛋白与蛋白的比对。
TBLASTx :  核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核 酸序列会产生 6 条可能的蛋白序列),这样每次比对会产生 36 种比对阵列。
在使用 blastall 对测试序列在序列数据库中进行查询之前  ,用户需要对 blastall 命令涉及的主要常用参数有充分 的理解。下面简要介绍一下 blastall 命令涉及的主要常用参数:
用户可以在命令行方式下运行:
 [code lang="text"] blastall -   [/code]

将会列出 blastall  命令的所  有参数设置(见附录三),下面对 blastall  主要常用  参数进行说明:

[code lang="text"]blastall -p blastn –d db.fasta -i input.fasta -o output.blast -e 1e-30 -b 2 -v 2 -m 8 -I T -a 2 [/code]

-p Program Name [String]
           所用程序名称[String],用  户可以根据需要从 blastn,blastp,blastx,tblastn,tblastx 中任选一程序。
-d Database [String] default = nr
          所用序列数据库的名称  [String],默认为:nr,本文例为:ecoli.nt
-i Query File [File In] default = stdin
          所用查询序列文件[File In],  默认为:stdin,本文例为  test.txt
-e Expectation value (E) [Real] default = 10.0
          期望值[Real] 默认为 10.0  描述搜索某一特定数据  库时,随机出现的匹配序列数目。
-m alignment view options:
          比对显  示选项,其具体的说明可以用以下的比对实例说明
           0 = pairwise,显示具体匹配信息(缺省)
          1 = query-anchored showing identities,查询-比上区域,显示一致性
2 = query-anchored no identities,查询-比上区域,不显示一致性
3 = flat query-anchored, show identities,查询-比上区域的屏文形式,显示一致性
4 = flat query-anchored, no identities,查询-比上区域的屏文形式,不显示一致性
5 = query-anchored no identities and blunt ends,查询-比上区域,不显示一致性,无突然的结束
6 = flat query-anchored, no identities and blunt ends,查询-比上区域的屏文形式,不显示一致性
7 = XML Blast output,XML格式的输出
8 = tabular,TAB格式的输出
9 =tabular with comment lines,带注释行的TAB格式的输出
10 =ASN, text,文本方式的ASN格式输出
11 =ASN, binary [Integer] default = 0,二进制方式的ASN格式输出
-o BLAST report Output File [File Out] Optional default = stdout
          BLAST 报告的输出文件[File Out] 默认为:stdout
-F Filter query sequence (DUST with blastn, SEG with others) [String] default = T
          查询序列过滤,将那些  给出影响比对结果的低复杂度区域过滤掉。用 blastn 进行查询的序列用 DUST 程序过滤, 其他的用 SEG 过滤  。对 DUST 和 SEG 的详细情况,用户可以自己查询资料。
-G Cost to open a gap (zero invokes default behavior) [Integer] default = 0
          空位开放罚分[Integer] (设为 0 则调用默认行为)  默认为 0 分
-E Cost to extend a gap (zero invokes default behavior) [Integer] default = 0
          空位扩展罚分[Integer] (设为 0 则调用默认行为)  默认为 0 分
-X X dropoff value for gapped alignment (in bits) (zero invokes default behavior)
          blastn 30, megablast 20, tblastx 0, all others 15 [Integer],default = 0
-I Show GI's in deflines [T/F] default = F
           提示行显示 GI number 默认不显示
-q Penalty for a nucleotide mismatch (blastn only) [Integer] default = -3
           核酸序列基对不匹配所罚分数(blastn only) [Integer]  默认罚 3 分
-r Reward for a nucleotide match (blastn only) [Integer] default = 1
           核苷酸序列基对匹配所加分数(blastn only) [Integer]  默认加 1 分
-g Perfom gapped alignment (not available with tblastx) [T/F] default = T
           是否执行带缺口的比对(not available with tblastx) 默认为是
-a Number of processors to use [Integer] default = 1
           使用处理器的数目[Integer] 默认为单机
-B Number of concatenated queries, for blastn and tblastn [Integer] Optional default = 0
           需要联配查询的序列数目  for blastn and tblastn [Integer] 默认为单序列
          以上所列只是 blastall 命令部分参  数的说明(全部参数的说明见附录三),用户在对自己的序列进行 BLAST 时 可根据自己的需要选择参数, 以便得到自己需要的查询报告。同时,参数选择的正确与否也是 blastall 程序能否顺利 执行的关键。
下面是BLASTALL  全部参数

blastall 2.2.25 arguments:

-p Program Name [String]
-d Database [String]
default = nr
-i Query File [File In]
default = stdin
-e Expectation value (E) [Real]
default = 10.0
-m alignment view options:
0 = pairwise,
1 = query-anchored showing identities,
2 = query-anchored no identities,
3 = flat query-anchored, show identities,
4 = flat query-anchored, no identities,
5 = query-anchored no identities and blunt ends,
6 = flat query-anchored, no identities and blunt ends,
7 = XML Blast output,
8 = tabular,
9 tabular with comment lines
10 ASN, text
11 ASN, binary [Integer]
default = 0
range from 0 to 11
-o BLAST report Output File [File Out] Optional
default = stdout
-F Filter query sequence (DUST with blastn, SEG with others) [String]
default = T
-G Cost to open a gap (-1 invokes default behavior) [Integer]
default = -1
-E Cost to extend a gap (-1 invokes default behavior) [Integer]
default = -1
-X X dropoff value for gapped alignment (in bits) (zero invokes default behavior)
blastn 30, megablast 20, tblastx 0, all others 15 [Integer]
default = 0
-I Show GI's in deflines [T/F]
default = F
-q Penalty for a nucleotide mismatch (blastn only) [Integer]
default = -3
-r Reward for a nucleotide match (blastn only) [Integer]
default = 1
-v Number of database sequences to show one-line descriptions for (V) [Integer]
default = 500
-b Number of database sequence to show alignments for (B) [Integer]
default = 250
-f Threshold for extending hits, default if zero
blastp 11, blastn 0, blastx 12, tblastn 13
tblastx 13, megablast 0 [Real]
default = 0
-g Perform gapped alignment (not available with tblastx) [T/F]
default = T
-Q Query Genetic code to use [Integer]
default = 1
-D DB Genetic code (for tblast[nx] only) [Integer]
default = 1
-a Number of processors to use [Integer]
default = 1
-O SeqAlign file [File Out] Optional
-J Believe the query defline [T/F]
default = F
-M Matrix [String]
default = BLOSUM62
-W Word size, default if zero (blastn 11, megablast 28, all others 3) [Integer]
default = 0
-z Effective length of the database (use zero for the real size) [Real]
default = 0
-K Number of best hits from a region to keep. Off by default.
If used a value of 100 is recommended. Very high values of -v or -b is also suggested [Integer]
default = 0
-P 0 for multiple hit, 1 for single hit (does not apply to blastn) [Integer]
default = 0
-Y Effective length of the search space (use zero for the real size) [Real]
default = 0
-S Query strands to search against database (for blast[nx], and tblastx)
3 is both, 1 is top, 2 is bottom [Integer]
default = 3
-T Produce HTML output [T/F]
default = F
-l Restrict search of database to list of GI's [String] Optional
-U Use lower case filtering of FASTA sequence [T/F] Optional
-y X dropoff value for ungapped extensions in bits (0.0 invokes default behavior)
blastn 20, megablast 10, all others 7 [Real]
default = 0.0
-Z X dropoff value for final gapped alignment in bits (0.0 invokes default behavior)
blastn/megablast 100, tblastx 0, all others 25 [Integer]
default = 0
-R PSI-TBLASTN checkpoint file [File In] Optional
-n MegaBlast search [T/F]
default = F
-L Location on query sequence [String] Optional
-A Multiple Hits window size, default if zero (blastn/megablast 0, all others 40 [Integer]
default = 0
-w Frame shift penalty (OOF algorithm for blastx) [Integer]
default = 0
-t Length of the largest intron allowed in a translated nucleotide sequence when linking multiple distinct alignments. (0 invokes default behavior; a negative value disables linking.) [Integer]
default = 0
-B Number of concatenated queries, for blastn and tblastn [Integer] Optional
default = 0
-V Force use of the legacy BLAST engine [T/F] Optional
default = F
-C Use composition-based score adjustments for blastp or tblastn:
As first character:
D or d: default (equivalent to T)
0 or F or f: no composition-based statistics
2 or T or t: Composition-based score adjustments as in Bioinformatics 21:902-911,
1: Composition-based statistics as in NAR 29:2994-3005, 2001
2005, conditioned on sequence properties
3: Composition-based score adjustment as in Bioinformatics 21:902-911,
2005, unconditionally
For programs other than tblastn, must either be absent or be D, F or 0.
As second character, if first character is equivalent to 1, 2, or 3:
U or u: unified p-value combining alignment p-value and compositional p-value in round 1 only
[String]
default = D
-s Compute locally optimal Smith-Waterman alignments (This option is only
available for gapped tblastn.) [T/F]
default = F

发表评论

匿名网友