BLAST程序的参数介绍与说明

评论18,184

1、 -p Program Name [String]

该参数p代表的是“program”,用来选择程序。其包含五个选项:

blastp、blastn、blastx、tblastn和tblastx。

(1) -p blastp:用蛋白质序列搜索蛋白质序列库

(2) -p blastn:用核酸序列搜索核酸库

(3) -p blastx:核酸序列对蛋白质库的比对,核酸序列在比对之前自动按照六个读码框翻译成蛋白质序列

(4) -p tblastn:蛋白质序列对核酸库的比对,核酸库中的序列按照六个读码框翻译后与蛋白质序列进行比对搜索

(5) -p tblastx:核酸序列对核酸库在蛋白质质级别的比对,两者都在搜索之前翻译成为蛋白质质进行比对

2、 -i Query File [File In] (default = stdin)

用于搜索数据库的查询 (query)文件,默认的是名为stdin的文件

3、-d Database name [String]

选择待搜索的数据库,可以选择多个数据库 例如: -d “nr.fasta est.fasta”

4、-o output file name [File Out] (default = stdout)

输出文件的名称,默认值为stdout

5、 -e Expected value [Real] (default = 10.0)

期望值,这一参数控制搜索的灵敏度 (search sensitivity),可以输入整数(如100),分数 (如1/100),小数 (如0.001)或是指数 (如5e-5),默认值是10.0。

例:分别使用e值为0.1和0.01的两种情况下,用拟南芥的AP3基因的核酸序列在水稻MADS- box基因核酸序列库中搜索同源基因。

6、 -m Specifies alignment view (default = 0)

设定搜索结果的显示格式,m参数的选项有12个

-m 0:默认参数,显示query和subject两两比对的信息

-m 1:显示query在所有subjects上的定位信息,并显示一致性比对信息,subject之间不同的碱基/氨基酸会被标出

例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 1”

-m 2:显示query在所有subjects上的定位信息但是不显示一致性比对信息,subject之间不同的碱基/氨基酸会被标出

例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 2”

-m 3:显示query在所有subjects的定位和一致性比对信息,不显示subjects之间的差异

例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 3”

-m 4:显示query在所有subjects上的定位信息但是不显示一致性比对信息,不显示subjects之间的差异

例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 4”

-m 5:显示query在所有subjects上的定位信息但是不显示每个碱基/氨基酸的比对信息,补充“-”比对区域,subjects之间不同的碱基/氨基酸会被标出

例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 5”

-m 6:显示query在所有subjects上的定位信息但是不显示每个碱基/氨基酸的比对信息,补充“-”对齐比对区域,不显示subjects之间的差异

例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 6”

-m 7:输出XML格式的blast结果

例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 7”

-m 8:用列表格式显示比对结果。从左到右各列的意义依次是:query名, subject名,一致性百分数,比对长度,错配数,空位数,query比对起始位 点和终止位点,subject比对起始位点和终止位点,期望值,比对得分

例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 8”

-m 9:用带有注释行的列表格式显示比对结果,格式与-m 8一样,只是在每 个query的必读结果前面加了注释行用于说明列表中各列的意义

例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 9”

-m 10:输出文件为ASN格式的文本文件

例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。

命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 10”

-m 11:输出文件为二进制文件

7、-F Filter query sequence (DUST with blastn, SEG with others) [String] (default = T) 用来屏蔽简单重复和低复杂度序列的参数,有T和F两个选项,选择“T”,则程序在比对过程中会屏蔽掉query序列中的简单重复和低复杂度序列;选择“F”则不会屏蔽。默认值是“T”

8、-I Show GI's in deflines [T/F] default = F 提示行显示GI number, 默认不显示 例:

-I F (default): ref|NP_001005339.1| Regulator of G-protein ...

-I T: gi|52694755|ref|NP_001005339.1| Regulator of G-protein ...

9、-G Cost to open a gap (zero invokes default behavior) [Integer] (default = 0)

起始空位罚分

例:分别设定G为12和10用拟南芥的AP3基因的蛋白质序列在水稻MADS-box基因蛋白质序列库 中搜索同源基因

命令:

1) “blastall -p blastp -i AtAP3_P.txt -d OsMADS_P.txt -o OsAP3_blastp_5e-30_G12.out -e 5e-30 -G 12”

2) “blastall -p blastp -i AtAP3_P.txt -d OsMADS_P.txt -o OsAP3_blastp_5e-30_G12.out -e 5e-30 -G 10”

10、-E Cost to extend a gap [Integer] (default = 0)

空位延伸罚分

例:分别设定E为1和2用拟南芥的AP3基因的蛋白质序列在水稻MADS-box基因蛋白质序列库中 搜索同源基因

命令:

1) “blastall -p blastp -i AtAP3_P.txt -d OsMADS_P.txt -o OsAP3_blastp_5e-30_G12.out -e 5e-30 -E 1”

2) “blastall -p blastp -i AtAP3_P.txt -d OsMADS_P.txt -o OsAP3_blastp_5e-30_G12.out -e 5e-30 -E 2”

11、-q Penalty for a nucleotide mismatch (blastn only) [Integer] (default = -3) 在用blastn程序搜索序列时,设定核酸错配的罚分,默认值是-3

例:分别设定q为-4和-2用拟南芥的AP3基因的核酸序列在水稻MADS-box基因核酸序列库中搜 索同源基因

命令:

1) “blastall -p blastn -i AtAP3_D.txt -d OsMADS_D.txt -o OsAP3_blastn_e0.1_q-4_Ff.out -e 0.1 -F F -q -4”

2) “blastall -p blastn -i AtAP3_D.txt -d OsMADS_D.txt -o OsAP3_blastn_e0.1_q-2_Ff.out -e 0.1 -F F -q -2”

12、-r Reward for a nucleotide match (blastn only) [Integer] (default = 1) 在用blastn程序搜索序列时,比对上的每个核酸位点的得分,默认值是1

例:分别设定r为2和3用拟南芥的AP3基因的核酸序列在水稻MADS-box基因核酸序列库中搜 索同源基因

命令:

1) “blastall -p blastn -i AtAP3_D.txt -d OsMADS_D.txt -o OsAP3_blastn_e0.1_r2_Ff.out -e 0.1 -F F -r 2”

2) “blastall -p blastn -i AtAP3_D.txt -d OsMADS_D.txt -o OsAP3_blastn_e0.1_r2_Ff.out -e 0.1 -F F -r 3”

13、-v Number of database sequences to show one-line descriptions for (V) [Integer] (default = 500)

设定输出文件中,匹配列表最多显示多少个subject,默认值为500

例:分别设定v为5和2用拟南芥的AP3基因的核酸序列在水稻MADS-box基因核酸序列库中搜 索同源基因

命令:

1) “blastall -p blastn -i AtAP3_D.txt -d OsMADS_D.txt -o OsAP3_blastn_e0.1_v5_Ff.out -e 0.1 -F F -v 5”

2) “blastall -p blastn -i AtAP3_D.txt -d OsMADS_D.txt -o OsAP3_blastn_e0.1_v5_Ff.out -e 0.1 -F F -v 2”

14、-b Number of database sequence to show alignments for (B) [Integer] (default = 250)

设定输出文件中,最多显示多少个query-subject两两比对文本描述,默认值 为250

例:分别设定b为1和3用拟南芥的AP3基因的核酸序列在水稻MADS-box基因核酸序列库中搜 索同源基因

命令:

1) “blastall -p blastn -i AtAP3_D.txt -d OsMADS_D.txt -o OsAP3_blastn_e0.1_b3_Ff.out -e 0.1 -F F -b 1”

2) “blastall -p blastn -i AtAP3_D.txt -d OsMADS_D.txt -o OsAP3_blastn_e0.1_v5_Ff.out -e 0.1 -F F –b 3”

15、-f Threshold for extending word hits, blastp 11, blastx 12, tblastn 13, tblastx 13, [Integer] default = 0

设定延伸字长 (word) 的阈值

选自Thomas Madden幻灯片BLAST Programming

15、-f Threshold for extending word hits, blastp 11, blastx 12, tblastn 13, tblastx 13, [Integer] default = 0

设定延伸字长 (word) 的阈值 例:分别设定f为13和14用拟南芥的AP3基因的核酸序列在水稻MADS-box基因核酸序列库中 搜索同源基因

命令:

1) “blastall -p blastn -i AtAP3_D.txt -o OsAP3_blastn_Ff_W13.out -d OsMADS_D.txt -F F -W 13”

2) “blastall -p blastn -i AtAP3_D.txt -o OsAP3_blastn_Ff_W13.out -d OsMADS_D.txt -F F -W 14”

16、-g Perfom gapped alignment (not available with tblastx) [T/F] (default = T)

执行空位比对 (tblastx程序不能使用此参数),默认值为T 例:分别设定g为T和F用拟南芥的AP3基因的蛋白质序列在水稻MADS-box基因蛋白质序列库 中搜索同源基因

命令:

1) “blastall -p blastp -i AtAP3_P.txt -d OsMADS_P.txt -o OsAP3_blastp_5e-30 Ff.out -e 5e-30 -F F -g T”

2) “blastall -p blastp -i AtAP3_.Ptxt -d OsMADS_.Ptxt -o OsAP3_blastp_5e-30 Ff.out -e 5e-30 -F F -g F”

17、-Q Genetic code for translation of the query sequence [Integer] (default = 0)

运用blastx和tblastx程序时,设定进行翻译query序列的遗传密码类型,默认 值是0

18、-D Genetic code for translation of the database [Integer] (default = 0)

运用tblastx和tblastn程序时,设定用于翻译数据库中核酸序列的遗传密码类 型,默认值是0

19、-a Number of processors to use [Integer] (default = 1)

设定搜索过程中要用到的处理器的数目,取决于可使用的CPU或是处理器的 数目,默认值为1

20、-J Believe the query defline, [T/F] default = F

显示query的defline

21、-O Saves SeqAlign output to specified file [File out]

输出SeqAlign文件,该文件可以利用blast_demo程序将搜索结果转换为多种 格式

22、-M Matrix [String] (default = BLOSUM62)

指定蛋白质比对的打分矩阵,默认为BLOSUM62

例:分别设定M为BLOSUM80和PAM30用拟南芥的AP3基因的蛋白质序列在水稻MADS-box基

因蛋白质序列库中搜索同源基因 命令:

1) “blastall -p blastp -i AtAP3_P.txt -d OsMADS_P.txt -o OsAP3_blastp_5e-30_Ff_blosum80.out -e 5e-30 -F F -M BLOSUM80”

2) “blastall -p blastp -i AtAP3_P.txt -d OsMADS_P.txt -o OsAP3_blastp_5e-30_Ff_blosum80.out -e 5e-30 -F F -M PAM30”

23、-W Word size (blastn 11, megablast 28, all others 3) [Integer] (default = 0)

设定字长大小,默认值为0, blastn为11, megablast 为28,其他为3 例:分别设定W为13和14用拟南芥的AP3基因的核酸序列在水稻MADS-box基因的核酸序列库 中搜索同源基因

命令:

1) “blastall -p blastn -i AtAP3_D.txt -o OsAP3_blastn_Ff_W13.out -d OsMADS_D.txt -F F -W 13”

2) “blastall -p blastn -i AtAP3_D.txt -o OsAP3_blastn_Ff_W13.out -d OsMADS_D.txt -F F -W 14”

24、-z Effective length of the database (use zero for the real size) [Real] (default = 0)

指定数据库的有效长度,默认值0代表数据库的实际长度;当输入数值时,

BLAST将根据该数值计算E值

例:分别设定z为默认值和5000用拟南芥AP3基因的蛋白质序列在水稻MADS-box基因蛋白质序列 库中搜索同源基因

命令:

1) “blastall -p blastp -i AtAP3_P.txt -o OsAP3_blastp_5e-30_Ff_z5000.out -d OsMADS_P.txt -e 5e-30 -F F ”

2) “blastall -p blastp -i AtAP3_P.txt -o OsAP3_blastp_5e-30_Ff_z5000.out -d OsMADS_P.txt -e 5e-30 -F F -z 5000”

25、-K Number of best hits from a region to keep. Off by default.

If used a value of 100 is recommended. Very high values of -v or -b is also suggested [Integer]

指定query的一段区域所需保持最佳匹配的数目

例:分别设定K为100和2,用拟南芥的AP3基因的核酸序列借助tblastx子程序在水稻MADS-box

基因核酸序列库中搜索同源基因 命令:

1) “blastall -p tblastx -i AtAP3_D.txt -d OsMADS_D.txt -o OsAP3_tblastx_Ff_e-29_K100.out -F F -e 1e-29 -K 100”

2) “blastall -p tblastx -i AtAP3_D.txt -d OsMADS_D.txt -o OsAP3_tblastx_Ff_e-29_K100.out -F F -e 1e-29 -K 2”

26、-P 0 for multiple hit, 1 for single hit (does not apply to blastn) [Integer] (default = 0)

单字长匹配与多字长匹配的转换,默认为多字长匹配,1为单字长匹配

26、-P 0 for multiple hit, 1 for single hit (does not apply to blastn) [Integer] (default = 0)

单字长匹配与多字长匹配的转换,默认为多字长匹配,1为单字长匹配

例:分别设定P为0和1,用拟南芥AP3基因的核酸序列借助tblastx子程序在水稻MADS-box基 因核酸序列库中搜索同源基因

命令:

1) “blastall -p tblastx -i AtAP3_D.txt -d OsMADS_D.txt -o OsAP3_tblastx_Ff_e-29_P0.out -F F -e 1e-29 -P 0”

27、-Y Effective length of the search space (use zero for the real size) [Real] (default = 0)

搜索空间的有效长度,默认值0代表数据库实际的有效长度,为有效query

长度与有效数据库长度之积。

例:分别设定g为Y为106和104,用拟南芥AP3基因的核酸序列借助tblastx子程序在水稻MADS-box

基因核酸序列库中搜索同源基因 命令:

1) “blastall -p tblastx -i AtAP3_D.txt -d OsMADS_D.txt -o OsAP3_tblastx_Ff_e-29_Y106.out -F F -Y 1000000 -e 1e-29”

2) “blastall -p tblastx -i AtAP3_D.txt -d OsMADS_D.txt -o OsAP3_tblastx_Ff_e-29_Y106.out -F F -Y 10000 -e 1e-29”

28、-S Query strands to search against database (for blast[nx], and tblastx) 3 is both, 1 is top, 2 is bottom [Integer] (default = 3)

指定用query的哪一条核酸链进行搜索,只用于 blastn, blastx, and tblastx, 1 表 示输入的序列, 2 表示反向互补序列, 3 表示两种都包括

例:分别设定S为1和2用拟南芥的AP3基因的核酸序列在水稻MADS-box基因核酸序列库中搜 索同源基因

命令:

1) “blastall -p blastn -i AtAP3_D.txt -o OsAP3_blastn_Ff_S1.out -d OsMADS_D.txt -F F -S 1”

2) “blastall -p blastn -i AtAP3_D.txt -o OsAP3_blastn_Ff_S1.out -d OsMADS_D.txt -F F -S 2”

29、-T Produce HTML output [T/F] (default = F)

输出HTML 格式文件

例:用拟南芥的AP3基因的蛋白质序列在水稻MADS-box基因蛋白质序列库中搜索同源基因, 设定参数T为T,使输出结果为HTML格式。

命令:“blastall -p blastn -i AtAP3_D.txt -o OsAP3_blastn_Ff_S2_TT.out -dOsMADS_D.txt -F F -S 2 -T T”

30、-l Restrict search of database to list of GI's [String]

将搜索时使用的数据库限制在输入文件中GIs所限制的子集内,仅用于 对NCBI数据库的搜索

31、-U Use lower case filtering of FASTA sequence [T/F]

将query中小写字母格式的序列屏蔽,该功能可以滤除FASTA格式序列中的 小写字母 (在蛋白质序列中,一些不准确区域通常用小写字母表示)

32、-y X dropoff value for ungapped extensions in bits, blastn 20, megablast 10, all others 7 [Real] (default = 0)

非空位延伸下降的域值,y值越小,则延伸越短

Drop-off score = Highest score – current score

33、-X Specifies X dropoff value for gapped alignment (in bits) [Integer] (default = 0)

34、-Z X dropoff value for final gapped alignment in bits, blastn/megablast 100, tblastx 0, all others 25 [Integer] (default = 0)

设定最终空位比对的下降值

35、-R PSI-TBLASTN checkpoint file [File In], Uses a PSI- TBLASTN checkpoint file as the scoring matrix

使用PSI-TBLASTN checkpoint文件为打分矩阵

36、-n MegaBlast search [T/F] (default = F) 激活blastn中的MEGABLAST算法 例:分别设定n为F和T用水稻OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜

索同源基因

命令:

1) “blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D.txt -o OsMADS6_blastn_Ff_e-39_nF.out -e 1e-39 -F F”

2) “blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D.txt -o OsMADS6_blastn_Ff_e-39_nT.out -e 1e-39 -F F -n T”

37、-L Location on query sequence [String]

指定用query的某一段序列进行搜索

例:分别设定L为”91-300”和”181-300”用拟南芥的AP3基因的蛋白质序列在水稻MADS-box

基因蛋白质序列库中搜索同源基因 命令:

1) “blastall -p blastp -i AtAP3_P.txt -d OsMADS_P.txt -o OsAP3_blastp_Ff_L181-300.out -F F -L “181,300"”

2) “blastall -p blastp -i AtAP3_P.txt -d OsMADS_P.txt -o OsAP3_blastp_Ff_L181-300.out -F F -L “91,300"”

38、-A Multiple Hits window size, (blastn/megablast 0, all others

40 [Integer] (default = 0) 指定多字长匹配的窗口大小,窗口越大,BLAST搜索的灵敏度越高 例:分别设定A为2和20用水稻OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中

搜索同源基因命令:

1) “blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D.txt -o OsMADS6_blastn_Ff_nF.out -F F -A 2”

2) “blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D.txt -o OsMADS6_blastn_Ff_nF.out -F F -A 20”

39、-w Frame shift penalty (OOF algorithm for blastx) [Integer] (default = 0)

设定移码的罚分

例:分别设定w为6和10用拟南芥的AP3基因的核酸序列,借助blastx子程序在水稻MADS-box

基因蛋白质序列库中搜索同源基因 命令:

1) “blastall -p blastx -i AtAP3_D.txt -d OsMADS_P.txt -o OsAP3_blastx_Ff_e-30_w6.out -F F -e 1e-30 -w 6”

2) “blastall -p blastx -i AtAP3_D.txt -d OsMADS_P.txt -o OsAP3_blastx_Ff_e-30_w6.out -F F -e 1e-30 -w 10”

40、-t Length of the largest intron allowed in a translated nucleotide sequence when linking multiple distinct alignments [Integer] (default = 0)

设定在tblastn过程中,连接多个不同比对片段时所允许的内含子长度的最大值

41、-B Number of concatenated queries, for blastn and tblastn

[Integer] (default = 0)

指定搜索过程中,query文件中相连接的序列数

42、-V Force use of the legacy BLAST engine [T/F] (default = F) 强制使用旧版搜索引擎,在使用参数B时,V参数必须设为F 例:分别设定V为T和F用拟南芥AP3基因的核酸序列在水稻MADS-box基因核酸序列库中搜索 同源基因

命令:

1) “blastall -p blastn -i AtAP3_D.txt -d OsMADS_D.txt -o OsAP3_blastn_Ff_Vt.out -F F -V T”

2) “blastall -p blastn -i AtAP3_D.txt -d OsMADS_D.txt -o OsAP3_blastn_Ff_Vf.out -F F -V F”

43、-C Uses composition-based statistics for tblastn

在运用tblastn子程序时,采用基于成分的统计分析方法

例:分别设定C为1和2用拟南芥的AP3基因的蛋白质序列,借助tblastn子程序在水稻MADS-

box基因核酸序列库中搜索同源基因 命令:

1) “blastall -p tblastn -i AtAP3_P.txt -d OsMADS_D.txt -o OsAP3_tblastn_Ff_e-24_X1.out -F F -e 1e-24 -C 1”

2) “blastall -p tblastn -i AtAP3_P.txt -d OsMADS_D.txt -o OsAP3_tblastn_Ff_e-24_X1.out -F F -e 1e-24 -C 2”

44、-s Compute locally optimal Smith-Waterman alignments (This option is only available for gapped tblastn.) [T/F] (default = F)

计算局部最佳的Smith-Waterman比对

例:分别设定s为F和T,用拟南芥AP3基因蛋白质序列的61-180区段,借助tblastn子程序在水稻

MADS-box基因核酸序列库中搜索同源基因 命令:

1) “blastall -p tblastn -i AtAP3_P.txt -d OsMADS_D.txt -o AtAP3_tblastn_Ff_sF_L61-180.out -F F -L "61,180"”

2) “blastall -p tblastn -i AtAP3_P.txt -d OsMADS_D.txt -o AtAP3_tblastn_Ff_sF_L61-180.out -F F -L ”61,180“ -s T”

发表评论

匿名网友