CAP3的使用方法

评论5,985

 Cap3简介

Huang, X. 和 Madan, A 开发的一套用于序列拼接的软件,此软件适用于小的数据集或 EST 拼接,它有如下特征:

  • 利用正反向进行拼接,更正拼接错误、连接 contigs。
  • 应用 reads 的质量信息。
  • 自动截去 reads5`端、3`端的低质量区。
  • 产生 Consed 程序可读的 ace 格式。
  •  CAP3 能用于 Staden 软件包的中的 GAP4 软件。

下载安装

下载地址http://seq.cs.iastate.edu/cap3.html。下载操作系统,下载相应版本的,加压后,就可以使用。

CAP3 详细参考文档可见http://deepc2.psi.iastate.edu/aat/cap/capdoc.html

使用说明

程序运行命令行:

cap3 File_of_reads [options]

如: cap3 seq.fa

输入 序 列 是 普 通 的 FASTA 格 式 的核酸序列, 如 果 序 列 文 件 名 为 “ xyz ” , 则 质 量 文 件 应 命 名 为“xyz.qual”,约束文件应命名为“xyz.con”。在命令行中只需输入序列文件,程序会自动在相应的目录中寻找相应的质量文件和约束文件。

一般质量文件和约束文件不对于CAP3来时说不是必须的,也就是当这两个文件不存在的时候程序按照设定的默认值来处理。

“xyz”格式如下:

>Sequence1

ACGTGCGCGATCGCCTGCTAGGCGTACGTCGCAGGCGATCGATGTGC

>Sequence2

GGGCTAGATTAGCACCACATACATCGCTCATAGATCAGATGACA

“xyz.qual”格式如下:

>Sequence1

15 17 17 17 12 12 20 20 29 31 34 34 38 38 40 40 49 49 37 33

33 33 30 31 24 24 34 45 45 45 45 38 38 38 45 40 40 40 40 40

40 40 40 40 40 33 33

>Sequence2

15 17 17 17 12 12 20 20 29 31 34 34 38 38 40 40 49 49 37 33

33 33 30 31 24 24 34 45 45 45 45 38 38 38 45 40 40 40 40 40

33 33 30 29

CAP3设计的时候,其主要测序工具是377或者3730,测序前首先需要建立克隆文库,然后针对每个文库进行测序,测序可以分为两种,单向测序与双向测序,约束文件主要是让程序哪些是双向测序, 属于同一个克隆,插入片段的大小区间,这就为拼接提供了更多的依据。如果不知道这个情况,恐怕很难理解,这个约束文件。现在都是二代测序。所以这个文件完全是可选的。

约束文件xyz.con,每一行都以如下格式:

ReadA ReadB MinDistance MaxDistance

其中“ReadA”和“ReadB”是两个 reads 的名称;“MinDistance”、“MaxDistance”是最小、最大距离(bp)。 约束文件*.con 可由此软件包中的 formcon 程序生成,用法:

formcon [序列文件] [最小长度] [最大长度]

此处最小、最大长度指克隆的长度限制,单位为 bp。克隆长度限制要与插入片段长度相差1000bp 到 1500bp 左右,如:插入片段为 2kb 到 3kb,建议 500 为克隆最小长度,4000 为克隆最大长度。输入的序列文件中一对正反向的 reads 名称在第一个句点前要保持相同。

输出文件格式:

1. xyz.cap.ace: ace 格式文件,注意:reads 的 5`、3`的低质量区没有被显示在 ace 格式中。

2. xyz.cap.contigs:生成的 contigs 序列文件。

3. xyz.cap.contigs.qual:生成的 contigs 质量文件。

4. xyz.cap.singlets:没有用于拼接的 reads 文件。

5. xyz.cap.info:关于拼接的额外信息文件。

6. cap3.out:拼接的结果文件。

CAP3的参数:

VersionDate: 10/15/07
Usage: cap3 File_of_reads [options]

File_of_reads is a file of DNA reads in FASTA format

If the file of reads is named 'xyz', then
the file of quality values must be named 'xyz.qual',
and the file of constraints named 'xyz.con'.
Options (default values):

-a N specify band expansion size N > 10 (20)

-b N specify base quality cutoff for differences N > 15 (20)

-c N specify base quality cutoff for clipping N > 5 (12)

-d N specify max qscore sum at differences N > 20 (200)

-e N specify clearance between no. of diff N > 10 (30)

-f N specify max gap length in any overlap N > 1 (20)

-g N specify gap penalty factor N > 0 (6)

-h N specify max overhang percent length N > 2 (20)

-i N specify segment pair score cutoff N > 20 (40)

-j N specify chain score cutoff N > 30 (80)

-k N specify end clipping flag N >= 0 (1)

-m N specify match score factor N > 0 (2)

-n N specify mismatch score factor N < 0 (-5)

-o N specify overlap length cutoff > 15 (40)

-p N specify overlap percent identity cutoff N > 65 (90)

-r N specify reverse orientation value N >= 0 (1)

-s N specify overlap similarity score cutoff N > 250 (900)

-t N specify max number of word matches N > 30 (300)

-u N specify min number of constraints for correction N > 0 (3)

-v N specify min number of constraints for linking N > 0 (2)

-w N specify file name for clipping information (none)

-x N specify prefix string for output file names (cap)

-y N specify clipping range N > 5 (100)

-z N specify min no. of good reads at clip pos N > 0 (3)

参数含义详解:

-a N specify band expansion size N > 10 (20)
-b N specify base quality cutoff for differences N > 15 (20)
-c N 去除低质量时的质量值 N > 5 (12)
-d N specify max qscore sum at differences N > 20 (200)
-e N specify clearance between no. of diff N > 10 (30)
-f N 重叠部分最大 gap 长度 N > 1 (20)
-g N gap 罚分 N > 0 (6)
-h N specify max overhang percent length N > 2 (20)
-m N 比对分值 N > 0 (2)
-n N 不匹配的分值 N < 0 (-5)
-o N specify overlap length cutoff > 20 (40)
-p N specify overlap percent identity cutoff N > 65 (80)
-r N specify reverse orientation value N >= 0 (1)
-s N specify overlap similarity score cutoff N > 400 (900)
-t N 匹配得最大长度 N > 30 (300)
-u N 用于修正得最小约束数目 N > 0 (3)
-v N 用于连接得最小约束数目 N > 0 (2)
-w N 序列去除信息的文件名 (none)
-x N 输出文件名称的前缀 (cap)
-y N 去除碱基范围 N > 5 (100)
-z N specify min no. of good reads at clip pos N > 0 (3)

转载自: 博耘生物 http://boyun.sh.cn/bio/?p=1839,内容根据自己使用经验有所改动

发表评论

匿名网友