使用 SSPACE 进行 scaffoding

评论5,709

SSPACE 能利用 paired reads 的比对结果,将 contigs 或 scaffolds 连接成 scaffolds。其参考文献:Boetzer M, Henkel C V, Jansen H J, et al. Scaffolding pre-assembled contigs using SSPACE[J]. Bioinformatics, 2011, 27(4): 578-579.

1. 安装 SSPACE

软件下载页面:http://www.baseclear.com/lab-products/bioinformatics-tools/sspace-standard/

$ tar zxf SSPACE-STANDARD-3.0_linux-x86_64.tar.gz
$ ./SSPACE-STANDARD-3.0_linux-x86_64/SSPACE_Standard_v3.0.pl

解压缩软件包后,运行软件文件夹中的 perl 程序即可运行 SSPACE。软件主目录下包含一些软件使用说明和示例等,其中 README 文件描述得非常详细。

2. SSPACE 使用方法

2.1 library 文件

首先要建立一个描述 library 信息的文本文件,例如:

Lib1 bwa file1.1.fasta file1.2.fasta 400 0.25 FR
Lib1 bowtie file2.1.fasta file2.2.fasta 400 0.25 FR
Lib2 bwasw file3.1.fastq file3.2.fastq 4000 0.5 RF
Lib2 TAB file4.tab 4000 0.5 RF
Lib3 TAB file5.tab 10000 0.5 RF
unpaired bowtie unpaired_reads1.fasta
unpaired bwasw unpaired_longreads1.gz

此 library 文件由多列组成,列与列之间由 1 个 空格 或 tab 分隔,各列意义如下:

第 1 列: library 名称。程序运行过程中产生的临时文件以此来命名; 多个行可以拥有同一个 library 名称,则其具有相同的 library 设置和不同的数据文件; 同时,libraries 必须按 insert size 来排序,inert size 最小的必须放到第一行,这是因为进行 scaffold 构建时,按此文件提供的 libraries 的顺序来输入数据的; unpaired reads, 则第一列是 ‘unpaired’。
第 2 列: 将 reads 比对到基因组上所使用的软件名, 可以为 bowtie 、 bwa 和 bwasw 等; 如果输入的数据是 reads 比对过后的 tab 格式结果,则此列为 “TAB”。
第 3,4 列: Fasta 或 Fastq 格式的双末端测序文件,并且文件中成对的 paired reads 必须在两个文件中并处于相同的行号上,同时,软件读取数据与序列的 headers 无关。如果是 unpaired reads,则仅需要第 3 列,为 tab 格式的 reads mapping 结果,过后详述。
第 5,6 列:第 5 列为 insert size 的期望值; 第 6 列为 insert size 允许的最小偏差。 比如,这两列值分别为 4000 和 0.5,则 insert size 在 2000-6000 之间的 pairs 才是有效 pairs。
第 7 列:paired-reads 的方向,有 FF,FR,RF 或 RR 几种选项。

2.2 程序参数

-l 输入的 library 文件
-s 输入的 Fasta 文件
-x 是否对 contigs 进行延长。其值可以为 0 或 1。 1 表示进行延伸,0 表示不延伸。默认值为 0。

 延伸参数:

-m 进行延伸时,read 和基因组序列最小的 overlap。此值越大,则结果越准确,同时耗内存越少。推荐此值接近最长的 read 的长度。比如,对于 26 bp 长度的 reads, 该值适合设为 32~35。 默认此值为 32 。此值取值范围为 15~50 。软件运行时,将 unmapped reads 全部打断成 m+1 长度的序列,这些序列用于进行 contigs 的延伸。

-o 进行延伸时,延伸 1 个碱基需要的最小 reads 数。此值越大,则结果越准确。默认值为 20 。

-r 进行延伸时,延伸 1 个碱基,此碱基在所有匹配的 reads 中的最小比例。此值越大,则结果越准确。默认值为 0.9 。

Scaffolding 参数:

-k 将两个 contigs 连接成 scaffold 时,需要的最小的 reads pairs 数目。默认值为 5 。

-a 将两个 contigs 连接成 scaffold 时,这两个 contigs 之间的连接数 与 其和其它 contigs 的连接数之间的最小比值。此值越大,则结果越准确。默认值为 0.70

-n 在 scaffold 中,将两个邻近的 contigs 合并到一起需要的最小的 overlap。默认值为 15。

-z 进行 scaffolding 时,允许的最小的 contig 长度。低于此长度的 contig 将不能用于进行 scaffold 组装。默认值为 0 。较长的 contigs 产生的 scaffolds 比较可信; 而小于 100bp 的 contigs 容易是重复序列。

bowtie 比对参数:

-g 使用 bowtie 进行比对时,允许的最大 gaps 数。默认值为 0

其它参数:

-T 设定运行的线程数。默认值为 1。

-b 输出文件夹名及文件夹内的文件前缀。

-S 当程序正在运行时,跳过读取 reads 的阶段。和 -b 参数结合使用,则可以同时运行多个 SSPACE 程序,对每个程序设置不同的参数,这样能较快得到较好的结果。

-v verbose mode

-p 生成可供可视化的 .dot 文件。

2.3 其它工具

SSPACE 提供了一些其它比较有用的小工具:

estimate_insert_size.pl 用于计算 insert size。此程序计算的结果有些问题。
fastq_qualitytrim_pairs.pl 对 reads pairs 进行质量控制的程序。

sam_bam2tab.pl 将 bam sam 文件转换为 tab 格式的程序。

原文来自:http://www.chenlianfu.com/?p=2120

发表评论

匿名网友