DISCOVAR的使用

2014/08/06评论3,739

1. DISCOVAR简介

DISCOVAR 是有 ALLPATHS-LG 软件开发团队做出来的软件。主要用于利用 PE 250bp 数据与参考基因组的比对结果，对基因组进行 Variants calling 的同时，进行基因组的组装。特别是近期公布的 DISCOVAR de novo (experimental) 还能进行基因组的 De novo 组装。

2. DISCOVAR的下载和安装

2.1 DISCOVAR的下载和安装

此软件的安装需要GCC 4.7或以上版本。

[code lang="shell"]
$ wget ftp://ftp.broadinstitute.org/pub/crd/Discovar/latest_source_code/LATEST_VERSION.tar.gz
$ tar zxf LATEST_VERSION.tar.gz
$ cd discov*
$ ./configure --prefix=/opt/biosoft/discovar && make -j 4 && make install
$ cd ..
$ rm -rf discov* LATEST_VERSION.tar.gz
[/code]

2.2 DISCOVAR Denovo的下载和安装

此软件的安装需要GCC 4.7或以上版本，jemalloc 3.6.0或以上版本和samtools（如果使用bam文件，则需要）。

[code lang="shell"]
$ wget ftp://ftp.broadinstitute.org/pub/crd/DiscovarExp/LATEST_VERSION.tar.gz
$ tar zxf LATEST_VERSION.tar.gz
$ cd discov*
$ sudo yum install *malloc*
[/code]

如果没有上一步，则在make过程中会提示错误“/usr/bin/ld: cannot find -ljemalloc”

[code lang="shell"]
$ ./configure --prefix=/opt/biosoft/discovarDenovo && make -j 4 && make install
$ echo 'export MALLOC_PER_THREAD=1' >> ~/.bashrc
[/code]

上一步设置用于allowing per-threads memory management，能提高计算性能。

[code lang="shell"]
$ cd ..
$ rm -rf discov* LATEST_VERSION.tar.gz
[/code]

3. 软件使用的注意事项

1. 强烈推荐使用 PCR-free protocol library 数据；数据量推荐为 ~60x，略大于或小于该值也是 OK 的。
2. 必须使用 Illumina MiSeq 或 HiSeq 2500 测序仪产生的 >=250 bp 长度的 Paired End 数据，并且首尾 reads 要有重叠。如果 PE 250bp 数据，则 Insert Size 长度要为 400-500 bp（需要注意的是软件的 manual 中可能写成 700bp，这是不对的）。
3. 只能使用一个文库的数据。，不支持输入 mate paired 数据。
4. DISCOVAR de novo (experimental) 能进行基因组的 de novo 组装，支持基因组大小可达 ~3 GB。

3. 软件的使用

3.1 DISCOVAR 的使用

软件的输入文件是 sort 过后的 Bam 文件，一个常用例子：

[code lang="shell"]
$ Discovar READS=sample-reads.bam REFERENCE=sample-genome.fasta \
REGIONS='10:30892106-30933760' OUT_HEAD=./discovar-variants/assembly\
TMP=./discovar-variants/tmp
[/code]

软件常用参数：

READS (String)
由逗号分割的一些 bam 文件，或内容为每行一个bam文件路径的 list 文件。
REGIONS （String）
对指定区域进行分析。多个区域则用逗号分割。区域的写法为 chr:start-sotp。如果 REGIONS=all，则对所有区域进行分析。
TMP （String）
指定临时文件路径
OUT_HEAD (String)
输出文件的前缀路径
NUM_THREADS （unsigned int) default: 0
使用的线程数。
REFERENCE （String)
参考序列 fasta 文件。若提供此文件，则能进行 variant calling，并给出 VCF 文件。

3.2 DISCOVAR de novo (experimental) 的使用

软件的输入文件是 sort 过后的 Bam 文件。程序在运行的时候会使用最大的线程数进行运算。

[code lang="shell"]
$ DiscovarExp --help special
#上述命令用来查看软件的详细参数。
$ DiscovarExp READS=sample-reads.bam OUT_DIR=discovarexpOut
#上述是软件的常用命令。同时，软件的参数非常少。
$ ls discovarexpOut/a.final/a.lines.fasta
#查看主要结果。
[/code]

4. DISCOVAR结果

4.1 结果表现形式

图中，每个单独的箭头称为 edge，这些 edges 代表着序列；从起点到终点，有很多种不同的路径，称之为 lines；上图中有 4 个 cells，其中 3 个 cells 有 2 个 paths，有 1 个 cell 有 3 个 paths。
这种 multiple paths 可能表示：杂合位点；染色体变异；难以测序的位点等。

4.2 DISCOVAR 结果文件

生成的结果文件位于 discovar-variants/ 文件夹下，主要的结果文件是：

assembly.final.fasta 所有的 edges 序列 (edges overlap by K-1 bases)
assembly.final.fasta0 所有的 edges 序列 (without overlaps)
assembly.final.dot dot格式的组装图
assembly.final.variant VCF结果文件

4.3 DISCOVAR de novo 结果文件

生成的结果文件位于 discovarexpOut/a.final/ 文件夹下，主要结果文件有：

a.lines.fasta 多个 paths 中仅选择第一个 path，得到的 lines 序列的 fasta 文件。
a.lines.efasta 标准的 efasta 文件，有所有的 paths 结果。
a.fasta 所有的 edges 序列
a.lines 二进制文件
a.lines.src 上一个文件的文本形式结果

5. 总结

Discovar 能根据 Illumina 测序数据比对到基因组上的结果来进行基因组 de novo 组装，得到 edges 序列；若在提供了基因组序列的情况下，还能进行 Vaiants calling。

Discovar de novo (experimental) 能根据 Illumina 测序数据比对到基因组上的结果来进行基因组 de novo 组装，得到 edges 序列。相比与前者，还能得到 lines 序列，这是比较完整的序列文件。

原文来自：http://www.chenlianfu.com/?p=2265