DISCOVAR的使用

  • A+
所属分类:Genomics

1. DISCOVAR简介

DISCOVAR 是有 ALLPATHS-LG 软件开发团队做出来的软件。主要用于利用 PE 250bp 数据与参考基因组的比对结果,对基因组进行 Variants calling 的同时,进行基因组的组装。特别是近期公布的 DISCOVAR de novo (experimental) 还能进行基因组的 De novo 组装

2. DISCOVAR的下载和安装

2.1 DISCOVAR的下载和安装

此软件的安装需要GCC 4.7或以上版本。


$ wget ftp://ftp.broadinstitute.org/pub/crd/Discovar/latest_source_code/LATEST_VERSION.tar.gz
$ tar zxf LATEST_VERSION.tar.gz
$ cd discov*
$ ./configure --prefix=/opt/biosoft/discovar && make -j 4 && make install
$ cd ..
$ rm -rf discov* LATEST_VERSION.tar.gz

2.2 DISCOVAR Denovo的下载和安装

此软件的安装需要GCC 4.7或以上版本,jemalloc 3.6.0或以上版本和samtools(如果使用bam文件,则需要)。


$ wget ftp://ftp.broadinstitute.org/pub/crd/DiscovarExp/LATEST_VERSION.tar.gz
$ tar zxf LATEST_VERSION.tar.gz
$ cd discov*
$ sudo yum install *malloc*

如果没有上一步,则在make过程中会提示错误“/usr/bin/ld: cannot find -ljemalloc”


$ ./configure --prefix=/opt/biosoft/discovarDenovo && make -j 4 && make install
$ echo 'export MALLOC_PER_THREAD=1' >> ~/.bashrc

上一步设置用于allowing per-threads memory management,能提高计算性能。


$ cd ..
$ rm -rf discov* LATEST_VERSION.tar.gz

3. 软件使用的注意事项

1. 强烈推荐使用 PCR-free protocol library 数据;数据量推荐为 ~60x,略大于或小于该值也是 OK 的。
2. 必须使用 Illumina MiSeq 或 HiSeq 2500 测序仪产生的 >=250 bp 长度的 Paired End 数据,并且首尾 reads 要有重叠。如果 PE 250bp 数据,则 Insert Size 长度要为 400-500 bp(需要注意的是软件的 manual 中可能写成 700bp,这是不对的)。
3. 只能使用一个文库的数据。,不支持输入 mate paired 数据。
4. DISCOVAR de novo (experimental) 能进行基因组的 de novo 组装,支持基因组大小可达 ~3 GB。

3. 软件的使用

3.1 DISCOVAR 的使用

软件的输入文件是 sort 过后的 Bam 文件,一个常用例子:


$ Discovar READS=sample-reads.bam REFERENCE=sample-genome.fasta \
REGIONS='10:30892106-30933760' OUT_HEAD=./discovar-variants/assembly\
TMP=./discovar-variants/tmp

软件常用参数:

READS (String)
由逗号分割的一些 bam 文件,或内容为每行一个bam文件路径的 list 文件。
REGIONS (String)
对指定区域进行分析。多个区域则用逗号分割。区域的写法为 chr:start-sotp。如果 REGIONS=all,则对所有区域进行分析。
TMP (String)
指定临时文件路径
OUT_HEAD (String)
输出文件的前缀路径
NUM_THREADS (unsigned int) default: 0
使用的线程数。
REFERENCE (String)
参考序列 fasta 文件。若提供此文件,则能进行 variant calling,并给出 VCF 文件。

3.2 DISCOVAR de novo (experimental) 的使用

软件的输入文件是 sort 过后的 Bam 文件。程序在运行的时候会使用最大的线程数进行运算。


$ DiscovarExp --help special
#上述命令用来查看软件的详细参数。
$ DiscovarExp READS=sample-reads.bam OUT_DIR=discovarexpOut
#上述是软件的常用命令。同时,软件的参数非常少。
$ ls discovarexpOut/a.final/a.lines.fasta
#查看主要结果。

4. DISCOVAR结果

4.1 结果表现形式

line

图中,每个单独的箭头称为 edge,这些 edges 代表着序列;从起点到终点,有很多种不同的路径,称之为 lines;上图中有 4 个 cells,其中 3 个 cells 有 2 个 paths,有 1 个 cell 有 3 个 paths。
这种 multiple paths 可能表示:杂合位点;染色体变异;难以测序的位点等。

4.2 DISCOVAR 结果文件

生成的结果文件位于 discovar-variants/ 文件夹下,主要的结果文件是:

  • assembly.final.fasta 所有的 edges 序列 (edges overlap by K-1 bases)
  • assembly.final.fasta0 所有的 edges 序列 (without overlaps)
  • assembly.final.dot dot格式的组装
  • assembly.final.variant VCF结果文件

4.3 DISCOVAR de novo 结果文件

生成的结果文件位于 discovarexpOut/a.final/ 文件夹下,主要结果文件有:

  • a.lines.fasta 多个 paths 中仅选择第一个 path,得到的 lines 序列的 fasta 文件。
  • a.lines.efasta 标准的 efasta 文件,有所有的 paths 结果。
  • a.fasta 所有的 edges 序列
  • a.lines 二进制文件
  • a.lines.src 上一个文件的文本形式结果

5. 总结

Discovar 能根据 Illumina 测序数据比对到基因组上的结果来进行基因组 de novo 组装,得到 edges 序列;若在提供了基因组序列的情况下,还能进行 Vaiants calling。

Discovar de novo (experimental) 能根据 Illumina 测序数据比对到基因组上的结果来进行基因组 de novo 组装,得到 edges 序列。相比与前者,还能得到 lines 序列,这是比较完整的序列文件。

原文来自:http://www.chenlianfu.com/?p=2265

avatar

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: