使用MaSuRCA进行基因组组装

68,579

1. MaSuRCA 简介

MaSuRCA(Maryland Super Read Cabog Assembler)基因组组装软件集合了 de Bruijn 和 Overlap-Layout-Consensus 的优点。
文献:Zimin A V, Marçais G, Puiu D, et al. The MaSuRCA genome assembler[J]. Bioinformatics, 2013, 29(21): 2669-2677.

2. MaSuRCA 下载和安装

$ wget wget ftp://ftp.genome.umd.edu/pub/MaSuRCA/MaSuRCA-2.2.1.tar.gz
$ tar zxf MaSuRCA-2.2.1.tar.gz -C /opt/biosoft
$ cd /opt/biosoft/MaSuRCA-2.2.1
$ ./install.sh

3. MaSuRCA 使用

3.1 配置文件准备

将模板配置文件 “/opt/biosoft/MaSuRCA-2.2.1/sr_config_example.txt” 拷贝到当前工作目录,并修改之。此配置文件含有输入文件和参数 的一些信息。内容如下:

# 测序数据的信息。分为 3 种类型:PE JUMP OTHER。每种类型的数据后接 5 列:1)2 个字符的前缀;2)平均插入片段长度;3)插入片段长度标准差;4)fastq(.gz)格式的 reads1; 5)fastq(.gz)格式的 reads2。如果有 jump 数据是 FR 类型,则,则使用 JUMP,但是平均插入片段长度为负数。其它的数据,则必须要转换成 Celera 兼容的 .frg 文件。
DATA
PE= p1 180 20 180_1.fastq 180_2.fastq
PE= p2 500 50 500_1.fastq 500_2.fastq
JUMP= j1 2000 200 2000_1.fastq 2000_2.fastq
JUMP= j2 5000 500 5000_1.fastq 5000_2.fastq
OTHER= file.frg
END
PARAMETERS
# 设置 k-mer size,大小为 25~101,或者为 auto,表示自动计算最优值。
GRAPH_KMER_SIZE=auto
# 如果仅分析 Illumina 数据,则值为 1;如果有 1x 及以上的 454 数据,则设置为 0。
USE_LINKING_MATES=1
# 如果 jumping library 的数据过多,可能会 confuse the assembler,设置此值为 60,则仅使用 60x 左右的 jumping 数据用于基因组组 装。对于细菌基因组,一般设置为 60。如果基因组较大,则设置此值大些。对于一些较大的真核基因组,可以大至 1000。
LIMIT_JUMP_COVERAGE = 60
# Celera Assembler 的参数。如果是 mammals 的基因组,cgwErrorRate的值不能高于 0.15。
CA_PARAMETERS = ovlMerSize=30 cgwErrorRate=0.25 ovlMemory=4GB
# 舍弃频数低于此值的 k-mer。如果覆盖度大于 100,可以设置此值为 2。
KMER_COUNT_THRESHOLD = 1
# 设置使用的线程数。
NUM_THREADS= $NUM_THREADS
# 设置 jellyfish 的 hash size。此值可以设置为 "基因组大小+reads的数目"。
JF_SIZE=100000000
# 设置是否 trim long reads 的 3' homopolymers(e.g. GGGGGGG)。适合于高 GC 含量的基因组。
DO_HOMOPOLYMER_TRIM=0
END

3.2 运行 masurca 和 assemble.sh 进行基因组组装

运行程序 masurca,生成 assemble.sh; 然后运行 assemble.sh 进行组装。

$ /opt/biosoft/MaSuRCA-2.2.1/bin/masurca config.txt
$ ./assemble.sh

3.3 运行中断后继续运行

由于程序出错,或手动终止后,可以终止步骤所生成的文件,在继续运行 masurca ,生成含有后续步骤的 assemble.sh,再继续运行程序。

4. 结果文件

最终的结果文件为 CA/10-gapclose/genome.ctg.fasta 。

原文来自:http://www.chenlianfu.com/?p=2107

 

评论  6  访客  6
    • zh 1

      masurca:未找到命令

      • 514033532 1

        Configuration. To run the assembler, one must first create a configuration file that specifies the location of the executables, data and assembly parameters for the assembler. The installation script will create a sample config file ‘sr_config_example.txt’. Lines starting with a pound sign (‘#’) are comments and ignored. The sample configuration file looks like this.

        masurca configuration.txt 未找到命令

        • 514033532 1

          ~/DNA/zuzhuang/MaSuRCA-2.3.2/bin$ masurca configuration.txt 未找到命令????

          • 123 1

            line 35 是end函数在最后一行,提示end不行;
            runCA OK
            createSuperReadsForDirectory.perl OK
            Error: Modification of a read-only value attempted at masurca line 107, line 35.

              • minky 0

                @ 123 一样的问题,但我这里illumina数据运行没有问题,是454数据用fastqToCA生成frg后运行出现这个错误

              • Harry 0

                ERROR: Failed with signal HUP (1)
                runCA failed.
                gatekeeper failed
                出现这些错误是什么回事

              发表评论

              匿名网友