合并454和Solexa拼接结果的contig

  • A+
所属分类:Genomics

用454测序得到的序列用newbler拼接的效果最好,而用短序列拼接软件velvet拼接效果很差,所以不能将454的原始reads和Illumina产生的reads合到一起后用velvet进行拼接。在用newbler和velvet分别拼接454和Illumina的reads得到contigs之后,我们就需要将两者的contig再合并起来,得到更好的拼接结果。这里就介绍一个简单易用的软件minimus2。

minimus2是amos拼接软件包里面的一个组件,它的功能就是将两组contig进行合并,延伸contig的长度,减少contig的数量。Amos是A Modular, Open-Source whole genome assembler的缩写,致力于打造成一个拼接软件的基础软件系统。minimus2用的是基于nucmer overlap检测的算法,速度上比Smith-Waterman hash-overlap的算法要快,下面就介绍一下用法。

首先当然是下载amos软件包进行安装,下载地址为:http://sourceforge.net/projects/amos/files/

安装啥的就不说了,根据说明来就行。安装完成之后,minimus2软件位于amos安装文件夹下的bin里面。在运行minimus2之前首先要准备好文件,比如现在有s1.fa和s2.fa两组包含contig的文件,首先要知道里面包含的contig数目,针对fasta格式,用

grep -c "^>" s1.fa s2.fa 命令得到,比如分别为100和200个contig。

然后用cat命令合并到一个文件:

cat s1.fa s2.fa >s1_s2.fa

再用amos里面的另一个软件toAmos转换成Amos格式,这个软件也位于bin文件夹下面

./toAmos -s s1_s2.fa -o s1_s2.afg

这里的-s是指输入的为fasta格式。
然后就可以运行minimus2了

minimus2的运行参数为:

minimus2 prefix \
-D REFCOUNT=n \ # Number of sequences is the first set
-D OVERLAP=n \ # Minimum overlap (Default 40bp)
-D CONSERR=f \ # Maximum consensus error (0..1) (Def 0.06)
-D MINID=n \ # Minimum overlap %id for align. (Def 94)
-D MAXTRIM=n # Maximum sequence trimming length (Def 20bp)

最简单的命令为:

./minimus2 s1_s2 -D REFCOUNT=100

这里只要告诉文件名(不要后缀)和作为参考序列的第一组contig的数目就可以了。会生成一堆以s1_s2开头的文件,其中s1_s2.fasta就是合并之后得到的contig文件。

本文转载自:http://www.dingding.biz

avatar

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: