用 GMAP/GSNAP软件进行RNA-seq的alignment

来源:生信菜鸟团27,589

软件发表在:http://bioinformatics.oxfordjournals.org/content/26/7/873.abstract

软件的解说ppt :http://www.mi.fu-berlin.de/wiki/pub/ABI/CompMethodsWS11/MHuska_GSNAP.pdf

一个例子:http://qteller.com/RNAseq-analysis-recipe.pdf

一个shell脚本 : https://github.com/vsbuffalo/rna-seq-example

软件的下载地址: http://research-pub.gene.com/gmap/

有研究者认为这个软件的比对效果要比tophat要好,虽然现在已经多出来了非常多的RNA-seq的alignment软件,我还是简单看看这个软件吧,它本来是2005就出来的一个专门比对低通量的est序列,叫GMAP,后来进化成了GSNAP

step1:下载安装GMAP/GSNAP

wget http://research-pub.gene.com/gmap/src/gmap-gsnap-2015-09-21.tar.gz

是一个标准的linux源码程序,安装之前一定要看readme  ,http://research-pub.gene.com/gmap/src/README

解压进去,然后源码安装三部曲,首先 ./configu  然后make 最后make install

会默认安装在 /usr/local/bin 下面,这里需要修改,因为你可能没有 /usr/local/bin 权限,安装到自己的目录,然后把它添加到环境变量!

step2 :准备数据

比对一般都只需要两个数据,一是索引好的参考基因组,另一个是需要比对的测序数据。

但是这个GSNAP,还需要对应的GTF注释文件。

首先需要参考基因组:虽然软件本身提供了一个hg19的参考基因组,并且已经索引好了Human genome, version hg19 (5.5 GB)(http://research-pub.gene.com/gmap/genomes/hg19.tar.gz) ,但是下载很慢,而且不是对所有版本的GSNAP都适用。所以我这里对我自己的参考基因组进行索引。

gmap_build -D ./ -d  my_hg19.fa

然后取ensemble下载hg19的gtf文件。

然后还需要把自己下载的gtf文件也构建索引,需要两个步骤

cat my_hg19.gtf |  ~/software/gmap-2011-10-16/util/gtf_splicesites > my_hg19.splicesites
cat  my_hg19.splicesites |  iit_store -o my_hg19.gtf.index

然后拷贝需要比对的RNA-seq测序文件

step3: 运行程序

就是一步比对而已

gsnap
-D /home/jschnable/gsnap_indexes/
-d arabidopsisv10
–nthreads=50
-B 5
-s  /home/jschnable/gsnap_indexes/arabidopsisv10.iit
-n 2
-Q
–nofails
–format=sam temp.fastq
> results.sam

参数有点多,自己看看说明书吧http://qteller.com/RNAseq-analysis-recipe.pdf 讲的非常详细。

原文来自:http://www.bio-info-trainee.com/1016.html

评论  2  访客  2
    • ssWU 0

      厉害了

      • klts9471 0

        这个软件的操作有问题,请问可以私聊帮我解答一下吗?

      发表评论

      匿名网友