因为不连续的转录本结构,相对短的片段长度,和测序技术持续增加的通量,高通量RNA-seq数据的准确比对是一个有挑战性且仍未解决的问题。当前可用的RNA-seq比对器遭受高比对错误率,低比对速度,片段长度限制和比对偏差。结果:为了比对我们的大量(> 800亿片段)ENCODE转录组RNA-seq数据集,我们基于一种以前未描述的RNA-seq比对算法开发了STAR(Spliced Transcripts Alignments to a Reference,STAR)软件,该算法使用了未压缩后缀阵列中的连续最大可比对种子搜索,接着种子聚类和缝合过程。STAR在比对速度上胜过其他比对器50多倍,在一个普通的12核服务器上,每小时比对5.5亿2 x 76 bp双端片段到人类基因组上,同时改进了比对敏感性和准确性。除了典型剪接的非偏从头检测外,STAR能够发现非典型拼接和嵌合(融合)转录本,并能够比对全长RNA序列。使用逆转录聚合酶链式反应扩增子的罗氏454测序,我们实验上验证了1960个新的基因间剪接点,具有80-90%的准确率,证实了STAR比对策略的高准确性。可用性和实现:STAR被实现为一个单机C++代码。STAR是在GPLv3许可证下发布的免费开源软件。
1:软件参考文献:
STAR: ultrafast universal RNA-seq aligner
2:是因为有了tophat才暗淡了这个比对软件,但是后来者居上。个人觉得 STAR比对软件要好于tophat,而且后者的分析结果兼容前者。这个可是ENCODE计划御用的。好处不多说,看一下具体用法。
3:STAR的比对分析基本上可以分为两步:一是genomeGenerate(类似于tophat的index);二是:序列比对
4:关于第一步genomeGenerate运行一次就可以了:
STAR --runMode genomeGenerate --runThreadN 10 --genomeFastaFiles /home/share/genome/Homo_sapiens/UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa --sjdbGTFfile /home/share/genome/Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf --sjdbOverhang 89
—runMode:运行程序模式,默认是比对,所以第一步这个参数设置很关键
—runThreadN: 运行的线程数
—genomeDir: 这个参数很重要,是存放你声称index文件路径,需要你事先建立一个有可读写权限的文件夹
—genomeFastaFiles 基因组fasta格式文件
—sjdbGTFfile GTF注释文件
—sjdbOverhang 这个值为你测序read的长度减1,是在注释可变剪切序列的时候使用的最大长度值
5:运行比对
STAR不但可以进行比对,还可以输出可变剪切,转录本融合,以及控制输出格式为SAM或者BAM,并对输出的BAM可进行选择性排序输出。最主要在比对的过程中还提供了ENCODE的比对参数。
STAR --runThreadN 20 --readFilesIn /home/fanyc/RNA-seq/raw_data/SRR993723.sra_1.fastq /home/fanyc/RNA-seq/raw_data/SRR993723.sra_2.fastq --quantMode TranscriptomeSAM --outSAMtype BAM SortedByCoordinate --outFileNamePrefix /home/fanyc/RNA-seq/STAR/23 --outFilterType BySJout --outFilterMultimapNmax 20 --alignSJoverhangMin 8 --alignSJDBoverhangMin 1 --outFilterMismatchNmax 999 --outFilterMismatchNoverLmax 0.04 --alignIntronMin 20 --alignIntronMax 1000000 --alignMatesGapMax 1000000 --chimSegmentMin 20
上面结合了ENCODE的参数,同时又加上了比对输出为BAM格式,并对BAM格式进行排序。另外输出可变剪切,以及转录本融合的结果。
—readFilesIn 输出的原始测序数据
--outSAMtype BAM SortedByCoordinate 输出格式为BAM并排序
--chimSegmentMin 20 输出融合转录本,20代表比对的最短的碱基数目
--outFileNamePrefix
输出文件的前缀 --quantMode TranscriptomeSAM
转录本定量
6:生成的文件:
Chimeric.out.junction
融合转录本 Aligned.sortedByCoord.out.bam
比对输出 Aligned.toTranscriptome.out.bam 转录本比对输出
SJ.out.tab 可变剪切结果输出
注:对于以上结果的解读可参考STAR的说明文档。