Tophat+cufflinks 学习笔记

评论15,306

整个分析用TopHat进行比对,比对完成后将比对输出作为cufflinke拼接的输入(单独拼接),将单独拼接的结果使用cuffmerge混合,然后使用cuffdiff做差异,使用r软件包CummeRbund输出差异比大的相关图形。(目前已经改版有点变化)。

Tophat+cufflinks 学习笔记-图片1

现在改动的部分:

Tophat+cufflinks 学习笔记-图片2

Tophat实际上就是bowtie变体,只不过bowtie只能比对DNA,tophat可以比对RNA,简单就是剪掉过内含子的序列。主要是针对可变剪切的比对,用于RNAseq定量分析,一般存在参考的注释信息。

Tophat网址:http://ccb.jhu.edu/software/tophat/index.shtml

需要事先准备的文件有:

参考基因组的fasta文件以及用bowtie建立的index文件

测序数据(fastq)

参考的转录本注释信息(gtf格式)

Usage:

tophat [options]* [reads1_2,...readsN_2] 

for example:

tophat -p 8 -G genes.gtf -o C1_R1_thout genome C1_R1_1.fq C1_R1_2.fq

-p 代表线程

-G 代表转录本注释信息

-o 输出文件夹

--segment-length 25 (将redas分成的最小比对片段)

--segment-mismatches 1 (片段比对错配碱基数)

--library-type (是否链特异性)fr-unstranded

—transcriptome-index (转录本的bowtie-index文件)

比对输出文件:

accepted_hits.bam(比对输出)

junctions.bed

insertions.bed and deletions.bed

################

cufflinks拼接

Usage: cufflinks [options]*

for example:

cufflinks -p 8 -o C1_R1_clout C1_R1_thout/accepted_hits.bam

cufflinks -p 8 -o C1_R2_clout C1_R2_thout/accepted_hits.bam

cufflinks -p 8 -o C1_R3_clout C1_R3_thout/accepted_hits.bam

cufflinks -p 8 -o C2_R1_clout C2_R1_thout/accepted_hits.bam

cufflinks -p 8 -o C2_R2_clout C2_R2_thout/accepted_hits.bam

cufflinks -p 8 -o C2_R3_clout C2_R3_thout/accepted_hits.bam

建立一个文件命名为:assemblies.txt,assemblies.txt内容如下:

./C1_R1_clout/transcripts.gtf

./C2_R2_clout/transcripts.gtf

./C1_R2_clout/transcripts.gtf

./C2_R1_clout/transcripts.gtf

./C1_R3_clout/transcripts.gtf

./C2_R3_clout/transcripts.gtf

运行Cuffmerge:

cuffmerge -g genes.gtf -s genome.fa -p 8 assemblies.txt -o /merged.gtf

输出产生一个GTF文件:merged.gtf

运行Cuffquant

Usage: 

cuffquant [options]*

参数:-o/—output-dir 输出目录,默认为当前目录

输出文件:abundances.cxb

运行Cuffdiff:(计算每个样本基因、转录本的FPKM)

组与组比较:

cuffdiff --use-sample-sheet

sample_sheet.txt内容如下:

sample_id group_label

C1_R1.sam C1

C1_R2.sam C1

C2_R1.sam C2

C2_R2.sam C2

如果两个条件之间比较:-C   

condition_A condition_B

Ctrl Mutant_X

Ctrl Mutant_Y

Ctrl Mutant_Z

名字的命名至少匹配样本名称

以前版本的命令:

cuffdiff -o diff_out -b genome.fa -p 8 –L C1,C2 -u merged_asm/merged.gtf 

            ./C1_R1_thout/accepted_hits.bam, ./C1_R2_thout/accepted_hits.bam,

./C1_R3_thout/ accepted_hits.bam

./C2_R1_thout/accepted_hits.bam,./C2_R3_thout/accepted_hits.bam,./C2_R2_thout/ accepted_hits.bam

(重复用逗号隔开)

原文来自:http://blog.sina.com.cn/s/blog_83f77c940102v7wl.html

发表评论

匿名网友