DNA测序峰图转化成Phred格式

评论3,817

简介

Phred是 phred\phrap 软件包的一部分,phred\phrap 软件包由华盛顿大学分子生物技术学院的 Phil Green 和 Brent Ewing 开发,主要用于学术科研活动。Phred 功能是处理测序仪直接 生成的色谱图,给出相应的碱基和质量值。不同的测序仪会给出不同的色谱文件,Phred 能够识别三种格式的色谱文件,SCF, ABI 和预先处理的 ESD 格式。

碱基的测序质量值 Q 和此碱基出错的概率 Pe 相关。公式:

Q = -10 log10( Pe )

下载

该软件包可以从phrap的的网站申请后免费下载,网站链接:http://www.phrap.org/consed/consed.html#howToGet

安装

1、上传 phred 的压缩包到本地 linux/unix 运算服务器;

2、解压缩:

gzip –d phred-dist-020425.c-acd.tar.gz tar –xvf phred-dist-020425.c-acd.tar

3、查看解压缩后的文件:

DNA测序峰图转化成Phred格式-图片1

4、编译源程序:

在命令行键入 make all

敲入“make >& make.log”,完成 phred 的编译。

敲入“make daev”,完成 phred 程序包中 daev 程序的编译。 编译完成后,可将执行文件 phred、daev 拷到/usr/local/genome/bin 目录下面。

默认是用 cc 编译源代码,如果编译报错的话,很可能是 CC 编译器有问题,可以试一下用 gcc

编译,将 Makefile 文件中 CC= cc 改为 CC=gcc 或用命令:make CC=gcc all

5、设置环境变量

为了以后使用方便,可以把 phred 需要的环境变量设置在用户宿主目录下面的.profile和.bashrc 或.cshrc 文件里面,把配置文件的路径付给 PHRED_PARAMETER_FILE, 例如:

1.C shell,tcsh:

% setenv PHRED_PARAMETER_FILE /usr/local/PhredPar/phredpar.dat

2.sh,bash:

$ HRED_PARAMETER_FILE=/usr/local/PhredPar/phredpar.dat

$ export PHRED_PARAMETER_FILE

注意路径要根据不同用户安装目录的不同做相应的修改,不能照抄这个例子。

phredpar.dat文件内容:

DNA测序峰图转化成Phred格式-图片2

最后两行:

"no_matching_string" unknown unknown unknown end chem_list

如果有如下报错信息,说明环境变量还没有设置成功,需要重新设置环境变量:

FATAL_ERROR: PHRED_PARAMETER_FILE environment variable not set. type `phred -doc' for more information

使用

程序运行命令行:

phred -id <chromat-file-dir> -pd <phd-file-dir> [other options]

键入 phred -help(-h)查看帮助信息:

 

parameterargumentdefaultdescription
-----------------------------------
-if<filename>noneread input filenames from file
-id<dirname>noneread input files from <dirname>
-zd<dirname>pathuncompress program path
-zt<dirname>/usr/tmpuncompress temporary directory
-st<type>fastasequence file type (fasta|xbap)
-snonenofilewrite *.seq sequence file(s)
-s<filename>nofilewrite <filename> sequence file
-sa<filename>noneappend sequence files to <filename>
-sd<dirname>nofilewrite *.seq file(s) to <dirname>
-qt<type>fastaquality file type (fasta|xbap|mix)
-qnonenofilewrite *.qual quality file(s)
-q<filename>nofilewrite <filename> quality file
-qa<filename>noneappend quality files to <filename>
-qd<dirname>nofilewrite *.qual file(s) to <dirname>
-qr<filename>nofilewrite quality report to <filename>
-pnonenofilewrite *.phd.1 file(s)
-p<filename>nofilewrite <filename> phd file
-pd<dirname>nofilewrite *.phd.1 file(s) to <dirname>
-cv<version>2SCF format version (2 or 3)
-cp<precision>maxvalSCF data precision in bytes (1 or 2)
-csnoneno scalealways scale traces in SCF files
-cnonenofilewrite * phred SCF file(s)
-c<filename>nofilewrite <filename> phred SCF file
-cd<dirname>nofilewrite * SCF file(s) to <dirname>
-dnonenofilewrite *.poly poly file(s)
-d<filename>nofilewrite <filename> poly file
-dd<dirname>nofilewrite *.poly file(s) to <dirname>
-raw<seq name>NULLseq name written in output files
-lognologwrite phred.log file
-nocallnonecalldisable basecalling
-trim<enzyme seq>notrimenable auto trim
-trim_alt<enzyme seq>notrimenable alternate auto trim
-trim_cutoff<n>0.05trim_alt error probability
-trim_fastanonenonetrim FASTA bases and qual. values
-trim_scfnonenonetrim SCF bases and qual. values
-trim_phdnonenonetrim base call data in phd files
-trim_outnonenonetrim data in most output files
-nonormnonenormalizedisable trace normalization
-nosplitnonenoneno compressed peak splitting
-nocmpqvnonenoneno compressed peak quality values
-ceilqv<ceiling qv>nonequality value ceiling value
-beg_pred<point>noneset peak prediction start point
-exit_nomatchnonenoneexit immediately for chromats with
unmatchable primerID string
-process_nomatchnonenoneprocess chromats with unmatchable
primerID string using
'__no_matching_string__' entry
-v<n>noneverbose operation <n> = 1 to 63
-tagsnonenot tagslabel common messages with tags
-Vnonenoneshow version
-helpnonenonehelp
-hnonenonehelp
-docnonenoneshow phred documentation

 

For the warning messages `unable to identify chemistry and dye' and `unknown chemistry (...) in chromat ...' please read the phred documentation using the command `phred -doc'.

输入

测序仪产生的峰图文件,可识别:SCF, ABI model 373 and 377 DNA sequencer chromatogram,and MegaBACE ESD chromatograms files

DNA测序峰图转化成Phred格式-图片3

输出

运行过程中的屏幕输出:

chromat_dir/10_A8-9.ab1

chromat_dir/11_A8-9_R.ab1

chromat_dir/15_A8-9.ab1

chromat_dir/21_A8-9.ab1

chromat_dir/22_A8-9.ab1

chromat_dir/23_A8-9.ab1

Warn 输出:

Chromat_dir/10_A8-9.ab1

unknown chemistry (KB_3730_POP7_BDTv3.mob) in chromat tmp/10_A8-9.ab1 add a line of the form "KB_3730_POP7_BDTv3.mob"   <chemistry> <dye type>  <machine type>

to the file phredpar.dat type `phred -doc' for more information

程序的输出结果是文件输出,格式可以是 FASTA 格式,也可以是 XBAP, PHD 格式或 SCF 格式。

 

1.  Phd 文件,用于组装后 consed 查看编辑,名字为<filename>.phd.1

DNA测序峰图转化成Phred格式-图片4

2. Fasta 格式的核酸序列文件

FASTA 头注释行包含修饰信息(序列没有影响),此行有如下格式:

a.  序列名称

b.  phred 读出的碱基数

c. 序列开始部分被修饰掉的碱基数

d.  修饰后余下的碱基数

e.  描述输入文件类型

DNA测序峰图转化成Phred格式-图片5

3.  Fasta 格式的质量文件(和序列文件相对应,给出每个碱基的质量值)

DNA测序峰图转化成Phred格式-图片6

参数

详细的参数列表及说明可以通过键入 phred –doc 查看:

$ phred -doc

输入选项:

-id              输入文件目录

运行选项:

DNA测序峰图转化成Phred格式-图片7

输出选项:

DNA测序峰图转化成Phred格式-图片8

参考文献

1. Ewing B, Green P: Basecalling of automated sequencer traces using phred. II. Error probabilities. Genome Research 8:186-194 (1998).

2. Ewing B, Hillier L, Wendl M, Green P: Basecalling of automated sequencer traces using phred. I. Accuracy assessment. Genome Research 8:175-185 (1998).

发表评论

匿名网友