Phrap 与Phred使用方法快速入门

2011/12/02评论4,803

本文主要介绍 phred\phrap－基因组的序列装配软件包。Phred 是 phred\phrap 软件包的一部分，主要是用来分析和装配基因组中大片段序列。phred\phrap 软件包由华盛顿大学分子生物技术学院的 Phil Green 和 Brent Ewing 开发，主要用于学术科研活动。Phred 能处理测序仪直接生成的色谱图，并且产生相关的信息。

数据来源（source data）

最主要的数据来源是测序仪生成的峰图（ trace files ）。峰图在计算机上可以用色谱图（chromatograms）表示：（图 1 测序仪生成的色谱图，chromatograms）不同的测序仪会给出不同的色谱文件，Phred 能够识别三种格式的色谱文件，SCF, ABI 和预先处理的 ESD 格式。

（图1 测序仪生成的色谱图，chromatograms）

Phred 参数文件（Phred Parameter File）

使用 phred 首先就得配置化学物质参数文件（Phred Parameter File）。phred\phrap 软件包中 phredpar.dat 文件，就是有关测序仪每个色谱峰所代表的化学物质的参数配置文件。用户可以直接编辑它，需要时也可以加入新的化学物质的描述信息。文件格式如下：

（图 2 Phred 参数文件(Phred Parameter File）的格式）

其中：
1. primer ID 代表：染色物质的 ID 号（编号），此 ID 号应该和色谱中染料的 ID 号一致（如果您不知道如何确定 Primer ID 号，不必担心，Phred 程序会给出提示的）。
2. chemistry 代表发生的化学反应，可供选择的选项有“primer，terminator，unknown”。3. dye 代表染料的类型，有 rhodamine, d-rhodamine, big-dye, energy-transfer, bodipy, unknown 等选项供选择。
4. machine 代表测序仪型号。 phred （版本 0.020425.c ）现在可识别的仪器有：ABI_373_377, ABI_3100, ABI_3700, Beckman_CEQ_2000, LI-COR_4000, andMolDyn_MegaBACE。

phredpar.dat 文件必须放在所有用户均可访问的目录，并且可以通过PHRED_PARAMETER_FILE 环境变量来自定义其存放位置。例如，在 Unix 系统中：export PHRED_PARAMETER_FILE=\usr\local\etc\phredpar.dat在 Windows 系统中：set PHRED_PARAMETER_FILE=\usr\local\etc\phredpar.dat

Phred 输入参数（Phred input parameters）

输入参数表示色谱图文件在计算机里面的路径，有以下两种设置方式：
-id <directory>
## -id 选项表示所有色谱文件的所在目录。
-if <text file>
## -if 选项表示每个色谱文件的绝对路径。

Phred 输出参数（Phred output parameters）

输出参数用来设置输出文件的格式。输出参数分为 base calling, quality, SCF, PHD 和 poly 六大类（每类对应一个选项族），其不同组合能够产生几种完全不同的输出格式。

Base calling 选项族主要是关于输出的 DNA 序列，可供选择的选项有如下几种：
-st <fasta/xbap >
## -st 设定输出文件格式，能被识别的格式有 fasta 和 xbap，默认设置为 fasta 格式。
-s
## -s 在当前目录下创建序列文件，并且沿用色谱图（chromatogram）文件名，贯于.sep 的后缀。
-sd <directory>
## -sd 在指定目录下创建序列文件，并且沿用色谱图（chromatogram）文件名，贯于.seq 的后缀。
-sa <file>
## -sa 创建单个序列文件，包括所有处理过的色谱图（chromatograms）的结果。

Quality 选项族主要是 DNA 序列的测序质量信息输出的相关选项，有如下几种：
-qt <fasta/xbap/mix>
## -qt 各种输出文件格式的测序质量，fasta 选项对应修整过后的 FASTA(trimmed FASTA，在“phred processing options”中设定)格式，xbap 选项对应 XBAP 格式，mix 选项对应未修整过后的 FASTA(untrimmed FASTA，这也是默认的 FASTA 格式)；在设定选项时请参照“phred processing options”中的对应选项。
-q
## -q 在当前目录下创建测序质量文件，并且沿用色谱图（chromatogram）文件名，附加“ .qual ”后缀。
-qd <directory>
## -qd 在指定目录下创建测序质量文件，并且沿用色谱图（chromatogram）文件名，附加“. qual”后缀。
-qa <file>
## -qa 创建单个测序质量文件，包括所有的处理过的色谱图（chromatogram）的结果。
-qr <file>
## -qr 创建一个柱状图文件，统计每一个色谱图（ chromatogram ）中高质量碱基（high quality bases）的数目。

SCF 选项族设置 Phred 产生基于色谱图（chromatogram）SCF 格式的文件，这些文件可以用于那些不能识别 ABI 和 ESD 格式的程序。有如下几种：
-c
## -c 在当前目录下创建 SCF 文件，并且沿用色谱图（chromatogram）文件名。
-cd <directory>
## -cd 在指定目录下创建 SCF 文件，并且沿用色谱图（chromatogram）文件名。
-cp <1/2>
## -cp 编码色谱图（chromatogram）中每个色谱峰值的比特数
-cv <1/2/3>
## -cv 用 SCF1，SCF2 或者 SCF3 格式输出 SCF 文件。
-cs
## -cs 确保色谱图（chromatogram）中最大的峰度值代表 SCF 文件中最高值。

PHD 选项族设置 Phred 程序基于色谱图（chromatogram）产生 PHD 格式的文件，这些文件可供人直接阅读，并且含有 base calling 和 quality（测序质量）的信息。有如下几种：
-p
## -p 在当前目录下创建 PHD 文件，并且沿用色谱图（chromatogram）文件名，附加.phd..l 的后缀。
-pd <directory>
## -pd 在指定目录下创建 PHD 文件，并且沿用色谱图（chromatogram）文件名，附加 .phd..l 的后缀。

poly 选项族设置 Phred 程序产生 poly 文件（ poly files ）。这些文件包含了色谱图（chromatogram）中的每个峰值，可用于检测多态性碱基（polymorphic bases）。有如下几种：
-d
## -d 在当前目录下创建测序质量文件，并且沿用色谱图（chromatogram）文件名，附加 .poly 的后缀。
-dd <directory>
## -dd 在指定目录下创建测序质量文件，并且沿用色谱图（chromatogram）文件名，附加 . poly 的后缀。

其他不能归为上述几类但与输出相关的选项有：
-raw <name>
## -raw 当处理单个文件时，以 name 为标题。
-log
## -log 在当前目录下生成“phred.log”日志文件。
-v <n>
## -v 设置增加输出的冗余(increase verbosity of output by n)。
-tag
## -tag 做一些公共的标记（tag）以便于程序解析文档。
-h
## -h 显示一个简要的帮助。
-doc
## -doc 显示 phred 的全部文档（documentation）。
-V
## -V 显示 phred 的版本信息。

Phred 处理选项（Phred processing options）

Phred 处理选项是为经验丰富的用户提供的，可以改变 phred 的处理流程。可供配置的选项如下：

-nocall
## -nocall 不用 base calling 算法对色谱图（chromatogram）的峰值进行检测，输出的序列是由色谱图（chromatogram）中的峰值直接转换而来，这会影响到一些碱基修整和输出选项（This affects the base trimming and output options）。
-nonorm
## -nonorm 设置 phred 不对色谱图（ chromatogram ）中的峰值进行标准化处理（normalization）。如果进行标准化处理，就会用每个核苷酸信号的中值（medium value）来代替峰值（peak）。这个选项不推荐使用，除非 base calling 算法由于有很多的峰值噪声而失效。
-nosplit
## -nosplit 设置 phred 不对色谱图（chromatogram）中已压缩的峰值进行分割处理。默认情况下，phred 对相连的 G , C 峰（merged CC and GG peaks）进行识别并分割开来。
-nocmpqv
## -nocmpqv 设置 phred 不对色谱图（chromatogram）中的峰值进行压缩处理。默认情况下，phred 会降低相连的 G , C 峰（merged CC and GG peaks）的测序质量分值，因此如果这个打开该选项会影响输出文件中的测序质量。
-ceilqv <value>
## -ceilqv 为每个碱基设定最高的测序质量值，当碱基的测序质量值超过该值时用该值替代。
-beg_pred <position>
## -beg_pred 设定开始进行峰值预测的位置。该位置应该落在一个非常好的区域（region）中，在此区域（region）中每个峰值间的间隔都很均一（even）。
-exit_nomatch
## 如果在 Phred 参数文件（Phred Parameter File）中没发现相对应的 primer ID 则停止执行。
-process _nomatch
## 如果在 Phred 参数文件（Phred Parameter File）中没发现相对应的 primer ID 则搜索 Phred 参数文件（Phred Parameter File）中的“_no_matching_string_”条目并用该条目来识别色谱图中的峰，如果还是没有定义则停止执行。

以下的选项是针对 phred 修整（ trimming）碱基的设定。这些选项在定位高测序质量区（high quality regions）非常有用，并且能裁减掉一些低质量的区域。可供选择的选项如下：

-trim <enzyme sequence>
## -trim 查找并定位色谱图（ chromatogram ）中的高测序质量区（ high quality regions）。如果提供了限制性酶的序列，phred 会从该酶切位点的开始位置开始进行修整，推荐将酶切序列置为空（enzyme sequence 即用空的双引号""）。
-trim_alt <enzyme sequence>
## -trim_alt 同 -trim 一样定位高测序质量区（ high quality regions），不过使用的是“最大分值区域”（“Maximum Score Subsequence”）的算法。推荐使用。“Maximum Score Subsequence”大体思路是将每个碱基的错误概率(由机器提供)减去一个 cutoff（默认的为 0.05），所得的结果再相加直到分值最大为止，可见不一定序列越长就分值越高，关键是看每个碱基的测序质量。
-trim_cutoff <value>
## 在用最大分值区域”（“Maximum Score Subsequence”）的算法时设定一个错误阈值。默认的为 0.05。
-trim_fasta
## 修整后的序列和质量分值写入 FASTA 格式的文件中。
-trim_scf
## 修整后的序列和质量分值写入 SCF 格式的文件中。
-trim_phd
## 修整后的序列和质量分值写入 PHD 格式的文件中。
-trim_out
## 修整后的序列和质量分值写入 FASTA SCF PHD 三种格式的文件中。

phred 的质量分值（Phred quality determination）

为了确定最后的质量分值，phred 分析四种碱基的在色谱图（chromatogram）中的峰
轨迹(trace)，利用各种识别方法尽量识别每个峰轨迹（trace），同时兼顾全局的峰轨迹
（trace）的识别；言下之意就是说可能某个峰轨迹（trace）用某种方法可以很好的识别但如果这造成全局其他的峰轨迹（trace）不能得到很好的识别，这样的方法不可取。选定了某种方法后，这样在保证全局的识别情况下必然会有单个的峰轨迹（trace）被认为是错误的需要校正，这样就可以统计出碱基测序错误的频度，比如说每 100 个碱基就有一个错误。然后就可以用这个错误频度来度量测序的质量了。公式如下：

Q = -10 log₁₀ (P)

公式中的 Q 代表了碱基的测序质量值,P代表每个碱基测序出错的概率。例如，如果每100 个碱基就有一个错误，那么 P＝0.01，这样 Q 就为 20；如果 P＝0.001， Q 为 30。注意当 P 为错误阈值（cutoff，默认为 0.05）时，Q 近似为 13，所以 13 就可用作背景来估计总体的质量值。