如何在分子水平检测正选择

2012/05/19评论5,286

以下是杨子恒写于2000年的综述，转摘自集百家（http://www.dxyer.cn/tzeng/）。文中标{}的是原文中的英文词。恐翻译有差故而注出；标[]的是原文中参考文献的标号；标<>的是在翻译时加的说明。

Ziheng Yang ＆ Joseph P. Bielawski (2000) Statistical methods for detecting molecular adaptation. Trends in Ecol. Biol. 15(12):496-503

The past few years have seen the development of powerful statistical methods for detecting adaptive molecular evolution. These methods compare synonymous and nonsynonymous substitution rates in protein-coding genes, and regard a nonsynonymous rate elevated above the synonymous rate as evidence for darwinian selection. Numerous cases of molecular adaptation are being identified in various systems from viruses to humans. Although previous analyses averaging rates over sites and time have little power, recent methods designed to detect positive selection at individual sites and lineages have been successful. Here, we summarize recent statistical methods for detecting molecular adaptation, and discuss their limitations and possible improvements.

英文原文下载：http://abacus.gene.ucl.ac.uk/ziheng/pdf/2000YangBielawskiTREEv15p496.pdf

摘要：过去的若干年见证了强有力的统计手段在检测适应的分子进化方面的应用。这些方法比较蛋白编码基因的同义和非同义取代速率，并将非同义速率高于同义速率的情况作为达尔文选择的证据。目前已经在从病毒到人的多种生命系统中鉴定出了大量分子适应的实例。虽然此前的分析因把速率对位点和时间求均值而缺乏说服力，较新的方法针对单个位点和线系而设计，并已取得了成功。本文中我们总结了最近的检测分子适应的统计方法，并讨论其局限和未来可能的改进。

“近来在酶分子上得到有说服力的选择造成的改变的例子非常困难，更不必说发现适应性改变的例子了。”

虽然达尔文的关于自然选择的进化理论在表形特征方面已经被广泛认为是成功的，但是自然选择在分子进化上的重要性长期以来一直存在争议。中性理论认为多数可观测的分子变异，无论种内的多态性还是种间的差异，都是由选择上中性的突变的随机固定造成的。分子水平适应的比较可信的例子并不多见。已经建立了几种针对真实数据的检测中性的方法，虽然它们能很充分地从大量基因中排除严格的中性，但是并不能为达尔文正选择提供足够充分地证据。

关于适应性分子进化最可靠的例子来自对蛋白编码DNA序列上同义和非同义取代速率的比较。这为自然选择的研究提供了很好的蛋白质分子的例子。表一列出了部分例子，参见Hughes对其中很多研究的细节描述。这里我们总结了较新的增加对分子水平适应进化的检测能力的方法学上的进展。并且检查了他们的优缺点，这样他们能被用来检测更多类型的分子适应。

用非同义／同义速率比例测量选择

传统来说，同义和非同意取代速率（框壹）的定义是，基于两条DNA序列比较的背景，用ds和dn作为每个位点上同义和非同义取代的数目[5]。这样，比值omega＝dn/ds就度量了两种速率之间的差距，并且成为编码取代模型的数学描述中最容易理解的一种（框贰）。如果一个氨基酸改变是中性的，它将被与同义突变相同的速率被固定，omega＝1。如果是一个有害的氨基酸改变，纯化选择（box 1）将消除它的固定速率，此时omega<1。只有当这个氨基酸改变提供了一个选择优势时，它才会被以高于同义突变的速度固定，omega>1。这样，一个显著大于1的omega比值成为可靠的分歧选择{diversifying selection}<所谓分歧选择和正选择是一回事，而纯化选择则是负选择的另一种叫法，下文会提到>的证据。

基于编码的分析（框贰）不能推论同义取代是被选择驱动还是突变驱动<这里的突变是指随机突变>，但是它不能假定同义取代是中性的。例如，较高的密码子使用偏好既可能是选择的作用（例如，翻译效率[6]）也可能是突变的作用，并能极大地影响同义取代速率。然而，通过引入参数pai_j作为此模型中密码子j的参数（框贰）。取代速率的估计将可以完整地解释编码使用偏好（框壹）而不必考虑其来源。因为参数omega是一个蛋白质分子上选择压力的度量，他把编码倾向分析与其他基于群体遗传假定之上的更通用的中性检测区别开来[7,8]。这些通用的检测通常无法决定偏离严格中性模型的原因，例如群体大小的改变，环境波动或不同的选择模式。

估计两条序列的dn和ds值

两类方法已经被建议来估计dn和ds值，在两条编码蛋白序列之间。第一类方法包括超过一打的直观方法，多是1980年代初期以来开发的[5,9-15]。这些方法涉及以下步骤：统计两条序列上的同义（S）和非同义（N）位点，统计两条序列的同义和非同义差异，并针对同一位点的多次取代进行纠错。S和N被定义为序列长度乘以蛋白质承受选择前同义和非同义改变的比例。多数这类方法采取的是核苷酸取代过程的简化假设，并引入了对数据的不可被纠正的ad hoc处理。因此，我们把这类评估dn和ds的方法称为近似方法。Miyata和Yasunaga[5]，以及 Nei和Gojobori[9]，假设了相等的转换速率（T－C和A－G）和颠换速率（TC－AG），以及统一的密码子使用。由于转换在第三位“摆动”位置上比颠换更可能是同义的，所以忽略转/颠换速率比例会导致低估S和高估N[10]。已有很多工作努力在统计位点和差异时整合这种转/颠换速率偏好（框壹）[10-14]。密码子使用偏好的效果在很大程度上被忽略了。然后，极端的密码使用偏好可以对dn和ds的估计产生毁灭性的影响[15,18]。最近，一种ad hoc方法可以同时整和转换和密码使用偏好的问题[15]。

第二类方法是基于明确的编码取代模型的最大似然方法（框贰）[16,19]。模型中的参数（例如，序列分析的t参数，转颠换速率比例的K参数，以及dn/ds 比值的omega参数）来自对数据的最大似然估计，并按照其定义用于计算dn和ds的值[15,16,20]。一个主要的特征是这个模型的公式建立是基于同时速率水平的（其中不可能有多重改变），并且概率理论用一步就完成了所有困难的工作：估计诸如k这样的突变参数；校正多重匹配，密码子改变的加权，等等。

统计检测可以检测出是否dn是显著高于ds的。对于近似方法来说，正态近似被应用于dn-ds。对于最大似然方法来说，可以使用似然比例检测。在这种情况下，null模型的omega值固定为1，而备择模型估计omega为自由参数。两个模型间的对数似然差异的两倍，被用一个自由度的卡方分布来比较，以此检测是否omega不等于1。

计算模拟被用来检查差异估计方法的好坏。其结果对真实数据的观察值是稳定的[14,15,19]。我们在对人和猩猩alpha－2 球蛋白基因分析中，用不同估计过程证实了这一结果（表2）。在比较中，最大似然法中各种不同的假定都是关注于转颠换速率偏好和编码偏好的。和复杂的模型相比，仅仅只考虑转颠速率或只考虑密码子偏好的简单模型都经不住似然率检验，因而被放弃{reject}了。这样，根据ML法解释这两种偏好的估计（模型8，表2）显然可以期望将是最可靠的了。我们作出了如下观察：

*假设比方法更重要。在相似的假定下近似方法和ML方法得到相似的结果。如果都使用忽略转颠换偏好和密码使用偏好的预设模型，Nei和Gojobori的方法与ML法会得到类似的结果（模型1，表2）。而当使用考虑转颠换偏好而忽略密码使用偏好的模型时，Ina和Li的方法亦得到和ML法相似的结果（模型2，表2）。当同时考虑两种偏好时，Yang和Nielsen的方法[15]与ML法得到相似的结果（模型6，表2）。然而，对亲源关系较远的序列，近似方法中的ad hoc处理会导致严重的偏离，即使使用了正确的假定也不能避免。

*忽略转颠换速率偏好会导致S的低估，ds的高估，以及omega的低估[10]。

*在这些数据中的编码使用偏好有相反的倾向。忽略密码使用偏好导致高估S，低估ds和高估omega。设想这个基因有极高的GC含量在第三位密码子上，T占9％，C占52％，A占1％，G占37％。绝大多数第三位密码子上的改变（即发生在氨基酸水平选择之前的改变）是C和G之间的转换。这样，同义位点的数目就比频率相等情况下的期望值少一半。虽然，理论上说，这种由非平均密码子频率造成的偏好可能会在相反的方向上[15]，我们还没有遇到一个真实的基因是这样的情况。这样，在检测沉默位点上的GC含量和ds间关系时，密码使用偏好就可以误导之前所做的那些分析的结果[21]。

*因为那些分析在估计ds时忽略了密码子使用偏好。即使对高度相似的序列，不同的方法也会产生不同的估计值。表2中使用的序列只有大约10％的沉默位点差异和小于1％的非同义位点差异。然而，对omega的估计值有三倍的差距。这是因为所有的估计过程都是把所有的位点数目区分成同义和非同义两类，对一类的低估必然造成对另一类的高估，因而会产生omega比值的较大误差。

发表评论