HGVS规则下的变异命名-蛋白水平变异命名

2015/11/17来源：基因部落评论5,296

HGVS规则下的变异命名专题，不知不觉已经到了最后一期，这一期，分享一下关于蛋白水平的变异命名，本专题的三篇文章看下来，今后的变异命名和变异解读应该可以风雨无阻了。

三个碱基组成一个密码子，翻译成一个氨基酸，碱基的变异可导致不同种类的氨基酸的变化，比如：

一个氨基酸变成另一份氨基酸：错义突变（missense）

一个氨基酸变成终止密码子：无义突变（nonsense）

虽然碱基发生变化，但是编码的氨基酸没有变化：同义突变（silent）

注意这里的中英文对应关系哦，尤其是nonsense和silent。

不同的突变类型，都归于上述的氨基酸的变化。

氨基酸也有类似碱基的突变类型：

置换（Substitution）

变异表示形式（Format）：

“prefix”“amino_acid”“position”“new_amino_acid”

如p.(Arg54Ser)

“prefix” =参考序列 = p.

“amino_acid” =被替换的氨基酸= Arg

“position” =被替换的氨基酸位置= 54

“new_amino_acid” =新的氨基酸 = Ser

NOTE

1. 这里指的是预测的氨基酸的变化，用圆括号表示，没有经过实验验证，如没有经过RNA或蛋白序列验证的情况。

2. 与碱基的变化相同，氨基酸水平的多态性位点亦不能表示为：p.76Ser/Arg，不论是碱基的变化还是氨基酸的变化，都应该以中立客观的方式去描述，一视同仁。

▼举个栗子▼

错义突变：

LRG_199p1:p.Trp24Cys：24位Trp变为Cys

NP_003997.1:p.(Trp24Cys)：24位Trp变为Cys，基于DNA序列推断，无实验证据。

无义突变：

LRG_199p1:p.Trp24Ter(p.Trp24*)：24位的Trp密码子变为终止密码子，此处，终止密码子的表示方法一般用两种：“Ter”/“*”。

同义突变：

NP_003997.1:p.Cys188=：虽然碱基发生了改变，但是所处的188位氨基酸没有发生变化。（同义突变用“=”表示）

起始密码子：

LRG_199p1:p.0：不翻译蛋白质

LRG_199p1:p.?(p.Met1?)：起始密码子丢失，但无法预测是否有蛋白质翻译

形成新的起始密码子：（一般经过了实验验证）

新起始密码子位于原起始密码子的上游（upstream）：

见延伸（Extension）部分

新起始密码子位于原起始密码子的下游（downstream）：

NP_003997.1:p.Leu2_Met124del：这里的位置表示的是由于原起始密码子的变化，原氨基酸序列的前123个氨基酸无法翻译，在原序列的124位产生了新的起始密码子。

注意，此处同样遵循最靠近3’法则。

不确定（uncertain）

NP_003997.1:p.(Gly56Ala^Ser^Cys)：56位Gly不确定变成了Ala 、Ser、Cys这三种中的哪一种氨基酸。

嵌合现象（mosaic）

LRG_199p1:p.Trp24=/Cys：同DNA水平描述，24位原序列氨基酸Trp和改变后的氨基酸Cys同时存在，但不管两种氨基酸的比例如何，都要把与参考序列相同的氨基酸置于第一位。

缺失（deletion）

变异表示形式（Format）：

“prefix”“amino_acid(s)+position(s)_deleted”“del”

如：p.(Cys76_Glu79del)

“prefix” = 参考序列 = p.

“amino_acid(s)+position(s)_deleted”=氨基酸缺失的起始位置 = Cys76_Glu79

“del” = 缺失= del

NOTE

1. 氨基酸的缺失命名规则大部分与DNA水平相似。

2. 同样也遵循最靠近3’端规则。

3. 碱基缺失应优先考虑蛋白水平变异，最常见的为移码变异。

▼举个栗子▼

LRG_199p1:p.Val7del：7位氨基酸缺失

LRG_199p1:p.(Val7del)：预测7位氨基酸缺失，未经过实验验证

p.Gly2_Met46del：参考序列的起始密码子缺失，新的密码子始于参考氨基酸序列的46位

重复（Duplication）

变异表示形式（Format）：

“prefix”“amino_acid(s)+position(s)_duplicated”“dup”

比如：p.(Cys76_Glu79dup)

“prefix” =参考序列 = p.

“amino_acid(s)+position(s)_duplicated” = 重复氨基酸范围位置 = Cys76_Glu79

“dup” =重复= dup

NOTE

1. 氨基酸重复一般规则同DNA水平。

2. 同样遵循最靠近3‘端原则。

▼举个栗子▼

p.Ala3dup：原序列：MetGlyAlaArgSerSerHis，发生该变异后的序列：MetGlyAlaAlaArgSerSerHis

p.(Ala3dup)：同上，但是改变以未经过实验验证。

p.Ala3_Ser5dup：第3到5位的氨基酸发生了一次重复。

p.Ser6dup：原序列：MetGlyAlaArgSerSerHis ，变异后的序列：MetGlyAlaArgSerSerSerHis，遵循最靠近3’端原则，位置为第6位，而不是第5位。

移码突变（Frame shift）

变异表示形式（Format）：

“prefix”“amino_acid”position”new_amino_acid”“fs”“Ter”“position_termination_site”

如：p.(Arg123LysfsTer34)

“prefix” = 参考序列 = p.

“amino_acid” =发生改变的第一个氨基酸 = Arg

“position” = 氨基酸位置=123

“new_amino_acid” = 突变后新的氨基酸 = Lys

“fs” = 移码=fs

“Ter” = 改变的最后一个氨基酸= Ter / *

“position_termination_site” = 最后一个氨基酸的位置= 34

NOTE

1. 移码突变为一种特殊形式的del/ins，但是在描述的时候，不能列出缺失的那一部分的位置和氨基酸。

2. 突变后的第一个氨基酸未必对应DNA水平的突变碱基。

▼举个栗子▼

p.Arg97ProfsTer23

第97位的Arg突变为Pro，后续并发生移码，编码23个氨基酸后终止，该形式也可以写成p.Arg97fs。

p.(Tyr4*)

经过序列预测（有括号），第4位的Tyr突变成了终止密码子。可以对照序列帮助理解，原序列： ATGGATGCATACGAGATGAGG.. ，突变后的序列：ATGGATGCATA\_GTCACG (c.12delC) 。

延伸（Extension）

变异表示形式（Format）：

N端的延伸（N-terminal） “prefix”“Met1”“ext”“position_new_initiation_site”

如：p.Met1ext-5

“prefix” = 参考序列 = p.

“Met1” = 参考起始密码子= Met1

“ext” = 延伸= ext

“position_new_initiation_site” = 突变后往上游延伸的起始密码子位置= -5

C端的延伸（C-terminal）：

“prefix”“Ter_position”“new_amino_acid”“ext”“position_new_termination_site”

如：p.Ter110Glnext*17

“prefix” = 参考序列= p.

“Ter_position” = 参考终止密码子位置= Ter110

“new_amino_acid” = 原终止密码子突变后的编码氨基酸= Gln

“ext” = 延伸=ext

“position_new_termination_site” = 突变后新终止密码子位置= *17

NOTE

延伸也是属于特殊形式的del/ins，或特殊形式的移码突变，在进行变异描述的时候，需要遵循优先权：1）延伸，2）移码突变或del/ins突变。

▼举个栗子▼

p.Met1ext-5

突变后，在5’-UTR区（原起始密码子上游5位）形成了新的起始密码子，该变异也可描述为： p.Met1extMet-5

p.Ter110Glnext*17

注意：该变异也可以描绘为：p.*110Glnext*17，而不能写成：p.Ter110GlnextTer17 ，“Ter17”表示的是17个氨基酸，而不是位置，因此，这里只有用“*”才是正确的。

氨基酸的很多变异类型的命名原则与DNA水平的碱基变异命名原则一致，比如：插入（Insertion）、缺失-插入（Deletion-insertion）、Repeated sequences（重复序列）等。

发表评论