HGVS规则下的变异命名-蛋白水平变异命名

来源:基因部落评论4,650

HGVS规则下的变异命名专题,不知不觉已经到了最后一期,这一期,分享一下关于蛋白水平的变异命名,本专题的三篇文章看下来,今后的变异命名和变异解读应该可以风雨无阻了。

HGVS规则下的变异命名-蛋白水平变异命名

三个碱基组成一个密码子,翻译成一个氨基酸,碱基的变异可导致不同种类的氨基酸的变化,比如:

一个氨基酸变成另一份氨基酸:错义突变(missense)

一个氨基酸变成终止密码子:无义突变(nonsense)

虽然碱基发生变化,但是编码的氨基酸没有变化:同义突变(silent)

注意这里的中英文对应关系哦,尤其是nonsense和silent。

不同的突变类型,都归于上述的氨基酸的变化。

氨基酸也有类似碱基的突变类型:

置换(Substitution)

变异表示形式(Format)

“prefix”“amino_acid”“position”“new_amino_acid”

如p.(Arg54Ser)

“prefix” =参考序列 = p.

“amino_acid” =被替换的氨基酸= Arg

“position” =被替换的氨基酸位置= 54

“new_amino_acid” =新的氨基酸 = Ser

NOTE

1.    这里指的是预测的氨基酸的变化,用圆括号表示,没有经过实验验证,如没有经过RNA或蛋白序列验证的情况。

2.    与碱基的变化相同,氨基酸水平的多态性位点亦不能表示为:p.76Ser/Arg,不论是碱基的变化还是氨基酸的变化,都应该以中立客观的方式去描述,一视同仁。

▼举个栗子▼

错义突变:

LRG_199p1:p.Trp24Cys:24位Trp变为Cys

NP_003997.1:p.(Trp24Cys):24位Trp变为Cys,基于DNA序列推断,无实验证据。

无义突变:

LRG_199p1:p.Trp24Ter(p.Trp24*):24位的Trp密码子变为终止密码子,此处,终止密码子的表示方法一般用两种:“Ter”/“*”。

同义突变:

NP_003997.1:p.Cys188=虽然碱基发生了改变,但是所处的188位氨基酸没有发生变化。(同义突变用“=”表示)

起始密码子:

LRG_199p1:p.0:不翻译蛋白质

LRG_199p1:p.?(p.Met1?)起始密码子丢失,但无法预测是否有蛋白质翻译

形成新的起始密码子:(一般经过了实验验证)

新起始密码子位于原起始密码子的上游(upstream)

见延伸(Extension)部分

新起始密码子位于原起始密码子的下游(downstream):

NP_003997.1:p.Leu2_Met124del这里的位置表示的是由于原起始密码子的变化,原氨基酸序列的前123个氨基酸无法翻译,在原序列的124位产生了新的起始密码子。

注意,此处同样遵循最靠近3’法则。

不确定(uncertain)

NP_003997.1:p.(Gly56Ala^Ser^Cys)56位Gly不确定变成了Ala 、Ser、Cys这三种中的哪一种氨基酸。

嵌合现象(mosaic)

LRG_199p1:p.Trp24=/Cys同DNA水平描述,24位原序列氨基酸Trp和改变后的氨基酸Cys同时存在,但不管两种氨基酸的比例如何,都要把与参考序列相同的氨基酸置于第一位。

缺失(deletion)

变异表示形式(Format):

“prefix”“amino_acid(s)+position(s)_deleted”“del”

如:p.(Cys76_Glu79del)

“prefix” = 参考序列 = p.

“amino_acid(s)+position(s)_deleted”=氨基酸缺失的起始位置 = Cys76_Glu79

“del” = 缺失= del

NOTE

1. 氨基酸的缺失命名规则大部分与DNA水平相似。

2. 同样也遵循最靠近3’端规则。

3. 碱基缺失应优先考虑蛋白水平变异,最常见的为移码变异。

▼举个栗子▼

LRG_199p1:p.Val7del7位氨基酸缺失

LRG_199p1:p.(Val7del):预测7位氨基酸缺失,未经过实验验证

p.Gly2_Met46del参考序列的起始密码子缺失,新的密码子始于参考氨基酸序列的46位

重复(Duplication)

变异表示形式(Format):

“prefix”“amino_acid(s)+position(s)_duplicated”“dup”

比如:p.(Cys76_Glu79dup)

“prefix” =参考序列 = p.

“amino_acid(s)+position(s)_duplicated” = 重复氨基酸范围位置 = Cys76_Glu79

“dup” =重复= dup

NOTE

1. 氨基酸重复一般规则同DNA水平。

2. 同样遵循最靠近3‘端原则。

▼举个栗子▼

p.Ala3dup原序列:MetGlyAlaArgSerSerHis,发生该变异后的序列:MetGlyAlaAlaArgSerSerHis

p.(Ala3dup)同上,但是改变以未经过实验验证。

p.Ala3_Ser5dup第3到5位的氨基酸发生了一次重复。

p.Ser6dup原序列:MetGlyAlaArgSerSerHis ,变异后的序列:MetGlyAlaArgSerSerSerHis,遵循最靠近3’端原则,位置为第6位,而不是第5位。

移码突变(Frame shift)

变异表示形式(Format):

“prefix”“amino_acid”position”new_amino_acid”“fs”“Ter”“position_termination_site”

如:p.(Arg123LysfsTer34)

“prefix” = 参考序列 = p.

“amino_acid” =发生改变的第一个氨基酸 = Arg

“position” = 氨基酸位置=123

“new_amino_acid” = 突变后新的氨基酸 = Lys

“fs” = 移码=fs

“Ter” = 改变的最后一个氨基酸= Ter / *

“position_termination_site” = 最后一个氨基酸的位置= 34

NOTE

1. 移码突变为一种特殊形式的del/ins,但是在描述的时候,不能列出缺失的那一部分的位置和氨基酸。

2. 突变后的第一个氨基酸未必对应DNA水平的突变碱基。

▼举个栗子▼

p.Arg97ProfsTer23

第97位的Arg突变为Pro,后续并发生移码,编码23个氨基酸后终止,该形式也可以写成p.Arg97fs。

p.(Tyr4*)

经过序列预测(有括号),第4位的Tyr突变成了终止密码子。可以对照序列帮助理解,原序列: ATGGATGCATACGAGATGAGG.. ,突变后的序列:ATGGATGCATA\_GTCACG (c.12delC) 。

延伸(Extension)

变异表示形式(Format):

N端的延伸(N-terminal)   “prefix”“Met1”“ext”“position_new_initiation_site”

如:p.Met1ext-5

“prefix” = 参考序列 = p.

“Met1” = 参考起始密码子= Met1

“ext” = 延伸= ext

“position_new_initiation_site” = 突变后往上游延伸的起始密码子位置= -5

C端的延伸(C-terminal)

“prefix”“Ter_position”“new_amino_acid”“ext”“position_new_termination_site”

如:p.Ter110Glnext*17

“prefix” = 参考序列= p.

“Ter_position” = 参考终止密码子位置= Ter110

“new_amino_acid” = 原终止密码子突变后的编码氨基酸= Gln

“ext” = 延伸=ext

“position_new_termination_site” = 突变后新终止密码子位置= *17

NOTE

延伸也是属于特殊形式的del/ins,或特殊形式的移码突变,在进行变异描述的时候,需要遵循优先权:1)延伸,2)移码突变或del/ins突变。

▼举个栗子▼

p.Met1ext-5

突变后,在5’-UTR区(原起始密码子上游5位)形成了新的起始密码子,该变异也可描述为: p.Met1extMet-5

p.Ter110Glnext*17

注意:该变异也可以描绘为:p.*110Glnext*17,而不能写成:p.Ter110GlnextTer17 ,“Ter17”表示的是17个氨基酸,而不是位置,因此,这里只有用“*”才是正确的。

氨基酸的很多变异类型的命名原则与DNA水平的碱基变异命名原则一致,比如:插入(Insertion)、缺失-插入(Deletion-insertion)、Repeated sequences(重复序列)等。

发表评论

匿名网友