迄今最详细基因功能图谱内容

评论4,342

迄今最详细基因功能图谱内容

在2001年,人类基因组计划产生了近乎完整的人类DNA。但是,研究人员还希望了解这些GS,CS,和TS是如何利用,控制或组织,比它们少得多的编码区域,造就活生生的人。
今天(9月6日),一个聚集了422位科学家的国际团队,在经过十年的努力后,完成了解析基因组剩余部分(非编码区域)的工作,公布在Nature等多份期刊上。

“基因组已不再是一个空壳了,”新加坡基因组研究院Shyam Prabhakar说(未参与这一研究),“这已经是密密麻麻的生物化学活性的各种分布了。”

GE推出快速而精准的细胞技术分析平台,直接点击索取最新技术资料,有问必答,不容错过>> >>

“几乎每一个核苷酸都与一些这样或那样的功能有关,而我们现在知道它们分布在哪里,如何结合,它们的调控功能是什么,以及更多”,参与这项研究的资深科学家 Tom Gingeras表示。

长期以来,研究人员已经认识到,一些非编码DNA可能具有功能,近期的相关研究也指明了这一点。但同时,人们也相信,这些序列事实上还是垃圾。不过ENCODE项目提出了异议。

研究人员发现,许多人类基因组的非编码部分包含蛋白可以绑定的区域,这将会影响附近和远处的基因表达。其它转录成RNA分子的非编码区从来没有翻译成蛋白。还有一些影响了DNA折叠和包装的方式。总之,这些区域并不是垃圾,据ENCODE的分析,80%的基因组区域具有一定的生化功能。

其余的20%也不是垃圾,该项目的首席分析员Ewan Birney解释说,虽然ENCODE只分析了147种不同类型的细胞,但总数上千。如果还检测其他类型的细胞,功能可能会出现比例分化。“这就像是从80%到100%,”Birney说,“我们真的没有任何多余的大区域DNA。这个‘垃圾’的比喻是没有多大用处。”

这项研究的影响是巨大的,这将重新定义什么是“基因”,也为寻求理解疾病机制,以及基因组是如何在三维空间中工作的,提供了新的线索。“这就是为大家服务的掘金者,” Prabhakar说,“无论是哪个特殊项目,无论研究的哪个基因组片段,都将从ENCODE这个项目中受益。”

当然,还是有很长的路要走,Birney说,“我认为本世纪将会填写清楚所有的细节,”他说,“这种充分集合将是本世纪的科学重点”。

这项研究有几个方面的重要性,它们分别是:

1.数字说话

研究人员已经知道,基因组只有1.5%编码蛋白。ENCODE发现,除此之外还有8.5%的区域编码结合在DNA上的蛋白,用于调控基因转录。而且,因为ENCODE并没有寻找结合在DNA上的每一个可能类型的细胞或每一个可能的蛋白,因此这一数字可能还是保守的。Birney估计基因组总比例中,包含编码蛋白和结合上的蛋白的比例是20%左右。

ENCODE其余部分的功能元件,涵盖了其它类别的序列,这些序列被认为是基本上无功能的,包括内含子。“认为内含子只是用于载重的观点不正确,”Birney说。即使是一些重复的DNA序列——具有自我复制能力,通常被视为寄生虫带入的小DNA序列,也可能具有功能,它们的序列往往能结合蛋白,影响附近的基因活性。也许这些序列在基因组中的散布,代表的不是一个寄生虫的侵袭,而是一种传播调控。“这些寄生虫有时会被被颠覆,”Birney说。

Birney预期,不少人会对这一精确比例(ENCODE预计80%的基因组具有意义)持怀疑态度,但是,“不管你如何切割,我们已经确认一个事实,那就是基因组有比我们所知的存在更多奥秘。”

2.基因里有什么?

关于基因,简单来说就是一条能被翻译成蛋白的DNA序列。但从ENCODE的数据来看,这个定义已经不再有意义。存在很多转录,可能比任何人意识到的都要多,其中一些连接了之前认为无关的两个基因。这意味着,这些基因的边界在扩大,它们之间的间隙缩小或消失。

Gingeras说,这个“间隔区”空间已经缩水了四倍。 “曾经一度被称为X基因的,现在与Y基因融合,”他说。随着这样的界限模糊化,Gingeras认为把一个基因看成是基因组中的特定点,或作为其基本单位的观点,已经不再有意义了。相反,这一定义应该属于RNA转录。“基因组的组成成分是转录,”Gingeras说。 “它们是基本单位,受突变和选择的影响。”

3.新的疾病研究观点

在过去的十年中,遗传学家着手于一个看似源源不断的全基因组关联研究(GWAS),并抛出了一个长长的清单,与不同条件下风险有关的单核苷酸多态性(SNP)位点与。ENCODE研究组则绘制出了所有这些GWAS识别出的SNPs。

研究人员发现,只有12%已知单核苷酸多态性位于蛋白编码区域内。他们还发现,相比于随机SNPs,疾病相关的SNPs有60%以上,可能定位于非编码区域,这些区域经ENCODE识别出功能,尤其是那些启动子和增强子。这表明,许多这些突变都受到不同基因活性的调控,这为了解它们是如何影响我们的疾病风险,提供了许多新鲜的线索。“这是一个虽然不好,但真实的情况,”Birney说。

ENCODE研究人员还发现了疾病相关的SNP位点和特殊DNA分子之间的新关联。例如,他们发现了5个SNPs会增加Crohn病的风险,这能通过一组称为GATA2的转录因子识别,“这不是Crohn病生物学家通过他们的方法发现的,”Birney说。““突然间,我们得到一种疾病和基础生物学之间的一个无偏倚的关联。”

“我们现在正在与许多不同的疾病生物学家,在他们的数据库中寻找”,他补充说,“从某种意义上说,ENCODE是从基因组入手,而GWAS研究工作则是从疾病入手”,到目前为止,该小组已确定了400个这样值得研究的的热点。

4.三维基因组

将基因组描述成一串字母会导致一个常见的误区:这是一个两维的线性实体。实际上,DNA就像一串珍珠,缠绕在称为组蛋白的蛋白上,然后这些复合物以一种精巧的三维方式扭曲,折叠和成环。这样相隔甚远的基因组元件,其实从物理位置来说,是邻居,并可以影响彼此的活动。

Job Dekker,麻省大学医学院一名生物信息学家,利用ENCODE的数据,绘制了三种不同类型细胞中仅仅百分一的基因组这种长距离相互作用,发现超过1000个这样的关联,“我想说,在基因组中,只有三维空间才能令其有意义”Dekker说。能获取ENCODE这些新数据“确实是未来基因组科学家们的难题,”他补充说。

5.数据分享

这些新公布的ENCODE数据庞大,分别在Nature, Genome Biology, 和Genome Research上以30篇中心论文的形式公布,除此之外,Science,Cell也会公布一些二级文章,所有数据都是免费提供的。

印刷版杂志无法承载如此巨大的数据,因此ENCODE研究小组设计了一种新的出版模式。在ENCODE门户网(http://www.encodeproject.org/),读者可以选择13个兴趣项之一,如增强子序列,并按照页面上的指示获得30篇主要论文中的相关内容,“无需把30篇文章全部读完,这样能找到想要读的,”Birney说。

这一研究小组还建立了他们称之为的Virtual Machine,这是一个一个可下载的程序,包括所有ENCODE科学家用以分析数据时的编码。任何研究人员可以下载几乎原始的数据,并在自己的论文中复制任何的分析。这是最根本的透明度。

“为了这些非常集约性的科学项目,必须有一个庞大的数据师来做正确的分析,”Birney说,利用Virtual Machine,“你完全可以一步步重复我们得到的数据。我认为这应该称为未来的标准。”

本文内容供参考:生物通 http://www.ebiotrade.com/newsf/2012-9/201296170651980.htm 和 http://www.ebiotrade.com/newsf/2012-9/201296111017451.htm

更多关于ENCODEDE 信息和相关的文章请参考:

Nature上ENCODE专题:http://www.nature.com/encode/

ENCODE官方网站:http://www.encodeproject.org/

发表评论

匿名网友