基因组测序永无止境的根本原因

2011/12/291 3,652

1869年瑞士青年学者米歇尔（Johann F. Miescher，1844—1895年）在莱茵河鳟鱼的精子里发现了脱氧核糖核酸分子，即现在大家熟知的DNA。他虽然也曾猜想过DNA可能与遗传有关，但还是倾毕生精力去研究鱼精蛋白。毕竟蛋白质与生命过程的关系已经是当时科学研究的热门。以致1878年恩格斯在《反杜林论》中就写下了至今还基本正确的语句：“生命是蛋白质的存在方式，这种存在方式本质上就在于这些蛋白质的化学组成部分的不断的自我更新。”

然而，DNA和蛋白质究竟谁是遗传信息的携带者，这个问题曾经处于长期争论之中。直到1944年，美国洛克菲勒大学三位学者设计的决定性实验才证明了DNA的作用，推启开新科学时代的大门。

分子生物学时代

1953年发现DNA的双螺旋结构，随之又破译了DNA如何编码蛋白质的“遗传密码”，并且成功地用化学方法测定了一些蛋白质分子的氨基酸排列。当时科学文献中报道的“蛋白质结构”，就是氨基酸的排列顺序，即现在所说蛋白质的“一级序列”，而还不是蛋白质分子的三维空间构造。正是因为知晓了胰岛素的全部氨基酸排列顺序，中国科学家才能够在1960年代初提出并且完成人工全合成胰岛素的重大课题。

DNA是由四种核苷酸单体聚合而成的高分子。通常用A、C、G和T四个字母代表腺苷酸、胞苷酸、鸟苷酸和胸苷酸中不同的碱基，而把DNA写成由四个字母组成的符号序列。DNA序列的长度可以从几百数千到百万，乃至千万个字母。DNA本身的第一个字母D代表“脱氧”，说明在作为核苷酸的组成部分的五碳糖上有一个羟基OH脱去了氧O，只剩下H。没有脱氧的核苷酸聚合成核糖核酸，简单地记为RNA。RNA可以用A、C、G和U四个字母组成的符号序列表示，其中代替T的U是尿苷酸。脱氧核糖核酸DNA和核糖核酸RNA都是一维、不分岔、有方向的高分子。DNA通常以稳定的双链形式存在，两链中的A、T和C、G互相以两个或三个氢键联系配成“碱基对”。单链的RNA往往靠局部配对形成种种二级结构，以增加稳定性和完成特定功能。按照DNA序列产生相应的RNA称为“转录”，相反的过程称为“反转录”。这两种存在于自然界中的过程都在被人类认识和掌握之后，成为实验研究和基因工程的手段。

遗传信息保存在DNA序列里。DNA双螺旋中任何一股的信息含量同另外一股等价，因为可以借助A—T和C—G的配对规则，由一股推算出另一股。然而，两股中编码的基因和调控信号是不同的；位于一股某处的基因，在另一股相应位置上就只是个“影子”。如果某一个基因需要“表达”，首先就要把它转录成一段信使RNA；再把信使RNA送到细胞质里面大量核糖体之一去翻译成蛋白质。核糖体是由许多RNA和蛋白质组成蛋白质工厂。早在1950年代后期，DNA、RNA和蛋白质的关系就被概括成分子生物学的“中心法则”：DNA制造RNA，RNA制造蛋白质。半个多世纪以来，中心法则已经具有更丰富的内容，这里包含了多项获得诺贝尔奖的科学贡献。

蛋白质也是一维、不分岔和具有方向性的高分子。它由20种“单体”即氨基酸，按照DNA中基因编码的顺序聚合而成。可以用20个字母代表各种氨基酸，把蛋白质写成符号序列。

既然提到了“基因”，我们先扼要介绍一下这个重要概念。1860年代，奥地利的修道士孟德尔（Gregor Johann Mendel，1822—1884年）在寺庙的“实验田”里研究豌豆杂交，发现决定许多重要性状的“因子”，是以组合而不是融合的方式遗传给下一代。“因子”一词部分地沿用至今，用来称呼某些具有特定功能的蛋白质，例如转录因子、生长因子等。直到1909年丹麦植物学家约翰森（Wilhelm Johannsen）才制造了“基因”这个新字（英文为gene，丹麦文和德文为gen）来标示一定性状的遗传单元。不久，美国演化生物学家摩尔根（Thomas Hunter Morgan，1866—1945年）从对果蝇遗传的研究中发现，基因线性排列在染色体上，他甚至确定了某些重要基因的位置和它们之间的距离。不过直到1940年代，才确立了DNA作为遗传载体的重要作用。在发现DNA双螺旋结构和破译遗传密码之后的一些年里，基因被理解成DNA中编码蛋白质的那些片段。编码蛋白质的基因要先把信息转录到信使RNA上，再送到细胞里的蛋白质工厂——核糖体里去翻译成蛋白质。

在人类基因组里编码蛋白的基因不到DNA总长度的2%，其余部分除了几种RNA外，很长一段时间里不明白它们的功能何在。在1970年代甚至出现过“垃圾（junk）DNA”的说法。人类基因组草图接近完成测序时，就已经知道DNA的大部分要转录成RNA，但并不都会翻译成蛋白质。21世纪的前10年里，更是发现了许多并不编码蛋白质的RNA和它们的重要功能。因此，现在基因一词既指编码蛋白质的基因，也包含非编码的RNA基因。只要转录成RNA，一个基因就算是“表达”了，不必非翻译成蛋白质不可。编码一个生物体内全部遗传信息的DNA称为基因组。一个基因组里编码的全部蛋白质，构成其蛋白质组；蛋白质组一词有时也用来称呼某个特定组织或器官里全部蛋白质的集合。一个细胞里转录或表达出来的全部RNA，称为表达组或转录组。基因组、蛋白质组、转录组，是当前各种“组学”（-omics）中最重要和最早出现的名字。

无论用4个字母表示DNA的化学组成，还是用20个字母写出蛋白质的一级序列，都是“粗粒化”描述。其实人类研究自然现象时，不可能“眉毛胡子一把抓”，同时关注发生在大大小小各种尺度上的现象，而必须瞄准一个主要尺度。这时，更微小的细节被略而不计，更大的环境则成为某种背景。当我们用字母C代表胞苷酸时，已经看不见其中10个碳原子以及其他多个氧、氮、氢等原子的互相连接方式。有时候，连在某个碳原子上的氢原子（H），被换成了甲基（CH3），这叫做“甲基化”。使用4个字母写出来的DNA符号序列，反映不出那些胞苷酸被甲基化了。甲基化是在使用4个字母的粗粒化水平上看不到的一种细节。

测定DNA序列的有效方法发明得比测定蛋白质中的氨基酸顺序晚了20多年。1977年在《美国科学院院报》这同一份期刊上，先后发表了两种测定DNA分子里核苷酸顺序的方法。两篇文章的主要作者桑格（F. Sanger）和吉尔伯特（W. Gilbert）在1980年分享了半个诺贝尔奖。在这些方法，特别是桑格方法的基础上，人们研制出第一批自动测序设备。从此人类开始有可能测定一个生物体的全部遗传密码，虽然进一步解读这些密码仍然是对当代科学研究的长期挑战。从1977到1995年的18年间，人们测定了近千个“完全”基因组，不过那全是病毒和噬菌体（细菌的“病毒”）这类寄生生物的基因组。1995年第一次发表了两个独立生活的细菌的基因组，它们是流感嗜血菌和生殖道支原体。顾名思义，这两个细菌都是生活在其他生物体里面的寄生生物。那为什么还说它们是独立生活的细菌？

“独立生活”有明确的定义。一个生物体为了维持生命和繁衍后代，需要不断地合成各种核苷酸和氨基酸分子，以及由这些“小”分子聚合而成的生物大分子：DNA和蛋白质。如果这些合成工作都是在这个生物体自己的细胞里完成的，那它就是独立生活着。病毒或噬菌体只拥有自己的遗传密码，却没有生产大小生物分子的“工厂”。它们入侵宿主之后，强迫宿主的生物化学工厂按照自己的“图纸”去生产，制造出下一代病毒或噬菌体。有些寄生在其他宿主中的细菌，可能与宿主之间有着复杂的共演化甚至部分“共生”的关系。不过，根据它是否自己生产基本的生物分子，还是可以判断其生活是否“独立”。

测定出独立生活的生物体的基因组，开始了生物学发展的基因组时代。人类基因组计划的提出和实施，是进入新时代的里程碑。

人类基因组计划

1980年代开始酝酿测定人类基因组的计划。这项大约耗资30亿美元来测定30亿个碱基对的国际计划在1990年正式启动。2000年6月26日美国总统克林顿和英国首相布莱尔同时宣布完成了第一个人类基因组草图。中国在1999年抢登人类基因组计划的末班车，得以作为国际人类基因组计划的正式成员，承担并很好地完成了人类基因组1%的测序任务。人类基因组计划虽然在2003年宣告基本完成，后继和拓广的工作正方兴未艾。从大规模国际合作的以人类DNA多样性为目标的“千人基因组计划”，到沃森（J. D. Watson，DNA双螺旋发现者之一）、文特尔（J. C. Venter，散弹法测序的建议者之一），乃至“炎黄一号”、日本人、韩国人等特定族群代表的全基因组，都已经带来了新的数据和知识。

选择哪些生物来测定它们的基因组，也是“以人为本”或“以人为中心”的。与人类生产、生活、健康、疾病息息相关的物种，以及对于认识自然界有重要作用的生物，都陆续成为测序对象。这里首先是所谓模式生物，如线虫、果蝇、大鼠、小鼠、斑马鱼、拟南芥等的基因组。再有人类的近亲，如黑猩猩、大猩猩等灵长类动物，还有家猪、家犬、马、牛、鸡，农作物如水稻、玉米、高粱、大豆、葡萄、苜蓿、黄瓜，都已经测出了首批基因组。另有不少真菌和原生动物，或有经济意义，或是人畜病原体，也已测定了许多基因组。当然，数量最大的是细菌基因组，将在后面专门叙述。

进入21世纪以来，基因组测序计划的数目真是与日俱增、有增无已。2008年每天平均新增2.5个测序计划，2009年每天平均增加5.7个，而2010年每天增加7个以上新的计划。2011年3月8日，全球已经发表和正在进行的基因组测序计划的总数超过了1万个。到本文定稿的2011年6月30日，已经发表的基因组超过1800个，正在进行的测序计划有8700多个。这里说的都是比较落实和具体的测序计划，还没有包含像1万个脊椎动物基因组、1万个微生物基因组、1000个动植物基因组这类总体性的规划或设想。

为什么要测序这么多生物的基因组呢？能不能“举一反三”，测定少数而了解全部？答复是一个明确而坚决的“不”字。这里有实际需要，有技术进步所提供的可行性，还有更为深层次的原因。

虽然测序成本不断降低，每一个基因组计划都要花钱，都必须寻求经费资助。每一份基因组计划的建议书都必然列举了针对生物、健康、医药、环境、能源等目标的种种理由。然而，笔者确信没有一份建议书指出了最根本的一条理由，那就是现代信息论奠基人香侬（Claude Shannon，1916—2003年）发表在1948年的著名论文中的、看起来平淡无奇而且与生物学似乎毫无关系的第3定理。

信息论定理、生物学“公理”

香侬1948年论文的标题是“通信的数学理论”，它分两部分发表在《贝尔系统技术杂志》第28卷。香侬当时考虑电报信号传输问题，因此讨论0和1两种符号组成的序列。

这篇论文给出了现在广为人知的信息定义。为了说明这个定义，我们需要回顾一下人们试图为信息下定义的历史。这里的困难之一是如何脱离开信息接受者对“信息”的主观评价来客观地给出信息的数量测度。

早在香侬论文发表前20年，哈特雷（Ralph Hartley，1888—1970年）曾在同一个《贝尔系统技术杂志》上给出了第一个客观的信息量定义。假定某个事件有N种概率相同的发生方式，每种发生方式的概率都是p=1/N。在没有接收到任何消息时，接收方掌握的信息量是零。一旦知道了某一个方式发生了，就得到了-log p=log N的信息量。这里取对数，是为了保证独立发生的事件的信息量可以相加。例如，只知道朋友要生孩子时，关于孩子性别的信息量为零。一旦知道生了个女孩，得到的信息量是log 2；如果取以2为底的对数，信息量就是1。

假定有N条符号序列，其中每一条序列的概率并不相同，第i条序列的概率是 pi，那么这个集合所包含的信息量就是每条序列的信息－log pi以概率 pi做权重的“加权平均”：

这个H就是香侬所定义的信息；H又称为不确定性或香侬熵。

香侬的论文里还有几个数学定理。我们把其中的第3定理全文抄录在下面。

任意给定两个数α＞0和δ＞0，总可以找到这样一个N0，使得一切长度N＞N0的序列分成两个集合：

(1)一个集合，其全部成员的总概率小于α；

(2)另一个集合，其每一个成员的概率p都限制在以下范围内;

怎样形象、直观地理解香侬定理的含义呢？我们以DNA序列做具体例子。取一切长度为N的DNA序列来，基于4个字母的这些序列总共有4N条。只要N比较大，4N就是非常巨大的数字。对于小小的细菌基因组，N可能达到几百万，4N已经是“超天文学”数字，更不用说人类基因组N达到30亿。香侬定理告诉我们，这个巨大的序列集合可以粗略地分成两个子集合：一个小集合，其中各条序列的总概率加到一起不超过事先给定的一个正数?缀；一个大集合，其中每条序列的概率虽然可能彼此不同，但是都在由香侬熵H按上式限定的范围之内变化。

这个大集合是最可能遇到的“大路货”的集合。香侬在文章里说，这同如何解释“最可能”没有关系；这是典型序列、随机序列的集合，可以从这个集合中任意抽取一条或多条序列，计算它们的一些统计量，例如每种字母的平均出现次数以及偏离平均值的方差等，所得结果不尽相同，但也相差不多。任何一条序列的统计性质可以大致代表整个集合。

与大集合成为鲜明对照，那个小集合是非典型序列的集合。例如，有一条序列全由字母A组成；这样的序列一共有4条。还有12条“周期”为2的序列，如ACAC…、CACA…等。对这类序列做统计分析没有什么意义，倒是前面的简短文字给出了完整确切的刻画。还可以列举出更复杂的“周期”或“准周期”序列，乃至“混沌”序列等。每一条这样的具体序列的概率都是p=1/N；当N很大时，p是很小的数，小集合中所有序列的概率加在一起也小于香侬定理中的?缀。然而，当N很大时，小小的非典型子集合中的序列数目其实也很多。

从自然界里用粗粒化方式抽提出来的DNA序列和蛋白质序列，在一切同等长度或更长的序列中，究竟属于大的典型序列集合，还是小的非典型序列的集合？这些序列是几十亿年自然界中突变、竞争和选择的结果。笔者不会证明，但是有一种信念：从自然界中抽提出来的生物学符号序列，不是随机序列，而属于同等长度或更长的序列集合中的非典型序列子集合，对它们几乎要一条一条地具体研究。由于不会证明，我们把这个论断称为生物数学的“基本公理”。

这条基本公理说明了统计方法对研究生物学数据的局限性。首先，由于数据量巨大、不完备、包含着实验噪声和测量误差，统计处理是必不可免的第一步。然而，只有超越统计，才能揭示更根本的生物学规律和内在机制。各种数据采矿、知识发掘、关联分析乃至统计预测，使用得当时可以提供一些有益信息，但是很难达到较高的精度，更难深入生物过程的本质。难怪有一篇评论文章，标题就叫做“统计预测的70%路障”。其实，问题不在方法论或数据量，而在于生物现象的具体、特殊和“非典型”性质。超越统计的努力，必然涉及组合学、图论、代数语言学等离散数学方法，在此只能一笔带过。

前面说到，非典型子集合中的序列几乎要一个一个地研究。这“几乎”二字不是随便加上的。为了比较人、大鼠和小鼠的基因组，只要在三个物种中各选一个代表，就可以揭示出基本的差异和共同之处。如果要研究欧洲人群（我们避免使用科学上不确切、政治上可能有害的“人种”一词）和亚洲人群对艾滋病或流行性感冒易感程度的差异，就要分别在所谓高加索人群（泛指欧洲、北非、西亚等）和蒙古人群（泛指东亚、东南亚等地）中选取对象。然而，要研究人类走出非洲的途径和历史，看他们是怎样迁徙到世界各地的，那就要对采样人群做更细致的选择和划分。具体到一个人，在生长和发育的各个阶段、在特定的组织和器官、在不同的生理或病理状态，虽然基因组里的DNA序列基本保持不变，但是DNA转录之后的“修饰”，例如前面提到的“甲基化”，就会有所不同。蛋白质序列产生之后，也会有磷酸化、糖基化等“翻译”后的“修饰”。现在知道，早期的癌症病变，伴随着特定组织细胞内DNA和蛋白质“修饰”的改变。以研究这类修饰为主要任务的学科方向，目前有一个极易发生误导的译名，叫做“表观基因组学”（epigenomics）。这是从1930年代就已经出现的表观遗传学（epigenetics）一词套译过来的。也许叫做“外饰基因组学”会稍好一些。前面提到的“中心法则”在很大程度上基于对细菌的研究成果，加上“外饰基因组学”所带来的新知识，更增加了对现代分子生物学的深入了解。

以上所述，乃是同一性和差异性的辩证关系。科学研究的根本任务，在于揭示反映着共同性和普遍性的自然界的基本规律；然而，没有抽象的共同性和普遍性，它们存在于多样性、差异性、特殊性和个体性之中。多样性和差异性的存在是演化的前提，生物演化和社会进步都是如此。基因组测序永无止境的根本原因，就在于从生物种群到个体的多样性和差异性。

香侬定理描述的是静态情形，它给出宏大的符号序列空间的定性划分。自然界的演化过程是动态行为，在来自地球上现存生物的各种符号序列中残留着演化历史的零散印迹，如何把演化信息从DNA和蛋白质序列中提取出来，也是生物学的重要课题。这里要特别注意物理学和生物学思维方法的巨大差别。物理学比较重视稳恒态、守恒性、能量均分、遍历性。演化是遍历性的破缺，这里没有稳恒、守恒、均分和遍历。演化不是随机过程。然而，某些小概率事件对于生物物种走上显著不同的演化道路却起着决定作用。尽管绝大部分基因组测序计划是为了具体的“功利”目标提出，大量积累的基因组数据却已经有助于认识地球上生物演化过程的整体图像。

生命之树

达尔文在其1859年初版的名著《物种起源》一书临近结尾处有一段话：“……很可能所有在这个地球上生活过的有机体都来自某个生命开始第一次呼吸时的原始形式。”在同一年的9月26日达尔文写给赫胥黎的信里，他明确地表达自己的信念，将来会有一天构造出自然界里主要生物门类的亲缘关系之树。根据从自然界中发掘出来的各种事实和数据来寻求芸芸众生的亲缘关系，构建大自然的“生命之树”，是达尔文以来一代又一代生物学工作者尝试过而且取得了不少进展的课题。在很长时期里，这些研究基于“宏观”观察。然而，早在1965年，鲍林（Linus Pauling，1901—1994年）与合作者就指出，蛋白质不仅是生物功能和结构的载体，而且在蛋白质序列里还保留着演化史的残缺记录，可以靠序列比较提取生物演化的知识。时至今日，基因组和蛋白质组数据大量涌现，构建生命之树的努力有了坚实的分子生物学基础。

对于多细胞的动物和植物，从形态学、解剖学、胚胎学、生理学等种种数据构建的亲缘关系，受到从不同地质时代留存下来的各种化石的检验。从分子数据构建的生命之树，并没有推翻从宏观数据得到的结论，而是支持和细化了过去的主要研究结果。这种宏观与微观的一致性，是物质世界统一性的表现。

然而，生命之树上枝叶最为繁茂的分枝，代表着肉眼无法识别的细菌们。按照现在的认识，细菌分成“古菌”和“真”细菌两大类，统称为原核生物。我们不去理会这些学术细节，仍然以“细菌”一词称呼。细菌是地球上最成功的物种，它们已经存活了30多亿年，它们占据地球上活物质总重量的一半以上。估计地球上生活着的细菌细胞总数达到1030个，而地球总重量不过1028克。这就是说，不管是否适合生命存在，每一克地球物质平均拥有100个以上细菌。事实上，细菌们营造了其他生物赖以生存的环境，它们同真菌一起实现着有机物质的循环再利用。每种植物、每个昆虫，都有与之共生的细菌。我们人类也不例外。每一个人身上的细胞总数大约90%是细菌，剩下的10%才是人自己的细胞。这些细菌只有一部分是病原体，多数是同我们共生互惠的伙伴。其实，共生乃是生物演化的一种高级形式。

测定细菌基因组，最初是为人类基因组计划练兵和探路。人类基因组计划资助测序了大肠杆菌，以及不是细菌而是真菌的酵母的基因组。它们都发表在1996年，比前面提到的流感嗜血菌和生殖道支原体基因组晚了1年。然而，微生物基因组测序的大幕就此拉开。对细菌亲缘关系和分类学做过重要贡献的伊利诺州立大学教授沃斯（Carl C. Woese）在1998年就曾指出：“基因组测序的时代来临了，而基因组学将成为微生物学未来的中心。目前看来，似乎人类基因组才是焦点所在和测序的首要目的。然而，请不要被迷惑。从长远看，真正的回报来自微生物学。”

沃斯这样说是有充分理由的。首先，分子生物学的许多基本知识来自对细菌的研究；其次，细菌无所不在，研究任何生物群体和个体，都离不开与它们共生的细菌集体。在新世纪初，人类基因组草图刚刚完成时，关于“个性化医疗”的宣传强调说，将来必须根据每一个人的基因型处方开药。现在知道，每个人的生理和病理状态不仅同其基因型有关，还取决于与之共生的细菌群体。与人共生的细菌群体的总基因组比人的基因组大百倍乃至千倍，而且因人而异、因时而异、因生活环境而异。然而，多年以来对细菌的研究主要针对那些可以在实验室里分离和培养的菌株，而现在知道可以培养的菌株绝对不到细菌种数的百分之一。最近一些年，人们学会了把特定环境中的整个细菌社会拿来，提取出其中全部DNA序列，一股脑儿进行测序。这就导致了“元基因组学”（metagenomics，也称“宏基因组学”）的迅速发展。前面提到的上万个基因组测序计划中就有数百个元基因组计划，包括人类肠道、特定土壤或植物根部、污水处理系统等各种各样的元基因组。

归根到底，细菌的分类和它们之间的亲缘关系是许多研究和应用的基础。细菌学家伯杰（David H. Bergey，1860—1937年）编写的《伯杰细菌鉴定手册》在1923年初版，成为一切与细菌打交道的实际工作者的必备工具书。这样一套手册应当不断发展和完善。伯杰在有生之年为此建立了一个基金会。《伯杰细菌鉴定手册》在1994年发行了第9版。1980年代出版了针对细菌分类的《伯杰细菌系统学手册》第1版共4卷。进入21世纪，《伯杰细菌鉴定手册》还没有考虑出新版，《伯杰细菌系统学手册》却从2001年开始第2版，预计将在2011年底出齐共5卷。两套手册的出版记录反映了细菌分类和亲缘关系的研究进入了分子水平。当前的任务更是要把分类系统和和亲缘关系都建立在日益增多的细菌基因组数据上。笔者10多年来同一批年轻的合作者共同发展了基于细菌基因组但不进行序列联配（alignment-free）的新方法，构建了在门、纲、目、科、属、种各分类层次上与分类学相当一致的细菌亲缘树，而少数不一致处恰好提示着可能的分类学修正。2011年5月在北京举行了伯杰国际微生物系统学会（BISMiS）的成立大会，笔者应邀报告了基于细菌基因组的生命之树细菌支的研究结果。

基因组测序永无止境

前些年，我国生物学界里曾经有过“测序不是科学”的说法。诚然，那时的测序技术已经成为高度自动和并行的流水线作业。然而，各种成熟的测序方法乃是基于不久前科学研究的成果，新的测序方法的设想和实现更是前沿研究课题。而最重要的事实在于，只有测定了大量DNA片段或整个基因组，许多生物学问题本身才能够提上日程。测序已经成为许多生物学研究课题的起点和基本支撑。具有对比意义的一个事实是，经费情况正在好转的中国科学技术界在使用别人发明创造的基因组测序技术方面并不落后，几乎每一种新的测序设备都立即被中国购买，尽管在这些设备上产生的创新成果并未按比例增加。

当年的国际人类基因组计划，用了约10年时间测定一个人的基因组，每测定一个碱基对的成本大约为1美元。测序技术的迅猛进步，特别是所谓新一代测序设备的发明，使得测定10亿个碱基对的净成本，即不算初步测序后的拼接、注释等人工花销的成本，已经下降到数百美元的量级。人们正向着以1000美元测定一个人的基因组、以10美元测定一个细菌基因组的目标前进。

新一代测序技术能够海量地产生比较短的DNA片段，这同某些原有的技术结合，导致了许多新的实验技术。例如，为了确定基因组里调控信号的所在，发展了染色质免疫共沉淀同DNA芯片技术结合的ChIP-chip方法，现在后半步的芯片测试已经可以改用更直接、更高效的短串测序，因而方法的名称也变成ChIP-seq。类似地，用于测定基因组中甲基化位点的MeDIP-chip方法，也正在变成MeDIP-seq方法。测定一个活细胞中全部被转录出来的RNA序列，即所谓转录组的方法，也可以借助新一代测序技术成为RNA-seq。

迄今为止行之有效的测序技术，都是基于各种测序反应的化学方法。必须要制备相当数量等同的DNA序列样本，才能开始进行测序。扩增原始DNA序列的方法，从利用大肠杆菌中质粒的分子克隆技术，发展到聚合酶连锁反应（PCR）。有些新测序技术就在避免或简化扩增步骤上下功夫，包括正在流行起来的单细胞测序。相形之下，探索基于物理过程的新测序方法，包括针对单个DNA分子的测序技术，具有诱人的前景，但是还要克服许多困难才能成为可以同化学测序方法竞争的手段。

计算技术的进步，在60多年时间里把人类的计算本领提高了13～14个数量级。没有任何其他科学技术领域创造过这样的记录。它注定要改变整个人类的生产和生活方式，包括改写生物学和医学的主要篇章。事实上，基因组测序技术的发展也离不开计算机技术的进步。每一台现代测序设备都是同计算机“共生”的。没有计算机提供的条件，根本不可能产生、储存和分析、消化测序的结果。在不久的将来，测定DNA序列中一个字母的成本就会低于把这个字母存储起来的开支。那时，测定DNA就会变得同现代医院里的验血一样简单易行。当然会因而引发出许多法律和伦理的问题。然而，历史已经一再证明，人类既然有本领做出重大的科学发现和发明，就一定有足够的智慧来限制新发明可能的负面影响，把它最大程度地用来提高全人类的福祉。

分子生物学时代

人类基因组计划

信息论定理、生物学“公理”

生命之树

基因组测序永无止境

发表评论