基因组装配新前沿：长片段完成完整的基因组

2012/07/16评论3,826

PacBio®长读序为基因组完成带来了新变革。资深基因组装配专家开发的错误校正软件使科学家能在其短读取数据中添加长读序数据，最终将那些未完成的基因组补全。

在过去的十年，基因组装配让一些科学家渴望转向新的挑战，但Michael Schatz却不同，他认为近来创新测序技术的长读序为这一领域带来了新的生命力。“基因组装配的前沿发展迅速，”他说。“这正是基因组测序激动人心的时刻。”

Schatz是冷泉港实验室的助理教授，在国家生物防卫分析和对策中心的Adam Phillippy 和 Sergey Koren领导的基因组装配项目中做出了卓越贡献。他们的目标是应用PacBio®RS测序仪生成的长读序显著提高基因组装配的质量，甚至直接将读序装配成高质量的完成基因组。他们的研究成果发表在2012年7月1日的Nature Biotechnology杂志上。

Phillippy和Schatz从事了十余年基因组装配，Schatz回忆起他们在基因组研究所进行细菌基因组装配项目时的情形，“那时要完成基因组装配的最后一步，补全每一个缺口，极其昂贵。”

那还是Sanger测序的时代，Sanger测序被认为是高质量基因组装配的基础金标方法。几年后短读序测序技术开始流行，Schatz及其同事发现随着contigs重叠群数量、重复、片段倍增的显著增加，要准确装配基因组反而变得更加困难。从那时起，Phillippy、Koren and Schatz就开始致力于需求昂贵的Sanger测序以外的方法，来获得高质量的基因组装配。

“我们非常兴奋，这一技术能解决我们数年来面临的许多困难”

当他们听说Pacific Biosciences公司将推出长读序的测序平台，“我们非常兴奋，这一技术能解决我们数年来面临的许多困难，”Schatz说。

和其他新测序技术一样，PacBio SMRT®测序方法意味着科学家们需要学习如何对数据进行评估和应用。该测序技术的单分子特性所得初始读取的错误率较高。

短读序测序仪将许多序列重合在一起只报告检出一致的碱基，从而提高单次读序的准确性，Phillippy、Koren和Schatz相信也能以同样的方式优化PacBio的读取。他们决定对Celera®装配程序进行升级来适应新型数据，并在这一过程中意识到长读序数据的确是获得更清晰的高质量基因组装配的良机。

研究团队的主要突破是开发出了一种错误校正方法，该方法利用PacBio RS测序仪的长读序优势，混入精确度高的短读取数据，然后通过Celera Assembler软件进行处理，生成高质量的基因组装配。“我们开发的软件结合了多方优势，处理数据非常完美。”Schatz说。“几乎完全补偿了明显较高的初始错误率。”这篇发表在Nature Biotech杂志的文章显示，通过这一方法，读取精确性达到了99.9%以上，并且contig的平均长度是短读序技术的两倍。

“研究团队在多种生物的基因组测序中证明了该方法的有效性，从简单的微生物到高等真核生物，‘这一方法十分有效’”

长读序的优势

Phillippy、Koren和Schatz坚信长读序技术是高质量基因组装配的关键，这在某种程度上与科学界的趋势背道而驰。使用短读序测序仪的大多数科学家只是简单的通过他们的平台获取更高的覆盖度，以期改善其感兴趣的生物基因组的装配。

那为何Phillippy、Koren和Schatz不采取同样的措施呢？他们深厚的基因组装配背景告诉大家，这样不可行。“我们知道短读取的信息不够，”Schatz说。“如果我们能从长读序中提取信息，我们就能确定能够做出好的装配。”

这些科学家知道长读序对于基因组装配是关键的，而短读序测序仪永远无法将读长提高到数千碱基。“我对合成测序技术感兴趣的原因就在于它的反应能达到10,000个碱基长，而化学过程是无法维持这么多循环的，”Schatz说。“要得到长读序，就只能使用单分子测序。”

而单分子测序存在的问题就是该技术固有特性会使初始数据错误率高，Schatz补充道。“由于我们一次检测一个单分子，这一过程中就会遇到各种各样的错误，”相比之下，短读序测序系统采用多个序列的一致序列，掩盖了单个错误，这些系统不会报告单分子错误率。

单分子测序技术特别有利的一点在于，一些短读序测序平台生成的数据带有系统误差，而PacBio数据的误差是随机性的。而对于信息学专家来说，随机误差可以通过算法来识别并校正，而系统误差则不能。

Schatz还强调，单分子测序还具有基因组装配以外的优势。在他们的文章中，Phillippy和Koren对其合作者联合基因组研究所的Zhong Wang生成的玉米转录组数据进行了初步分析。Schatz说，“在这项工作中，我们并不是尝试推断选择性剪切，而是直接读取了选择性剪切的位点。而没有单分子测序技术这就无法实现。”错误修正软件，使此前无法实现的应用成为可能。

软件的开发

这一项目的研究团队成立于多年以前：Phillippy、Koren和Schatz都是马里兰大学Steven Salzberg和Mihai Pop的学生，同时也是TIGR和JCVI研究所的同事。研究团队还包括，以鹦鹉作为语言发育研究模型的共同作者Erich Jarvis，以及JCVI的Brian Walenz。

在为PacBio数据开发纠错工具的过程中，科学家对几种长读序校正方法进行了评估。研究人员评估其中的一个变量是时间点，即何时进行错误校正。“一个常用策略是先只对Illumina只是短片段的数据进行装配，然后比对PacBio读序，我们称之为混合搭建技术，”Schatz说。“将PacBio长读序与Illumina的重叠群进行比对能有效对长读序的错误进行校正。”

但这种方法并没有达到Phillippy和Schatz的预期效果。“我们发现如果在短读序装配中存在任何问题——例如重复序列重叠collapsed、存在嵌合contigs或者装配出许多分散的片段——就很难有效应用那些长读序，”Schatz说。“这使我们转而致力于提前进行错误校正。”

的确，最终的方法需要先将短读序定位到PacBio长读序上，然后用校正过的读序进行装配。事实证明要有效将短读序定位到长读序上也是一个挑战，“我们最终使用了一种较为强力的方法，采用非常短而精确的配对，”Schatz说。“我们通过改进Celera Assembler做到了这一点。”

另一个复杂的问题是，当长读序主要由重复序列构成时，如何精确比对短读序。“尤其是当这一重复具有高于99%的一致性时，要正确识别相应短读序并将其定位到长读序上，就相当麻烦。”为了解决这一难题，研究人员对每条短读序最可能的比对序列进行了评估，然后仔细评价比对覆盖度，最终确定最佳配对。 “我们花了很多时间来优化能区分这些重复的最佳算法，”Schatz说。

这一项目的所有代码都是公共资源，能通过SourceForge网站上的Celera Assembler软件取得相关文档。http://wgs-assembler.sourceforge.net.

短读序数据集结号

“这一领域潜伏着PacBio应用的巨大需求”

研究团队评估的另一个变量是哪种短读序用来校正PacBio数据最好，但他们并没有发现强偏向性，Schatz说。“PacBio CCS、Illumina 或者454 生成的读序都能适用。”任何测序平台都适用，不过他推荐用户采用25x到50x的短读序覆盖度，然后加入PacBio长读序的“even moderate 覆盖度”。

这种错误校正方法不仅能为准备进行基因组测序的研究者带来帮助，同样也为长期使用Illumina® 或454®系统进行测序但还未得到高质量基因组装配的研究者带来了福音。结合PacBio长读序数据，能使旧日蒙尘的测序数据产生新的价值。“这一领域潜伏着PacBio应用的巨大需求，” Schatz说。

对于那些有短读序数据并且在对同一生物进行测序的科学家来说，“错误校正方法是一个即用型实用工具，”Schatz说。研究团队在多种生物的基因组测序中证明了该方法的有效性，从简单的细菌到高等真核生物，“都相当有效” Schatz补充道。

“就是这么简单，运行一个命令，软件就能将15%错误率的读取变成完美的数据，”他说。“看到运行前后的差别，效果相当惊人。”

“将细菌染色体组装为单个重叠群，这绝对是你能期望得到的最好结果。”

对于选择性剪切或者宏基因组学研究等更复杂的项目，Schatz建议研究人员与文章作者直接联系，听取能有效调试这一程序的建议。该软件也能用于转录组或宏基因组研究，他说，但SourceForge网站上的这个软件 “实际上是设计并调试用于单个基因组的。”更多信息参见研究团队发表在Nature Biotechnology杂志上的文章，文中包括1.2Gb鹦鹉基因组的de novo重头组装。Schatz强调说，文章中分析的数据是约一年前的，此后PacBio技术的新进展已经改善了基因组的装配。“现在又有了激动人心的新进展，”他说，尤其是Sergey Koren“将细菌染色体组装为单个重叠群，这绝对是你能期望得到的最好结果。”

本文来自：http://www.ebiotrade.com/newsf/2012-7/2012716144519274.htm