生物芯片与第二代测序技术丁香园答疑帖精选（下）

2012/06/05评论5,301

生物芯片与第二代测序技术是两种重要的高通量基因组学研究方法，在生命科学研究领域有着极其广泛的应用前景。经过近20年的发展，生物芯片技术逐渐成熟，正在向着 “高密度，灵活定制，微量样品” 的方向发展，从一个实验室技术发展成一个基因组学研究所依赖的，快速产生海量数据的常规手段，正在逐步走向产业化。第二代测序技术是最近几年建立的高通量技术，其特点是一次测序反应可以产生千万到亿条序列，而测序的成本大大降低，到2010年已经进入数千美元测定一个人全基因组的时代。

上海伯豪生物技术有限公司/生物芯片上海国家工程研究中心受丁香园网站邀请，在其论坛发布了生物芯片与第二代测序技术答疑专帖。

以下精选（2010年9月—2011年9月）部分问题，希望能帮助大家解决针对生物芯片及二代测序方面的疑问！

问题1. 如果要对人类的肿瘤组织进行全基因组测序，是进行de novo 还是 Re-Sequence？人类的全基因组测序结果已经公布（千人基因组），但是肿瘤组织每种肿瘤、不同病理类型、不同种族差异很大。

答：对人类样本测序都是Re-Sequence。因为已经有参考序列，在NGS中，参考序列的意义是搭建一个框架，然后NGS得到的数据就可以根据这个框架搭建上去（拼接）。虽然不同的个体，不同的肿瘤组织基因组序列不同，但是框架是一样的。NGS得到的数据依靠框架重新拼接起来，就可以得到各个组织独特的基因组序列。

问题2. 我准备在特定病人群取血，测定血浆/血清中的microRNA,但是之前没有做过这类的试验，并且经过我这几天的资料查询，血浆/血清的miRNA只能做表达谱，但是似乎不能完成功能谱分析，原因可能是量太少，来源不清等问题。现在的问题是：正常人血清中也含有几十种miRNA.如何避免检测这些miRNA,并且据文献报道，血清中的miRNA多以蛋白结合的方式存在，这对提取RNA是否造成了相当的影响？

答：正常人的血清中是含有microRNA，但是我们并不需要避免检测它们。芯片技术发展到现在，已经是高通量，全方面的检测技术了。microRNA芯片可以将目前已知的所有microRNA的表达水平都检测一遍，针对你的样品。将病理组织和正常组织的检测结果相比较，就可以发现病理组织特异表达的microRNA（表达量增加或者降低）。这样的结果还是比较有意义的。另外，RNA纯化方面。您不用担心。像抽提基因组DNA，基因组DNA都是结合核小体的；抽提RNA，核糖体RNA还与核糖体蛋白相结合，mRNA还与RNA聚合酶相结合。结果都抽提的很好啊。

问题3. 用深度测序做染色体重排应该建议采用多长的读段，读段之间的间隔多少为好？测序的深度测多少合适？

答：目前用NGS研究染色体重排一般采用Mate-Pair文库。读段之间的间隔的长度没有标准，要看你想研究的重排片断的大小，用的比较多的应该是2K吧。测序深度至少为30倍。

问题4. 如果我要对一个病人的家系做全基因组测序，以探求其可能的致病基因，应该用什么样的方法比较好？做GWAS都有什么仪器？罗氏454是不是其中一种？

答：GWAS（全基因组连锁分析）是指比较病人群体和正常人群体之间的基因、外显子或SNP差异，从而找到致病基因的技术路线，目前比较流行。您对家系的研究不算GWAS。GWAS是散发型的Case/control的研究，一般样本量大于800例。您对家系的研究，应该算是连锁分析（linkage），需要至少垂直三代的数据。但是比GWAS还是少得多。目前比较病人群体与正常人群体之间的差异，一般有第二代测序（NGS）和生物芯片（microarray）两类。

NGS：基因组重测序（比较基因组差异）；外显子捕获测序（比较外显子编码差异）。

microarray：SNP芯片（比较SNP差异）；CGH芯片（比较基因组结构差异）

你所说的罗氏454是第二代测序的一种，可以用来做连锁分析。但是罗氏454费用较高，一般不推荐。一般推荐ABI SOLiD，因为您的研究对象是人，参考序列良好，而SOLiD测序准确率高。

问题5. 我要研究一个转录因子在肝癌中的作用，使其在肝癌中过表达或低表达后，用芯片筛选出其调控的基因，这样的至少需要几个样本（实验组和对照组各几个）？

答：在你的实验设计中，首先可以确定样本可以分为3组：过表达组（上调），对照组（不做处理），knock down组（下调，低表达）。其次就是确定每组样本分别设立多少个生物学重复。生物学重复设立的意义在于，生物样品之间存在异质性（差异），即使同样类型的细胞，也存在些许的差异，所以要设立一些重复，以消除生物样本之间的些许差异。芯片实验也同样如此。一般设立生物学重复的个数有个原则，就是当重复个数多到一定程度，实验得到数据的CV值（变异系数）趋于稳定时，重复个数（样本量）就差不多了。当然在生物学实验中，由于实验的不易和实验成本的高昂。大家一般都选取3（能做统计分析的最小样本量）做为实验重复次数。在您的实验中，不知道您养的细胞的均一程度如何。anyway，依照惯例，我还是推荐您做3次生物学重复。

问题6. 我在试验上有些困惑，我用的是agilent大鼠4*24K，可做出的芯片，每个片子只有几个点在芯片上染色，也就10%~30%左右，其余大部分都没染上。实验过程每一步都符合要求的。不知问题出在哪。
答：这个问题比较复杂。可能有的原因是：1）样品降解；2）标记没有标记上；3）探针数太少；4）杂交和洗脱的条件是否合适。芯片实验过程中有很多因素会导致您最后的实验结果不好。另外，不知道您是否完全按照Agilent的Protocol来做的，是否做好各步的质控。

问题7. 请教 miRNA芯片服务和LncRNA芯片服务的价格比较简单的技术区别。

答：miRNA芯片和LncRNA芯片实际上是两类相差很大的芯片。 miRNA比较短，因此芯片公司在设计检测miRNA的探针时，在探针头部加了一个发夹结构，整个探针像一个钩子一样。这样能将microRNA前体与成熟的microRNA区分开，提高检测的特异性。而LncRNA比较长，检测LncRNA的探针设计和普通mRNA一样。目前LncRNA的研究还不深入，对于生物芯片之类比较依赖于参考序列的实验技术来讲，LncRNA芯片不是很成熟。因此，如果您是想比较两组样品之间miRNA的差异表达，可以选用microRNA芯片（定量较准）。如果您是想发现新的microRNA，或者对LncRNA进行研究。我建议您使用第二代测序。

问题8. 我的课题要求是这样的：

1、目前该物种已知的miRNA很少，为了发现新miRNA，NGS是肯定要做的，问题在如果用DGE分析则直接对case和control样本进行测序，这样一步到位的拿到序列和表达量的数据；如果DGE不可靠则先用混合样本测序，然后再定制array分别作case和control的表达谱。您如何看这两条思路？

2、另一个方面是mRNA表达谱的问题，目前该物种基因组和芯片的注释均很差，同样面临上述两条思路的纠结，mRNA和miRNA的DGE是否有区别？有无针对mRNA的相关技术手段comparison研究？

答：你的是没有参考序列的物种吗？那样的话，是不能做DGE的。因为所谓DGE，实际上就是测序完毕，然后计算tag数，和SAGE原理一样。没有参考序列的话，就不能计算Tag数了。

按照你的情况，你也不能做microRNA 芯片。因为目前microRNA芯片是不能定制的。你只能拿case和control来做microRNA-Seq，从测序得到的数据中预测一些microRNA出来，然后再验证。

至于mRNA。。。同样的道理。你只能做全转录组测序。至于比较mRNA的差异表达，如果样品数比较少的话，可以把所有的样品都拿去做全转录组测序（RNA-Seq）。如果样品数比较多的化，可以先用混合样品以NGS测表达谱，然后再定制芯片，对单个个体进行分析。

下面的文章就是按照这样的思路做的。先把混合样品用NGS测序，然后定制芯片分析个体。我觉得蛮典型的，可以借鉴一下。J. CRISTOBAL VERA,CHRISTOPHER W. WHEAT,HOWARD W. FESCEMYER,MIKKO J. FRILANDER,DOUGLAS L. CRAWFORD,ILKKA HANSKI AND JAMES H. MARDEN. Rapid transcriptome characterization for a nonmodel organism using 454 pyrosequencing. Molecular Ecology (2008) 17, 1636–1647.

问题9. 最近了解到有些GWAS研究为了节约成本，将大量case和control组DNA分别混合，然后利用pooled DNA进行genotyping，然后计算各位点基因频率，并进行Linkage disequilibrium mapping；目前常用的SNP芯片能开展这种实验么？测定位点基因频率是否是在比较不同等位基因探针荧光强度的基础上实现的？你们能否开展这项实验？你们如何评价这项技术呢？

答：SNP芯片不能开展这样的实验。目前SNP芯片只能用于基因分型，而不能用于定量。目前，将case和control分别混合成为一个pool，用NGS的方法倒是可以计算出SNP频率。但是这样的方法有很多的局限：1、样品复杂。有些样品是组织（包含病理部分和正常组织部分），太多的不同组织混合在一起，会产生很多背景信号，从而将所研究的病理部分信号掩盖掉。2、pool里面，不同来源的样品的量很难一致。这样就导致了pool里面样品量的不均一，对最后结果产生影响。3、频率不准。NGS在构建文库的时候，有个PCR过程，这样会造成最后结果和原始样品中的比例不成线形关系。所以，目前GWAS还是一个样品一个样品的分型的。

问题10. 我想研究某种疾病的易感基因，或者说是疾病的发生是否与基因水平的异常有关，如果较难做到家族分析，又很难得到大量样本，简单的用全基因组芯片测几个病人似乎有不太能说明问题，此时该选用什么方案呢？

答：那是很难的。用全基因组SNP芯片来比较病人和正常人在DNA水平上的差异，会得到很多差异结果，不能将疾病定位于某个基因上。这个时候扩大样本量，能慢慢的缩小目标，这就是GWAS需要很多样本的原因。如果没有大样本，又没有家系，是很难将疾病定位于某个基因上的。除非运气特别好，研究的疾病是由大范围的基因组片段缺失引起的，很容易检测出来的那种。

问题11. 请教楼主几个问题：

1.现在一般测几个bp？主流是多大的，而且保证较低的假阳性率。

2.假阳性率是怎么计算的？

3.不同的样品测到什么深度比较合理？比如细菌和人组织。

4.不同深度的结果能够比较吗？

5.深度测序得到的是绝对拷贝数，那么不同实验室得到的一个定量列表有可比性否？

答：1. 我不清楚您是指需要测多少bp，还是能测多少bp。目前在保证较好数据质量的情况下，三大主流平台，Roche 454 GS FLX Titanium能测450bp；Illumina HiSeq 2000能测100bp（单向）；SOLiD 5500xl能测75bp（单向）。至于需要测多少bp，这样实验目的不同要求也不同。比如microRNA测序，测35bp也足够了；而基因组重测序，那肯定是越长越好。

2. 假阳性率就是数据的保真性，Illunima是这样的，它提供一份已知序列的混合样品，然后测序，和已知数据比较，然后计算假阳性率。在三大平台中，ABI SOLiD的系统准确性最高，最新公布的SOLiD 5500xl的准确性达99.99%

3. 这个也是需要看实验目的。比如检测SNP的全基因组重测序，如果您只想检测到出现频率为25%以上的SNP，那么理论上只要覆盖4次就可以了（4次里面出现一次，就是25%）；但是如果想检测出现概率为1%的SNP，那么就覆盖倍数必须达到100倍（100次里面出现一次）。

4. 如果是基因组结构变异，那么是可以比较的。而其他的，则要视具体情况而定。

5. 那个需要看总的Reads数是否差不多，如果数据量差不多的话，那么定量列表还是差不多的。

问题12. 请比较454和solexa技术的优劣，如果做宏基因组，选用哪种适宜？

答：454的优势在于读长很长，在没有参考序列的情况下，拼接方便。因此很多de novo测序就是用454进行的。但是454的Reads数很少，因此一些需要很高覆盖倍数的应用不推荐454，比如运用高通量测序计算SNP频率。solexa和454相比而言，Reads多，但是读长短。目前solexa最新款的HiSeq 2000官方宣称能单向测100bp，但是在实际应用中，单向能测到150bp。100bp的读长在de novo测序中也勉强能用了，虽然mapping比较麻烦。因此近几年来，也有很多用Solexa进行de novo测序的文章出来。以上的观点仅仅考虑技术。但在实际应用中，也需要考虑使用成本。目前，在第二代测序中，454的成本远比solexa和ABI SOLiD贵，因此454的应用不是很广。

问题13：我们需要做感染组和未感染组细胞的MicroRNA芯片和二代测序（转录组）有几个问题需要请教一下：

1.我们的细胞是模式生物，genome已知，我们想通过二代测序找到所有已知和未知的mRNA和microRNA，看您前面有个帖子说不建议这两者一起测，一般是将microRNA分离单独测，那这样就是算进行了两次测序，价钱也要翻翻，是吧？按照之前您说的三种二代测序仪器的比较，我觉得SOLID比较合适microRNA测序，那如果确实是分开两次测序，需要用一样的仪器么？Solid读长有点短，用来测mRNA好么？

2.二代测序可以直接将感染后高表达、低表达的mRNA、microRNA筛出来，但是我学习之后觉得这应该只是一个高通量的测序技术。可前面战友说的DGE（数字表达谱）又让我觉得困惑了，是不是只有这种方法可以实现差异比较？

答：第一个问题是“想找到所有已知和未知的mRNA和microRNA”。对于这个实验目的，我想目前只有第二代测序才能完成（生物芯片只能检测已知的mRNA和microRNA的表达）。目前，对于RNA的测序。microRNA和mRNA确实不能在一次测序反应中同时检测，必须分开。因为在测序的过程中会选择一定大小范围的核酸进行测序，而microRNA和mRNA大小差异很大，不能同时选择。SOLiD测microRNA确实蛮合适的，但是SOLiD也可以测mRNA。不过您也可以选择用Solexa测mRNA。

第二个问题是“将转染后高表达、低表达的mRNA、microRNA筛出来”。其实就是筛选差异表达，这个实验目的有三种方法可以实现。1、DGE：国内某些公司仍在提供DGE服务，但是已经不是发展趋势了。2、RNA-Seq：用第二代测序测一遍RNA，然后用生物信息学的方法计算出表达量。3、生物芯片：发展时间很长，比较成熟，特别是表达谱芯片。microRNA也有相应的生物芯片来检测。我建议你用生物芯片。因为生物芯片没有第二代测序建库时PCR扩增的过程，样品不会失真。而生物芯片发展成熟，后续数据分析也很简单。而且价格比测序便宜。

问题14. 我做了基因芯片检测，其中有一个问题：不知道标记A和P的基因A比P大于多少才可以用于基因摔选？需要多少样本达到那个标准才可以？

答：您可能是想问基因芯片实验最后的检出率达到多少才是可以用的结果。实际上关于芯片检出率的问题，应该说没有一个统一，也不应该有统一的标准，因为芯片只是工具，而实验得到的数据只是把样本里基因表达的信息以数据的形式反映出来，所以检出率是样品本身的属性，不是评价芯片实验质量的指标。agilent或者affymetrix公司都没有明确说多少是好或者不好。而且即使对于同一个物种，比如人，不同材料检出率也不同，比如，组织的检出率要明显高于细胞。但是一般来说相同样品的检出率相差应该不超过±5%。同一批样品检出率应该相差不大。

问题15. 我想在一个细胞给药前后观测非编码RNA的水平差异，包括成熟miRNA及前体pri-miRNA和pre-miRNA表达差异，以及lncRNA。贵公司二代测序能观测这四类分子吗？

答：测序是都能测的。但是由于lncRNA、pri-miRNA和成熟的miRNA大小不一样。所以不能在一次测序反应中全部检测到，需要分开几次测。

第二代测序的建库和后续测序反应都要求样品的长度基本一致，这样测序的效果才好。

问题16. 检测成熟miRNA及前体pri-miRNA和pre-miRNA，以及lncRNA在给药前后的差异，芯片能否也可以做到？与贵公司二代测序相比，哪种方案更经济可行呢？

答：目前Agilent和Affymetrix有检测miRNA的产品，不过它们只能检测成熟的miRNA。Affymetrix miRNA Array第二版能检测pre-miRNA，但是要到今年2月份后才会推出来。有一些芯片可以检测lncRNA，例如Agilent的新版8*60表达谱芯片里面就集成了一些lincRNA探针。不过目前针对lncRNA的研究还不全，很多lncRNA都是未知的。所以对于lncRNA而言，还是测序的好。针对你的情况。比较好的方案是样品一分为二，一份来用分离pri-miRNA、pre-miRNA和lncRNA，进行长片段RNA的测序；另一部分分离成熟的miRNA，进行小片段RNA的测序。

问题17. 我想用不同中药干预肿瘤细胞生长，通过基因方面研究药物有效，方法一：抽取组织RNA,做芯片，测基因表达差异，这个差异有无具体指标？杀死动物的时间有无差异，比如说干预1个月，2个月，3个月？方法2,有无其他基因指标说明药物有效？

答：一般来讲，基因方面是不能做为药物有效的指标的。因为疾病的影响因素很多，基因表达调控的网络很复杂，在某一疾病和某些基因的表达变化之间很难建立比较确切的关系。一般都是通过其它方法确定某种药物确实有效，然后用基因芯片等研究药物发挥作用的机制。验证药物有效的方法一般是比较用药组与非用药物肿瘤的大小，生长速度等，或者疾病的不同，有一些不同的检测方法，这些需要看前人是怎么做的了。

问题18. 有2个问题：

1，对于寻找药物影响厚的相关因子的信号通道，你们公司有什么试剂盒？什么试验方法？

2.Rt-PCR验证试验里，对表达差异显著的因子，不同时相的表达差异以及cDNA芯片验证，简单的方法如何？

答：1、寻找药物发挥作用的信号通路。就像上次跟您说过的那样，可以先用表达谱芯片找出差异表达的基因，然后用生物信息学的方法找到差异表达的基因分别归属于哪些信号通路。这样我们就找到了药物影响的信号通路了。生物芯片实验和后续的生物信息学分析，我们SBC都可以帮您完成。只要您提供样品，我们就能把实验结果交给您。

2、后续芯片实验结果的验证，最常用的有两种：

A：RT-PCR。抽提样品的RNA，逆转录，做荧光定量PCR。因为生物芯片实验是高通量的实验（同时检测几万个基因），所以精确度和一次只分析一个基因的实验是没法比的。因此一般而言，芯片实验后常用RT-PCR来验证一下。

B：Western Blot实验。芯片实验和RT-PCR只在mRNA水平上检测，但实际上mRNA水平和蛋白水平并不是线形的关系。而发挥作用的一般是蛋白质。所以芯片实验后，保险起见，一般也会用Western检测蛋白水平是否真的有变化。

问题19. 二代测序在筛查未知突变的灵敏度上与传统测序有差别吗？比如对肿瘤体细胞中低拷贝核酸突变的筛查。
答：就灵敏度来说，二代测序比传统测序更高一些。二代测序并不需要特异性的引物，提高覆盖倍数，理论上能检测到单拷贝的基因组突变。传统测序是基于毛细管电泳的末端终止法测序，需要特异性引物，如果底物模板比较复杂（比如全基因组）的话，就不容易检测到那些低拷贝的未知突变。但是二代测序和传统测序最主要是还是通量方面的区别。

问题20. 想比较癌组织和癌旁组织miRNA表达谱差异，筛选出差异较大的几个再做RT-PCR，芯片部分可以用样品混合做吗？还是必须每个癌组织和癌旁组织单独做。另外，技术重复和生物学重复分别定为多少为好？

答：生物样品都有异质性，因此如果把几个生物样品混合起来的话，那么那些特异性的东西可能会被平均化，掩盖掉。特别是肿瘤组织这样异质性很强的组织（肿瘤组织中除了肿瘤细胞外，还有正常细胞）。因此，我们一般不推荐做混合样品。不是因为不能做，而是因为有风险。目前，技术重复已经不需要了。混合样品的话，生物学重复也没什么必要。。相反，如果您想做生物学重复的话，建议还是比较单个肿瘤组织VS癌旁，这样的生物学重复才有意义。

问题21. 在基因水平比较一下，三种用于体内移植的干细胞的致瘤性差异，看哪种细胞的生物安全性最高，不知是否适合做基因芯片？是否需要阴性对照组，该怎么设计实验才合理？如果可以应该选择哪一种芯片？或该用着其它什么方法？

答：评价干细胞的致瘤性，我想最直接的方法还是细胞、动物实验。至于在全基因组水平上评价干细胞的致瘤性，我想可以用表达谱芯片。比较干细胞和它要分化成的终末细胞之间的表达谱，如果表达谱相近，那么说明只需要少量的分化就可以转化为体细胞，安全性应该较高吧。当然，表达谱芯片的数据只能做为参考，具体的干细胞致瘤性还是需要别的实验来验证的。近期，我们有位客户在nature上发表了一篇文章：http://www.ebioservice.com/show_news.asp?id=1120。他的研究内容是：通过慢病毒转导编码转录因子的基因，将成纤维细胞转化成为肝脏细胞，最后用表达谱芯片比较转化型肝脏细胞和正常肝脏细胞的表达谱，并且配合一系列其它实验，证明转化成功。

问题22. 现在有一种说法是测序正在逐步的取代芯片，测序是通过数字信号可以测到低到两个拷贝的表达，周期，质量，性价比都超过芯片的。是这样么？如果按照前面我提问的关于做mirna表达谱和mrna表达谱的话？

答：做为基因组学研究的两大技术手段，基因芯片和第二代测序之间的比较是个永恒的话题。由于两者之间一些共同的特点（比如说高通量）和一些应用领域上的重合（比如表达谱，SNP），大家习惯于把这两者放在对立的位置上，其实大可不必。基因芯片和第二代测序在本质上是两种不同的技术。1、基因芯片的本质是核酸杂交。只不过是同时进行上万个核酸杂交而已。2、第二代测序在本质上是先用PCR的方法构建测序文库（SOLiD的油包水PCR，Solexa的桥式PCR），随后再以“边合成边测序”或者“连接介导的测序”，得到序列信息。从本质上出发，就能对基因芯片和第二代测序有更深的认识了。由于是核酸杂交，不需要扩增。因此基因芯片是个相对封闭的系统，只能检测序列已知的片段的浓度；另外，由于不需要扩增，保真性也较好。第二代测序本质上是测序，因此是个开放的系统，能检测到那些没有参考序列的片段，并且给出序列。由于在构建测序文库的过程中有PCR放大的过程，因此相对灵敏度较高（需要高覆盖倍数的测序深度配合），但也由于PCR放大过程的不均衡性，样品中片段的内在浓度比例常常会被破坏掉。因此，基因芯片和第二代测序技术在应用上虽然有交集，但还是有差别的。如果是比较参考序列良好的物种的表达谱，基因芯片好一些，而且基因芯片发展成熟，后续数据分析较方便。而如果想发现新的转录本，或者研究基因表达的可变剪接，3’UTR的变化等等，还是用第二代测序的好。我们现在倾向于认为基因芯片和第二代测序技术是两种不同的技术，两者有交集，但更多的是不同。至于选择哪种技术，还是要看具体想解决的问题是什么。

问题23. 关于从RNA seq数据中得到transcript或者gene表达量的问题。请问你们有什么方法能够推荐一下么？我现在用bowtie作比对，然后用tophat得到bam文件，然后用cufflinks处理，但是这样下来，我输入1G 的序列，最后只得到几条序列的结果，是怎么回事呢？

答：你的情况是否是参数的问题，一般的tophat需要格式化过的参考序列（bowtie-build做），还需要一个gtf格式的注释文件。结果会得到一个sam文件，使用cufflinks处理sam文件，就可以得到有关的差异表达的结果。

From：http://hi.baidu.com/new/u200713054

发表评论