推荐一款二代测序数据质量控制软件FastQC

  • A+
所属分类:Bioinformatics

随着测序价格不断降低,二代测序的应用现在可以说是如日中天了,Hiseq,Solexa,454等等。测序数据到手之后第一件要做的事情当然是看看数据测得怎么样了?一般测序机构提供测序数据的同时也会提供一份质量报告。但是一般这个报告的分析内容都比较简单。想看一个更完整的二代数据测序质量报告吗?看看FastQC这个软件吧。

下面先预览一下这个软件分析的效果图,再介绍一下这个软件的功能吧。

FastQC

这是一个基于java的分析程序,可以输入FastQ,BAM,SAM等格式的数据文件,然后程序将进行一系列评估分析。分析完之后提供一系列图表信息,从这个信息您可以知道您的数据质量怎么样,哪里存在问题。

分析的内容包括:

  • 测序数据的基本信息
  • 每个碱基的质量值
  • 每条reads序列的质量值
  • 每条序列的ATCG组成
  • 每条序列N的含量
  • 每条序列的长度分布
  • 序列中duplication程度
  • K-mer信息

上如图所示,绿色应该表示该项指标正常,如果出现橙色或者红色表示该项指标问题比较大。

更多关于这个软件的信息,请看:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

分析报告结果演示请看:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/good_sequence_short_fastqc/fastqc_report.html

对了该软件的质量评估报告支持多种格式喔!

avatar

发表评论取消回复

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:4   其中:访客  2   博主  2

    • avatar ybzhao Admin

      回复测试

      • avatar sunredrock 0

        FastQC好是好,不过存在一个问题。就是使用数据量的问题。它使用的不是全部的数据来计算那些指标。所以在精度方面会有所偏差,但是曲线的大致轮廓不会有大的变化

          • avatar ybzhao Admin

            @sunredrock 嗯,您这点反馈的信息很重要。

            我在看到这个软件的时候,猜想计算K-mer这一步,如果数据量很大的话,时间消耗和内存开销估计会很大,所以推断软件里面里面可能采用了抽样的算法。

            不过具体还得看看文献,可惜目前还没找到它的文献。如果有回头我再把文献补充上去。

          • avatar zhengyunchao 0

            Could you pls introduce NGSQCToolkit_v2.3.3 to us?谢谢