GATK使用方法详解(实例:对SNP结果进行校正)

  • A+
所属分类:Bioinformatics

第一步:

java -jar GenomeAnalysisTK.jar

-R hg19.fa

--maxGaussians 4

-numBad 10000 (这个参数在最新的GATK版本里面已经没有了,用的时候注意版本,2.8.1里面不用自己设置

这个参数)

-T VariantRecalibrator

-mode SNP

-input ChrALL.100.sam.recal.10.vcf

-resource:hapmap,known=false,training=true,truth=true,prior=15.0 hapmap_3.3.hg19.vcf

-resource:omni,known=false,training=true,truth=false,prior=12.0 1000G_omni2.5.hg19.vcf

-resource:1000G,known=false,training=true,truth=false,prior=10.0 1000G_phase1.snps.high_confidence.hg19.vcf

-resource:dbsnp,known=true,training=false,truth=false,prior=2.0 dbsnp_137.hg19.vcf

-an QD

-an HaplotypeScore

-an MQRankSum

-an ReadPosRankSum

-an FS

-an MQ

-an InbreedingCoeff

-recalFile hg19.vcf.snp_11_Q10.recal

-tranchesFile hg19.vcf.snp_11_Q10.tranches

-rscriptFile hg19.vcf.snp_11.plot_Q10.R

-nt 4

--TStranche 90.0

--TStranche 93.0

--TStranche 95.0

--TStranche 97.0

--TStranche 99.0

--TStranche 99.9

先run一下上面的代码,这一步可以尽可能多的设置注释类型和tranche的值,然后根据这次跑出来的结果选择出最好的注释类型和tranche值之后,再次运行VariantRecalibrator。

第二步:

java -jar GenomeAnalysisTK.jar

-R hg19.fa

--maxGaussians 4

-numBad 10000

-T VariantRecalibrator

-mode SNP

-input ChrALL.100.sam.recal.10.vcf

-resource:hapmap,known=false,training=true,truth=true,prior=15.0 hapmap_3.3.hg19.vcf

-resource:omni,known=false,training=true,truth=false,prior=12.0 1000G_omni2.5.hg19.vcf

-resource:1000G,known=false,training=true,truth=false,prior=10.0 1000G_phase1.snps.high_confidence.hg19.vcf

-resource:dbsnp,known=true,training=false,truth=false,prior=2.0 dbsnp_137.hg19.vcf

-an HaplotypeScore

-an MQRankSum

--TStranche 97.0

-recalFile hg19.vcf.snp_11_Q10.recal

-tranchesFile hg19.vcf.snp_11_Q10.tranches

-rscriptFile hg19.vcf.snp_11.plot_Q10.R

-nt 4

这一步run出来的结果可以直接用于下一步的ApplyRecalibration。

第三步

java -jar GenomeAnalysisTK.jar

-R hg19.fa

-T ApplyRecalibration

-mode SNP

-input hg19.recal_10_Q10.vcf

-tranchesFile hg19.vcf.snp_12_Q10-2.tranches

-recalFile hg19.vcf.snp_12_Q10-2.recal

-o hg19.snp.filter.t97.Q10_13.snp.vcf

--ts_filter_level 97

最终生成的hg19.snp.filter.t97.Q10_13.snp.vcf这个文件中的SNP位点已经全部经过校正过滤,INDEL位点还是原始数据,需要对INDEL再进行一次校正过滤。

原文来自:http://blog.sina.com.cn/s/blog_12d5e3d3c0101qu6t.html

 

avatar

发表评论取消回复

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:2   其中:访客  1   博主  0   引用   1

    • avatar shiyi 1

      如果我没有那些金标准的文件那该怎么校正?

    • 来自外部的引用: 1

      • GATK使用方法详解(变异检测) | Public Library of Bioinformatics