快速入门GATK Bioinformatics

快速入门GATK

GATK,全称是Genome Anlysis Toolkit,顾名思义,是一套用于分析基因组的工具箱。主要功能是寻找变异位点和基因分型,但是实际上功能超多,导致初学者都不知道从何学习GATK。 最近因...
阅读全文
根据Barcode序列拆分fastq文件 Bioinformatics

根据Barcode序列拆分fastq文件

扩增子测序不同于其他高通量测序项目,扩增子测序往往样品量较大,但单个样品的数据量要求不高(因为仅仅研究扩增区域的序列)。为了节约成本,研究者们通常会把多个样品混在一个文库,并给不同样品加上一段 Bar...
阅读全文
如何处理批次效应(batch effect) Bioinformatics

如何处理批次效应(batch effect)

在生信分析过程中,尤其是转录组分析中,经常会遇到测得数据不足,需要利用公共数据库中已有的数据,那么能将这些数据直接和测序的数据混合吗?如果贸然混合,会有什么问题? 10年nature有一篇综述,专门讲...
阅读全文
R语言实现决策曲线分析 Bioinformatics

R语言实现决策曲线分析

大家对ROC曲线都很熟悉,从方法的特异性和灵敏度出发反应一个方法的准确度。但是,在临床的应用中,往往仅通过以上标准得到的准确度是不可靠的。故早在2006年纪念斯隆-凯特琳癌症中心AndrewVicke...
阅读全文