如何使用MUMmer比对大片段序列 测序技术刚开始发展的时候,大家得到的序列都是单个基因的长度,所以一般都是逐个基因的比较,用的都是BLAST或FASTA通过逐个基因联配的方式搜索数据库。但是1999...
如何从BAM文件中提取fastq
虽然高通量测序分析最常用的操作是将fastq比对到参考基因组得到BAM文件,但偶尔我们也需要提取BAM文件中特定区域中fastq。最开始我认为这是一个非常简单的操作,因为samtools其实已经提供了...
简化基因组数据分析实战
RAD-seq和GBS是什么关系 简化基因组的测序方法 RAD-Seq(restriction site-associated DNA sequencing)最开始指的是2008年发表在PLOS ON...
批次效应(batch effect)
一、定义 下面是大佬给出来的关于批次效应(batch effect)的定义: Batch effects are sub-groups of measurements that have qualit...
WGCNA分析使用教程
WGCNA基本概念 加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis)是用来描述不同样品之间基因关联模式的系统生物学方法,可以用来鉴定...
Deeptools: Chip-seq数据质量控制
Deeptools 对数据质量控制的命令包含如下 plotCorrelation plotPCA plotFingerprint bamPEFragmentSize computeGCBias plo...
MotifStack: motif 可视化
最近大量跑chip-seq,看到一篇2016Cell的文章《Cistrome and Epicistrome Features Shape the Regulatory DNA Landscape》感...
数据降维与可视化之t-SNE
t-SNE是目前来说效果最好的数据降维与可视化方法,但是它的缺点也很明显,比如:占内存大,运行时间长。但是,当我们想要对高维数据进行分类,又不清楚这个数据集有没有很好的可分性(即同类之间间隔小,异类之...
快速入门GATK
GATK,全称是Genome Anlysis Toolkit,顾名思义,是一套用于分析基因组的工具箱。主要功能是寻找变异位点和基因分型,但是实际上功能超多,导致初学者都不知道从何学习GATK。 最近因...
单细胞测序教程
小伙伴们,大家好,今天我们来开启一个新的话题,Single cell sequence,近来单细胞测序在探索生物过程、疾病机理等方面展现了前所未有的精度,通过对单细胞进行 DNA 和 RNAseq 我...