从埃博拉数据中Call SNPs # 从多个样品中Call SNPS # 从埃博拉项目中获取多个数据集。 # Ouch! 数据是以另一个序列作为参考来比对的。 # 那我们准备一个新的参考序列吧,没别的...
tfrecords 格式数据训练mnist
TFRecords是tensorflow存储数据的一种二进制文件,能更好的利用内存,更方便复制和移动,并且不需要单独的标签文件,类似于caffe中的LMDB和LvevelDB,极大的提高了IO吞吐。 ...
深度学习中的数据增强、backbone、head、neck、损失函数(loss function)术语解释和汇总
backbone:主干网络,用来提取特征,常用Resnet、VGG等 head:获取网络输出,利用提取特征做出预测 neck:放在backbone和head之间,进一步提升特征的多样性及鲁棒性 bot...
GATK4.0和全基因组数据分析实践(上)
前言 在前面的一系列WGS文章中,我讲述了很多基因数据分析的来龙去脉,虽然许多同学觉得很有帮助,但是却缺了一个重要的环节——没有提供实际可用的数据来实战完成具体的流程,不能得到直观的体会。许多读者也纷...
基因组变异的表示形式
VCF文件格式 在进行变异检测后我们最后以VCF格式存放找到的变异。尽管大部分情况下,我们都不需要直接和VCF文件打交道,通常就是将其作为输入提供给后续的分析。但是,你对VCF的格式越熟悉,你就能使用...
为什么说FPKM/RPKM是错的
去年,我接触了一个RNA-seq的项目,做完之后,我重新思考了FPKM和RPKM的计算,觉得它们很可能是不对的,后来查阅了一些文献终于验证了我的想法。现在我重新将这个过程记录下来: 1. FPKM和R...
转录组入门(1):软件准备
系统准备 windows10: Unbuntu on windows10 微软的良心 软件准备 我的习惯: 家目录下创建src文件夹,用于存放软件包 家目录下创建biosoft文件夹,用于安装软件 为...
表达富集分析软件ABAEnrichment
以下介绍引用自 表达谱芯片数据的基因功能富集分析 刘 明 王米渠 丁维俊 综述 毕 锋 审校 基因富集分析是生物信息学分析领域的一种分析方法。常见的基因富集分析是基因功能富集分析,这种方法可以对不同层...
如何使用deeptools处理BAM数据
总体介绍 deeptools是基于Python开发的一套工具,用于处理诸如RNA-seq, ChIP-seq, MNase-seq, ATAC-seq等高通量数据。工具分为四个模块 BAM和bigWi...
序列比对工具的对比
# 下载并安装比对软件bowtie2 cd ~/src # Mac OSX上用: curl -OL http://downloads.sourceforge.net/project/bowtie-bi...