在WGS数据的分析过程中,我们会接触到许多生物信息学/基因组学领域所特有的数据文件和它们特殊的格式,在这一节中将要介绍的FASTA和FASTQ便是其中之一二。这是我们存储核苷酸序列信息(就是DNA序列...
使用Shapeit2对人类基因组数据进行phasing
SHAPEIT(2.0)是专门用于对推断基因组单体型的软件,有牛津大学的团队所开发,并且一直应用与千人基因组计划中。 以下,我将记录如何通过shapeit2对人群的变异数据集(VCF 格式)进行pha...
GATK中如何计算Inbreeding coefficient(近交系数)
关于近交系数是什么的定义,除了英文资料,中文上也给出了清晰的定义,这里引用一下: 近交系数(inbreeding coefficient)是指根据近亲交配的世代数,将基因的纯化程度用百分数来表示即为近...
转录组入门(8):富集分析
我们统一选择p<0.05而且abs(logFC)大于1的基因为显著差异表达基因集,对这个基因集用R包做KEGG/GO超几何分布检验分析。 然后把表达矩阵和分组信息分别作出cls和gct文件,导入...
转录组入门(7):差异表达分析
这个步骤推荐在R里面做,载入表达矩阵,然后设置好分组信息,统一用DEseq2进行差异分析,当然也可以走走edgeR或者limma的voom流程。 基本任务是得到差异分析结果,进阶任务是比较多个差异分析...
转录组入门(6): reads计数
要求 实现这个功能的软件也很多,还是烦请大家先自己搜索几个教程,入门请统一用htseq-count,对每个样本都会输出一个表达量文件。 需要用脚本合并所有的样本为表达矩阵。参考:生信编程直播第四题:多...
转录组入门(5): 序列比对
比对软件很多,首先大家去收集一下,因为我们是带大家入门,请统一用hisat2,并且搞懂它的用法。 直接去hisat2的主页下载index文件即可,然后把fastq格式的reads比对上去得到sam文件...
转录组入门(3):质量控制
需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量! 数据解压 之前下载了所有的数据,但只有样本915才是mRNA-Seq测序结果,...
本体论和功能分析
为什么需要本体论 作为一位大学统计棉花表皮毛的苦逼生物狗,深刻体会什么叫做经验,也就是人类模式识别能力的强大和不精确性。当时的导师教我如何根据表皮毛的长短和浓密进行基因型的判定,但是我一直纠结长和短,...
如何进行变异检测
什么是基因组变异 基因组变异是一个定义比较模糊的概念. 所谓的变异是相对于一个完美的“参考基因组”而言。但是其实完美的“参考基因组”并不存在,因为我们只是选择某一个物种里的其中似乎比较正常的个体进行测...