Statistics

统计基本概念

本文讲述了数据分析师应当了解的五个统计基本概念:统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计方法。 从高的角度来看,统计学是一种利用数学理论来进行数据分析的技术。象柱状图这种基本的可视化形式,...
阅读全文
Statistics

统计学知识大梳理

  概述 你的“对象” 是谁? 此对象非彼“对象”,我们学习“概率和统计学”目的在于应用到对于“对象”的研究中,笔者将我们要研究的“对象”按照维度分为了两大类。 一维:就是当前摆在我们面前的...
阅读全文
Statistics

统计学:非参数统计非参数统计

什么叫非参数统计?先从参数统计说起。总体的特征值叫参数,一些特定分布都有其参数,如正态分布由μ、σ两个参数所决定。有些统计方法是根据特定分布设计出来的,如估计正常值范围的正态分布法、U检验等是根据正态...
阅读全文
Bioinformatics

富集性分析

经常看到一些饼图,描述某些事物的组成,比如说有钱人的学历分布,然后我们可以看到高学历所占比例并不高,根据这个比例下结论通常是错的,这些比例说明不了问题,如果把各种学历在总体人口中的分布做为背景进行考虑...
阅读全文
Script

超几何分布

简单点说,超几何分布就是有限样本的无放回抽样。不同于有放回抽样的二项分布(每次贝努里试验成功概率是一样的),每次的概率不相等。 随机变量X的超几何概率分布: f(k,N,M,n) = C(k,M)*C...
阅读全文
Script

R语言的各种检验

1、W检验(Shapiro–Wilk (夏皮罗–威克尔 ) W统计量检验)      检验数据是否符合正态分布,R函数:shapiro.test().  结果含义:当p值小于某个显著性水平α(比如0....
阅读全文
Glossary

说说大家经常见到的p值

在论坛,经常发现有人发关于P值的帖子,搜索了一下,一共有29个关于P值的帖子。的确,P值是最常用的一个统计学指标,几乎统计软件输出结果都有P值。了解P值的由来、计算和意义很有必要。 一、P值的由来 R...
阅读全文
Bioinformatics

多重假设检验中的p值校正

在生物学特别是基因组学的研究工作中,经常会遇到多重假设检验(multiple testing)的问题;此时,得到的原始p值需要进行校正后才能使用,那么哪种校正方法更加适合自己的研究工作呢?p-valu...
阅读全文