超几何分布

简单点说,超几何分布就是有限样本的无放回抽样。不同于有放回抽样的二项分布(每次贝努里试验成功概率是一样的),每次的概率不相等。

随机变量X的超几何概率分布:
f(k,N,M,n) = C(k,M)*C(n-k,N-M)/C(n,N)

N = size of population

M = # of items in population with property "E"

N-M = # of items in population without property "E"

n = number of items sampled

k = number of items in sample with property "E"

这个公式可以理解为有C(n,N)种可能的样本,有C(k,M)种方法得到k个属于M的抽样、有C(n-k,N-M)种方法得到n-k个不属于M的抽样。

X服从参数n,N,M的超几何分布记为 X~H(n,N,M).

参考:http://en.wikipedia.org/wiki/Hypergeometric_distribution


对于基因进行GO注释,看基因集在某个GO子类中是否富集,富集的概率服从超几何分布。

N为GO注释的总基因数。

M为属于某个GO子类的基因数。

n为进行GO富集分析的基因集的数目。

k为n中属于M的数目。

基因集n是否在M类中富集的概率

1-phyper(k-1,M,N-M,n)  ##R代码

或者是

phyper(k-1,M,N-M,n, lower.tail=FALSE)

##在已知总体分布下,抽样n个中出现M类的个数是k以及k以上个数的概率。

lower.tail: logical; if TRUE (default), probabilities are P[X <= x],
          otherwise, P[X > x].

原文来自:http://ygc.name/2008/08/20/hypergeometric-distribution/

  • 文章来源: 未知。文章来源待更新,请等待。
  • 版权说明: 除非特殊说明,本站文章版权归于文章来源网站或投稿作者。未标记来源文章,请原作者联系管理员更新版权信息

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:1   其中:访客  0   博主  0   引用   1

    来自外部的引用: 1

    • 富集性分析 | Public Library of Bioinformatics