多重假设检验中的p值校正

2012/09/03215,213

在生物学特别是基因组学的研究工作中，经常会遇到多重假设检验（multiple testing）的问题；此时，得到的原始p值需要进行校正后才能使用，那么哪种校正方法更加适合自己的研究工作呢？p-values, false discovery rates(FDR) 和 q-values有什么不同？它们分别代表什么意义？

对于统计科班的同学来说，这不过是小菜一碟；但对于纯生物出身的同学来说，别说去看公式了，光是听听就觉得头大！不过幸运的是，有牛人（William S Noble）了解我们的苦衷，于是一篇nature biotechnology的文章诞生了——《How does multiple testing correction work?》。

这片文章不长，只有3页，用不了多长时间就可以看完。更加令人高兴的是，全篇没有一个让人头大的公式；了解基本的统计学知识、特别是p值的相关概念之后，阅读这片文章就不会有太大的困难了。

作者以一个生物学例子贯穿全篇，这个例子对于大多数生物专业的同学来说都非常容易理解——在人的21号染色体上寻找CTCF（一个高度保守的锌指DNA结合蛋白）的潜在结合位点。作者先介绍了零假设（null hypothesis），进而引出了p-value的概念。之后，解释了为什么原始p值不能够直接使用，从而过渡到p值校正的话题。在这一部分，作者层层深入，以简洁明了的语言介绍、解释了Bonferroni adjustment、false discovery rate (FDR)、q-value和local FDR的概念、由来、意义等基本但非常重要的知识。最后作者给出了实际应用时的指导建议，并以点睛之笔概括总结了全文中的要点。

如果你的工作涉及p值的校正、FDR、q值等概念，这篇文章绝对胜任引你入门的角色（但绝不仅限于此！）。

详细内容请阅读原文：

How does multiple testing correction work?
William S Noble1
When prioritizing hits from a high-throughput experiment, it is important to correct for random events that falsely appear significant. How is this done and what methods should be used?
全文链接：http://www.nature.com/nbt/journal/v27/n12/full/nbt1209-1135.html

本文来自：

http://yixf.name/2011/01/11/%E3%80%90%E6%96%87%E7%8C%AE%E6%8E%A8%E8%8D%90%E3%80%91%E5%A4%9A%E9%87%8D%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C%E4%B8%AD%E7%9A%84p%E5%80%BC%E6%A0%A1%E6%AD%A3/

发表评论