回到开始的地方：假设检验的基本思想

2013/03/01来源：一统浆糊评论1,610

此文甚无趣，但这确实是我很早就想写的一个修正贴，长久以来一直把P值错误的理解为H0假设成立的概率，比如在方差分析一文的开始就这么错误的理解。

无论是皇宫御医还是江湖郎中，常常在给女主把脉一番后诊断为怀孕，而且怀孕多久，是男是女一并告知。

回到开始的地方：假设检验的基本思想-图片1

回到开始的地方：假设检验的基本思想-图片2

回到开始的地方：假设检验的基本思想-图片3

回到开始的地方：假设检验的基本思想-图片4

某中医小A宣称自己可以通过把脉来诊断胎儿性别为例，现代医学如何验证呢？首先找一定数量的孕妇（比如10个），让小A通过诊脉来判断胎儿的性别，当然具体设计可能涉及到孕龄，如何随机化、诊脉医生的水平以及金标准的问题。假设小A没有这种能力，完全靠猜测，可不可能全部猜中呢？当然可能，只是几率小而已。如果只猜一个孕妇，他猜对的概率为50%，但他猜对了你会认为把脉就可判断胎儿的性别了吗？好像不能这么说，因为猜对的概率太高了。以此类推，两个都猜对的概率为50%×50%=25%；三个全猜对的概率50%×50%×50%=12.5%；四个全猜对的概率6.25%；五个全对的概率3.125%；10个全猜对的概率为0.000976，也就是说全靠猜10个全猜对概率仅为0.0976%。现实的情况是小A通过诊脉全部判断对了，假如小A不具备这种能力，完全靠猜测全部猜对的概率只有0.000976，这个概率太小了，以至于我们怀疑我们的假设（小A不具备这种能力）正确性，而是小A真的能通过诊脉判断孕妇胎儿的性别。这其实就是统计学的基本思想方法。

由于个体变异和抽样误差的存在，统计学上的相等不一定是数值上的绝对相等。但可以肯定的是即使不绝对相等，也应该偏差不大【中心极限定理】。那偏差多大算大呢？统计学上实际上并没有直接回答这个问题，而是首先假设相等（没有差异），在这个前提下计算出由于偶然因素造成的这个绝对差异的概率。如果这个概率很小，则我们就有理由怀疑前提假设的正确性，从而支持这个假设的对立面：不相等（有差异）。【对中心极限定理做一下补充：不论总体呈何分布，从该总体中多次抽样得到的统计量大致围绕总体参数中心周围，且呈正态分布。想象一下正态分布中间高两边低的形状，这个定理就是说多次抽样，每次抽样的结果都不会过大的偏离总体参数，偏离越远，几率越小。】

具体来说，首先提出无效假设（Null Hypothesis，也称为零假设，常用H0表示），比如两种药物的疗效没有差异（u1-u2=0）。跟无效假设相对应的是备择假设，比如u1-u2≠0。在无效假设成立的前提下，计算出一个检验统计量（比如t值，卡方值、F值等），然后根据相应的分布可得到由于偶然因素的原因才出现的至少这么大的检验统计量的概率（P值）。所以这个P值实际上指的是出现这么大的统计量是由于偶然因素造成的可能性。如果这个P值很小，说明出现这么大的差异只有很小的可能性（概率为P值）是由于抽样误差造成的，而是实实在在地存在这种差异，所以我们就要怀疑所做假设这个前提的正确性，无效假设不正确，那么其对立面备择假设就成立。

回到开始的地方：假设检验的基本思想-图片5

这多少看起来有点赌博的味道。赌博嘛，总有输赢，即使赢得次数多也还是会输。我们常将P<0.05作为一个小概率事件，认为不大可能会发生，但概率虽小，现实还是可能会发生的，毕竟即使来自同一总体，由于纯属偶然的原因也是可能会出现绝对差异很大的情况，只是概率小而已。因此我们在拒绝H0的时候，就冒着犯Ⅰ类错误（假阳性，误诊）的风险。那有人就会说我们是不是就可把P临界值设的小一点，比如0.0001，这样Ⅰ类错误不就少了吗？但这个标准如果太苛刻，则会纳入一些本来应该拒绝的阳性人群，也就是犯了另外一种错误：Ⅱ类错误（假阴性，漏诊）。

还要多说一下P值，P值表示的是一种概率，是虽然相等但由于偶然因素造成这么大的绝对差异的概率，并不是H0假设成立的概率，更不能得出P值越小差异越明显/相关性越强之类的结论。

发表评论