生存分析样本量的考虑

前段时间，小编写了一篇关于终点指标的选择与样本量计算的微信文章，后来有不少小伙伴留言表示对于生存分析(时依性变量为终点指标)的样本量计算很感兴趣。正好最近听了北大临床研究所统计部主任阎小妍博士讲生存分析样本量计算的课，今天就借机和大家讨论一下(很多内容出自阎小妍博士的课件)。如果有说得不对的地方，还请轻拍，并多多批评指正。为什么生存分析的样本量计算要独立出来呢?首先看看生存分析的定义：生存分析(survival analysis)是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。可以看到，生存分析不同于其他分析的主要区别点就是生存分析考虑了每个观测出现某一结局的时间长短。因此，以时依性变量作为主要终点指标的生存分析与一般的以非时依性变量为主要终点指标的试验设计的样本量计算是有差别的。记得之前在与北医某附属医院赫赫有名的血液科的一位科研达人做访谈的时候，他就讲起过自己曾经写的一篇特别具有临床意义和创新性的文章，但是由于在计算样本量时，自己采用了一般的计算样本量的方法，而最后的疗效评价做了生存分析。在审稿时被专家质疑，因此被新英格兰拒掉，只能另投他处。想想都是满满的心伤啊，眼睁睁的看着你，却无能为力的赶脚啊。

下面我们举个例子来看看生存分析的样本量计算对于各个参数的考虑。假设某非劣效设计的随机对照试验中，A组为试验药组，B组为阳性对照药组，1年的生存率均为55%，HR=1.33。入组时间为2年，中位随访时间为3年。一类错误0.05(双侧)，把握度80%，脱落剔除比例为5%。(如果按照非时依性变量为终点指标的普通非劣效设计的样本量计算方法，需要的参数则是不一样)。从PASS软件中操作如下：

生存分析样本量的考虑-图片1

　　得到的结果如下图所示：

生存分析样本量的考虑-图片2

　　从图中可以看到，入组时长对样本量的影响较大，总研究时长中分配给入组的时间越长，相应的随访时间越短，样本量要求越大。为什么会出现这样的情况呢?我们知道，用于生存分析的数据中包含完全数据和截尾数据。完全数据(complete data)，即从起点至死亡(死于所研究疾病)或终点事件所经历的时间;截尾数据(也叫删失数据，censored data)，即从起点至结尾点所经历的时间，结尾的原因可能有失访、死于其他疾病、观察结束时病人上存活或尚未出现终点事件。所以，希望研究者能尽量加快入组进度，并尽量避免脱落的发生。

总结一下，这篇文章的主要目的是提醒各位研究者，如果您的研究设计的主要终点指标是需要通过生存分析计算结果的时依性变量，请规范使用生存分析的样本量计算方法，而非普通的差异性检验的样本量计算的方法。这已经受到很多方法学审稿专家的重视，可千万别因此而与大牛杂志擦肩而过，黯然神伤。进一步来说，在研究设计阶段，请尽量与方法学及统计学专业人士多多讨论，避免出现无法挽回的研究设计上的硬伤。

发表评论