生存分析中生存率的计算

2015/03/02评论1,946

近日连续遇到好几个同事在写临床研究论文时问及生存率的问题，有人还是对生存率的计算有点儿理不清楚，本期就这一问题作一讨论。当然这一讨论仅限于简单的临床研究数据中的Kaplan-Meier法。对于流行病学数据的生存率估计，有更为复杂的估算方法，也需要考虑更多的影响因素。

假设我们有某肿瘤患者的以下数据，包括患者的基本信息、诊断时间、治疗手段、随访时间和存活与否等指标。简单理解的生存率，就是患者的存活率，是指在这些患者中经过一段时间的随访后，尚存活的患者的比例。它的计算方法=随访满一定时间的尚存活的病例数/开始随访时的总病例数×100%。如2年生存率的计算，是指随访满2年的尚存活的病例/总病例数。上面的计算的确有着严谨的逻辑，但这种生存率的计算在临床研究中往往是不被采用的的。因为这种情况下生存率的计算，会漏掉不少随访时间不够2年的病例。随访时间不够2年的原因可能是：1)、这些病例从入院到现在还没有2年的时间，2)、这些病例随访不足2年时就失访了。

生存分析中生存率的计算-图片1

　　就像上面的这个数据，我截屏了前20个病人，其中13人都是不能纳入上面说的那个2年生存率的计算的，因为他们的随访时候都不够24个月。

但是我们在做生存分析时往往不是这样计算的生存率的，我们是按照KM的生存概率表读取的某一个时间的生存率，比如下表中5年的累积生存率为91.8%。理论上应该读取第838行的累计生存率(因为它正好对应着60个月)，但是这儿没有数，所以读取他的上一个数(第826行)来代替。

生存分析中生存率的计算-图片2

　　这个5年的累计生存率也跟生存曲线对应着，它的生存曲线如下。图中红色的线对应的就是60个月的累积生存率。

生存分析中生存率的计算-图片3

　　这儿我们一直把它称为累积生存率，因为它有别于前面所说的生存率，累积生存率的计算是将各个时点的生存概率进行乘积计算而来的，考虑了删失数据的影响。但是在生存分析的论文写作中大家早已习惯了将累积生存率简称为生存率。如果不存在删失数据，那么累积生存率就完全等于咱们前面所说的那个简单生存率的计算，即等于t时刻仍存活的例数/观察总例数。

由于上述的表格中不存在时间正好等于60.000个月时的生存率，所以我们选用它上一个最接近的时间点59.133个月的数据(0.918)来代替。除此之外，我们还可以采用比例的方法来估算60.000个月的生存率，因为我们知道59.133个月是0.918，62.533个月是0.916，假设这个生存率在这一较小的时间段内是等比例下降的。那么可以算出这一时间段内每1个月的平均下降速度为(0.918-0.916)/(62.533-59.133)=0.000588，60个月距离59.133个月为0.867个月，乘以0.000588=0.00051，再用59.133个月的0.918-0.00051=0.91749，即为正好60个月时的估算生存率。

呃，这么一通计算折腾下来，跟选取最接近的数据来代替，两个生存率也只差了0.51%。本例题的样本量比较大，事件与事件之间时间点相距较近。但有时候研究对象较少时(如只有20例)，出现事件的时间点可能会相距较远，此时差别会大一些。当然读者应该酌情考虑是否采用这一计算方法。

发表评论