决策曲线分析法(Decision Curve Analysis,DCA)曲线

  • A+
所属分类:Statistics

我们都知道,评价一种诊断方法是否好用,一般是作ROC曲线,计算AUC。但是,ROC只是从该方法的特异性和敏感性考虑,追求的是准确。而临床上,准确就足够了吗?患者就一定受益吗?

比如我通过某个生物标志物预测患者是否患了某病,无论选取哪个值为临界值,都会遇到假阳性和假阴性的可能,有时候避免假阳性受益更大,有时候则更希望能避免假阴性。既然两种情况都无法避免,那我就想要找到一个净受益最大的办法。这是个临床效用问题。

2006年,纪念斯隆凯特琳癌症研究所的AndrewVickers博士(就是题图那位帅帅的小卷毛)等人研究出另一种评价方法,叫决策曲线分析法(Decision Curve Analysis,DCA)。相对于二战时期诞生的ROC曲线,DCA还很年轻,也一直在完善之中,不过2012-2016年间,Ann InternMed.、JAMA、BMJ、J Clin Oncol等杂志都已陆续发文,推荐使用决策曲线分析法。

决策曲线分析法(Decision Curve Analysis,DCA)曲线

Lancet. 2016 Jun 4;387(10035):2302-11.

这是一个来自Lancet的例子,研究者为了评价房颤患者口服抗凝药的出血风险,开发了一种新的评价方法,即基于生物标志物的ABC出血风险评分(Age,Biomarkers,Clinicalhisory),让它和传统的ORBIT及HAS-BLED法比较。这种类型的研究,咱们通常就是作ROC曲线。但他们没有,而是采用了决策曲线分析法。

这幅图的横坐标为阈概率(ThresholdProbability)。当各种评价方法达到某个值时,患者i的出血风险概率记为Pi;当Pi达某个阈值(记为Pt),就界定为阳性,采取某种干预措施(比如更改抗凝方案)。

那么改了抗凝方案,自然就改变了出血与血栓形成之间的利弊平衡,纵坐标就是利减去弊之后的净获益率(Net Benefit, NB)。

可这幅图除了三种评价方法的曲线外,还有两条虛线,它们代表两种极端情况。横的那条表示,所有样本都是阴性(Pi < Pt),所有人都没干预,净获益为0。斜的那条表示所有样本都是阳性,所有人都接受了干预,净获益是个斜率为负值的反斜线(原理见后文)。其它的曲线就与它们相比较。

从图中可以看出,HAS-BLED曲线和两条极端曲线很接近,也就是说它没什么应用价值。而在一个很大的Pt区间范围内,ABC法和ORBIT法的获益都比极端曲线高,所以它们可选的Pt范围都比较大,相对安全。而ABC又比ORBIT好一些。

绘制决策曲线

 

毕竟这是新的算法嘛,传统的统计软件好像还木有跟上,R语言倒是跟得挺快。2016年,Kerr等人专为决策曲线制作了个名为DecisionCurve的R语言包,现在连DCA的诞生地,纪念斯隆凯特琳癌症研究所的官网教程中,都还没更新到这个包的使用方法。好在它真的很简单。

 

这里有一份示例数据,是NHLBI(美国国家心肺血液研究所)的Framingham心脏研究专项数据集的一个子集,4000多个样本。

决策曲线分析法(Decision Curve Analysis,DCA)曲线

自变量分别为性别(sex)、收缩压(sbp)、舒张压(dbp)、血清胆固醇(scl)、年龄(age)、身体质量指数(bmi)等,因变量为冠心病相关死亡事件(chdfate)。因变量必须是二元变量,随访时间内死亡为1,未死亡为0。

下面建立两个模型,来演示怎样画出DCA曲线。一个是简单模型,以血清胆固醇值为预测方法(predictor),死亡事件为结果(outcome);另一个是复合模型,联合性别、年龄、BMI、血清胆固醇、收缩压、舒张压为预测方法,死亡事件为结果。

  • 准备工作

 

  • DCA运算

 

#decision_curve()函数中,family =binomial(link = ‘logit’)是使用logistic回归来拟合模型。threshold设置横坐标阈概率的范围,一般是0 ~ 1;但如果有某种具体情况,大家一致认为Pt达到某个值以上,比如40%,则必须采取干预措施,那么0.4以后的研究就没什么意义了,可以设为0 ~ 0.4。by是指每隔多少距离计算一个数据点。

 

  • DCA曲线绘制

 

#plot_decision_curve()函数的对象就是刚才的List,如果只画一根曲线,就不需要合成的那步,直接把List替换成simple或complex就好了。

# curve.names是出图时,图例上每条曲线的名字,书写顺序要跟上面合成list时一致。cost.benefit.axis是另外附加的一条横坐标轴,损失收益比,默认值是TRUE,所在不需要时要记得设为FALSE。col就是颜色。confidence.intervals设置是否画出曲线的置信区间,standardize设置是否对净受益率(NB)使用患病率进行校正。

好了,这样就得到如下曲线:

决策曲线分析法(Decision Curve Analysis,DCA)曲线

可见,在Pt约为0.1~0.5范围内,复合评价模型的净受益率都比简单模型高。

然后可用summary(complex,measure= 'NB')查看complex模型曲线上的各数据点,当然,NB也可以改成sNB,表示经过患病率的标准化:

决策曲线分析法(Decision Curve Analysis,DCA)曲线

 

接下来的一个函数,就是Kerr等人对DCA算法的进一步发展了,即绘制临床影响曲线(Clinical Impact Curve):

 

# 使用simple模型预测1000人的风险分层,显示“损失:受益”坐标轴,赋以8个刻度,显示置信区间,得到下图:

决策曲线分析法(Decision Curve Analysis,DCA)曲线

红色曲线(Numberhigh risk)表示,在各个阈概率下,被simple模型划分为阳性(高风险)的人数;蓝色曲线(Number high risk with outcome)为各个阈概率下真阳性的人数。意义一目了然吧。

DCA算法的设计原理

其实了解到上面的也够了,再了解下面的就锦上添花啦~

它相当于在回归预测分析的基础上,引入了损失函数。先简单定义几个概念:

P:给真阳性患者施加干预的受益值(比如用某生化指标预测某患者有癌症,实际也有,予活检,达到了确诊的目的);

L:给假阳性患者施加干预的损失值(比如预测有癌症,给做了活检,原来只是个增生,白白受了一刀);

Pi:患者i有癌症的概率,当Pi > Pt时为阳性,给予干预。

所以较为合理的干预的时机是,当且仅当Pi × P >(1 – Pi) × L,即预期的受益高于预期的损失。推导一下可得,Pi > L / ( P + L )即为合理的干预时机,于是把L / ( P + L )定义为Pi的阈值,即Pt。

但对二元的预测指标来说,如果结果是阳性,则强制Pi=1,阴性则Pi = 0。这样,二元和其他类型的指标就有了可比性。

然后我们还可用这些参数来定义真阳性(A)、假阳性(B)、假阴性(C)、真阴性(D),即:

A:Pi ≥ Pt,实际患病;

B:Pi ≥ Pt,实际不患病;

C:Pi < Pt,实际患病;

D:Pi < Pt,实际不患病。

我们有一个随机抽样的样本,A、B、C、D分别为这四类个体在样本中的比例,则A+B+C+D = 1。那么,患病率(π)就是A + C了。

在这个样本中,如果所有Pi ≥ Pt 的人我们都给做了活检,那么就会有人确诊,有人白白被拉了一刀,那么净受益率NB = A × P – B × L。

但Vickers认为,知道P和L的确切值并没有什么实际意义,人们可能更关心L/P的比值,所以将上面的公式强行除以P,变成NB = A – B × L/P。根据Pt定义公式可推导出:NB = A – B × Pt / ( 1 – Pt )。以Pt为横坐标,U为纵坐标,画出来的曲线就是决策曲线。

若使用患病率进行校正,则U = A ×π– B ×(1 –π) × Pt / ( 1 – Pt )。

那么两个极端情况的曲线也很好推导了。当所有样本都是阴性(Pi < Pt),所有人都没干预,那么A = B = 0,所以NB = 0。当所有样本都是阳性,所有人都接受干预,那么C = D = 0,A = π,B = 1 –π,NB = π– ( 1 –π )Pt / ( 1 – Pt ),所以它斜率为负值。

 

参考资料:

1.Decision curve analysis: anovel method for evaluating prediction models

2.Decision curve analysisrevisited: overall net benefit, relationships to ROC curve analysis, andapplication to case-control studies

3.Assessing the Clinical Impactof Risk Prediction Models With Decision Curves: Guidance for CorrectInterpretation and Appropriate Use

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: