决策曲线(Decision Curve Analysis)绘制

2015/12/17来源：临床研究与医学统计评论11,206

1. 背景知识

前面的文章我们已经探讨了评价一个预测模型区分度的统计学指标C-statistics（即ROC曲线下面积）。但C-statistics是否足够好呢？没有最好，只有更好。比如我通过某个连续指标预测患者是否患病，无论选取哪个值作为截断值，都存在一定的假阳性和假阴性概率。既然这两种情况都无法避免，那我就从构建预测模型的原始动机出发，努力去寻找一个预测净受益最大的模型。如何去计算这种预测净收益呢？

纪念斯隆凯特琳癌症研究所的AndrewVickers等人于2006年发明了一种新的计算方法，叫决策曲线分析法（Decision Curve Analysis，DCA），与二战时期就诞生的ROC分析相比，DCA显然还很“嫩”，但“青出于蓝，而胜于蓝”，Ann Intern Med、JAMA、BMJ、J Clin Oncol等Top临床医学杂志都曾发文力挺使用决策曲线分析法（DCA）。那么问题来了？如何画出一副看起来足够高大上的Decision Curve?

统计学家们总是先想到用R去实现新的算法，事实也的确如此，基于R语言的DCA算法最先公布，后续也有基于SAS与Stata的DCA算法出现，但目前尚未见到SPSS具有此功能（SPSS的劣势在此也可见一斑）。Kerr等人还专门为决策曲线法的实现制作了一个名为DecisionCurve的R包，但请各位注意：目前DecisionCurve包在CRAN官网中已经不提供下载，原DecisionCurve包的所有函数已经整合入rmda包，所以大家只要在R中安装并加载rmda包即可绘制决策曲线。网上有关如何在新版本的R软件中安装DecisionCurve包的教程是一种不恰当的做法，正确做法是直接安装rmda包。

2. 案例分析

案例数据是NHLBI（美国国家心肺血液研究所）著名的Framingham心脏研究数据集的一个子集，包含4000多个样本。自变量分别为性别（sex）、收缩压（sbp）、舒张压（dbp）、血清胆固醇（scl）、年龄（age）、身体质量指数（bmi）等，因变量为冠心病相关死亡事件（chdfate）。因变量是二元变量，随访时间内死亡为1，未死亡为0。数据结构如下图1.所示：

图1. Framingham心脏研究数据集的子集截图

下面建立两个Logistic回归模型，来演示怎样画DCA曲线。一个是简单的Logistic回归模型（simple），以血清胆固醇值为预测变量（predictor），冠心病相关死亡事件为结果（outcome）；另一个是多元Logistic回归模型（complex），以性别、年龄、BMI、血清胆固醇、收缩压、舒张压为预测变量，冠心病相关死亡事件为结果（outcome）。

3. R代码及结果解读

载入包载入数据

#install.packages("rmda")
library(rmda)
Data<-read.csv('2.20.Framingham.csv',sep = ',')

DCA模型构建

decision_curve()函数中，family=binomial(link=‘logit’)是使用logistic回归来拟合模型。threshold设置横坐标阈概率的范围，一般是01；但如果有某种具体情况，大家一致认为阈概率达到某个值以上，比如40%，则必须采取干预措施，那么0.4以后的研究就没什么意义了，可以设为00.4。by是指每隔多少距离计算一个数据点。Study.design可设置研究类型，是“cohort”还是“case-control”，当研究类型为“case-control”时，还应加上患病率population.prevalance参数，因为在“case-control”研究中无法计算患病率，需要事先提供。

首先构建一个简单模型，定义为simple

simple<- decision_curve(chdfate~scl,data= Data,
                        family = binomial(link ='logit'),
                        thresholds= seq(0,1, by = 0.01),
                        confidence.intervals = 0.95,
                        study.design = 'case-control',
                        population.prevalence = 0.3)
## Warning in decision_curve(chdfate ~ scl, data = Data, family =
## binomial(link = "logit"), : 33 observation(s) with missing data removed
## Calculating net benefit curves for case-control data. All calculations are done conditional on the outcome prevalence provided.

再构建一个复杂logistics回归模型complex，语法和simple相同，即在原来simple模型基础上增加自变量。

complex<-decision_curve(chdfate~scl+sbp+dbp+age+bmi+sex,
                        data = Data,family = binomial(link ='logit'),
                        thresholds = seq(0,1, by = 0.01),
                        confidence.intervals= 0.95,
                        study.design = 'case-control',
                        population.prevalence= 0.3)
## Warning in decision_curve(chdfate ~ scl + sbp + dbp + age + bmi + sex, data
## = Data, : 41 observation(s) with missing data removed
## Calculating net benefit curves for case-control data. All calculations are done conditional on the outcome prevalence provided.
## Note:  The data provided is used to both fit a prediction model and to estimate the respective decision curve. This may cause bias in decision curve estimates leading to over-confidence in model performance.

把刚才计算的simple和complex两个对象合成一个list，并命名为List。

List<- list(simple,complex)

DCA曲线绘制

plot_decision_curve() 函数的对象就是前面定义的List，如果只画一条曲线，直接把List替换成simple或complex即可。#curve.names是出图时，图例上每条曲线的名字，书写顺序要跟上面合成list时一致。cost.benefit.axis是另外附加的一条横坐标轴，损失收益比，默认值是TRUE，所在不需要时要记得设为FALSE。col设置颜色。confidence.intervals设置是否画出曲线的置信区间，standardize设置是否对净受益率（NB）使用患病率进行校正。可得如图2.所示曲线。

plot_decision_curve(List,
                    curve.names=c('simple','complex'),
                    cost.benefit.axis =FALSE,col= c('red','blue'),
                    confidence.intervals=FALSE,
                    standardize = FALSE)
## Note: When multiple decision curves are plotted, decision curves for 'All' are calculated using the prevalence from the first DecisionCurve object in the list provided.

图2. 决策曲线。

可见，在阈值在0.1~0.5大致范围内，complex模型的净受益率都比simple模型高。

查看complex模型曲线上的各数据点，NB也可以改成sNB，表示经过患病率的标准化。

summary(complex,measure= 'NB')
此结果太冗长，故不在此展示，读者可以自行在R语言中尝试。

绘制临床影响曲线（Clinical Impact Curve）

绘制simple模型的临床影响曲线。使用simple模型预测1000人的风险分层，显示“损失:受益”坐标轴，赋以8个刻度，显示置信区间，得到图3

plot_clinical_impact(simple,population.size= 1000,
                     cost.benefit.axis = T,
                     n.cost.benefits= 8,
                     col =c('red','blue'),
                     confidence.intervals= T,
                     ylim=c(0,1000),
                     legend.position="topright")

图3. simple模型临床影响曲线

绘制complex模型的临床影响曲线。使用complex模型预测1000人的风险分层，显示“损失:受益”坐标轴，赋以8个刻度，显示置信区间，得到图4.

plot_clinical_impact(complex,population.size= 1000,
                     cost.benefit.axis = T,
                     n.cost.benefits= 8,col =c('red','blue'),
                     confidence.intervals=T,
                     ylim=c(0,1000),
                     legend.position="topright")

图4. complex模型临床影响曲线

红色曲线（Number high risk）表示，在各个阈概率下，被simple模型（图3.）或complex模型（图4.）划分为阳性（高风险）的人数；蓝色曲线（Number high risk with outcome）为各个阈概率下真阳性的人数。

4. 参考文献

[1]. Decision curve analysis: anovel methodfor evaluating prediction models

[2].Decision curve analysisrevisited:overall net benefit, relationships to ROC curve analysis, andapplication tocase-control studies

[3].Assessing the Clinical Impactof RiskPrediction Models With Decision Curves: Guidance for CorrectInterpretation andAppropriate Use

[4]. https://www.plob.org/article/12455.html 决策曲线分析法（Decision Curve Analysis, DCA）

[5].https://www.mskcc.org/departments/epidemiology-biostatistics/health-outcomes/decision-curve-analysis-01

[6]. https://github.com/mdbrown/rmda/releases

发表评论