R语言广义线性模型Logistic回归模型C Statistics计算
区分能力指的是回归模型区分有病/无病、有效/无效、死亡/存活等结局的预测能力。比如,现有100个人,50个确定患病,50个确定不患病;我们用预测模型预测出45个有病,55个没病。那么这45个覆盖到50个真正有病的人的多少就直接决定了模型预测能力的准确程度,我们将其称为区分度,通常用ROC、C-Statistics来度量(在Logistic回归模型中ROC曲线下面积AUC=C-Statistics)。当然净重新分类指数(net reclassification improvement,NRI)和综合判别改善指数(integrated discrimination improvement,IDI)也是比较不同模型区分度的度量指标,后续章节中会进一步讲解。
对每个个体来说,我们既不希望误诊也不希望漏诊,所以对于基于Logistic 回归预测模型的好坏,常常会像做诊断试验一样绘制ROC曲线来判断预测的区分度。不同的是,用于绘制ROC曲线所用的指标不再是临床上的某个检测结果,而是用Logistic回归模型的预测概率。根据预测概率的大小判断事件是否发生,这样会得到一连串的灵敏度和特异度用于绘制ROC曲线,帮助我们来了解构建的预测模型是不是能准确预测事件的发生。
#C-statistics计算
library(foreign)
library(rms)
mydata<-read.spss("lw