公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

导师:做预测模型快来看看这12条建议,你的论文不会差!

Administrator
发布于 2025-07-16 / 53 阅读
0
0

从文章量产来说,meta分析、公共数据挖掘、预测建模似乎有相似之处,但从实用角度,预测建模的应用性更强

但每年发表的预测模型的文章虽多,却很少用于实践。绝大多数模型就是发表文章,然后……,然后好像就没有然后了。

造成这一现状的原因有很多,比如模型质量、临床医生的接受程度、模型应用对患者的临床效果等。

因此,今天我们分享一篇文章,根据作者多年的经验和思考,同时也根据作者自己开发的几个模型(这些模型大都已在临床应用)的经验,提出了12条个人感觉比较实用的建议,发表在The Innovation Medicine题为:“Twelve practical recommendations for developing and applying clinical predictive models”的文章,主要是希望能在一定程度上提高临床预测模型的应用。

(如果你需要全文,请在医学论文与统计分析微信公众号后台回复关键词“pdf”。如果您在临床试验数据分析过程中遇到困难,来看看我们的临床试验项目设计与数据分析服吧!您可以选择部分或全部服务,详情可咨询助教,微信号:aq566665)

这12条实用的建议包括预测指标的选择、样本量估算、预测模型的选择、变量筛选策略、模型验证与评价、模型影响评估、模型更新等具体内容,本文将其概括总结,想要了解详情的不妨去看一下原文,或直接点击下方链接。

网址:https://www.the-innovation.org/article/doi/10.59717/j.xinn-med.2024.100105

下面让我们一起来看一下这12条建议!

图1 图文摘要

1.确定模型开发的必要性

在模型开发之前,先明确自己的需求。有人可能觉得这是一句废话,但作者之所以再次强调,是因为不少人在构建临床预测模型的时候忽视了构建模型的必要性。

对此,作者认为可以从以下两方面进行考虑:

  • 首先,要有临床需求和临床应用价值,包括模型的临床效用及其实际实施的可行性;

  • 其次,确认模型有没有开发的必要,如果在同领域已经足够多的类似的模型,可以考虑模型验证或更新而不是新开发模型,这可以有效避免资源的浪费。

2. 选择合适的预测变量

选对变量,预测效果才能翻倍。我们在选择合适的预测变量的时候,可以从临床角度和统计学角度两个角度综合考虑。

√从临床角度来看,预测变量应基于专家知识或文献支持,优先选择易于获取、成本低的变量。

  • 常见的预测变量包括人口统计学、疾病类型和严重程度、病史、临床特征、实验室检测数据和基因特征等。

  • 除此之外,还要考虑到预测变量的一致性,建立标准化测量标准;

  • 优先考虑客观预测变量,减少因观察者差异引入的不一致性;

  • 优先选择能提供可靠且稳定结果的预测变量,以提高模型的稳定性和可靠性。

√统计学角度来看,则建议看一下预测变量的分布,变异性小的变量一般不适合作为预测变量。例如,在二元预测变量情况下,如果某一类占数据的98%,除非已知该变量具有高度预测性,否则通常无需将此类变量纳入模型中。

在构建预测模型的时候,另一个常见的问题是:当预测变量之间存在共线性,预测变量之间相关性很强时,是否可以将这些预测变量同时纳入模型?

今天这篇文章讲得很明白。

共线性并不影响预测模型的预测性能,而是影响系数估计值和p值,从而影响模型的可解释性。也就是说,即使模型中同时含有2个相关性很强的预测变量,模型的ROC曲线下面积等指标不会有影响,但是模型的系数会发生较大影响,如可能本来应该使0.9,现在变成了-0.2。

所以,如果主要目标是预测,且不需要理解每个自变量的影响,可以保留高度相关的预测变量。

如果是构建需要可解释的模型,建议去除其中一个相关的预测变量。

3.确定合理的样本量

预测模型开发中可以通过两种主要方法确定样本量:经验法则基于特定标准的计算方法。

√经验法则建议基于EPP (events per candidate predictor parameter)而不是EPV(events per variable)原则,避免对“变量”术语的潜在误解。

  • 例如,当一个连续变量如“年龄”被纳入模型时,它对应一个估计参数。但是,添加年龄的二次项会增加到两个参数。同样,将年龄分类为五组需要估计四个参数。换句话说,一个变量并不等于一个参数,一个变量很可能是多个参数。所以不能简单根据变量数来确定样本量。

如果实际应用角度出发,当模型中纳入参数个数大于10时,20 EPP的样本量通常足够。此外,当事件比例低于0.2时,10EPP也足够了。

√基于特定标准的计算方法可以从以下5方面考虑:

  • 确保整体结果风险的精确估计,相当于保证截距的精准估计,推荐的误差边界为0.05;

  • 确保平均绝对预测误差(MAPE)小于5%;

  • 确保全局收缩因子大于0.9,减少过拟合; 

  • 确保显著R²Nagelkerke和调整后的R²Nagelkerke之间的绝对差异不超过0.05; 

  • 选择四个计算得出的样本量中最大的作为最终样本量。

虽然计算方法在理论上比经验法则更合理,因为它考虑了多种因素,但仍然存在许多实际挑战。首先,尽管作者为样本量计算所需的参数提供了推荐值,但不建议使用固定参数值。其次,从现有文献中获取预先指定的参数带来了重大挑战。因此,在实际计算中,参数的确定涉及一定程度的主观性。

4. 处理缺失值和异常值

临床预测模型通常依赖于来自医院的真实数据(例如,电子病历、实验室信息系统),这些数据经常遇到数据缺失和异常值等问题。必须适当解决这些问题,以避免影响数据质量。

√对于缺失值,需要先理解引起数据缺失的多种机制,主要包括完全随机缺失(MCAR)、随机缺失(MAR)以及非随机缺失(MNAR)三类。

数据缺失的情况并不少见,也有不少学者针对缺失值的处理进行了大量的研究。总结为以下几条:

  • 在完全随机缺失时,完全案例(CC)分析和多重填补(MI)法均可获得基本无偏的模型性能估计;

  • 在随机缺失情况下,当预测因子的缺失与其它变量或与结局存在相关,相关性越强、缺失比例越高,缺失对模型性能的影响越大,但MI法的偏倚更低;

  • 在非随机缺失情况下,尽管MI法并非处理非随机缺失的最佳方法,其仍优于CC分析。

更详细的处理方法推荐大家去看原文,这里就不再一一介绍了。

√对于异常值的检测,作者建议采用多变量法进行异常值检测。一旦发现异常值,首先排查是否因数据录入错误引起,如果不是,建议直接删除。

这一建议基于两个关键考虑因素:

  • 异常值通常占用于模型开发数据集的极小比例(根据作者的数据分析经验,这一比例通常低于0.1%甚至更低)因此将其排除对模型构建的影响可以忽略不计;

  • 预测模型是为普通人群设计的,实际应用中偶尔出现的异常值不会影响模型的整体性能。

5.变量变换与变量分箱

在开发预测模型时,通常会遇到连续型预测变量。这时我们会遇到两种情况:

√预测变量与结果之间呈线性关系

大多数基于回归的预测模型假设连续型预测变量与结果之间呈线性关系,这个时候预测变量可以以原始形式或变换后的形式(如对数)直接纳入模型。

然而,大多数情况下,这种关系并不明确,或者无法通过简单的变换来抓取二者的真实关系。在这种情况下,建议采用分数多项式(fractional polynomials)或限制立方样条(RCS)等方法。

√预测变量与结果之间不满足线性关系

在临床实践中,另一种常用的方法是分箱法,也就是将变量分成多个组。

从实际角度出发,作者建议分箱时应强调了以下三点:

  • 首先,至少划分为三类,并保证每类有足够例数;

  • 其次,分类切点应结合临床和统计综合确定,避免完全数据驱动的切点或简单以分位数作为切点;

  • 最后,可将采用分箱法的模型与样条方法进行比较,确保模型性能差别不大。

6.确定合适的模型

如何在众多的预测模型方法中选择最适合你的?

首先明确一点,在临床应用中,预测模型的选择不应仅考虑预测性能,还应关注可解释性这一关键点。因为高度可解释的模型更有可能在临床环境中成功实施和使用。

从模型的灵活性和可解释性这两个角度,预测模型大致分为三种类型:基于回归的方法、机器学习方法和非参数方法。

图2 三种常用的预测模型示例

在选择预测模型时应以研究目标和应用场景为导向,如果侧重解释度且计划应用于临床,建议首选回归模型,如lasso回归;如果只考虑模型预测性能而不是解释能力,可考虑机器学习方法。

7.合理的变量筛选策略

从实用性角度来看,模型中的变量当然是越精简越好。但如何在保证减少变量的同时,保持模型的性能?这就是这节变量筛选所要讲的内容。

  • 具体来说,当变量数较少时,建议选择基于回归的筛选方法

  • 如果变量数很多,可选择基于树的筛选方法

使用基于回归的方法(例如逻辑回归)时,考虑到R²(Nagelkerke)往往较低。因此,当面对大量预测变量和变量之间的强相关性时,建议优先考虑Lasso方法。然而,需要强调的是,变量选择不应仅仅依赖于统计技术,还应结合临床背景专业知识和以往文献的证据。

此外,在筛选变量时还有两个注意要点:

(1)避免仅基于P值进行变量筛选,例如只将单因素分析中P值<0.05的变量用于构建预测模型;

(2)勿将变量的P值大小等同于变量的重要性大小。

8.评估模型性能

模型训练完成后,我们常常需要去评估它的性能,简单来说就是判断“这个模型到底表现得怎么样”。

预测模型性能通常从区分度、校准度、临床效用三个角度进行评价。

  • 区分度指标包括灵敏度、ROC曲线等,作者建议同时利用多个指标灵敏度、特异度、AUC、 F1 评分和Matthews 相关系数( MCC )等从不同角度进行评价,尤其在非均衡数据中,否则很容易出现偏倚;

  • 校准度的评价可通过校准曲线、集成校准指数(ICI)等实现。虽然Hosmer-Lemeshow检验可以作为校准曲线的拟合优度检验,但由于受样本大小影响太大,且解释性差,因此并不建议使用。为了解决样本过大或过小带来的问题,已有文章提出了H-L检验的改进版本。

  • 临床效应采用决策曲线分析(DCA),可以在一定程度上帮助临床医生作出更合理的干预决策。

9.评价模型的可重复性和可移植性

模型验证的目的是评估模型的可重复性(reproducibility)和可移植性(transportability),通常涉及内部验证和外部验证两个过程。

√内部验证用的是模型开发时的数据集,主要关注可重复性。

  • 最简单的是随机分割法,也就是将数据集按照一定的比例(如7:3、8:2等)随机分为训练集和验证集两部分,但该法可能导致子集变小、增加过拟合风险及结果不稳定。

  • 相比之下,重采样技术,如交叉验证和自助法(bootstrapping)更受欢迎,特别是自助法在小样本量下特别有效,建议作为首选。

除此之外,作者还特别强调,内部验证不等于外部验证。

√虽然内部验证方便,但它往往会产生过于乐观的结果,并倾向于夸大模型的表现。因此,在临床环境中应用预测模型之前,外部验证变得至关重要。

根据评估的目的不同,外部验证集可以分为两类:

  • 地理验证(或称空间验证,geographical validation)被广泛认为是首选方法,它评估模型在不同机构或地区的可移植性;

  • 时间验证(temporal validation)通常被视为一种在时间上进行的外部验证,它检查先前开发的模型在同一中心后续患者队列中的有效性,其性能介于内部验证和地理外部验证之间。

10.更新预测模型

模型也要与时俱进,如果一个合理的模型表现出良好的区分度但校准度较差,建议对该模型进行更新,而不是重新开发。

可采用三种基于回归的模型更新方法:模型更新(包括模型重新校准、模型修正和模型扩展)、Meta模型更新和动态更新。

11.进行影响评估

简单来说,影响评估就是看看你的模型是否真的改变了医生和病人的决策。

√从研究设计考虑

通常采用整群随机对照研究,将医生或医疗机构随机分配到使用预测模型或不使用模型两组;为更好地保证两组均衡性,也可采用阶梯设计(stepped-wedge design)。

而为了节省成本,可先采用前后对照研究或真实世界研究,如果观察到有意义的结果,再开展随机对照试验。

√从研究结局考虑

影响评估的结局包括医生结局和患者结局,建议先对医生的决策行为改变进行研究,如果观察到有意义的结果,再随访观察患者结局。

12.模型推广应用

作者建议,一个模型从开发到临床应用至少应包含五个关键阶段:

  • 第一,在内部验证中实现良好的区分度和校准度;

  • 第二,通过外部验证展示可移植性;

  • 第三,通过影响评估确认其对临床医生决策的影响;

  • 第四,通过影响评估明确其对患者结局的影响;

  • 第五,也是最关键的,有该领域内顶尖专家的支持以有效推广应用。

近年来,预测模型和人工智能在医学领域迅速发展,但其临床应用仍然具有挑战性。一个好的预测模型不是仅靠统计软件的输出结果,而是需要在每个环节都充分考虑,以应对可能出现的各种问题。

之后我们也会解读更多临床预测模型相关的文章,大家不妨期待一下!


评论

收银台

订单信息

应付金额 积分

模块介绍

请加我们助教二维码或加入Zstats使用群
Zstats交流群

Zstats交流群

助教二维码

联系助教

选择支付方式

请输入助教告诉您的积分券

如果不填写积分券,将直接使用当前余额支付

正在创建订单...

请稍候,正在为您生成支付订单

支付二维码

请使用扫描二维码完成支付

等待支付中...

二维码获取失败

支付二维码获取失败,请点击重新获取

正在处理余额支付...

请稍候,正在为您完成支付

正在处理充值并支付...

正在使用积分券兑换,然后完成支付 正在使用当前余额完成支付

支付成功!

您的订单已支付完成,页面将在 秒后自动关闭

支付失败

支付过程中出现错误,请重新选择支付方式

平台说明