公众号
医学论文与统计分析公众号
扫码关注公众号

统计咨询
添加助教微信即可咨询
添加助教微信即可咨询

意见反馈
邮箱:17357190071@163.com
微信:aq566665

机器学习方法的佼佼者--超级学习者!来看医学一区top的文章

Administrator
发布于 2025-07-25 / 36 阅读
0
0

众所周知,回归模型是构建临床预测模型的主力。事实上,过去十年里开发的用于预测肝纤维化的非侵入性的工具,大多都依赖于逻辑回归模型。

尽管机器学习方法功能强大,但研究者们无法准确把握哪种机器学习法性能最佳。这时,Super Learner便成为了一个有效的解决方案,它能够通过将多个模型合并为一个综合模型,从而提升预测的准确性。

2024年11月,期刊《Hepatology》(医学一区top,IF=12.9)发表了一篇题为:“Benchmarking clinical risk prediction algorithms with ensemble machine learning for the noninvasive diagnosis of liver fibrosis in NAFLD”的研究论文,旨在探讨Supper Learner在识别非酒精性脂肪肝病(NAFLD)患者中的显著肝纤维化(达2期及以上肝纤维化)的预测性能。

研究结果显示,Super learner作为“最佳机器学习预测器”,在检测纤维化的非酒精性脂肪肝病(NASH)方面表现优异。

(如果你需要全文,请在医学论文与统计分析微信公众号后台回复关键词“pdf”。如果你对机器学习感兴趣,千万不要错过本周六的基于R语言的机器学习构建临床预测模型课程!详情可咨询助教,微信号:aq566665)

数据收集与处理

在该项研究中,为了构建和验证superlearner模型,研究团队采用了来自不同队列的有NAFLD患者数据的数据集。

  • NASH-CRN(非酒精性脂肪性肝炎临床研究网络)观察性研究队列(n=648)为训练superlearner模型;

  • FLINT试验(n=270)和NHANES数据库(n=1244)来验证superlearner模型。

此外,排除了23个缺失相关协变量数据的参与者。

图1 训练集和研究者的样本量筛选

特征筛选

选取三个数据集共有的23个人口统计学和临床变量训练superlearner,提高模型的预测能力。

表1 各数据集的特征

模型的构建与评估

√确定基础模型

首先使用训练集数据训练12个基础模型,每个模型都会尝试从数据中学习特征与目标变量的关系。

基础模型包括:贝叶斯广义线性模型(bayesglm)、多元自适应样条回归模型(earth)、广义加性模型(gam)、广义提升模型(gbm)、广义线性模型(glm)、正则化广义线性模型(glmnet)、套袋树(ipredbagg)、神经网络(nnet)、多元自适应多元样条回归(polymars )、随机森林(randomForest)、递归分割树(rpart)、支持向量机(svm)。

所有12个基本模型都使用默认调优参数。

使用交叉验证(CV)技术拟合含所有可用的预测变量和上述的12个基础模型,生成Super Learner模型,用于后续验证集中模型性能的评估。

√ 模型评估

使用ROC曲线和AUC值在验证集中评估Super Learner的性能,并将Super Learner模型的性能与现有评分系统(Fibrosis-4 [FIB-4]、NAFLD纤维化评分、Forns评分、AST与血小板比率指数[APRI]、BARD评分和脂肪变性相关纤维化估计器[SAFE])进行比较。

  • 使用bootstrap法进行1000次重复抽样,计算AUC的95%Cls;

  • 对于NHANES-NAFLD数据集,使用采样权重进行加权分析,以获得更准确的AUC和ROC曲线。

研究结果表明,在FLINT和NHANES验证集上,Super Learner预测性能较强,能够准确区分具有显著纤维化的患者和没有纤维化的患者。

  • FLINT验证集的AUC为0.79(95% CI:0.73-0.84),NHANES验证集的AUC为0.74(95% CI:0.68-0.79)

  • 同时,SAFE评分与Super Learner的性能相似,两者均优于FIB-4、APRI、Forns和BARD评分。

图2 验证集中,Super Learner(基于12个基本模型)、APRI、BARD、FIB-4、Forns、NFS和SAFE的ROC曲线

图3 验证集中,Super Learner(基于12个基本模型)、APRI、BARD、FIB-4、Forns、NFS和SAFE的AUC

敏感性分析

在敏感性分析中,研究团队比较了拟合的6个Super Learner的性能。

使用交叉验证(CV)技术拟合Super Learner模型,本研究共构建了六个Super Learner 它们的构建过程略有不同,但总体上都遵循以下步骤:

  • Super Learner 1:使用所有可用的预测变量和上述的12个基础模型进行拟合;

  • Super Learner 2:在Super Learner 1的基础上重新拟合到所有连续预测器都经过对数变换的训练数据中;

  • Super Learner 3:在Super Learner 2的基础上再次拟合到未变换和对数变换的数据中。

  • Super Learner 4~6:这三个Super Learner是基于90个基础模型构建的。它们分别拟合于未转换的、对数转换的、以及未转换+对数转换组合的数据上。

在拟合过程中,通过交叉验证来确定每个基础模型的预测性能,并根据这些性能为它们分配权重。

这些权重将用于组合基础模型的预测结果,以形成超级学习器的最终预测。

结果显示,所有模型的预测性能相似,这意味着Super Learner从12个基础模型中得出的结果与从90个基础模型中得出的结果一致。

综上所述,在检测纤维化的非酒精性脂肪肝病(NASH)方面,经过训练的Super Learner模型的预测性能显著优于现有模型。

研究团队认为,Super Learner模型可以在给定训练数据集的基础上得到“最佳预测”,即使在它没有优于现有简单模型的情况下,也可以将其用作评估现有临床风险预测模型性能的基准。


评论

收银台

订单信息

应付金额 积分

模块介绍

请加我们助教二维码或加入Zstats使用群
Zstats交流群

Zstats交流群

助教二维码

联系助教

选择支付方式

请输入助教告诉您的积分券

如果不填写积分券,将直接使用当前余额支付

正在创建订单...

请稍候,正在为您生成支付订单

支付二维码

请使用扫描二维码完成支付

等待支付中...

二维码获取失败

支付二维码获取失败,请点击重新获取

正在处理余额支付...

请稍候,正在为您完成支付

正在处理充值并支付...

正在使用积分券兑换,然后完成支付 正在使用当前余额完成支付

支付成功!

您的订单已支付完成,页面将在 秒后自动关闭

支付失败

支付过程中出现错误,请重新选择支付方式

平台说明