2025年1月,武汉大学的学者在医学顶级期刊Lancet子刊《eClinicalMedicine》(医学一区top,IF=9.6)发表了一篇题为:“Development and validation of a screening tool for sepsis without laboratory results in the emergency department: a machine learning study”的研究论文。
在该项研究中,研究团队旨在基于三种机器学习算法,开发一种快速脓毒症筛查工具(qSepsis),无需等待实验室结果,实现快速分诊。并将其性能与已建立的临床评分:全身炎症反应综合征(SIRS)、脓毒症相关的快速序贯器官衰竭评分(qSOFA)和改良早期预警评分(MEWS)进行比较。
(如果你需要全文,请在医学论文与统计分析微信公众号后台回复关键词“pdf”。如果你对机器学习感兴趣,千万不要错过我们的基于R语言的机器学习构建临床预测模型课程!详情可咨询助教,微信号:aq566665)
每年因脓毒症死亡的人数约占全球死亡人数的19.7%,而早期识别和及时干预可以改善患者的预后并大大降低死亡率。
数据收集与处理
该研究是一项回顾性研究,研究团队使用电子健康记录(EHR)系统获取患者病史和临床数据,仅分析每位患者首次入院的数据。
√数据收集
纳入2015年1月1日至2022年5月31日期间,武汉大学中南医院急诊科收治的414,864例年龄≥18岁符合条件的患者。
外部验证队列使用MIMIC-IV-ED version 2.2数据库,使用同样的纳排标准纳入200,089名患者。
研究团队使用所提取的数据计算了SIRS、qSOFA和MEWS评分,数据处理程序与主要数据集的处理一致,均使用多种方法对缺失数据进行填补。
图1 研究流程
√数据处理
使用合理性过滤器处理数值变量,确保数据的生理学有效性,异常值由空值代替。
√临床变量的选择
首先,进行初步筛选
根据感染病的特征,总结了可能相关的49种症状和体征,并由数据人员对涉及上述症状体征的病例数据进行标记,计算这些指标在数据中的比例。
其次,邀请专家评估
邀请5位临床经验丰富的专家评估被标记的49种症状和特征变量,移除了阳性率低于2%的9个指标,同时加入年龄、生命体征及格拉斯哥昏迷评分(GCS)等11个数值变量,最终得到51个候选变量。
接着,排除部分变量
排除了缺失值比例大于30%以及高度关联(>80%)的变量,剩下40个候选变量。
最后,进行递归特征消除
通过将特征重要性排序,每次迭代中去除最不重要的特征并重新拟合模型,最终选择了具有最佳AUROC的12个特征子集。
确定了特征子集后,临床专家再次审查这12个特征,确保没有排除具有重大临床意义的特征。
√缺失值处理
在临床变量选择时,排除了缺失值比例大于30%以及相关性高于80%的变量;
采用了多种非随机缺失策略来处理缺失值:
对于格拉斯哥昏迷评分(GCS),由于临床专家认为无意识改变的患者很容易被遗漏,所以用0来填充缺失值;
对于其他数值变量的缺失值,考虑到这些变量的非随机分布特性,用队列的中位数来填充。使用了多重插值密度图来展示每个数值变量在插值前后的数据情况。
分类变量缺失值的处理:
因为阴性症状在记录中被高度遗漏,将二分类的症状和体征变量编码为1(表示阳性症状或体征)和0(表示其他,包括缺失值)。
“到院方式”变量中,“救护车”标记为1,其余情况标记为0。
在分割数据后,独立地对训练集和测试集进行了插补处理。
√数据归一化
分别对训练集和测试集中的所有变量使用MinMax标量进行归一化处理。
开发并验证预测模型
√模型的选择
将40个特征纳入三个机器学习算法:包括逻辑回归[LR]、随机森林[RF]和极端梯度提升[XGB],构建qSepsis模型。
在选定的训练数据集中进行了5折交叉验证,以避免过拟合。
数据集中的20%被用作测试集,不参与模型训练,其余80%被合并形成每一折的训练集和验证集,以进行进一步的微调。
由于脓毒症患者与非脓毒症患者数量之间存在极端的不平衡,我们采用了分层下采样方法,确保类别分布均匀。
使用AUROC对每个折叠的模型性能进行评估,并用最大的Youden's J指数来确定模型的最佳阈值。
通过评估AUROC等多种指标,选定表现最佳的机器学习算法,即LR。
√预测因子的筛选
特征的重要性通过模型的权重或增益(即决策树中将给定特征作为分支点所带来的准确率的提升)得出。
使用递归特征消除法,通过对特征重要性排序、丢弃最不重要的特征并重新拟合模型,将特征从40个减少到20个,然后再减少到12个。通过这种方法,我们能够以较少的指标构建qSepsis模型。
图3 qSepsis模型中12个特征的权重
√模型的构建和评估
最终,根据模型性能最佳的结果及急诊和重症医学专家的建议,将12个特征纳入LR模型,构建qSepsis模型。
研究结果显示,相较于RF和XGB,LR模型的性能最佳(AUROC为0.862)。
图2 逻辑回归、随机森林和极端梯度提升的模型性能
使用多个指标评估模型的预测能力,除了AUROC外,LR在灵敏度(0.763)和阴性预测值(NPV, 0.994)方面的表现也优于其他两个机器学习模型。
此外,研究结果显示,基于三种机器学习的模型在性能上优于现有的临床脓毒症筛查评分,包括qSOFA、SIRS和MEWS(AUC=0.862,AUPRC=0.213)。
图4 与已建立的临床评分相比,LR在qSepsis模型中的ROC曲线
图5 qSepsis模型和其他临床评分的PRC曲线
外部验证队列中,与其他模型相比,LR模型始终保持最佳性能,AUROC较高,为0.766 (95% CI 0.758-0.774)。
综上所述,与现有脓毒症临床评分相比,qSepsis的预测性能最佳,在实猃室检测手段有限的院前急救环境中以及急诊科,它可用于快速筛选脓毒症患者。