公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

临床预测模型,按7:1:2拆分为训练,验证和测试集,这是为什么

Administrator
发布于 2025-07-18 / 80 阅读
0
0

【欢迎阅读浙中大郑老师撰写的统计科普文】

在机器学习中,为了确保所构建的预测模型既有效又稳定,研究者不会将所有的数据一股脑儿地用于训练模型,这是因为,仅凭训练集上的表现无法全面评估模型的性能。

于是,研究者将数据集划分为训练集和验证集,以进行内部验证。

内部验证是基于模型开发队列数据进行的验证,通常内部验证也是作为模型开发的一部分,其目的是检验模型开发过程的可重复性,并且防止模型过度拟合以致高估模型的性能。

在预测模型中,最常见的训练集和验证集的拆分比例有7:3和8:2,但在近期看到的一篇机器学习构建预测模型的文章中,却是按照7:1:2的比例将数据拆分为训练集、验证集和测试集,让我们一起看看为什么这样拆分!

原文阅读

发表在期刊《European Heart Journal》(医学一区top,IF=37.6)的研究论文中,研究团队纳入了符合条件的心电图数据,使用深度学习模型构建心房颤动(AF)风险的预测模型。

如果你需要全文,请公众号后台回复关键词“pdf”。如果你对预测模型感兴趣,来看看我们的临床预测模型服务吧,一对一指导!详情可咨询助教,微信号:aq566665

与先前我们看到的机器学习构建预测模型的文章不同,在该项研究中,研究团队将符合条件的心电图数据按照7:1:2的比例拆分成训练集、验证集和测试集。

同样,在一篇发表在期刊《Journal of Medical Internet Research》(医学二区top,IF=5.8)的研究论文中,研究团队划分了训练集(70%)、验证集(10%)和测试集(20%),基于CLHLS数据库,使用四种机器学习法构建中国社区老年人认知功能障碍预测模型。

原文中对于三个数据集的定义是:

  • 训练集用于模型开发;

  • 训练完成后,利用验证集对模型参数进行调整,探索最优截止点;

  • 测试集用于最终评估模型的性能。

由此我们可以得出,在划分三个数据集的时候,验证集起到优化模型参数和选择最佳的超参数的作用。

什么时候不需要验证集?

上述三个数据集的划分在机器学习构建预测模型领域不是个例,除了7:1:2的划分比例外,还有研究团队按照8:1:1或6:2:2划分,通常情况下,训练集的数据要大于其余两个数据集。

虽然验证集的存在可以帮助我们调整模型参数,避免过拟合,但在某些特定情况下,我们可以省略验证集。

例如,在数据量比较小的情况下,拆分数据集可能会导致训练集、验证集或测试集中的样本数量不足,从而影响模型的训练和验证效果。

  • 此时,我们可以考虑使用交叉验证等方法来充分利用有限的数据。

另外,如果数据集本身质量很高,即数据噪声低且训练样本能够充分代表整体数据的分布特征,那么模型在训练集上学习到的规律在测试集上往往也能得到较好的体现。

  • 在这种情况下,模型在测试集上的性能评估可以较为接近其在理想验证集上的预期表现,因此,在数据质量足够好的前提下,有时可以考虑不单独设立验证集来简化流程。

综上所述,数据集拆分在预测模型开发和验证中扮演着至关重要的角色。通过合理的拆分比例和科学的验证方法,我们可以构建出更加稳定、准确的预测模型。

简而言之,如果你数据量大,拆分为训练集,验证集和测试集能获得更好的模型性能和可靠的评估结果,是不错的思路;如果数据量不大,也不必强求!

想要了解一个概念,还得先从文章看起。老郑也建议大家获取原文阅读一下文章的研究流程,与之前看到的机器学习构建预测模型的文章进行比对,说不定有新的思路和体会。

【感谢阅读浙中大郑老师团队撰写的统计文章】


评论

收银台

订单信息

应付金额 积分

模块介绍

请加我们助教二维码或加入Zstats使用群
Zstats交流群

Zstats交流群

助教二维码

联系助教

选择支付方式

请输入助教告诉您的积分券

如果不填写积分券,将直接使用当前余额支付

正在创建订单...

请稍候,正在为您生成支付订单

支付二维码

请使用扫描二维码完成支付

等待支付中...

二维码获取失败

支付二维码获取失败,请点击重新获取

正在处理余额支付...

请稍候,正在为您完成支付

正在处理充值并支付...

正在使用积分券兑换,然后完成支付 正在使用当前余额完成支付

支付成功!

您的订单已支付完成,页面将在 秒后自动关闭

支付失败

支付过程中出现错误,请重新选择支付方式

平台说明