公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

困扰很多人的问题,数据缺失多少比例内,方可填补?

Administrator
发布于 2025-07-18 / 93 阅读
0
0

【浙中大郑老师撰写的”统计杂谈“系列文章】

现在对医学研究缺失数据填补的问题,很多人都有了一定的思考,有缺失,还是要填补,无论是临床试验、调查研究,无论是前瞻性还是回顾性。

但我们都知道缺失数据填补不能随便填,一个变量,过高比例的缺失,填回去也没有价值。

如果这个变量的信息缺失比例高于多少,就不适合填补呢?10%、20%、30%???

这个星期,非常有意思,我看到了几篇文章,居然有 多种种写法,分别真的就是10、20、30%,甚至还有50%。

我们先简单看看原文是怎么描述的:

√文章一:剔除缺失数据超过10%的指标

√文章二:缺失数据超过20%的变量被排除

√文章三:仅分析缺失比例小于30%的协变量

更有甚者,样本中缺失值超过 50% 的特征被舍弃。

我认为的合适处理方法

缺失值的存在不可避免,不同研究团队对此的处理略有不同。但是,如何正确处理缺失值至今没有标准,老郑今天就简单说一下自己的看法,主要谈谈假设,数据是随机缺失的机制下。

习惯上是说20%以内的缺失现象,可以填补,但这个事情又得分几种情况。

(1)如果是开展因果推断研究,分析原因变量与结局变量的因果关联性,则我觉得过高的缺失是不合适的,20%以内合适。

这里又分为两种情况,

  • 如果你是采用传统机械填补缺失,比如均值法、中位数法、末次或者基线随访转结法,则20%都高了,我认为10%以内才行。

  • 如果是利用数据间关联性填补的策略,比如多重填补法,则20%以内或者附近,都可以。

(2)如果是开展构建预测模型的研究,无论是线性法还是非线性的机器学习方法,则对于缺失现象的容忍度要高,因为它追求的不再是因果推断,而是构建一个具有内、外一致性的预测模型。

哪怕你缺失比例高于20%,你进行填补,只要建立的预测模型,在后续的外部验证分析中,能够取得较高的一致性或者结果的稳健性,那你的填补就是合理的。

  • 其实,如果你的模型能够有外部一致性,哪怕你建模的数据是全部是模拟产生的,直接造的,都行。

  • 所以缺失比例取决于你能否用合适的方法进行填补,并获得可靠的模型。

我认为,预测模型,缺失比例在30%的以内变量都可以保留,都可以填补,建议进行外部验证,如果没有,就拿完整病例数据作为外部验证分析。

当然,你全部模拟产生、或者缺失比例过高而填补的数据,容易失真。这样是通不过验证性分析这关了。

个人观点,仅供参考。



评论

收银台

订单信息

应付金额 积分

模块介绍

请加我们助教二维码或加入Zstats使用群
Zstats交流群

Zstats交流群

助教二维码

联系助教

选择支付方式

请输入助教告诉您的积分券

如果不填写积分券,将直接使用当前余额支付

正在创建订单...

请稍候,正在为您生成支付订单

支付二维码

请使用扫描二维码完成支付

等待支付中...

二维码获取失败

支付二维码获取失败,请点击重新获取

正在处理余额支付...

请稍候,正在为您完成支付

正在处理充值并支付...

正在使用积分券兑换,然后完成支付 正在使用当前余额完成支付

支付成功!

您的订单已支付完成,页面将在 秒后自动关闭

支付失败

支付过程中出现错误,请重新选择支付方式

平台说明