公众号
医学论文与统计分析公众号
扫码关注公众号

统计咨询
添加助教微信即可咨询
添加助教微信即可咨询

意见反馈
邮箱:17357190071@163.com
微信:aq566665

NEJM循证:如何做好公共数据库挖掘?

Administrator
发布于 2025-07-24 / 74 阅读
0
0

用公共数据库的数据进行二次分析,确实省时省力。但要想得出有意义的研究结果,还是得多探索多学习。

前段时间,顶级期刊新英格兰医学杂志子刊《NEJM循证》发表了一篇公共数据挖掘的文章的评论文章,深入分析了该项研究在解决公共数据库挖掘过程中面临的数据回忆偏倚、数据缺失以及不同随访时间差异处理等问题上采取的精妙措施,从而确保了研究结果的可靠性。

这对于我们想要挖掘公共数据库资料开展类似研究的朋友来说,非常值得借鉴!

公开数据发文NEJM子刊

2024年8月27日,医学顶刊NEJM子刊《NEJM Evidence》发表了一篇题为:“Pregnancy after Tubal Sterilization in the United States, 2002 to 2015”的研究论文,旨在使用四波国家家庭成长调查(NSFG)的数据探究美国成人输卵管绝育术后的怀孕率。

研究结果显示,在美国成年女性人群中,接受输卵管绝育术后依旧存在相当高的怀孕率。

(如果你需要全文,请在医学论文与统计分析微信公众号后台回复关键词“pdf”。更多关于公共数据挖掘统计服务,请联系郑老师团队,助教微信:sas555777)

√数据收集

研究团队根据收集的四波“国家家庭成长调查”(NSFG)的数据(包括2002年、2006年至2010年、2011年至2013年和2013年至2015年,主要纳入了15至44岁美国女性,评估输卵管绝育术后的怀孕率。

√研究结果

研究结果表明,在NSFG四波数据中,2.9%~5.2%的参与者报告在接受输卵管绝育术后怀孕。

  • 在最近一次调查(2013~2015 年)中,估计在输卵管绝育术后前12个月内怀孕的参与者比例为2.9%;

  • 在输卵管绝育术后120个月内怀孕的参与者比例达到8.4%。

同时,在所有检查的时间点上,相较于接受间隔手术的女性,接受产后输卵管绝育术后怀孕的几率显著降低;但在多变量模型中,这种差异并不明显。

此外,研究团队发现,在多变量模型中,怀孕几率随着输卵管绝育时年龄的增长而降低。

值得一提的是,在这篇文章中用到了一个免费公共数据库——NSFG,老郑去它的官网看了一下,页面和NHANES数据库很像,还支持数据免费下载,有兴趣可以探索下。

公共数据库研究存在的问题与解决方法

√风险暴露时间不同

对于本研究来说,要想在研究输卵管绝育术的失败率,仅分析结扎后怀孕的女性人数和比例是不够的,还需要统一所有参与者从结扎术开始到研究结束的随访时间。

但研究团队使用的四波NSFG的数据时间跨度不等,导致参与者的随访时间差异较大,因此她们暴露于怀孕风险的时间长度也不同。

为了准确评估输卵管结扎术后的怀孕风险,研究团队采用了生存分析方法,该方法消除了时间长短的差异,同时还能考虑年龄、种族、教育程度等其他可能对怀孕风险产生影响的因素。

√存在回忆偏差和数据缺失

在回顾性数据分析中,回忆偏差和数据缺失是最常见的问题,在本研究中同样存在。

为了解决这些问题,研究团队进行了以下操作:

  • 数据的筛选和排除:排除了那些输卵管结扎后怀孕日期被估算或结扎日期缺失的女性,以确保分析的准确性;

  • 时间追踪与数据审查:仅在女性处于怀孕风险期内追踪从绝育手术到怀孕的时间,并仔细审查数据,结合具体的月份和日期进行精确处理;

  • 精确处理时间关系:由于存在绝育手术当月或更早受孕但在手术后才被发现的妊娠案例,研究者将其视为绝育手术后的失败事件(即怀孕),因为它们可能发生在手术之前;

  • 区分绝育类型与依赖回忆信息:为了准确评估绝育效果,区分了产后绝育和间隔绝育为两类绝育类型。尽管这一区分依赖于女性对妊娠与结扎时间的回忆,但研究者还是采取了一系列措施来尽量减少回忆偏差的影响;

  • 处理数据缺失与不应答:将任何缺失的怀孕或流产记录视为未怀孕处理,最大限度地减少由此导致的分析偏差。

公共数据库挖掘虽然快捷,但要想得到有意义的研究结果,需要针对数据可能出现的偏倚、数据缺失等问题进行处理。

对于这些问题,我们可以采用的统计学方法有很多,但要想找到最合适的一种很难。

老郑解读

这篇文章关于公共数据库分析的细节处理还是太针对这篇文章,很多人看了可能觉得没有什么帮助,就公共数据库这点,我觉得大家可以看看我之前写得一篇关于公共数据库解读的文章,写了很多关于它的统计学方法。

如何用统计学将公共数据装扮成一篇JAMA子刊文章?且看国内顶尖统计学家的杰作

这篇文章集合了公共数据库常见的统计学方法:包括缺失数据的分析、趋势性检验、限制性立方条样图、亚组分析、敏感性分析、缺失数据填补、多模型构建策略、交互分析。

我认为,公共数据库挖掘,最重要的是它的数据真实性。在这一点上,是自己小规模采集的数据不可比的,也是能够发文的重要原因。
至于统计学方法,其实没有学不会的,手搓都可以搞定!

朋友们可以更多地去找一些免费的公共数据库,去找一些自己的想法,想办法写成文章。


评论

收银台

订单信息

应付金额 积分

模块介绍

请加我们助教二维码或加入Zstats使用群
Zstats交流群

Zstats交流群

助教二维码

联系助教

选择支付方式

请输入助教告诉您的积分券

如果不填写积分券,将直接使用当前余额支付

正在创建订单...

请稍候,正在为您生成支付订单

支付二维码

请使用扫描二维码完成支付

等待支付中...

二维码获取失败

支付二维码获取失败,请点击重新获取

正在处理余额支付...

请稍候,正在为您完成支付

正在处理充值并支付...

正在使用积分券兑换,然后完成支付 正在使用当前余额完成支付

支付成功!

您的订单已支付完成,页面将在 秒后自动关闭

支付失败

支付过程中出现错误,请重新选择支付方式

平台说明