公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

中国学者用CLHLS揭露8个长寿“硬指标”,创新思路拿下二区top

Administrator
发布于 2025-08-29 / 6 阅读
0
0

近年来,除了本就热门的国外公共数据库,我们的国产数据库开始频繁进入大众视野。在每一次“高调”登场背后,都有大佬团队在默默努力。今天分享的这篇文章采用了我们的老牌数据库CLHLS+机器学习拿下了二区top!

2024年7月22日,中国学者采用CLHLS数据库,在期刊《BMC Geriatrics》(医学二区top,IF=3.4)发表题为“What factors preventing the older adults in Chinafrom living longer: a machine learning study研究论文,虽然对老年人寿命的研究很多,但传统统计的局限性使其缺乏将重要的影响因素综合研究,本研究旨在构建一个可用于预测老年人死亡的模型。

研究团队最终纳入了8个与老年人死亡密切相关的因素,并建立了一个可用于预测中国老年人死亡的简单高效的机器学习模型。该模型不仅可以启发未来的重点研究方向,促进老年人长寿,同时也能在实际生活中使老年人健康长寿,或及时对老年人进行临终关怀,并可以使用预测模型辅助决策。

(在公共数据库与孟德尔随机化微信公众号后台回复“ 原文”即可获得文献PDF等资料,如果进一步需要CHARLS数据库方法学习与指导请联系郑老师团队,微信号:aq566665)

长寿,是一个深深植根于不同文化和时代的人类愿望的目标。在中国社会,老年人的一个共同愿望是“活到一百岁”。然而,目前的现实表明,许多人在进入老年后面临过早死亡,2019年全球预期寿命仅为73.4岁。

在先前的研究中发现,心理健康、认知能力以及对生活的满意度显著影响老年人的死亡率,但尚未有人将这些因素联合起来研究,或评估这些影响因素对老年人死亡的预测能力。

8个因素可用于预测老年人死亡

研究纳入了CLHLS数据库两个队列的数据,最终纳入2008年-2018年队列13,624名和2014-2018年队列5,413名年龄65~105岁符合条件的参与者,其中2008-2018年的队列用于开发模型,而2014-2018年的队列用于时间验证。

最终,从2008年调查数据中提取的16个特征用于预测2011/2012年调查中观察到的死亡率结果。

研究团队结合了五种机器学习算法用于开发预测模型,包括:弹性网络回归(ENR),决策树(DT),随机森林(RF),K最近邻(KNN)和极端梯度提升(XGBoost)。

主要结局变量是死亡率。

基于2008年调查数据中提取的16个特征,和2011/2012年调查中观察到的死亡率结果,研究团队使用2008-2018年队列开发了预测模型。

研究团队观察到,采用XGBoost算法建立的模型性能最佳,内部验证AUC为0.788,时间验证AUC为0.806。

同时,在XGBoost模型中,确定了6个与老年人死亡显著相关的8个影响因素:日常生活工具活动(Instrumental activity of daily living, IADL)、休闲活动、婚姻状况、性别、日常生活活动(activity of daily living, ADL)、认知功能、总体植物性饮食指数(overall plant- diet index, PDI)和心理弹性。

最后,利用这8个特征,研究团队开发了更简单的模型,发现模型的性能在内部和时间验证中都没有下降。

综上所述,研究发现了八个最具影响力的特征:IADL,休闲活动,婚姻状况,性别,ADL,认知功能,PDI和心理弹性。基于这些特征,研究团队开发了一个简化的机器学习模型用于预测中国老年人的寿命。

结 语

我们的国产数据库不愧是“未来之星”!分析简单、数据详实、结论可靠,性价比直接拉满!本文就是用我们国产数据库回答了中国人最关心的问题,如此创新才能成功拿下二区top!


评论