公众号
医学论文与统计分析公众号
扫码关注公众号

统计咨询
添加助教微信即可咨询
添加助教微信即可咨询

意见反馈
邮箱:17357190071@163.com
微信:aq566665

利用轨迹模型+机器学习构建预测模型,乱花渐欲迷人眼

Administrator
发布于 2025-07-29 / 66 阅读
0
0

常规机器学习分析的文章大家都看了不少了,今天给大家分享一篇基于4种不同中国青少年受欺凌的受害者轨迹,使用常见的随机森林(RF)法构建预测模型。

先来看看本文的研究设计吧:

1.数据收集与处理

  • 对于缺失的数值型数据,使用中位数进行填充;

  • 对于缺失的分类型数据,使用众数进行填充;

  • 针对参与者分布不均衡的问题,使用随机过采样法来平衡数据集。

2.轨迹分析——组轨迹模型(GBTM)

  • 基于每次调查的总受害分数,测试了2~5个组的轨迹模型;

  • 通过贝叶斯信息准则(BIC)、赤池信息准则(AIC)和对数似然(LL)确定了最优组数。

3.模型的构建与评估

  • 数据集被分为70%训练集和30%验证集;

  • 使用多个指标评估模型性能,包括准确性、灵敏度、特异性、阳性预测值(PPV)、阴性预测值(NPV)和ROC的曲线下面积(AUC)。

4.特征重要性评估

老郑有个疑问,对估计模型进行建模,合理吗?

据报道,全球约28.9%的13至15岁青少年曾遭受过欺凌。而在中国,欺凌更是造成青少年患精神障碍的首要原因。

随着年龄的增长,部分青少年摆脱欺凌,而部分却继续受到迫害,更有甚者从受害者转变为加害者。因此,研究团队基于不同的受害者轨迹构建预测模型,旨在为不同的受害者量身定制反欺凌干预措施。

11月21日,中国学者在期刊Journal of Affective Disorders》(医学二区top,IF=4.9)发表了一篇题为:“Predictive analysis of bullying victimization trajectory in a Chinese early adolescent cohort based on machine learning”的研究论文。

在该项研究中,研究团队使用组轨迹模型(GBTM)确定了四种不同的受害轨迹,并用机器学习法中的随机森林(RF)法构建一个预测模型,用于预测个体可能遭受的欺凌受害轨迹。

如果你需要全文,请医学论文与统计分析公众号后台回复关键词“pdf”。如果你对机器学习感兴趣,千万不要错过本月底的基于R语言的机器学习构建临床预测模型课程!详情可咨询助教,微信号:aq566665

数据收集与处理

√数据收集

在该项研究中,研究团队从中国安徽省淮北市进行的早期青少年队列研究中招募了1549名完成基线和两年随访评估的中学生(60.4%为男生;平均年龄12.49 ± 0.48岁),时间跨度为2019年至2021年共三年。

使用改编的Olweus欺凌受害者问卷(OBVQ)评估欺凌受害情况:

  • 问卷通过涵盖身体、言语和社会关系欺凌的六个项目来评估传统形式的受欺凌程度;

  • 回答范围从“从未”到“6次或更多”不等,总分在6到24分之间,分数越高表示受欺凌程度越深。

√缺失值的处理

对于数值型的缺失数据,使用中位数进行填充;分类数据,则用众数进行填充。

考虑到参与者分布中的类别不平衡会对模型的性能产生不利影响,研究团队采用随机过采样法( ROSE)来平衡数据集。

  • 主要通过平滑的自举方法来生成合成数据,从而平衡数据集的类别分布,提高模型的预测性能。

图1 研究流程

轨迹模型

研究团队基于以往的研究实践,纳入2019年至2021年收集的三波数据,使用GBTM识别欺凌受害者轨迹的变化。

  • 根据每年收集的三波总受害分数,对2到5组的轨迹模型进行了测试;

  • 并用贝叶斯信息准则(BIC)、Akaike信息准则(AIC)和对数似然(LL)在内的标准确定最佳组数,BIC、AIC和LL值最低的模型最佳。

研究结果显示,4组的GBTM模型最佳,BIC(-6803.29)最低

√构建轨迹模型

确定的4组轨迹模型如下:

  • 未受害组(43.0%):该组受欺凌程度最低,平均受害得分接近6;

  • 低受害轨迹组(52.1%):该组受欺凌程度略高于未受害组;

  • 受害程度逐渐增加组(2.8%):随时间推移,该组受害程度不断增加;

  • 持续严重受害组(2.1%):该组在研究期间一直受到严重的欺凌,是四组中受害程度最严重的。 

图2 4组受害者发展轨迹

模型的构建与评估

在填补完缺失数据后,数据被随机分为训练集(70%)和验证集(30%)。

研究团队基于随机森林法(RF)构建受害者轨迹的预测模型,并用多个指标评估模型性能。

  • 评估指标包括准确性、灵敏度、特异性、阳性预测值(PPV)、阴性预测值(NPV)和ROC曲线下面积(AUC)。

研究结果表明,基于RF构建的预测模型在区分不同受害轨迹方面表现出理想的性能,所有组均达到AUC >0.8。

表1 4个不同轨迹模型中预测模型评估指标

筛选重要特征

√可视化工具:使用"randomForestExplainer"包可视化RF模型中重要特征。

√多维度评估:用多个指标从不同角度评估特征重要性(包括节点数量、平均最小深度、准确度下降、基尼系数下降、Xj用于分割根节点的频率(times_a_root)以及p值)

下图展示了RF模型中最重要的十个特征,其中前五个关键预测因素为敌意、边缘性人格、易怒、在校不良经历和学校满意度。

图3 对于重要的变量,最小深度在森林图中的分布

多向重要性图结合了准确性降低指标和基尼系数降低指标,进一步证实了10个关键预测因子在预测欺凌轨迹方面的重要性。

图4 多向重要性图分析结果(结果可见粉红色圆圈;P< 0.01)

值得一提的是,尽管“randomForestExplamer”包提供了功能交互分析,但在该项研究结果中,我们并未在变量之间观察到显著的交互作用。

研究团队进一步使用多元逻辑回归分析,评估了RF模型识别的关键预测变量对四种欺凌轨迹的贡献。研究结果显示,预测因素在不同的轨迹亚组中表现出不同的影响。

  • 与低受害组相比,持续严重受害组不仅年龄更大,而且边缘性人格特征更显著以及更加易怒,同时他们对学校的满意度相对较低;

  • 相反,同伴满意度的降低则与欺凌受害轨迹的增加负相关;

  • 此外,学校中的不良经历与持续严重欺凌受害之间的关联最为紧密,这些不良经历使得个体遭受持续严重欺凌的可能性增加了约2.7倍。

图5 欺凌受害轨迹的逻辑回归结果

综上所述,研究表明,由于欺凌程度发展的差异,其导致的严重后果在个体之间差异很大。此外,某些受害者特征,如不受欢迎和同伴排斥,可能会限制一般干预措施的有效性,因为这些特征降低了接受同伴支持的可能性,并导致持续的受害。

研究团队认为,我们仍需要进一步的研究,区分欺凌发展的模式,并确定与每种模式相关的具体风险和保护因素。

老郑小评

说实话,我不是那么苟同这种数据分析的过程,我们构建预测模型的时候,结局一般是金标准或者硬终点才合适。

而这项研究的终点就是数据驱动下,利用轨迹模型做出来的,结局的分类就是不可靠的,预测它实在有点牵强。

不过,有一点还是可以肯定的,用随机森林的方法去分析,影响轨迹的因素,哪个最重要。并在此基础上,开展logistic回归分析,计算OR值。

但问题又来了,随机森林评估哪个因素最重要是以一种非线性的地方式,而logistic是线性分析的结果,两者一致吗?

但是,总的来说,这年头只要你把数据分析玩出花来,文章还真不错。

乱花渐欲迷人眼,这两年流行方法机器学习、轨迹模型一结合,虽然看起来四不像,还真的图文并茂,学术研究的探索性魅力,就在于此。


评论

收银台

订单信息

应付金额 积分

模块介绍

请加我们助教二维码或加入Zstats使用群
Zstats交流群

Zstats交流群

助教二维码

联系助教

选择支付方式

请输入助教告诉您的积分券

如果不填写积分券,将直接使用当前余额支付

正在创建订单...

请稍候,正在为您生成支付订单

支付二维码

请使用扫描二维码完成支付

等待支付中...

二维码获取失败

支付二维码获取失败,请点击重新获取

正在处理余额支付...

请稍候,正在为您完成支付

正在处理充值并支付...

正在使用积分券兑换,然后完成支付 正在使用当前余额完成支付

支付成功!

您的订单已支付完成,页面将在 秒后自动关闭

支付失败

支付过程中出现错误,请重新选择支付方式

平台说明