数据集中的缺失值对数据分析带来了重大挑战,特别是在数据准确性对患者诊断和治疗至关重要的医疗领域。尽管MissForest(MF)在填补研究中被证明是有效的,递归特征消除(RFE)在特征选择中被证明是有效的,但通过RFE集成来增强MF的潜力仍未被探索。
11月8日,我们看到在期刊《BMC Medical Research Methodology》(医学三区,IF=3.9)发表了题为“A novel MissForest-based missing values imputation approach with recursive feature elimination in medical applications”的研究论文,这篇文章通过结合随机森林和递归特征消除,性能超过了传统的MICE,即使用默认方法的MICE。
结果表明,新的填补方法——递归特征消除-随机森林(recursive feature elimination-MissForest, RFE-MF)有望成为医疗数据集的有效插补方法,为解决医疗应用中缺失数据的挑战提供了一种新的方法。
如果你需要全文,请在医学论文与统计分析公众号后台回复关键词“pdf”。如果您在统计分析过程中遇到难题,郑老师的统计团队可以提供帮助!详情可咨询助教,微信号:aq566665
缺失数据,定义为在给定的观测值中没有记录变量的数据点。这个普遍存在的问题跨越了各个领域。在医学研究中,数据缺失带来了重大挑战,可能影响后续的统计分析和预测模型。这些挑战具有广泛影响,影响临床决策过程,并最终影响患者医疗质量。医学研究中的数据缺失问题迫切需要科学的方法来解决。
传统缺失值插补方法各有优缺
目前,许多学者开发并实施了各种缺失值估算(MVI)技术,旨在用衍生估计值取代缺失值,从而保持数据集的完整性和实用性。在医学领域,传统的几种方法被广泛应用,包括均值/众数插补法、k近邻(kNN)、链式方程多重插补(MICE)。
虽然这些传统技术在某些情况下提供了有价值的解决方案,但它们受到固有的限制,可能会影响输入数据的准确性或方法本身的适用性。
均值/众数插补法:
优点是很简单,用给定变量的观测数据的均值或众数替换缺失值。
然而,这种方法忽视了这种归因中固有的不确定性,往往会产生有偏见或不现实的结果。
链式方程多重插补(MICE):
MICE以其灵活性而闻名,经常被用作多重插补方法。
然而,MICE和其他多重归算技术在高维环境下面临挑战,特别是涉及变量之间的相互作用和非线性关系。在这种情况下,为缺失数据的每个变量指定条件模型的复杂性大大增加,使得插补过程既复杂又需要计算,可能会损害MICE的准确性和效率。
k近邻(kNN):
kNN插补因其稳定性和有效性而被广泛使用
但其计算复杂性和对参数设置(如邻居数量、距离度量的选择和插值顺序)的敏感性存在明显的局限性,限制了其在现实环境中的实际适用性。
为了应对这些挑战,基于树的估算方法已经成为有希望的替代方法。
值得注意的是,MissForest(MF)是一种基于随机森林(RF)的迭代插补算法,它与传统的插补方法不同:
既不假设正态性,也不要求建模参数规范。
此外,它能有效处理混合数据类型;
并且能够捕捉非线性关系,对于非线性关系的数据具有较好的适应性
对异常值具有一定的稳定性,在处理含有异常值的数据时表现良好,不易受到异常值的影响。
因此,相对于传统的归算方法,MF具有较好的性能,在缺失值估算技术研究领域受到越来越多的关注。此外,一些研究已经证明了MF在医学领域的有希望的功效。
然而,MF虽然能有效填补缺失数据,但缺乏内在的特征选择,而特征选择对降维和提高模型可解释性至关重要,特别是在高维医学数据集上。
特征选择通过识别相关特征并删除不相关或冗余的特征来降低模型的复杂度。递归特征消除(RFE)方法是一种非常有效的特征选择方法,根据特征对模型性能的影响,迭代地删除最不重要的特征,优化特征子集以获得更好的分类精度。
可以理解为,这是一种适用于机器学习的“逐步回归法“,逐步回归是根据P值来,而递归特征消除根据特征(变量)贡献,如Shapley值。
近年来,大量研究表明,对观测数据进行特征选择,过滤掉非代表性特征,可以显著提高补全过程的效率,因为某些被认为不具代表性的缺失特征可能不是有效补全所必需的。
提出新的填补方法——递归特征消除-随机森林
虽然MF在缺失值估算技术研究中得到了广泛的认可,证明了其在各种应用中的有效性,但进一步优化和充分挖掘其潜力的努力仍然有限。
RFE是一种完善的特征选择方法,以降低维数和提高计算效率而闻名。然而,它的使用主要局限于预处理作用,旨在增强预测模型,而不是直接改进插补方法。
因此,如何将RFE特征选择和MF插补技术结合起来,同时改进这两项任务,目前还存在很大的研究空白。
为了解决这个问题,提出了一种新的填补方法——递归特征消除-随机森林(recursive feature elimination-MissForest, RFE-MF),这是一种将MF与RFE相结合的新方法,以减轻不相关特征的影响并提高插补质量。
文中提供了RFE-MF算法,包括六个步骤:
(1)初始输入;(2)迭代输入;(3)特征选择;(4)模型拟合;(5)收敛;(6)输出最终输入数据集
详细算法诸位可以看看原文!
如果你需要全文,请在医学论文与统计分析公众号后台回复关键词“pdf”。如果您在统计分析过程中遇到难题,郑老师的统计团队可以提供帮助!详情可咨询助教,微信号:aq566665
本研究使用包含数值型和混合数据类型的10个医疗数据集,对提出的RFE-MF方法与四种传统的插补方法(mean/mode imputation,MICE, kNN, MF)的性能进行比较分析。
首先使用MCAR机制模拟10个完整的数据集,包括5种缺失率:10%、20%、30%、40%和50%。
对于每个缺失率,重复模拟10次,生成不完整数据集。
然后,采用mean/mode、kNN、MICE、MF和RFE-MF五种填补方法对缺失值进行填补。
使用两个指标评估填补质量:数值变量的归一化均方根误差(NRMSE)和分类变量的错误分类条目比例(PFC)。
为了比较每种填补方法与RFE-MF的性能,利用模拟测试的10次重复的结果进行配对样本t检验。
无论变量类型如何,RFE-MF始终优于原始MF
在数值数据集中,配对t检验结果显示,RFE-MF在四个数据集(Mehmet Diabetes、Prostate Cancer、 Lower Back Pain Symptoms, and Liver Disorders)中始终显示出最低的平均值,p值均< 0.001(除了前列腺癌数据集中RFE-MF和MF之间的差异,没有统计学意义)。
相反,在Parkinson Disease Detection数据集中,与RFE-MF相比,MF产生了更好的结果,p值为0.030,表明具有统计学上的显著差异。
在混合型数据集中,NRMSE的配对t检验结果显示,RFE-MF在Pre-processed Stroke, Early-Stage Diabetes Risk Prediction, Indian Liver Patient Records, and Contraceptive Method Choice四个数据集上表现最佳,结果具有统计学意义。
然而,在Early-Stage Diabetes Risk Prediction数据集中,RFE-MF和MF之间的差异没有统计学意义。在Heart Failure Prediction数据集中,均值/众数插补法表现最好,RFE-MF略落后。
在PFC的配对t检验中也观察到类似的趋势,其中RFE-MF在大多数数据集中表现最佳。然而,在Heart Failure Prediction和Indian Liver Patient Records数据集中,均值/众数插补法优于RFE-MF。
综上所述,与四种经典的插补方法(mean/mode, kNN,MICE和MF)相比,RFE-MF在大多数数据集上表现出优越的性能。值得注意的是,无论变量类型(数值或分类)如何,RFE-MF始终优于原始MF。均值/众数插值在不同的场景中表现出一致的性能。相反,kNN插补的有效性会随着缺失数据率的变化而波动。
这些发现证实了RFE-MF优于其他四种经典的插补方法,证明了其对医疗数据集的适用性以及实际应用的潜力。此外,强调了在选择填补技术时考虑数据类型和缺失率的重要性,因为这些因素会显著影响不同方法的性能。