同样的问题交给DeepSeek,它的答案也与郑老师所说的一致,不推荐将逐步回归法作为首选。
下面说说郑老师不推荐的理由!
采用逐步回归法,意味着是数据驱动挑选自变量。
而软件执行的时候,是不考虑变量的角色,数据的之间有没有什么因果关系,只是很机械地进行探讨,在没有很好地思考各个变量的定位的情形下,你的结果往往不太好看,也不太容易解释。
这种“事后”分析的手段,往往“垃圾进、垃圾出”,就是你建模前放到模型的变量,你没有好好考虑,放进去一堆垃圾,出来的结果必然也是垃圾。
那什么时候开展逐步回归比较合适?
除了构建临床预测模型时可以考虑逐步回归法,其它场景,我一般不建议。
建议大家分析前要好好考虑这些准备用于建模的自变量。
到底这些变量与结局之前有什么关系?
自变量与自变量之间有什么关系?
要思考好,建议绘制因果关系图,比如DAG去理清思路。
分析的时候,可以基于文献、专业知识筛选和排除变量。这样建的模型才能好解释。
其次,用逐步回归法构建预测模型的话,给大家推荐一下郑老师团队开发的免费“Zstats 风暴统计”平台,操作简单,没什么门槛,可以去试试!
平台网址:https://www.medsta.cn/software
(复制至浏览器打开,直达官网)
这个统计问题就解答到这里,大家可以关注我们的公众号“医学论文与统计分析”,我们将分享更多统计学知识!