今天试水短篇推文答疑,主要是解决很多盆友比较突出的问题。我称之为统计小食,文章很短,适合于快速学习。
今天的问题是:单因素回归P<0.05、还是<0.2纳入多因素回归?
我们统计分析,经常使用线性回归、logistic回归。回归分析有这么一个基本的套路,先单因素回归分析,P<0.05纳入多因素回归;然而,有些文章则是P<0.02。那么,纳入多因素回归的自变量,到底是以多大的值为界呢?
其实统计学没有标准所谓的界值。
回归分析经常先通过单因素回归筛选自变量,开展多因素回归。很多人没有搞清楚为什么?
不仅仅是为了挑变量进入多因素回归,更重要是为了多因素回归模型能够成功!因为多因素回归自变量个数不能太多。太多了,回归建模容易失败,要么由于自变量关系复杂,要么由于样本量太少。
我的建议是多因素回归时,研究因素也就是自变量个数别超过10个。
在这个建议下,考虑什么自变量纳入回归分析,不是一定要以P<0.05为标准。
(1)当自变量才3-5个,不用挑了,全部纳入也可以。
(2)当自变量个数稍微多一些,条件可以放宽些,单因素回归P<0.2也可以纳入。P值不是小于0.05,主要是考虑到一些自变量单因素回归虽然P>0.05,但由于P<0.2,该自变量在多因素回归分析中也有可能P<0.05。如果条件太严格,就可能会遗漏一些信息。
(3)自变量非常多,P<0.05差不多有10个了,那么您可以考虑以P<0.05为条件挑选自变量进入多因素回归分析。但有可能有误伤。
有些人问“你把P值大于0.05的都纳入模型,会不会带来额外麻烦?” 那也不会,只要多因素自变量个数不多,模型就不会有太多额外负担,对其它变量的影响也不大。
我说得不一定对,请指正。
如果你有统计问题,你可以留言。如果大家问题比较集中,我会写出更多的统计小食推文!