在我们医学统计分析过程中,所谓的校正变量,其实就是为了控制混杂变量。
而控制混杂变量的一个前提条件,就是这个变量不能是中介变量。
假设我们在用logistic回归研究X对Y的关系时,放入了中介变量M。
那么这时候X与Y的关系就称为直接效应,就斩断了X通过中介变量M对Y的研究,也看不到X对Y的总效应;
所以如果你需要观察X对Y的直接效应,可以把中介变量放到自变量中,但如果需要观察X对Y的总效应,这时候中介变量就不能放到自变量中。
事实上,陈老师认为,这个问题根本不用纠结。
因为在我们医学数据的分析中,常常关心的是总效应,而不是直接效应,所以一般是不会把中介变量放到自变量中的。
同样的,LASSO回归中也是一样的道理。如果把中介变量放到自变量中,就不能完全展现X对Y的重要性,这时候筛选的变量也不准确。
这个统计问题就解答到这里,大家可以关注公众号“医学论文与统计分析”,我们将分享更多统计学知识!