公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

讲个明白:为什么方差分析后两两比较不能直接用t检验?

Administrator
发布于 2025-03-21 / 22 阅读
0
0

在医学研究中,方差分析,卡方检验,秩和检验等方法都会碰到多组数据的比较,多组均数、多组率、多组中位数的比较。多组数据比较紧跟着的是两两比较。

很多人对为什么两两比较不能直接用t检验、直接用两样本率的卡方检验,直接用两样本秩和检验表示困惑。现在我以方差分析后的两两比较为例,做一些通俗易懂的介绍。

但凡学过《医学统计学》的朋友,可能都了解一些,多组均数往往采用方差分析,而方差检验只能说明多组之间总体均数不全相同,不能说明任何两组之间存在着统计学差异。可在此基础上开展多重比较的方法(俗称两两比较),以探索两组两组之间有没有统计学差异。

怎么比较?两组均数比较,我们之前讲过用t检验,这里多次两两比较可以直接用t检验吗?

不能!多组数据两两比较用t检验会增加一类错误α,也就是假阳性错误。这意味着本来你的研究应该是阴性结果,但如果两两比较用t检验,您的结果可能就是阳性。

一般情况下,我们一项研究的一类错误α值设定为0.05,因此,我们才有P<0.05,有统计学意义的结论。但是这个结论存在一定的风险,或者说,我们的结论可能5%的可能性是错误的,是假的阳性结论。

5%的假阳性是公认的可以被接受的,但是如果一个项目多次两两比较,假阳性的概率可不是5%的概率了。

原理如下:当有k个均数需作两两比较时,同时比较的次数共有ck(k-1)/2。设每次检验所用Ⅰ类错误的概率水准为α,累积Ⅰ类错误的概率为α,则在对同一实验资料进行c次t检验时,在样本彼此独立的条件下,根据概率乘法原理,其累积Ⅰ类错误概率αc有下列关系: α1(1α)c   例如,设α0.05c=3(k=3),其累积Ⅰ类错误的概率为α1(1-0.05)3=1-(0.95)3 = 0.143

本来假设检验假阳性错误是5%,现在有14.3%,太多了。容易把阴性结果说成阳性!虽然,可能发表文章是很有利的,但是这是不合适的

举个例子,我希望比较不同班级的医学统计学期末考试成绩。

我们首先假如1班和2班成绩平均成绩都是80分,然后实际上我们每班各抽出10名来作为样本来比较。虽然总成绩80分,但是样本得到的成绩可能不一样,当然,大多数都是一样,如果我们进行100次这样的抽样比较,大部分成绩差不多,至少少数会出现差别有点大的情况,如果开展t检验,100次抽样比较,95次P>0.05,还有5次P值<0.05。

所以我会发现,即使2个班级总体均数一样,也会出现5次的假阳性结果。这个假阳性结果的界值就是水准为α,一般为0.05。当然假阳性不可避免,5%的假阳性我们是可以接受的,所以一般检验水准α=0.05。

现在,我们假如1班和2班、3班成绩平均成绩都是80分,际上我们每班也各抽出10名来作为样本来比较。然后1班比2班,2班比3班,3比1班。也采用t检验,P<0.05 为有统计学意义。

这样会出现什么情况?1vs2班出现了5次的假阳性,1vs3班出现了5次的假阳性,2vs3班出现了5次的假阳性,最多100次抽样活动会出现15次的假阳性,这个假阳性率太高了。

假阳性太高,对写文章其实是有利的,3次t检验,只要一次有阳性结果,你可以和审稿人说,你看我的文章有阳性结果,谁和谁比较有差异哦。岂不知,你的结果很可能是假的、虚的阳性。

用中医的话说,叫做“虚阳上亢”。

这种“虚阳上亢”的情况随着比较次数的增加,会更为严重,比如,10组数据的两两比较,假阳性高达50%!

那么怎么解决呢?那就是严格控制总的假阳性错误率,控制在0.05。具体怎么做呢?最容易理解的就是a分割。两组均数比较仍然可以做t检验,但是每次t检验的α不再是0.05,而是等于α/比较次数。比如三组数据两两比较,那么新的α=0.05/3=0.017

这样一来,结果就相对来说,假阳率这个错误概率就低很多了。

但是另外问题来了,多次两两比较,从总的局面来看,假阳性率是控制了,但是对某个单个比较来说,是不利。比如12班的比较,P<0.017才有统计学意义,这就很难得到了(因为原先是P<0.05就被认为有统计学意义了)。

这样的困境,一个解决办法就是采用挑选若干组别进行分析。大概有两种方案,第一种,以某一组作为对照,比如都是以1班作为对照,2班和1班,3班和1班比,那么P<0.025就有统计学意义了;

第二种,如果比较的组数不再3组,而是4组5组,以某一组作为对照情况下,比较次数也很多,a分割也得很小了。那么可以有目的的挑选若干组别比较。比如四组人群,我就比较12、14两次,那么这个时候P<0.025也可以被认为有统计学意义了(本例四组比较若两两比较总共10次,P<0.005才有统计学意义)

对于第二种方法,那么有人就会说,那么我能不能分析时候,专挑P值较小的拿过来比较? 

这是绝对不行的!有目的的挑选比较组别,必须在研究设计时候,就定下来,或者在数据开始整理分析之前,必须确定!否则是一种不规范的行为。

以下内容是上述通俗版介绍的详细说明,有兴趣请继续学习

到处飘阳的虚假繁荣,场景很多见,在医学研究上包括以下几类:

1)多组数据两两比较

2)多个结局指标比较

3)临床试验的期中分析

4)亚组比较

上述这些场合下,普通的假设检验比如多次t检验直接分析(α=0.05),均会增加一篇论文总体的一类错误α值

为此,本文介绍基本的控制一类错误的方法,包括基本统计算法、a分割法、人工规避法。

α分割法:多重比较次数较多时,可对α进行分割处理。比较n次,新的检验水准α’=α/n,比如三组数据两两比较,α’=0.05/3=0.017,在此基础上仍然可以进行两组两组均数比较的t检验。

统计算法或者通俗来说是软件法:这一类其实是泛泛归类,特指基于数据进行统计量和α值全面调整的方法,这些方法软件自动分析,其中SPSS软件列出14种算法,如LSD、Tukey方法等

人工规避法:通过人为预先设定,控制比较的次数。比如,三组数据多重比较时,不再两两比较,只比较第一组和第二组;通过降低比较次数甚至只比较一次,那便无需通过校正α值就可以控制假阳性了。


评论