公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

蛇年第1问,大样本偏态数据能否做t检验?

Administrator
发布于 2025-03-19 / 12 阅读
0
0

流行病学调查中,许多指标比如量表总得分、个体生理、生化指标等呈现偏态分布。面对这种情况,我们如何处理呢?一组数据,特别是正态性检验P值小于0.05的资料,能否使用t检验或者F检验一直有着争议。


这个话题真的很传统、又很重要、往往大家又搞不清。尤其是大样本偏态数据,能否做t检验?因为大样本资料基本上通不过正态性检验(P值基本上小于0.05)。


有些人说“我们学校老师都说,根据中心极限定理,大样本数据的样本均数将服从正态分布,所以开展t检验是没有问题”



这其实是很大的误区!

误解了数据本身的总体和统计量的总体

样本数据是偏态的,总体数据很可能是偏态的。

虽然均数的总体正态分布

1.正态性检验与统计方法选择


正态性检验是统计分析中必要的内容,常见的正态性检验方法有Kolmogorov-Smirnov检验(KS检验)和Shapiro-Wilk检验(SW检验);两种方法结果相似。由于两种方法假设检验H0为“该数据来源于正态分布的总体”,所以当检验结果的P值小于0.05时,可认为数据不满足正态性;反之,则还不能认为该数据不满足正态性。


现在很多分析人员就以该P值作为衡量正态性的标准,以该P值来判定是否采用参数检验的方法(包括t检验和F检验)。这是一种有些武断的方法。


原因主要有两点:


(1) 两种方法主要是正态性检验方法,实际上很多情况下数据虽然不是正态分布,但是也不是偏态分布,可能是其它的分布(譬如对称分布。所以当P值小于0.05,不一定是偏态分布,也许是对称分布。对称分布是可以采用均数描述,在一些场合下,可采用t检验和F检验!

(2)正态性检验受到样本量影响较大。当样本量越大,P值越小,所以在较大样本量时候(比如大于100例以上P值小于0.05,并不能意味着就是偏态分布。比如下方这幅直方图,数据正态性看起来符合,但是由于样本量较大,其P值小于0.05对于此类数据,完全可以采用t检验和F检验进行分析。


2.大样本(比如超过100的样本量)两组数据的比较,严重偏态分布是否可以采用t检验?


网络上、甚至一些统计学教材中认为,大样本资料可以无视正态性问题。他们认为“根据中心极限定理,无论样本来自何种分布,只要样本量足够大(一般认为样本量大于50或者100以上),其样本均值均近似服从正态分布。因此样本量较大时,完全可以忽视正态性问题,仍然可以采用参数检验方法”。

“中心极限理论”大致意思是无论原始数据如何分布,只要样本量大于30以上,样本均数的分布将呈现近似正态分布!由于t检验是比较两组均数的研究,由于样本均数是正态分布,因此很多分析者认为可以开展t检验。

t检验没错!但错在结论。两组偏态分布数据比较均数差异性,当t检验P<0.05,则说明两组均数存在着统计学差异。问题是,两组均数存在着统计学差异,能够说明两组数据有差异吗?


没错,t检验是可以比较两组均数是否有差异,本身是可以比较两组偏态数据的均值(偏态分布的均值也呈现正态分布),但是由于均数的差异不能说明两组严重偏态数据的差异性(至少也得用中位数体现呀)。因此,t检验结论无法反映两组严重偏态数据的分布差异性,哪怕你是大样本!

举例分析 

两组数据的比较:一个严重偏态分布,一个正态分布(诸位可以看下面直方图)。那么两组数据的差异性分析,能用t检验比较吗?

两组数据共同的特点是,均数几乎相等。


两组数据共同的特点是,均数几乎相等。

对于大样本数据比较,t检验本身是没错的。t检验结果P=0.875.

但是这个结果能不能真实反映两组总人群真实差异呢?显然,我们发现两组数据直方图有差别,数据分布不同!

对于严重偏态数据,反应两组数据分布的指标不是平均值,是中位数!均数没有差别(P=0.875),不代表两组数据真的没有差别。

那么两组数据中位数是多少呢?

第一组:6.00

第二组:7.78

这个具有代表性的中位数,显示了两组明显的差异!

现在用两样本秩和检验,结果如下:

P<0.001,存在着统计学差异!

对于严重偏态数据,t检验本身方法没有错,但其结果已经不能反应两组数据平均水平的差异性了!而此时,秩和检验比的是排名位置的差异性,显然没有任何问题的!且由于样本量较大,检验效能仍然很高!

所以即便是大样本资料,两组严重偏态分布不应采用t检验。不是t检验本身有问题,而是其结论得到均数差异性并不能代表两组数据真实的差异!因为偏态分布不能用均数来代表其平均水平!

3. 如何处理偏态不严重,但是正态性检验P值小于0.05的数据?


这一现象较为常见,我称之为近似正态分布数据。如果出现其中一组正态性检验P<0.05,如何是好?

我的建议是:回归本源,看结局指标的总体特征!

2)如果数据总体上是偏态分布,应该采用秩和

总体分布是一种理论分布,是一种常识性的分布;也就是说,诸位从自己专业和常识出发,就可以判定一些变量是否正态分布。比如常见的偏态分布变量包括:人体内一些重金属含量如尿铅、发汞等、恶性肿瘤患者术后生存时间、高血压患者住院时间等。诸位可以想想是不是?我们不需要进行正态性检验,即可判定。


如果这类资料,你采用均数描述,采用t、F检验,则论文审稿专家就从他的专业和常识否定你!

举例:某研究者观察局部加热治疗小鼠移植肿瘤的疗效,以生存日数作为观察指标,实验结果见下表,试检验两组小鼠生存日数有无差别?


尽管下图正态性检验仍然有一组是正态的,我仍然推荐的是秩和检验方法,因为生存时间理论上就是偏态分布的!

2)如果指标总体上应该是正态分布,应该采用t检验

比如:我基于一个社区人群,调查其糖尿病,那么其血糖一般来说是正态分布,但也有个别样本会得到近似偏态分布;如果我们比较男性与女性血糖有无差别,正态性检验时会可能出现,一组是正态另外一组是偏态的情况,这个时候仍然可以采用t检验比较两组人群的血糖。

4.小结

对于不是严格正态,也不是明显呈偏态数据的(我把它叫做近似正态分布),如何选择统计学方法一直很令人纠结。

现在,我认为对于近似正态分布者,首先仍然是参数检验法,主要是两点:第一,参数法统计学描述和假设检验方法是常规的、更容易接受的方法。在检验效能和非参数检验效能相当的时候,参数法结果更易读;第二,在论文写作时,认定为正态分布数据则意味着我们可以应用更多、更灵活但更简单的统计学方法来,而偏态数据统计学方法选择余地小,往往更复杂,不易掌握。

当然,对于初学者,秩和检验等非参数检验方法 也是一种流行的方法,在无法明确其分布,或者没有把握的情况下,可以采用秩和检验。


评论