公众号
“医学论文与统计分析”公众号
扫码关注公众号

统计咨询
“公共数据库与孟德尔随机化”公众号
扫码关注公众号

意见反馈
邮箱:17357190071@163.com
微信:aq566665

统计论文里面,率差及置信区间估计,你们可别忽略了!

Administrator
发布于 2025-09-16 / 3 阅读
0
0

终于学校开学了,新学期上课前,我们来分享下近期的统计学习成果,这次话题是随机对照研究中效应值率及置信区间的估计。

在医学论文里,RR/HR/OR 很常见、也很“抢眼”——但它们只告诉你相对变化,容易把小的绝对差异“放大”成看起来很大的效果,结果解读就需要谨慎一点了(避免夸大效应)。

因此,我们建议应该同时报告绝对效应(率差 RD)及其 95% 置信区间以提供完整信息。

率差RD是绝对获益,是唯一直接量化绝对健康影响的指标,临床意义是如果用了试验组的干预,结局事件发生率能上升百分之几。比相对值更容易被患者接受和理解,尤其适合指导临床和公共卫生决策。

这周,郑老师团队在统计方法学交流会上,探讨了两篇顶刊临床试验的文章,都报道了率差及其置信区间的结果,但用到的方法相似但不全相同,今天拿出来和诸位分享一下!

中山大学龚畅教授团队发文BMJ

2025年9月11日,中山大学附属中山纪念医院龚畅教授团队多中心、双盲、随机、安慰剂对照、3 期临床试验成果发文《BMJ》杂志。

研究设计

研究旨在评估甲钴胺是否能够有效且安全地预防接受辅助卡培他滨治疗的 HER2 阴性早期乳腺癌患者发生手足综合征(HFS)。

研究在2022 年 1 月至 2024 年 2 月,中国七家医院开展。

P(Population)研究对象:18–75 岁女性,病理确诊为 HER2 阴性早期乳腺癌,且计划接受辅助卡培他滨治疗。

I(Intervention)试验组:给予甲钴胺口服 0.5 mg,每日三次,最多服用 24 周。

C(Comparison)对照组:给予安慰剂口服 0.5 mg,每日三次,最多服用 24 周。

O(Outcome)结局:主要终点为在依意向治疗(intention-to-treat)分析中,卡培他滨治疗期间首次发生的 2 级及以上手足综合征的发生率。

S(Study design)研究类型:多中心、双盲、随机、安慰剂对照的Ⅲ期临床试验。

这篇文章中,主要终点——发生 ≥2 级手足综合征的患者比例——以百分比报告,并采用 Wald 方法计算绝对风险差及其 95% 置信区间。组间差异的 P 值使用 Cochran–Mantel–Haenszel 检验评估,并对分层因素(激素受体状态和研究中心)进行校正。

主要结局分析显示,甲钴胺组(14.5%)发生 ≥2 级手足综合征的发生率低于安慰剂组(29.1%)。未校正风险差 −14.5%,95%CI:−24.9%至−4.1%;Cochran–Mantel–Haenszel 单侧 P 值 = 0.003;

在对分层因素(激素受体状态和研究中心)进行校正后,组间风险差为 −14.1%(−25.0% 至 −3.2%)。

首医大张罗教授团队发文JAMA

首都医科大学附属北京同仁医院张罗教授团队发文《JAMA》,研究者开展了一项随机双盲临床试验,旨在评估在严重且控制不佳的慢性鼻窦炎伴鼻息肉患者中,stapokibart 作为局部激素的加用治疗的有效性与安全性。

研究设计

研究于 2022 年 8 月 9 日至 2023 年 4 月 28 日在中国 51 家医院开展。

P(Population)研究对象:既往使用过全身性糖皮质激素或鼻窦手术,双侧鼻息肉评分≥5(0-8分),平均鼻塞评分≥2(0-3分)的难治性慢性鼻窦炎伴鼻息肉(CRSwNP)成人患者。

I(Intervention)试验组:Stapokibart(300 mg,每2周皮下注射)联合莫米松鼻喷雾剂(每日100 µg/鼻孔)。

C(Comparison)对照组:安慰剂联合莫米松鼻喷雾剂。

O(Outcome)结局:主要结局:第24周时鼻息肉评分和鼻塞评分较基线的变化(最小临床重要差异分别为≥1分和≥0.5分)。

次要结局:包括≥1或≥2分息肉评分改善的比例、Lund-Mackay CT评分、总症状评分、嗅觉测试(UPSIT)等。

S(Study design)研究类型:多中心、随机、双盲、安慰剂对照、Ⅲ期临床试验。

这篇文章中,在次要结局应用了率差及其置信区间估计方法。组间在获得鼻息肉评分改善 ≥1 分和 ≥2 分的患者比例差异及相应的 95% 置信区间采用分层 Newcombe 方法计算,并用分层 Cochran–Mantel–Haenszel 检验进行统计检验。

研究结果显示,在总体人群中,与安慰剂相比,stapokibart 组在第 24 周于下列次要疗效终点显示出显著改善:鼻息肉评分改善 ≥1 分者为 90.0%(81/90)vs 38.2%(34/89),改善 ≥2 分者为 81.1%(73/90)vs 14.6%(13/89)。

为什么两篇文章方法不同?

对于率差及其置信区间估计,有很多种方法,本平台今年就上线了11种两组率差置信区间估计方法

全网唯二的一键同时计算P值、率、率差及95%置信区间的工具发布了

今天报道的这两篇文章就用了不同的方法。

  • Wald 方法:简单、计算方便,适用于样本量较大、事件率不接近 0 或 1、且不需要分层/加权时。

  • (分层)Newcombe 方法:基于 Wilson score 的改进方法,覆盖率更好、对极端比例/小样本更稳健;当需要分层(stratified)估计或样本/比例不理想时优先使用。

所以这两篇顶刊文章对于方法的选择是有考量的。

  • BMJ杂志—— Wald 方法+CMH

主要终点是两组发生率的比较(14.5% vs 29.1%),样本量中等(每组约117),比例不极端,且他们可能直接报告“未校正的绝对风险差”,Wald 近似在这种情形下常用且足够稳健。

  • JAMA杂志——分层Newcombe+CMH

研究者对“达到某个改善阈值的比例”做比较,且试验有分层随机化(根据医生诊断的哮喘情况、嗜酸细胞增多状态以及鼻窦鼻腔手术史进行分层),因此希望估计和检验能对分层因素进行校正/加权。

另外,存在比例非常高或非常不平衡(例如 90% vs 38%),Wald 的正态近似可能表现不佳。Newcombe在覆盖概率与边界行为上更稳健,所以更合适。

Newcombe法在临床评价中主要用于解决两组率接近0%或100%时的率差计算问题。

参考文献:

[1] Xia Y, Zhu Y, Ling L, Xu F, Yang Y, Ye J et al. Effect of methylcobalamin on capecitabine induced hand-foot syndrome in patients with HER2 negative early breast cancer: multicentre, double blind, randomised, placebo controlled, phase 3 trial BMJ 2025; 390 :e084290 doi:10.1136/bmj-2025-084290

[2] Shen S, Yan B, Wang M, et al. Stapokibart for Severe Uncontrolled Chronic Rhinosinusitis With Nasal Polyps: The CROWNS-2 Randomized Clinical Trial. JAMA. Published online August 18, 2025. doi:10.1001/jama.2025.12515

最后,在文末给郑老师我们团队打个广告吧,大家不要见怪哈!

我们将提供专业的临床试验项目设计与分析



评论