摘 要: 啮齿类动物致癌性试验是新药研发中非临床安全性评价的重要组成部分。致癌性试验周期较长、数据量大,其统 计学方法选用的合理性、科学性将可能影响试验结果的结论。首先介绍了目前致癌性试验常用的生存分析和肿瘤发生率统计方法; 其次,汇总了生存分析和肿瘤发生率统计方法的选用情况; 最后,通过比较申报方、美国食品药品监督管理局审评方和美国国家毒理学项目中心在统计学方法选用的差异,分析和讨论了这些差异的来源和影响,并总结了致癌性试验统计分析设计思路。希望通过对以上内容的汇总和分析,能够为新药非临床致癌性试验提供参考。
致癌性试验的目的是在动物体内中识别某种物质的潜在致癌作用,从而评价人体中的相关风 险,药物致癌性试验也是药物非临床安全性评价的重要组成部分。相较于一般毒性试验而言,致癌性试验周期较长,试验内容多,数据量大,而对试验数据统计分析方法的选择将直接影响试验结果的结论。在 1 项致癌性试验中,会记录体质量变化、摄食量变化、临床症状、生存状况、大体解剖观察结 果、镜下肿瘤或非肿瘤病变等,而对以上诸多内容 的总结与统计中,生存分析和肿瘤发生率分析是试验数据结果的核心部分。
美国食品药品监督管理 局(FDA)的药品评价与研究中心(CDER)还会对申报上来的致癌性试验生存分析和肿瘤发生率分析部分进行单独的统计学审评,可见合理使用统计分析方法是致癌性试验结果结论科学性的关键保证。 基于此,本文将从致癌性试验各类统计学方法的概念出发,并通过具有代表性的 FDA 统计学审评报告和美国国家毒理学项目中心(NTP)的致癌性试验统计学方法,剖析啮齿类动物致癌性试验统计学方法的使用现状。
1、 致癌性试验常用统计学方法
如前文所述,生存分析和肿瘤发生率分析是致癌性试验数据结果的核心部分。因此,致癌性试验 常用统计学方法包括生存分析和肿瘤数据统计学分析方法。生存分析模型有 Kaplan-Meier 乘积极限 估计、寿命表和 Cox 比例风险模型。Kaplan-Meier 乘积极限估计(又称 PL 估计)是致癌性试验中广泛 使用的生存分析方法,其依据每个时间点的每个个 体确切的生存状态来评估各时间点的生存率,根据该方法绘制的 K-M 曲线图也常被用来直观地比较 组间生存情况差异,其常用的数据检验方法有 Log rank 检验、Wilcoxon 检验、Tarone 检验和 Peto 检验。寿命表方法是历史悠久的 生存分析方法 ,其采用分时间段的方式分析生存变化情,也可以用来绘制生存率曲线图,但在动物试验这类可以全 程充分跟踪生存状态的试验中使用率较低,该模型 常用检验方法为 Gehan-Breslow 检验。Cox 比例风 险模型(又称 Cox 回归)是一种半参数模型,能够兼 容任何生分布的特点使其被广泛使用,该模型常用检验方法是似然比检验。
在肿瘤数据统计上,由于肿瘤的发生需要物质暴露时间的积累,生存时间更久的试验动物比较早 死亡的动物更易罹患肿瘤,所以药物致癌性试验肿 瘤发生率数据的分析必须考虑各组动物的生存情 况 ,并 进 行 适 当 调 整。 现 行 的 药 物 致 癌 性 试 验 肿 瘤发生率统计分析的指导原则仍是 FDA-CDER 于 2001年发布的行业指南草案《长期啮齿类动物药物 致癌性试验统计学方面的设计、分析和解释》,该指南认为采用 Peto 分时检验或 Poly-k 检验可以较为准 确地分析肿瘤发生率。
Peto 分时检验需要病理学家对肿瘤是否会导致动物死亡进行分析分类,可 将肿瘤分为偶发性、致死性和不致死(可观察到), 然后对以上 3 类肿瘤分别采用患病率法、死亡率法 和发生率法进行肿瘤数据分析。Peto 分时检验 理论上能够很好的调整生存时间对肿瘤发生的影 响,但实践过程中很受病理专家在病理诊断上主观性的影响,这也导致该方法引起了广泛争议,美国毒性病理学会(STP)也曾发文呼吁探索不需要考虑肿瘤是否致死的替代方法。
Poly-k 检验是不需要考虑肿瘤是否致死性肿瘤发生率分析方法,其调整生存对肿瘤发生影响的原理是对未发生肿瘤却提前死亡的动物个体进行一定的参数加权,以得出1 个该动物若能够生存到试验终点所能罹患肿瘤的期望值,这个期望值与 k 值呈负相关,目前普遍认为k=3 是最适合用于啮齿类动物致癌性试验的。
FDA-CDER 发 布 的 指 南 中 介 绍 了 Bailer-Portierpoly-3 检验和 Bieler-Williams poly-3 检验,并认为后者能够更准确地分析肿瘤发生率结果,Bieler-Williams poly-3 检验也是目前选用 Poly-k 方法的普遍选择。
上述提到的 Peto 分时检验和 Poly-k 检验方法都 是近似检验方法,在各给药组的肿瘤发生总数较少 时,往往需要使用精确排列法进行检验[5]。选用 Peto 分时检验的数据仍然可以根据肿瘤与动物死亡 的相关性来选择相应的精确排列检验,而选用 Poly- k 检验的数据则只能将发生总数较少的肿瘤全部视为偶发性肿瘤再进行精确排列法进行检验。
值得注意的是,来自 FDA 的 Lin 和 Rahman 已 经于 2018 年更新了 P 值阈值,FDA-CDER 审评方已 经不再使用 2001 年指南中的阈值。更新的 P 值阈 值主要在于短期致癌性试验的调整上,短期致癌性 试验肿瘤发生率分析显著性水平从原来的常见肿 瘤 0.01 和罕见肿瘤 0.05 调整为常见肿瘤和罕见肿 瘤均为 0.05,趋势检验和配对检验均为此标准。另 外,长期致癌性试验肿瘤发生率分析显著性水平仍 是在趋势检验下常见肿瘤 0.005 和罕见肿瘤 0.025, 配对检验下常见肿瘤 0.01 和罕见肿瘤 0.05。
2、 FDA-CDER 审评报告中统计学方法
从 2015 年开始,FDA-CDER 将每年获批的新药汇总整理出 1 篇年鉴,并在其官网上将这 1 年获批 的新药信息一一罗列出来。从2015年到2022年, 共有 360 种新药被 FDA-CDER 审批通过,通过对这 些获批的新药进行筛选,发现有 68 款新药在公示的 审评文件中均附有致癌性试验的统计学审评报告。 在这 68 篇统计学审计报告中,共涉及 121 项致癌性 试验,以下内容即是根据这 121 项致癌性试验统计 学审评报告的统计汇总
2.1 申报方生存分析方法
所有的 121 项试验都使用了 Kaplan-Meier 乘积极限估计,并出示了K-M生存曲线图。有23项试验在方法描述中提到其使用了寿命表(life table),有 14 项试验在方法描述中提到其使用了 Cox 比例风险模型。在生存数据检验方法的选择上,有 100 项试验选择了根据 Kaplan-Meier 乘积极限估计数据的检验方法,并有 96 项试验选择了完全根据 Kaplan-Meier 乘积极限估计数据的检验方法。其中,有 94 项试验 提到了其使用了 Log rank 检验,并有 46 项试验只使 用了 Log rank 检验这 1 种试验方法;有 41 项试验提到了其使用了 Wilcoxon 检验,并有 6 项试验只使用了Wilcoxon检验这种试验方法;有8项试验提到了其使用了 Peto 检验;有 8 项试验提到了其使用了 Tarone 检验。有 12 项试验选择了根据寿命表数据的检验方法,其中有10项试验提到了其使用了 Gehan-Breslow 检验,有 2 项试验未注明使用了何种检验方法。
有 14 项试验提到其使用了 Cox 比例风险模型或 Cox 回归分析,但均未注明使用了何种检 验方法。有6项试验提到其使用了非生存分析类检 验方法,包括 Fisher 精确检验和 Kruskal-Wallis 非参 数检验(基于生存天数或周数),并有4项试验仅使 用了非生存分析类检验方法进行试验。另外,有 5 项试验未注明使用了何种检验方法。在生存分析检验方式和方法的选择上,有 119项试验使用了配对检验,其中有54项仅使用Logrank 检验方法、有 14 项仅使用 Wilcoxon 检验方法、有 10 项仅使用寿命表分析中 Gehan-Breslow 检验方法、有 6 项仅使用 Peto 检验方法、有 22 项同时使用Log rank 检验和 Wilcoxon 检验、有 1 项同时使用Peto 检验、Log rank 检验和 Wilcoxon 检验、有 1 项同时使用 Peto 检验和 Log rank 检验、有 4 项使用非生存分析类检验方法、有7项未注明使用的检验方法有 79 项试验使用了趋势检验,其中有 27 项仅使用Logrank检验方法、有10项使用寿命表分析中Gehan-Breslow检验方法、有9项仅使用Tarone检验方法、有 1 项仅使用 Peto 检验方法、有 24 项同时使用 Log rank 检验和 Wilcoxon 检验、有 1 项同时使用Tarone 检验、Log rank 检验和 Wilcoxon 检验、有 7 项未注明使用的检验方法;有59项试验使用了总体检验,其中有 34 项仅使用 Log rank 检验方法、有 16 项仅使用 Wilcoxon 检验方法、有 6 项同时使用 Logrank 检验和 Wilcoxon 检验、有 3 项未注明使用的检 验方法。
在不考虑最优先进行的双对照组检验的情况 下,有 55 项试验在描述中提到了其生存分析部分采用了一定次序的分析程序,其中有 45 项先开始总体 检验,确定总体检验存在显著性差异后再进行后续 的趋势或配对检验;有 10 项先开始趋势检验,确定 存在显著性差异后,再从高剂量组到低剂量组逐个 与阴性对照组比较。
2.2 申报方肿瘤数据统计学方法
在指导原则推荐的 Peto 分时检验模型和 Poly-3 检验方法的选择使用上,有 108 项试验使用了 Peto 分时检验模型;有 7 项试验使用了 Poly-3 检验方法; 有 2 项试验同时使用了 Peto 分时检验模型和 Poly-3 检验方法;仅有4项试验既未使用Peto分时检验,又 未使用 Poly-3 检验方法,且这 4 项试验全部是 6 个月转基因小鼠致癌性试验。
共有23项试验使用了除Peto分时检验和Poly- 3 检验之外的检验方法,包括 Cochran-Amitage 趋势 检验、Fisher 精确配对检验方法和生存分析方法。 其中的 19 项试验是将这类检验方法作为 Peto 分时 检验的补充,如利用Fisher精确配对检验进行阳性 对照组和阴性对照组的比较、使用生存分析方法对 可触及且实时追踪的肿瘤进行更精确的分析检验等。
部分试验的统计学描述中,提到了使用精确版本 Peto 检验或 Poly-3 检验的条件。在这些试验中, 大部分将肿瘤发生个数少于等于10个作为使用精 确版本 Peto 检验的条件。
2.3审评方统计学方法
2015-2022年这8年来,FDA-CDER的审评方在致癌性试验统计学审评报告中使用的统计学方法基本不变,以下是审评方使用的生存分析方法和肿瘤分析方法的总结。在生存分析方法上,审评方使用了Kaplan-Meier乘积极限法分析生存数据,并绘制 Kaplan-Meier 生存曲线图。在生存分布的总体检验上,使用Log- Rank检验;在剂量反应关系,即趋势检验上,使用 Cox 比例风险模型中的似然比检验;在给药组与阴 性对照组的配对检验上,则使用似然比检验和 Log- Rank 检验 2 种方式。以上生存分析数据和图表均 会被出示在审评报告中。在肿瘤数据分析方法上,审评方使用 Poly-3 方法进行肿瘤数据分析[13-20]。当某一肿瘤类型的带瘤动物少于 10 只,则采用精确检验方法,否则采用渐 近检验方法。在统计学意义判定上,审评方根据 FDA 在 2001年发布的指南和 Lin 等的补充规则对 2 年期致癌性试验和6月期转基因小鼠致癌性试验采用了不 同的统计学意义水平。
对于 2 年期大小鼠致癌性试 验,审评员在趋势检验中对常见肿瘤和罕见肿瘤分 别采用 0.005 和 0.025 的显著性水平;在配对比较重 对常见肿瘤和罕见肿瘤分别采用 0.01 和 0.05 的显 著性水平。对于 6 个月转基因小鼠致癌性试验,审 评员在趋势检验和配对比较上对常见肿瘤和罕见 肿瘤均采用 0.05 的显著性水平。罕见肿瘤的判定 标准是肿瘤自发率低于 1% 的肿瘤,反之为常见 肿瘤。
3、 NTP 致癌性试验报告中的统计学方法
美国国家毒理学项目中心(NTP)是美国卫生与公众服务部下的一个跨机构项目,旨在提供环境中 潜在有害物质的毒理学信息[21]。NTP自1978年成 立以来,已经评估了 2 800 余种环境物质对人类健 康的潜在影响[21],其致癌性评价项目也为美国卫生与公共服务部发布致癌物报告提供了研究支撑[22]。 NTP 的毒性和致癌性研究有一套较为固定的统计 分析程序,本部分的统计学方法是根据 NTP 公示的 统计分析程序和 2018—2021 年较有代表性的 4 篇 致癌性研究报告(TR-601、TR-600、TR-599、TR-594) 进行的总结。
在生存分析方法上,NTP使用Kaplan-Meier乘 积极限法分析生存数据,并绘制 Kaplan-Meier 生存 曲线图。对于无妊娠的大、小鼠试验,使用 Tarone 寿命表检验做生存检验趋势分析,使用Cox比例风 险模型用于暴露组与对照组的成对比较[11,23-26]。对 于从围产期开始的大鼠 2 年期试验,对断奶后的 F1 代大鼠使用 Cox 比例风险模型分别进行生存检验趋 势分析和暴露组与对照组的成对比较。在肿瘤与非肿瘤病变发生率分析上,对于常规2 年大、小鼠试验,NTP 使用 Poly-3 检验进行肿瘤与非肿瘤病变发生率分析。对于从围产期开始的大鼠 2 年致癌性试验,对 F1 代大鼠使用经过 Rao-Scott调整的Poly-3检验进行分析,其考虑了同窝相关性。
在连续变量分析上,NTP 首先用 Jonckheere 检 验验证变量与暴露量是否有趋势相关性,若有趋势 相关性则采用趋势检验,若没有趋势相关性则采用 成对比较。对于器官质量、体质量等具有近 似正态分布的数据,采用参数检验方法,包括 Dunnett成对比较或Williams趋势检验;对于血液 学、尿液分析等具有偏态分布的数据,采用非参数 检验方法,包括Dunn成对比较或Shirley趋势检验。
对于从围产期开始的大鼠2年期致癌性试验,要根据窝组效应,对以上检验方法进行相应调整。
4、 结语
申报方、FDA 审评方和 NTP 在生存情况分析与肿瘤数据分析上的统计学方法使用上有着一定差 异。在生存分析方法方面,Kaplan-Meier 乘积极限 估计方法是几乎所有致癌性试验生存分析都会用 到的;Cox 比例风险模型被 FDA 审评方和 NTP 大量 使用,但申报方很少使用此方法;寿命表方法则仅 被 NTP 大量使用以进行趋势检验分析,申报方很少使用此方法,FDA 审评方不使用该方法。
在数据检验方法上,申报方大多使用 Log Rank 检验和 Wilcoxon 检验,FDA 审评方使用 Log Rank 检验和 Cox 比例风险模型、NTP 使用 Tarone 寿命表检验和Cox 比例风险模型。由于没有相关指导原则或相关 指南的建议或推荐,申报方在生存分析方法和数据 检验方法上的使用都较为繁杂,不过主流上基本都 会选择绘制 K-M 曲线并使用 Log-Rank 检验进行总体、趋势和配对检验。与申报方的主流生存分析方法相比,FDA 审评方还会使用 Cox 比例风险模型进 行剂量趋势检验和各剂量组间的配对比较。
在肿瘤数据分析方法上,Peto 分时检验仍是申 报方最常使用的方法,而FDA审评方和NTP则使用 Poly-3 检验。如前面所述,使用 Peto 分时检验需要 病理学家将肿瘤分类为致死性、偶发性和不致 死(可观察到),并对这3类肿瘤分别采用患病率法、 死亡率法和发生率法进行肿瘤数据分析,这是最直 接地能够调整生存对肿瘤发生的影响的检验方法, 而 Poly-3 检验只是为终末期前死亡的动物分配风险 权重的一种调整生存率影响的方法。因此有学者认为,如果条件允许,则有必要采用 Peto 分时检 验,这可能是 FDA 申办方考虑更多使用 Peto 分 时检验的原因。而 FDA 审评方无法就每只动物的 病理切片进行病理判断,只能根据申报方提供的肿 瘤发生数据使用更为标准化的Poly-3检验。
NTP在 统计分析程序中未解释其为何未使用 Peto 分时检 验,但其中描述了在 1988 年 Bailer 和 Portier 发表的 论文中,使用 Poly-k 方法评估了 1986 年 Portier 等人 发表的 NTP 致癌性试验中对照组 F344 大鼠和 B6C3F1 小鼠中各种特定部位的病变,并建议 k=3 的值,这可能是目前NTP使用Poly-3检验进行肿瘤 数据分析的开端。根据NTP发布的统计分析程 序,目前NTP已经使用了1993年经过调整的Bieler- Williams Poly-3检验方法。
根据以上的汇总与讨论,推荐致癌性试验的统计分析可按照以下思路进行设计。在生存分析上, 首先使用 Kaplan-Meier 乘积极限估计方法,并选用 该模型的一种检验方法(如Log Rank检验)对生存 数据依次进行总体检验、趋势检验和配对检验,并 最好再使用 Cox 比例风险模型对生存数据进行趋势 分析和成对比较。在肿瘤发生率分析上,在有足够专业的病理学家以判断肿瘤是否致死的情况下,推荐使用 Peto 分时检验,否则推荐使用 Bieler- Williams Poly-3检验。
本文汇总了申报方、FDA 审评方和 NTP 在致癌性试验中统计学方法的使用,分析和讨论了三者在 生存分析方法和肿瘤发生率分析方法的选用差异, 并就此总结了致癌性试验统计分析设计思路。希望通过本文的介绍与汇总,能够为新药非临床致癌性试验研究提供一定参考。