引言
临床试验评价治疗有效性一般采用优效性试验设计,对照组采用安慰剂、空白对照、剂量组间对照或阳性药物对照。考虑伦理风险,对于已有标准治疗,如不治疗或治疗延误可能导致患者病情进展、残疾或产生不可逆的医学损伤甚至死亡时,宜采用阳性对照。
当对照治疗疗效已经很好时,通过临床试验评价试验治疗优于公认阳性对照存在一定困难。临床试验提出非劣效试验设计,只要研究证明试验组与对照组的疗效差异在临床可接受的范围内,且试验治疗具有安全性更好或患者依从性更佳或可及性、经济性更高等特点,试验治疗同样具有重要的临床价值。
一、优效性、等效性、非劣效性检验目的及特点
图1.三种检验与效应差值置信区间的关系
1. 优效性检验
优效性试验目的是证实试验组疗效优于对照组,包括试验治疗优于安慰剂、试验治疗优于阳性对照,或剂量间效应的比较。无效假设HO=试验组总体疗效≤对照组的总体疗效,备择假设H1=试验组总体疗效比对照组好。拒绝H0可得出试验组比对照组疗效更优的结论。
优效性检验是双侧的。若采用置信区间法,计算试验组与对照组总体疗效差值的双侧置信区间,若置信区间的下限>0,则可得出优效性结论,见图1A。若优效界值为δ,置信区间下限大于δ,即为强优效。
2. 等效性检验
等效性试验目的是证实治疗差别大小在临床上可接受,认为治疗组与阳性对照疗效相当。
等效性检验需预先确定等效界值δ(上限和下限),阳性对照组与安慰剂对比观察到的差异<δ≤临床可接受最大差别范围。等效性检验一般采用置信区间法进行统计推断,计算试验组与对照组总体疗效差值两者差值的双侧置信区间,若置信区间的上下限完全在(-δ,δ)范围内,即可得出等效性结论,见图1B。
3. 非劣等性检验
非劣效性试验目的是确证试验治疗的疗效如果在临床上低于阳性治疗,但差异在临床可接受范围内。
非劣效检验预先确定非劣效界值δ(下限),即一个有临床意义的值,δ≤临床可接受最大差别范围,且δ<阳性对照组与安慰剂对比优效性试验观察到的差异。非劣效检验是单侧检验,一般采用置信区间法,若试验组与对照组总体疗效差值的置信区间下限>-δ,即可得出非劣效的结论,见图1C。
图1D置信区间范围过大,下限<-δ,上限跨过δ,无法得出优效,等效,非劣效,或无效的结论。
二、非劣效试验设计核心要素
1. 非劣效界值的确定
非劣效界值的确定能够直接影响到试验样本量和结果的解释。非劣效界值设定越大,得到非劣效结论的可能性就越高,但可能会导致实际临床疗效水平不足的治疗进入市场。如果界值设定的过小,又可能会排除一些有临床应用价值的治疗。非劣效界值选择要充分考虑其临床实际意义,不能单纯的依赖统计专家,还需要临床专家确定或者由临床专家和统计专家共同确定,通常有4种方法:
(1)专家观点:专家凭借临床经验或业内公认有效水平提出界值,比如抗菌药物临床试验,非劣效界值通常设为10%,即若试验组与阳性对照组有效率相差不大于10%,判定为非劣效。如果界值难以确定,可采用1/5-1/2个标准差或参比组均数的1/10或1/5,或对照组样本率的10%;
(2)循证证据:参照阳性对照与安慰剂比较的既往文献数据,比如阳性药物上市申请所做的大型试验或上市后临床试验数据,多个试验结果可采用加权法得到阳性对照与安慰剂比较的综合效应;
(3)专家观点结合循证证据:FLAVOUR研究[1]是一项多中心、随机、开放标签的非劣效临床试验,共纳入1687例冠脉造影靶血管中度狭窄患者,比较试验组(血流储备分数FFR指导下PCI)和对照组(血管内超声IVUS指导下PCI)PCI后24个月死亡、心梗和血运重建复合终点发生率的差异。在研究设计过程中,FLAVOUR研究建立了强大的专家团队,3位PI分别是浙江大学医学院附属第二医院王建安教授、FFR数据实验室负责人Bon-Kwon Koo 教授和IVUS数据实验室负责人Seung-Jea Tahk 教授;同时还设立了多个专家委员会,包括执行委员会、临床事件判定委员会、数据安全监查委员会和发表委员会。专家团队根据既往临床试验FAME I 2年结果数据和Meta分析数据设定了试验组复合终点发生率10%,对照组复合终点发生率12%,并设定非劣效界值δ为2.5%,单侧检验5%,见图2。
图2.FLAVOUR研究样本量计算参考值
(4)采用指南推荐界值:详细的非劣效界值确定方法和考虑因素,还可以参考ICHE10指导原则和EMEA非劣效性界值选择的指导原则。
2. 非劣效试验结果解读
以FLAVOUR研究[1]为例,采用置信区间法,若置信区间下限>-δ即为非劣效。该研究的主要终点发生率FFR组为8.1%,IVUS组为8.5%,FFR-IVUS绝对差值为0.4%,单侧95%CI下限为1.8%,单侧97.5%CI下限为2.2%,均>非劣效界值-2.5%,得出结论,对于冠脉造影靶血管中度狭窄患者PCI术后24个月复合终点(死亡,心肌梗死,血运重建),FFR指导下PCI非劣于 IVUS指导下PCI。
3. 非劣效试验结果的影响因素
(1) 样本量计算与非劣效界值
样本量的计算是为了保证疗效结果的统计效力。在设置非劣效界值时,不应考虑样本量,临床可接受的最大疗效损失不会因试验规模大小的变化而发生变化。但界值却是样本量的重要影响因素,界值越小,需要的样本量越大。如果阳性对照药疗效太弱,可能导致界值设定困难。需注意,也不应为了追求较小的样本量而选择较大的非劣效界值,将疗效不足的治疗引入临床。
(2) 分析人群
FAS集为全分析集,根据意向性原则,将随机化并至少接受一次研究治疗的受试者均纳入统计分析。当FAS集中出现大量失访、退出或变更治疗方案等时,试验治疗与阳性对照之间的疗效差异可能被缩小,从而得出假阳性的结论。PPS为符合方案集,只分析严格按照研究方案完成治疗的患者数据。尽管PPS集符合实际治疗情况,但也破坏了随机。因此,应当综合考虑FAS集和PPS集分析结果,如果二者均得出非劣效时,才能得出非劣效结论。
总之,非劣效试验设计适用于试验治疗疗效超过标准治疗的可能性较小,或试验治疗与标准治疗疗效相当,但有其他安全性、便利性、经济性等特点,或对于危及生命的疾病,市场上已有治疗药物,无法跟安慰剂对照对比。2012年CONSORT声明发表扩展版非劣效试验的内容,对非劣效界值的确定和结果解释都做了明确的要求。建议研究者在试验设计及文章撰写中参照Checklist查缺补漏,见表1。
表1. CONSORT2010扩展版Checklist[2]
参考文献
[1] : Koo BK, Hu X, Kang J, Zhang J, Jiang J, Hahn JY, Nam CW, Doh JH, Lee BK, Kim W, Huang J, Jiang F, Zhou H, Chen P, Tang L, Jiang W, Chen X, He W, Ahn SG, Yoon MH, Kim U, Lee JM, Hwang D, Ki YJ, Shin ES, Kim HS, Tahk SJ, Wang J; FLAVOUR Investigators. Fractional Flow Reserve or Intravascular Ultrasonography to Guide PCI. N Engl J Med. 2022 Sep 1;387(9):779-789. doi: 10.1056/NEJMoa2201546. PMID: 36053504.
[2] :Piaggio G, Elbourne DR, Pocock SJ, Evans SJ, Altman DG; CONSORT Group. Reporting of noninferiority and equivalence randomized trials: extension of the CONSORT 2010 statement. JAMA. 2012 Dec 26;308(24):2594-604. doi: 10.1001/jama.2012.87802. PMID: 23268518