您当前的位置:检测资讯 > 法规标准
嘉峪检测网 2022-10-26 06:19
1、介绍
在人用药品和生物制品的临床研究中,可能会采用多终点的方法对研究结果进行分析和解释。本指导原则为申办方和审评人员提供了FDA针对多终点相关的问题的观点,以及如何在临床研究中处理这些问题。在药物研发过程中开展的临床研究,多数的临床研究都包含了多个终点。这些终点用来评估药品产生的影响,并记录药物对一种或多种疾病特征产生有利影响的能力。但在研究中进行多终点分析的时候,如果没有对多重性进行适当的调整,得到关于疗效的错误结论的可能性就会增加。所以,应该采取适当的措施对多重性进行调整。
本指导原则的目的描述为分析药物效果而对终点进行分组和排序的不同的策略,以及一些公认的统计方法来管理研究中的多重性,从而减少研究中得到关于疗效的错误结论的可能性。如果相关风险没有得到适当的控制,那么基于这样的分析得到的结论也会导致对药品疗效的误判和误导性陈述。
1998年9月颁布的ICH E9《临床试验统计原则》(1998年9月)是一个涉及范围广泛的指南,包括对多终点问题的讨论。本指导原则则为多终点的相关问题提供了更详细的解释。本指导原则的颁布履行了FDA在2007年《食品和药品管理修正案》(FDAAA)中的承诺。
一般来说,FDA的指导原则通常不代表有法律效力的规定,而是代表了FDA目前对相关问题的看法和建议。如果有相关的法律法规出台则另当别论。本原则中提到的“应当”是说FDA建议这样做,但不等于说是必须这样做。
2、背景和范围
在临床研究中,药品疗效是通过疗效终点来体现的。疗效终点包括临床事件(例如,死亡率、中风、呼吸衰竭、静脉栓塞)、症状(例如:疼痛、呼吸困难、抑郁症状)、功能测量(例如:行走和运动能力)或有望预测临床获益的替代终点。
因为大多数的疾病会导致多种临床事件、症状和/或功能改变,很多临床研究的设计是针对疾病的多个方面。在某些情况下,仅针对疾病的某个方面进行疗效评估是不合适的,需要将疾病的多个方面合并为一个终点或者进行多终点的评估。也存在另外一种情况,那就是对多终点中的任何一个终点进行评估就足以支持该产品的上市批准。
在采用多终点的临床研究中,如果对多重性没有进行良好的处理,就会增加得出错误的疗效结论的可能性。监管部门对多重性的关注主要出现在对临床试验的评估中,这些试验旨在证明支持药物批准和FDA批准的标签中的声明的有效性。但是,这个问题在整个的药品研发过程中都是很重要的。例如,如果通过假设检验来评估安全性的结果,就需要考虑本指导原则提到的多重性的问题。安全性分析的多重性问题不属于正式统计测试中预先指定的假设集的一部分,不是本指导原则中讨论的问题。
在以下的章节中,对多终点问题和对多终点的处理方法进行了讨论。多重性问题和对多终点的处理方法也同样适用于其他原因产出的多重性,包括估计目标的其他属性(例如:多剂量、多时间点、研究人群的亚组);但是,这些其他来源的多重性不是本指导原则讨论的内容。而且,对于某些特殊情况下的多重性,可能会有与多重性有关的不同的考虑。例如,在主方案中评估不同的产品对同一个疾病的疗效,这也不是本指导原则中讨论的问题。本指导原则集中于同一临床研究中对多终点问题进行分析和解释。
1 体现研究目的:疗效
如果一项研究提供了客观的疗效证据,呈现出了所期望的药品疗效,这对于新药的批准是至关重要的(例如,“适当和良好控制的研究...基于平等和负责的结论...药品具有其所声称的效用”)(section 505(d) of the FD&C Act)。
FDA的法规进一步规定,药品的临床研究必须采取适当的方法,需要进行良好的控制。此外,应该“对对研究结果的分析足以评估药物的效果”,即“实施药品临床研究的目的,是将药品产生的效应与其他因素区分开,这些因素包括病程变化、安慰剂影响、观察中的偏倚等”。
在单个的临床研究中,在假设检验的结论之外,在评估疗效的客观证据的时候,还有需要考虑一些其他的重要因素(例如:终点和评估效应的临床相关性,相关的外部信息)。在FDA其他的指导原则中,有关于疗效客观证据的更广泛的讨论,但这不是本指导原则的讨论范围。
通常是通过假设检验来解决针对所选择的终点进行的疗效评估中产生的不确定性问题。这种方法始于对所选择的终点进行相关假设。在最简单的情况下,目的是体现试验药与对照药相比的优效性。在临床研究开始前,针对终点有两个互不相容的假设:
● 第一个假设是无效假设,声称针对所选择的终点没有治疗效应。
● 另一个假设是备择假设,假定试验药物至少有某些治疗效应。
采用预先确定的统计方法对这对假设进行检验,看无效假设是否会被否定,备择假设是否会被认可,从而用以确定研究结果。需要注意的是,如果无效假设不能被否定,并不意味着无效假设就是成立的。有很多因素可以导致否定无效假设失败,例如样本量不够等。
在某些情况下(例如在一些疫苗的临床研究中),在一些研究中需要有最小的治疗效应来体现疗效,这对于药品的批准至关重要。在这种情况下,如果采用正规的统计检验来体现疗效,应该对无效假设进行适当的修改,将最小的临床效应包含在无效假设之中。
本指导原则的重点在于基于假设检验的统计学框架。如果申办方为了特殊的研发项目,例如儿科项目,需要采用其他的统计学方法(例如贝叶斯法),应当尽早与FDA进行讨论。
2 I类错误
拒绝无效假设,可以支持得出两组疗效有差异的结论,但并不等于说无效假设绝对是错的。仍然存在错误地否定无效假设的可能性,也就是说,事实上无效假设是对的。这种错误的结论被称为是I类错误。对于一个终点来说,错误地拒绝无效假设以及针对这一终点得出有治疗效应(实际上是没有治疗效应的)的结论的几率,被称为是针对该终点的I类错误发生率或I类错误率。显著性水平,记录为a,是控制I类错误发生率的阈值。做出拒绝无效假设判断,是基于通过研究结果计算出的无效假设正确的概率(P值)足够小(通常是小于a)。
备择假设可以是单侧的或双侧的,并以此为基础进行统计分析。对双侧的统计检验而言,I类错误的概率是指在试验组和对照组的疗效实际上没有差别的情况下,得出疗效有差别结论的可能性。对于单侧检验而言,I类错误的概率是指在实际上试验组和对照组没有差别的情况下,得出试验组优于对照组结论的可能性。通常情况下,对于双侧检验而言,该值设定为0.05;对于单侧检验而言,该值设定为0.025。
对于双侧检验而言,0.05的意思是:当不存在差异时(在实际上两组疗效相同的情况下),错误地得出试验组与对照组疗效不同的结论的可能性不超过5%,也就是20分之1,不管是试验组优于对照组还是劣于对照组。对于单侧检验而言,0.025的意思是:在实际上两组疗效相同的情况下,错误地得出试验组疗效优于对照组的结论的可能性为2.5%,也就是40分之1。双侧检验的0.05涵盖了对称的双侧的概率,所以也包括了错误地得出优效结论的2.5%的单侧检验概率(40分之1)。通过恰当的统计检验可以得到正确的I类错误的概率。如果统计检验有问题(例如,基本的假设不成立),那么I类错误的概率会更大。
FDA要求控制I类错误的概率以减少对于主要和次要终点得出错误的优效性结论(见第III章),而不管研究的哪个或者多少终点没有效应。针对多终点研究的I类错误率被称为总的I类错误率。控制这个概率的原理在后面的章节描述(第II章C部分)。
当有多于一个的主要终点和次要终点的时候,要保证对多重假设的评估不会导致研究总的I类错误的膨胀,以至于高于原来计划的水平,这一点很重要。为了控制I类错误的发生率,对于申办方至关重要的是,要前瞻性的注明以下内容:
● 在主要终点和次要终点中所有的终点情况(见第三章,定义)
● 所有针对预先定义的、用于进行假设检验的数据分析,不管这些数据是用于主要终点或次要终点。
对于多终点的临床研究而言,统计分析计划要对相关假设的检验程序进行描述,这些假设要对I类错误水平有良好的控制。
3 多重性
对于单终点的、采用双侧检验的(α = 0.05)临床研究而言,如果试验组和对照组实际上没有差别,但得出试验组优于对照组结论的概率是0.025(2.5%的概率)。这就是说,在针对这个终点实际上没有疗效的情况下,有97.5%的可能性是不优于对照组。
与之比较,如果有两个独立的终点,每个终点都是双侧检验,a=0.05,而且针对每个终点都得出了药品有效的结论,那么两个终点合到一起,不能得出有效结论的概率就是0.975 * 0.975,约为0.95,所以,错误地判断为存在疗效优势的概率(也就是在实际无效却得出优效结论的概率)上升到了大于0.05. 这样一来,当两个终点合并的时候,有利于判定为药品有效的I类错误发生率增加了为近两倍。
在进行多重检验的时候,如果未进行调整,这种高于计划的I类错误发生率称为多重性问题。因此,如果不对多重性进行改正,对于这个研究而言,发生对药品有利的I类错误的概率会增加到5%。所以,这种情况下就没有对I类错误进行良好的控制。在有两个以上的终点的情况下,这个问题会更严重。
例如,如果有三个独立的终点,那么一类错误率就是 1 - (0.975 * 0.975 * 0.975),大约为7%。在有十个独立终点的情况下,I类错误率是大约22%。如果这些多个的终点是相关的,那么总体I类错误率也会膨胀,但但可能程度较低。
即使是在评估单个结局变量的时候,如果需要分析结局的多个方面(例如,多个剂量组、多个时间点、基于人口学或其他特征的多个亚组),而且如果其中的任何一个分析都可以得出药品有效的结论,分析的多重性也会导致I类错误的膨胀。所以,多重性导致I类错误率的膨胀,产出了对研究结果解释的不确定性,导致通过研究得出的疗效结论变得不可靠。可以采用不同的方法前瞻性地将总体的I类错误发生率控制在2.5%或以下。
为了对多重性进行控制,有一个重要的原则是首先前瞻性地对所有计划的终点、时间点、分析人群、剂量、分析方法进行说明;在对这些因素有了说明以后,可以通过选择、事先说明和使用,对多终点进行适当的调整和分析。更改分析计划,进行额外的分析也可以产生多重性的问题,对临床研究的结果分析产生负面影响,除非这些变化是发生在数据分析之前,并且采取了适当的措施对多重性进行了调整。统计分析计划在治疗组揭盲以及进行统计分析以后,不得进行修改。
本指导原则的重点是对预先确定的临床研究终点(例如主要终点和次要终点)I类错误率的控制,保证对临床研究的主要发现的支持和药品疗效的呈现。
对已经证明的、对终点有影响的特征进行解释,对这些特征:例如发病时间、人群中效应大小的分布、亚组的效应以及对复合终点终某终点的影响,进行描述性的分析,这样就对终点的特性有了更深入的理解,而不扩展到该终点之外的效应。这些描述性分析可以被考虑包含在FDA批准的标签中,而不呈现P值。
值得注意的是,在与主要发现密切相关的分析和展现其他效应的分析之间,不是总明确的差别。所以,当要得出确切结论的时候,这些分析需要事先确定,并并适当地纳入预先指定的多重测试策略中。。如果一个描述性的分析没有包含在事先确定的多重检验策略之中,就不应该呈现到FDA批准的标签上。这样会暗示这是一个严格的统计方法得出的结论,或者暗示了疗效方面的确定性,但实际上在研究中没有支持这种确定性。描述性分析不是本指导原则要讨论的问题,所以就不做详细的说明了。
3、多终点:总则
1 终点族的层级
在充分和良好控制的药物试验中,通常按等级对终点进行分组,通常根据其临床重要性,但也考虑到终点事件的预期频率和预期的药物效果。。对终点进行分组的关键考量是看这些终点是否构成支持药品审评的疗效或其他有意义的效应。那些对疗效有关键作用的、用于支持药品审评的终点一般是主要终点。次要终点可以提供有用的说明来支持主要终点和/或体现其他的重要临床效应。层级中的第三类包括所有其他的终点,被称为探索性的终点。探索性终点可以包括那些用于研究目的的终点,或用于产生新的假设。终点的每个层级可以包含单个的终点或一系列的终点族。
(1)主要终点族
主要终点族是指那些构成药品的疗效,并且是得出研究达到研究目的结论的基础的终点。如果只有一个事先确定的主要终点,就不存在确定研究达到目的的多终点相关的多重性问题。
多个主要终点发生在以下三种情况,在第三章的C部分有更详细的描述。第一种情况是,有多个主要终点,其中的每一个终点都足以证明药品的疗效。这种情况下,多个终点就产生了多个成功机会。在这种情况下,如果不对多重性进行调整会导致I类错误的膨胀,不能得出药品有效的结论。第二种情况是,在有两个或多个终点的情况下,必须所有的终点都达到才能证明药品的疗效。在这些情况下,这些主要终点就没有多重性的问题,因为只有一条途径去获得研究结果的成功,所以,不会导致I类错误的膨胀。第三种情况是,疗效的主要方面可以合并为一个主要的复合终点或其他多重复合终点,这也可以避免多终点导致的多重性问题。例如,在很多心血管的研究中,通常将多个终点进行合并(例如:心因性死亡、心梗、中风)成为主要终点,而降死亡作为次要终点(见第III章A2).
(2)次要终点族和探索性终点族
当主要终点的疗效得到显现以后,次要终点可以进行正式的检验。次要终点可以是与主要终点相关的临床效果,可以用来扩展对该效果的理解(例如:在一个心血管产品的主要评价终点为心衰导致的住院率时,次要终点为生存率)或者提供与主要评价终点要区别的临床获益的证据(例如在多发性硬化治疗的临床研究中,主要评价终点为复发率,将残疾率作为次要终点)。作为一个通用的原则,如果一个次要终点将能够提供潜在的、关于药品其他效应的证据,也应该将这个次要终点纳入I类错误控制计划。
通常情况下,会尽量减少次要终点的数量,因为如果采用多重性调整策略,随着次要终点数量的增加,证明对其中任何一个次要终点确证临床效应的可能性就越小。或者如果s使用层级机构,在底层的重要假设可能永远得不到检验。
探索性终点不需要进行多重性的调整,因为这些终点通常不用于支持药品的批准决定。
(3)对主要终点族和次要终点族的选择和解释
次要终点的阳性结果可以是可以解释的,如果事先在主要终点族证明了治疗效应(O’Neill 1997)。总体I类错误率的控制可以将主要终点族和次要终点族一起考虑。
有时候,有一些研究的临床重要终点(例如死亡和不可逆的疾病状态)发生率很低,不能为研究提供足够的把握度,同时一个不同的临床重要终点发生率较高或者在病程的早期出现,可以增加把握度。
在这种情况下,通常把握度不高的终点被划分为次要终点,而把握度较高的终点被期望划分为主要终点。
例如,一些肿瘤的研究中,选择PFS为主要终点,而OS选择为次要终点,因为对疾病进展的治疗效应具有临床重要性,更容易得到验证,可以更早的探测到,而且可以更大,应该观察到的OS可能会被疾病进展后的后续的治疗所影响。
2 II类错误和样本量
FDA也关注II类错误导致的风险。II类错误是指实际存在效果的情况下未能显示药物的效果。研究的把握度是在明确了治疗效应的大小的情况下,研究成功的概率。期望的把握度是确定样本量的一个重要因素,特别是对于主要终点而言。
在已经知道了主要终点的效应大小的情况下,通常通过对研究的样本量的选择,来获得一个合理的高把握度,来证明治疗效应。样本量的计算可能需要考虑统计学上的调整,来控制由多重性产出的I类错误率。例如,如果针对一个研究终点采用了较低的率,那么样本量需要进行调整,以为此终点提供足够的统计把握度。
使用两个或两个以上的终点,每个终点都证明治疗效应,以支持药品审批(又称为联合主要终点,见第III章的C1节),这种方式会增加II类错误的发生率,降低研究的把握度。
例如,假设两个终点有同样的效应幅度,而且研究的样本量可以提供80%的把握度来给每个终点表示成功。如果两个终点是彼此独立的,那么两个终点成功的概率是64%(0.8 x 0.8);在这些情况下,当存在有利的药物效应时,研究不能成功支持得出药品有效结论的可能性为36%。为了维持期望的把握度,就需要增加样本量,而且每个终点的把握度要达到大约90%来保证成功的概率至少为80%。如果终点有很强的相关性或者不同终点的把握度不同,会有不同的计算方法。
3 多终点的种类
如果需要证明药品效应体现在疾病或临床结局的多个方面,这对确定药品产生的临床获益非常重要,那么久需要采用多终点的方法。多终点也可以用于以下的情况:(1)一个疾病有多个重要的方面或有不同的方法去评估一个重要方面,(2)无法事先知道那个终点最能体现药品的效应,和(3)任何一个终点的效应都可以足够支持药品的审批。在很多情况下,疾病的多个方面可以适当地合并为一个终点,但之后的分析,针对疾病的每个方面或终点的每个部分进行检查,就变得很重要,这样才能获得对药品效应的正确理解。这种情况下下文中会进行详细的讨论。
(1)当两个或两个以上独立的终点(联合主要终点)来证明治疗效应的时候
对于某些疾病,有两个或多个特征对于所研究的疾病来讲非常重要,如果药品不能对所有的疾病特征有效的话,就不能认为这个药品有效。本指导原则用来描述这种多个主要终点的情况所采用的术语是联合主要终点。在各个终点都体现出疗效才能说明药品有效的时候,多个主要终点就变为联合主要终点。
对急性偏头痛的治疗可以描述这种情况。虽然疼痛是最重要的特点,偏头痛还有畏光、恐音和/或恶心,所有这些症状都有临床上的重要性。在这三个症状中,那个是最重要的,因人而异。
在对急性偏头痛进行治疗临床研究中,只有在部分受试者服药后2小时没有头疼,同时部分受试者服药后2小时没有最难受的症状,在两者都得到改善的情况下,才会要考虑药品对偏头痛的疗效。
另外一个方法是用反应终点来评估药品效应。反应终点是疼痛和根据个人情况来确定的同一受试者的第二症状的消除。这种方法会用到包含多个成分的单终点,而非联合主要终点。
组合疫苗的临床研究也是需要采用联合主要终点的情况。这些疫苗的研究采用经典的设计,采用有足够的把握度以获得成功的结果,每个疗效终点是针对每种病原体,评估疫苗所提供的保护情况。
正如在第III章B节中所讨论的,当研究旨在证明对所有独立终点的有效性时,不存在多重性问题。然而,联合主要终点的检验增加了第二类错误率。一般来说,除非临床非常重要,否则在使用两个以上的联合主要终点应仔细考虑,因为这样会减少把握度。
有人建议,当目标a为0.05时,可以增加每个联合主要终点的统计检验标准(例如,在a为0.06或0.07时进行检验),以适应因需要显示对两个终点的影响而导致的统计效能的损失。增加每个联合主要终点的a是不可接受的,因为这样做可能会破坏对疾病不同方面的治疗效果的解释能力,这些治疗效果被认为是证明药物有效、支持批准的关键。
(2)如果在多个终点中,有至少一个终点反映了治疗效应就足够的情况
许多疾病有多重后遗症。针对任何一种后遗症有效,都可以支持有效性的结论。如果事先不知道疾病的哪些方面会对药物有反应,或者不知道是否有更好的检验治疗效果的方法(在研究设计时),选择单一的主要终点可能是困难的。在这种情况下,研究可以设计为在几个终点中的任何一个成功都可以支持有效性的结论。这就建立了一个主终点族。例如,对于一种用于治疗烧伤的药物,目前尚不清楚该药物是否会增加伤口愈合率或减少疤痕,但只要能证明其中一种效果就被认为是有临床重要性的。在这种情况下,研究可能将伤口愈合率和疤痕测量作为单独的主要终点。
(3)复合终点
在某些疾病的临床试验中,有一个以上的临床结果是重要的,所有的临床结果都将受到治疗的影响。与其将每个临床结果作为单独的主要终点(产生多重性),或只选择其中一个作为主要终点,指定其他的终点为次要终点,不如将这些临床结果合并为一个单一变量。这通常被称为复合终点,可以将某特定事件的发生或完成作为复合终点。举一个典型的例子:在心血管研究中将主要不良临床结局事件作为复合终点(例如,将心肌梗死、中风或死亡作为复合终点)。当终点的不同成分对应不同的事件时,通常是在任何一个终点成分第一次出现时进行终点评估。如果针对复合终点进行单个统计检验,则该终点不会出现多重性问题。
使用复合终点的一个可能的原因是,每个事件的发生率可能太低,导致研究在合理的样本量下不能有足够的把握度; 采用复合终点可以获得足够高的总事件发生率,在样本量和研究持续时间合理的情况下,研究也具有足够的把握度。复合终点也通常使用于治疗的目标是预防或延迟某临床重要并相关的事件的发生(例如,在冠心病患者中使用抗血小板药物来预防心肌梗死、中风或死亡)时,可能并不知道哪些事件可能受到影响。
应谨慎选择复合终点的组成成分。当单个事件的临床重要性都很相似时,可以认为对复合事件率的治疗效应可代表整体的临床效果。然而,如果不同成分的临床重要性有很大差异,且治疗效应主要是体现在最不重要的事件上,那么对复合终点的影响就不能代表对所有成分的影响标,也就不能准确描述药物的疗效。
此外,即使一个或多个不那么重要的事件类型受到了有利的影响,也有可能一个更重要的成分会在接受治疗后产生的不利影响,因此,尽管总体的统计结果是有利的,但这种治疗的临床价值是可疑的。在这种情况下,尽管总体统计分析表明治疗是有益的,但通过对数据的仔细检查,可能会对这一结论提出质疑。因此,为了更深入地了解治疗的效应,对复合终点的组成部分的分析很重要(见第三章D节),并可能对整个研究结果的解释产生影响。
对各成分的检查总是必要的,但是否要对多重性进行调整,这取决于研究目的。如果研究的目的是为了更好地理解对复合终点效应,则不建议进行多重性调整。在这种情况下,需要通过临床判断来确定获益是否具有临床意义,而且获益多于风险,以及如何在FDA批准的标签中进行描述。如果目的是建立药物的其他效应,那么应该进行多重性调整。
(4)多成分的终点
多成分终点是两个或多个成分的个体内组合。针对这一终点,对个体的评价依赖于对该个体中所有指定成分的观察。然后根据指定的规则确定对个体的整体评级或确定个体的整体状态。
单个个体的总体评分可以由单个域得分的某种平均值(加权或不加权)组成。多成分终点的一个例子是精神分裂症研究中的阳性和阴性综合征量表(PANSS)。多成分终点也可以是二分变量(响应),对应于每个个体针对多成分中的每个成分是否能达到指定的标准。例如,在异体胰岛细胞治疗1型糖尿病的临床研究中,主要终点可以是反应率,但只有受试者同时满足两个二分反应标准: HbA1c正常范围和低血糖消除,才被认为是有反应。
还有更复杂的终点公式,其中一种疾病的几种(但不是全部)不同特征必须受到积极影响,才能被视为受益。例如,在美国风湿病学会(ACR)的类风湿关节炎评分系统中,对单个受试者的有效的反应可能被定义为对一种疾病的两个特定方面有一定程度的改善,以及至少五个附加疾病特征中的三个得到改善。
如果对不同成分的治疗效应在一个受试者内总体上呈相同的趋势,那么使用受试者内多成分终点可能是高效率的。
然而,如果终点之间的一致性有限,对研究的把握度可能会产生不利影响。
虽然与联合终点相比,多组份终点可以提供更高的效率,但研究对象内特定多组份终点是否是适当的,这通常是由临床而不是统计来决定的。
类似于第III章C3节中对复合终点的各个终点成分的评估,在美国,对多成分终点的某成分的评估可能也是重要的,但如果研究目的是为了支持治疗如何影响某特定成分的结论,则应事先说明并进行多重性调整(见第III章D节)。
(5)关键临床终点过于罕见,不能用作主要终点
对于许多严重的疾病,有的终点是有重要临床意义的。不对这样的终点数据进行收集和分析是不合理的;常见的例子是死亡或主要发病事件(如中风、骨折、肺功能衰竭)。如果药物对复合主要终点的影响已被证实,即使在研究中这些事件的发生相对较少,也可以将这些事件包含在复合终点中(见第III章C3节),并做为次要终点,可能可以支持对该终点产生效应的结论。
4 复合终点和多成分终点的单个成分
(1)对复合终点的结果的评估和报告
对于其成分与事件对应的复合终点,事件通常定义为任何指定成分事件的第一次出现。这样的复合终点可以在研究结束时通过比较研究组之间的比例或使用时间-事件分析进行分析。
当在研究的观察时间范围内,无事件的持续时间具有临床意义时,时间-事件分析方法是更常见的方法。尽管人们可能期望药物对复合终点的所有成分都有良好的效果,但这并不一定。
因此,每个成分事件的结果应单独审查,并应包括在研究报告中。这些分析不会改变关于复合主要终点的统计学显著性的结论。然而,对复合终点结果的解释可能是不确定的(见第III章C3节)。如果有兴趣将复合终点的一个或多个成分作为不同的假设来分析,以证明药物的效果,这些假设应该是预先指定的统计分析计划的一部分,该计划应考虑到,如上所述的死亡率的分析,将产生的多重性。但是,对单个终点成分的检验可能没有足够的检验效能,因为样本量或事件总数通常是根据对复合终点的检验来计算的。
通常对首个复合事件进行分解,以描述各事件组成部分在复合事件中所占的比例。例如,在RENAAL研究中(Brenner et al. 2001),主要疗效终点是首次出现两倍血清肌酐水平、终末期肾病或死亡的复合终点。基于这种分解,52%的首发复合事件是血清肌酐水平加倍,19%是终末期肾脏疾病事件,29%是死亡。然而,受试者可能经历不止一种事件类型。对于这些受试者,在第一次复合事件之后发生的事件(例如,终末期肾脏疾病或血清肌酐翻倍后发生的死亡)不会进行分解统计。因此,在对包含相关事件类型的所有事件(甚至是发生在其他类型事件之后的事件)的分析中,对单个事件类型的评估也很重要。这样的分析可以证明药物可能的额外效果,如果它们是预先指定的、充分考虑了多重性、并且结果是可解释的。
(2)评估和报告其他多成分终点的结果
与复合终点一样,了解受试者内多成分终点的哪些成分对总体统计显著性贡献最大,这对于正确理解药物的临床效果可能很重要。因此,对单个成分的研究结果的分析通常是重要的,但如前所述,如果进行了这样的分析,不应在FDA批准的标签中暗示这是统计学上严谨的结论或传达以确定性的方式总结该研究不支持的效应。对于许多这些多成分终点,综合评分被认为是全面的,而且是临床上可解释的。然而,单个成分量表可能或不能是独自具有临床上的解释。将临床结果评估的某个特定组成部分或子域作为主要或次要终点家族中的明确终点进行分析是合理的,前提是该终点在临床上是可解释的。如果为了表明除总体多成分终点外,药物对一个或多个这些终点的作用,建议对这些特定的终点成分或子域进行多重性的控制。
4、方法学的考虑
在第II章和第III章讨论了产生多重性的各种情况。
当存在一系列终点时(在第III章A节中讨论),无论其他终点是否存在治疗效果,在至少一个终点中错误地发现统计上显著的治疗效果的概率为总体I类错误概率。这个错误率通常保持在0.05(或单侧检验的0.025)。将错误率控制在所需水平的统计方法可以在单个终点上得出有效的结论。
有许多常用的统计方法来解决多终点相关的多重性问题(Hochberg和Tamhane 1987)。
附录给出了一些常用的统计学方法。例如Bonferroni, Holm (Holm 1979)和Hochberg (Hochberg 1988)程序,这些方法在无效假设上不假定任何层次(例如,终点族中的任何单个无效假设都可以被拒绝,而不管其他假设是否被拒绝)。其他可行的方法结合了部分alpha分配和分层,如附录中的图形方法(Bretz et al. 2009)。如果在任何一个被考察的终点中发现统计学上有显著性意义的治疗效应被认为是成功的,那么就应该采用适当的方法,对终点族的多重性进行调整。
然而,如果基于临床上的重要性,终点是有序的,或在逻辑上是相关的,那么可以推荐不同的方法(例如,Pocock等人,2012)。例如,对于一个简单的情况,只有一个主要终点和一个次要终点,可以使用分层检验方法。已经开发了一些方法来解释终点之间更复杂的逻辑/层次关系,如图形法(例如,Bretz等,2009)和mixture gatekeeping程序(Dmitrienko等,2008)。
图形法具有顺序检验算法,并且可以通过图形可视化测试过程。
在某些情况下,一个主要终点要先进行非劣效检验(固定界值),然后进行优效性检验。如果这个终点是进行统计检验的唯一终点,那么非劣性和优效性检验可以不需要对多重性进行调整,因为非劣性和优效性检验的无效假设是自然有序的,并且两个检验都是在该终点的同一层级。但是,如果统计检验包含了至少有一个终点,那么就会出现多重性的问题,应该对多重性进行调整,以控制总体的I类错误的概率。
例如,统计检验可以通过排序,在一个层级中开展,其中附加终点在主终点的优效假设之后进行检验。或者,另外一个方法是,可以在对主要终点进行优效性假设检验的同时,对附加终点进行假设检验,并在多个假设之间进行alpha分配。为了了解为什么这样的alpha分配是适用的,假设药物就主要终点而言不劣于阳性对照,但对于药物既不在主要终点优于阳性对照,也不在次要终点上非劣于的阳性对照。在这种情况下,I类错误可能发生在这些假设检验中的任何一个。如果这两项都以0.05的显著性水平进行检验,那么其中至少一项导致错误结论的概率将大于0.05。
因此,应该以某种方式进行适当的控制(例如,只有在主终点的优效性显示出来后才测试次要终点,或者在两个测试之间进行alpha分割)。关于这一特殊情况和其他方法上的考虑的进一步讨论载于附录中。
— 总结 —
对疗效做出错误的有效的结论(即,错误地认为一种药物具有积极的治疗效果,但实际上是无效的)是一个主要的问题。一种常见的方法是:对于存在治疗差异的错误结论,将I类错误率控制在5%(1 / 20的几率)以下,对于有效性的假阳性结论,控制在2.5%(1 / 40的几率)以下。随着终点数量或分析数量的增加,由于多重性的影响,I类错误率可能会远远超过2.5%。
如本指导原则所述,在采用多终点评估药物疗效时,多重性调整为对I类错误率的控制提供了方法。如本指导原则所述,可酌情使用许多策略和方法。这些方法各有优缺点,选择合适的策略和方法是研究计划阶段必须迎接的挑战。应利用统计专业知识来帮助选择最适当的方法。如果不能适当地对I类错误率进行控制,就会增加假阳性结论的风险;本指导原则旨在阐明何时以及如何管理由多个终点引起的多重性,以避免得出错误的结论。
来源:同写意