您当前的位置:检测资讯 > 科研开发
嘉峪检测网 2022-01-25 22:28
摘要
目的:为科学设计医疗器械的临床试验,合理选择试验样本含量。方法:利用统计方法对医疗器械临床试验的样本含量计算进行探讨。并结合一些案例进行分析。结果∶提供了常用统计参数的样本含量查询表,所提出的计算方法经验证方便可行。结论∶医疗器械临床试验样本含量可通过查询表方式快捷获取。
关键词:样本量;临床试验;医疗器械
1 引言
随着我国科学技术和医疗卫生事业的发展,医疗器械临床试验开展得越来越多,基于临床药理基地的试验研究也需要进一步科学和规范。在临床试验研究中,一个重要的问题就是如何科学合理地确定试验样本含量。样本量的计算涉及诸多参数的确定,在临床医学研究中需要根据研究目的、研究要求和研究资料来具体决定。目前,一些医疗器械临床试验的样本量参照国家主管部门提供的参考值,未充分考虑各自具体情况和要求,这在一定程度上给研究结果的可靠性和可信度带来影响。本文将对医疗器械临床试验的样本含量计算方法进行探讨,并结合一些案例进行分析,以期对越来越多的医疗器械临床试验设计和产品注册有所帮助。
2 样本量计算的影响因素
2.1 资料性质
临床试验统计分析方法的选用以及样本含量的计算,是与试验数据资料类型密切相关的。医疗器械临床试验的数据资料可分为计量资料和计数资料、分别为定量观察和定性观察。一般而言。在其他参数要求相同条件下,计数资料较计量资料样本含量大。
2.2 设计类型
主要有 3种类型的设计:一种为优效性设计,另一种为非劣效性设计,还有一种为等效性设计。优效性/非劣效性试验关心的问题是单侧的,对试验组可能优出的程度未加限制。而等效性试验关心的问题则是双侧的,对试验组和对照组的优劣并不关心,只在乎其组间的差别。一般而言,采用统计学检验时,当研究结果高于和低于效应指标的界限均有意义时,应该选择双侧检验,所需样本量就大;当研究结果仅高于或低于效应指标的界限有意义时,应该选择单侧检验,所需样本量就小。
2.3 显著性水平
即假设检验Ⅰ类错误出现的概率(α),为假阳性错误出现的概率。α越小,所需的样本量越大,反之越小。α水平由研究者根据研究资料具体决定,通常取 0.1、0.05或 0.01。
2.4 检验效能
检验效能又称把握度(power),把握度的概念与Ⅱ型错误水平β相对应,power=1-β。因此指定了β水平也就等于指定了把握度水平。β水平由研究者根据研究资料具体决定,目前,在医疗器械临床试验研究中,α取0.05或0.1,相应的β取0.2或0.1均可被接受。
2.5 界值
界值即容许误差,指可从临床意义角度判定差异的最小值。界值的确定需根据已有的文献数据,设计类型及数据的分布类型,从临床认识水平及成本效益来综合考虑,将统计学推理和临床判断相结合。界值确定必须在试验设计阶段完成并在试验方案中阐明。当界值难以确定时,对均值比较可酌取 1/5~1/2个标准差或对照组均数的1/10~1/5 等;对2组率而言,建议取 15% 以下的值,通常最大不超过对照组样本率的1/5。
2.6 总体标准差或总体率
分别反映计量数据和计数数据的变异程度。一般根据前人经验或文献报道进行估计。如果没有前人经验或文献报道作为依据,可通过预实验取得样本的标准差s或样本率p分别作为总体标准差 σ或总体率π的估计值。
2.7 样本分配
经常使用的是试验组和对照组等样本含量设计。相等的样本含量可使总的样本含量最少,而且在同等的总样本含量下可达到最高的统计效能。
2.8 其他因素
常见影响临床试验样本量的因素还有不依从和失访等样本脱落的问题。因此,在实际应用中应根据具体试验资料情况,在试验设计阶段考虑脱落因素,适当增加样本含量。
3 样本量的计算方法
为方便表述,以下所用到的符号作统一规定。T和S分别代表试验组和对照组,也泛指相应组的参数;δ代表界值;s代表标准差;N代表样本量。并假定定量指标服从正态分布,二分类率指标服从二项分布。
考虑通用性,单侧检验非劣效/优效设计的样本量计算如下∶
其中,w为试验组样本量占样本总量的比例,α与β分别为可允许的最大I、Ⅱ类错误水平, 图片 和 图片 。表示对应于α、β的标准正态分布百分位数(常用的标准正态百分位数如表1所示), 图片 表示总体方差,N为试验组和对照组总的样本含量。一般而言,试验组和对照组采用等样本含量,因此常取 w=0.5。另外,σ一般难以获得,对于计量资料,常用两样本合并标准差s代替;对于计数资料,有图片=π(1-π),π为二分类指标的总体率,也常用样本率p来代替。
由于优效设计样本量计算与非劣效设计的方法基本相同,以下仅讨论非劣效设计的样本量计算,对于优效设计的样本量计算不再赘述。
3.1 非劣效设计的计量资料
对于非劣效设计的计量资料,按单侧检验水平 α,把握度(1-β),在样本量T=S条件下(即 w=0.5),试验所需样本总量可按公式(3)计算,式中s为两样本合并标准差,δ为界值。表2为根据一般显著水平参数计算得到的样本含量。
3.2 非劣效设计的计数资料
对于非劣效设计的计数资料,按单侧检验水平α,把握度(1-β),在样本量T=S条件下(即 w=0.5),试验所需样本总量可按公式(4)计算,式中p为两样本共同有效率,δ为界值。表3为根据一般显著水平参数计算得到的样本含量。
3.3 等效设计的计量资料
对于等效设计的计量资料,按单侧检验水平α,把握度(1-β),在样本量T=S条件下(即 w=0.5),试验所需样本总量可按公式(5)计算,式中s为两样本合并标准差,δ为界值。表4为根据一般显著水平参数计算得到的样本含量。
3.4 等效设计的计数资料
对于等效设计的计数资料,按单侧检验水平α,把握度(1-β),在样本量 T=S条件下(即w=0.5),试验所需样本总量
可按公式(6)计算,式中p为两样本共同有效率,δ为界值。表5为根据一般显著水平参数计算得到的样本含量。
4 应用举例
例1;某电子血压计进行临床验证,与传统汞柱式血压计进行配对对照试验,按非劣效设计,基于临床和统计学的综合考虑,取α=0.05,β=0.2,δ=0.67kPa,试验组和对照组样本量n 取多大合适?
由预实验可以获得样本标准差s=1.54 kPa。依据公式(3)可得∶
即表示∶每组用66 例试验对象,可有 80% 把握度,在α=0.05的显著性水平及非劣效界值为0.67 kPa的情况下得到试验组不差于对照组的结论。
若采用等效性设计,则依据公式(5)可得;
即表示;每组用91例试验对象,可有 80% 把握度,在 α=0.05的显著性水平及等效界值为0.67 kPa 的情况下得到试验组等效于对照组的结论。
例 2;某新型碎石机进行临床试验,与旧款机型按1∶1 比例随机分配试验对象,观察新型碎石机的碎石率是否不差于老款机型。根据临床资料及一般统计学要求,取 α=0.05,β=0.1,δ=15%,平均碎石率p=80%,试验组和对照组样本量 n 取多大合适?
直接查阅表3,可得N=243.7,故 n=N/2=122。即;每组用122例试验对象,可有90% 把握度,在 α=0.05的显著性水平及非劣效界值为 15%的情况下得到试验组不差于对照组的结论。
若按等效性设计,查阅表5有n=154,即每组用154 例试验对象,可有90% 把握度,在 α=0.05的显著性水平及等效界值为15% 的情况下得到试验组与对照组等效的结论。
需说明的是,以上例题中样本量均未考虑脱落因素。
5 讨论
本文根据试验设计资料的性质对医疗器械临床试验的样本含量进行了分析和计算,并针对常用的参数列出了样本含量计算式和查询表。从表2~5的计算结果可以看出,β越小(即把握度(1-β)越大),试验所需样本量越大。对于一定的 α和β,只要试验设计资料的类型确定,试验样本量计算的系数G就可以确定下来,其余决定样本量大小的参数主要是界值δ与标准差(对于计量资料)或样本率p(对于计数资料)。因此,统计检验类型的设计是样本量计算的先决条件本文未对优效性试验的样本量单独进行计算,因为优效性试验设计与非劣效设计均为单侧检验,其计算公式相同,区别仅仅在于界值δ会有差异。若其他参数相同,对于优效性试验,其界值往往小于非劣效设计的界值,即可评估试验组有效。从公式(3)或(4)可见,δ越小,样本量越大。因此,一般而言,优效性设计样本量大于非劣效设计的样本量。
对于非劣效和等效设计,在条件相同时,等效设计的样本量大于非劣效。图1给出了计量资料的某特定条件下非劣效和等效设计的样本含量变化曲线。图中,非劣效α=0.05,β=0.1的样本量曲线与等效α-0.05,β-0.2的曲线重合,因为非劣效是单侧检验,等效是双侧检验,其最终的样本量计算系数G相同。从图1可见,
相同条件下,非劣效样本量小于等效,必δ/s越大,样本量越小。
检验显著性水平和检验效能是决定样本量大小的关键因素,即对应于统计推断的I型错误α和Ⅱ型错误β。α和β是相互关联的,在样本量一定条件下,α越小,β就越大;反之,α越大,β则越小。若想同时减小α和β,唯一的办法就是增加样本量。一般为了均衡,α取0.1、0.05或0.01;β取0.2、0.1或0.05。而且,无特殊情况,α取0.05,β取0.2能被认可,故本文主要针对常用的α=0.05,β=0.2 进行计算。
需再次强调的是,进行非劣性/等效性检验时,需预先确定界值δ,这个界值应不超过临床上能接受的最大差别范围。界值的确定需要由主要研究者与生物统计人员共同商讨确定。严格讲,非劣性/等效性试验的标准,如样本含量以及估计样本含量用的δ、α、β等,都要在设计阶段确定。界值确定必须在试验设计阶段完成并在试验方案中阐明。
样本可能的脱落也是试验设计阶段应该考虑到的。试验对象入组的难易、依从性以及截尾因素等需要多方面权衡。而且.对数据要求的苛刻程度也需要把握,因为要求越苛刻.该试验对象试验数据被剔除的可能性越大。一般而言,试验设计中实际样本量需在计算得出的样本量基础上增加 10%~20%,如果试验条件较苛刻,应该适当增加此比例。
需要注意的是,样本量N在不同环境下的意义。有时它是指试验组和对照组的总样本量,有时它特指某一组的样本量,而且对于配对试验设计,它还可能指配对样本量的对数。另外,目前医疗器械临床试验一般要求进行多中心的试验,那N是指多中心总的样本量还是某个分中心的样本量也需要特别留意。本文所提供计算公式中的N是指多中心试验组和对照组总的样本含量。
目前有许多软件支持样本量的计算,如 SAS等。充分利用这些软件也是一种有效途径,但前提是对软件必须充分了解,特别是软件设置中各个参数的实际意义,否则容易犯错。
总之,医疗器械临床试验的样本量与诸多因素相关.其中主要包括检验设计、显著性水平、把握度和临床界值。本文主要就有关统计学方面的问题进行了探讨,提出了样本量的简单计算方法和一套快捷查询表,并对样本量计算的影响因素进行了分析,其他试验过程中的实际问题超出本文范围,需在实际操作中具体分析。
来源:医疗卫生装备·2012年7月第