刚刚,国家药品监督管理局医疗器械技术审评中心发布《医疗器械真实世界研究设计和统计分析注册审查指导原则(征求意见稿)》,内容如下:
医疗器械真实世界研究设计和统计分析注册审查指导原则
(征求意见稿)
本指导原则旨在规范和合理引导真实世界数据在医疗器械临床评价中的应用,为申请人开展真实世界研究以及监管部门技术审评提供技术指导。
本指导原则是供注册申请人和技术审评人员的指导性文件,但不包括注册审批所涉及的行政事项,亦不作为法规强制执行,需在遵循相关法规和强制性标准的前提下使用本指导原则。如果有能够满足相关法规要求的其他方法,也可以采用,但是需要提供详细的研究资料和验证资料。
本指导原则是在现行法规和标准体系以及当前认知水平下制定的,随着法规和标准的不断完善,以及科学技术的不断发展,本指导原则的相关内容也将进行适时调整。
一、适用范围
本指导原则适用于医疗器械真实世界研究,不适用于按医疗器械管理的体外诊断试剂真实世界研究。本指导原则在《真实世界数据用于医疗器械临床评价技术指导原则(试行)》(以下简称“通则”)的基础上,结合目前积累的经验,进一步细化医疗器械真实世界研究设计和统计分析的一般要求。在当前发展阶段,真实世界证据在医疗器械临床评价中,主要作为已有临床证据的补充,不能取代现有临床评价路径。
二、真实世界研究类型及其应用情形
(一) 实效性随机对照试验
实效性随机对照临床试验(pragmatic Randomized Controlled Trial, pRCT)是指在真实或接近真实医疗环境下,采用随机、对照的设计比较临床实践中不同干预措施的治疗结果的研究,其关注干预措施在常规临床实践中的效果。pRCT融合了随机化和真实世界数据优势,较好地控制了混杂和偏倚,其研究结果可为干预措施效果评价提供高质量的真实世界证据。pRCT的目的是衡量某种干预措施在常规临床实践中的效果,其研究人群入选标准通常较广泛,人群代表性更好,但人群异质性通常较高,检验效能更低,适合需要生成在更广泛人群和临床情形中的临床证据的应用情形。例如,实效性随机对照试验可提供器械在不同亚组患者人群中的安全性、有效性数据,为器械受益风险评估提供更多有效信息。
(二) 观察性真实世界研究
1.描述性研究设计
常见的描述性研究设计包括横断面设计、病例报告和病例系列设计等,不用于统计学上的因果推断。
在横断面研究中,全部测量在特定时点完成,主要用于描述接受了某种干预措施的患者基本特征及健康状况、疾病恢复情况等分布情况,为后续研究提供线索。横断面设计可用于器械不良事件的描述性统计研究,如在某一时间点调查某类医疗器械相关的压疮发生情况等;描述不同特征人群的器械临床使用效果。病例报告用于描述临床一个或少数几个病例的详细临床特征,通常不描述事物的集中趋势或离散程度。病例系列研究是对多个病例资料进行归纳和总结。
2.队列设计
在器械安全有效性评价中,队列研究是将某一特定人群按是否使用待研究器械分为不同的组别,追踪观察各组的结局发生的情况,比较各组间结局发生率差异,从而判定器械与结局之间有无因果关联及关联程度大小的一种观察性研究方法。由于研究计划制定先于收集数据和计划实施,前瞻性队列研究可更好地控制数据质量。回顾性队列研究中,数据已经存在,完成研究时间短,但数据质量可控性较差,使用之前建议对数据完整性和数据准确性进行验证。双向队列研究指回顾性队列研究观察到“现在”后,再继续前瞻性随访。队列设计是观察性真实世界研究中最常用的设计类型,应用情形广泛。目前基于登记数据库开展的队列研究越来越多,例如利用CathPCI登记数据库开展Mynx血管闭合装置与其他同类已上市产品对照的回顾性队列研究;利用国家关节登记数据库比较不同制造商设计关节假体的翻修率等;
3.病例对照及其衍生设计
病例对照研究是以发生了结局事件的患者作为病例组,未发生结局事件的患者作为对照组,比较病例组与对照组使用待研究器械的比例,从而研究待研究器械与结局事件之间的关联性。当待研究器械需观察的临床结局发生率较低时,采用实效性随机对照试验或队列设计所需样本量过大而不具有可行性时,可考虑采用病例对照设计。
病例对照衍生设计包括巢式病例对照和病例队列设计等,两种衍生设计兼具队列研究与病例对照研究的优点,在结局发生前收集暴露因素、混杂因素等信息;试验组和对照组来源于同一人群,人群可比性更好;不需对队列全部人群进行测量。现阶段,基于登记数据库开展巢式病例对照设计越来越多。
(三) 真实世界数据作为单臂试验外部对照
外部对照是指从其他试验或历史病例中找一组特征相似的研究对象,合成一个接受不同干预措施的对照组,真实世界数据作为单臂试验外部对照是其中一种外部对照设计。本导则不包含该类型设计具体的使用情形以及研究设计、统计分析等要求,相关内容另行制定指导原则。
三、真实世界研究方案设计考虑
(一) 研究背景和目的
根据产品预期适用范围和产品技术特征,结合已有的非临床和临床数据,阐明真实世界研究拟解决的安全有效性问题,明确研究目的。
(二) 可行性评估
在研究目的确定后,申请人需评估是否具备开展真实世界研究的客观条件,主要考虑现有经验和知识积累是否足以事先确定影响临床结局的混杂变量,以及所需变量数据是否可及、数据量和数据质量是否充分。
是否可事先确定影响临床结局的变量取决于现阶段对疾病、诊疗方法、器械临床相关知识和经验的积累程度,对于研究经验和知识积累还不充分的领域,申请人无法确保鉴别出对结局有重要影响的全部变量,开展观察性真实世界研究时不能排除存在未测量或未调整混杂变量,研究结果的偏倚大小无法判定,结论稳健性难以保证。
其次,需评估变量数据是否可及和质量是否充分。在真实世界中,数据缺失较为常见。来源于真实世界的数据可能缺乏院外随访数据、结局指标(如功能评分、疼痛评分等)、影像学检查等。除此之外,还需考虑真实世界数据观察时间是否满足研究目的,样本是否具有代表性以及样本量是否可保证足够的检验效能,现有数据质量是否可满足统计分析要求等。
(三) 确定恰当的真实世界研究设计类型
申请人根据确定的研究目的,参考第二章内容,选择恰当的研究设计类型。如上所述,存在不同的真实世界研究设计类型,包括试验性的pRCT,观察性的队列研究、病例对照、巢式病例对照设计等,不同设计特点不同,适合应用的场景不同。
(四) 研究流程图
考虑到不同类型真实世界研究实施过程存在差异,建议将实施过程以流程图的形式呈现,流程图按照时间顺序呈现研究过程中各具体步骤(如人群筛选、接受干预措施、检验检查等)。
(五) 定义研究人群
研究方案需预先规定研究人群的定义,定义清晰明确,避免歧义和模糊的表达,预先规定清晰的纳入和排除标准。
对于回顾性研究设计,需注意采用数据源对预期适用人群的代表性。对于有多次器械使用记录的人群,需预先规定纳入研究的清晰标准,如在使用该器械前6个月无使用同类器械的记录,或将暴露定义为首次使用器械。使用不同的诊断标准会导致纳入实际不符合研究要求的人群,不同标准下的诊断结果也会影响统计结果的准确性,建议在设计阶段核实不同临床机构是否采用了相同的诊断标准。
(六) 器械暴露
pRCT与传统RCT均采用随机方式决定器械暴露与否,但对于观察性真实世界研究,患者具体使用何种器械并非通过随机分组决定,而是在真实世界中根据实际情况(如医生偏好、患者病情)而定,存在选择偏倚风险,需注意对此进行评估。
对于回顾性真实世界数据,通常通过数据中使用器械的记录(如费用清单、手术记录)来判断患者具体使用了何种器械,需核实器械信息记录是否完整、准确,至少需包括器械制造商、型号规格信息。建议对器械暴露信息的准确性进行验证,例如纳入已知使用和未使用的患者,通过回顾性数据判定是否使用器械,最终以判定结果与患者真实是否使用器械进行比对验证回顾性数据判定器械暴露的准确性。
(七) 对照组
实效性随机对照设计中,通过随机分组形成对照组。对于观察性真实世界设计,如队列研究、病例对照等,需根据研究目的以及设计类型,采用恰当的方式形成对照组,尽可能确保混杂变量在组间分布均衡是设置对照组的基本原则。根据研究目的,对照组可以是单一或多个制造商已上市同类产品,也可以是非器械类型的其他干预措施,以及安慰剂组。
队列研究设计中,依据研究目的可选择使用了其他同类已上市产品的患者构成对照组人群,也可选择未使用同类器械而使用了药品或其他诊疗方法的患者构成对照组人群;病例对照设计中,通常采用匹配的方法为病例组构建相应的对照组,病例对照、巢式病例对照、病例队列具体匹配的方式有所不同,具体可见第二章“病例对照及其衍生设计”内容。
(八) 评价指标
在方案中明确规定各评价指标的观察目的、定义、观察时间点、指标类型、测定方法、计算公式(如适用)、判定标准(适用于定性指标和等级指标)等,并明确规定主要评价指标和次要评价指标。
对于回顾性真实世界研究,需注意确保不同临床机构对结局的定义相同,不漏记患者发生的结局事件。建议尽量选择客观指标,如死亡等,避免功能性评分等测量偏倚风险较大的主观性评价指标。
(九) 数据收集
建议制定完善的病例报告表和变量词典,依据病例报告表和变量词典收集和记录数据。
对于回顾性真实世界研究,需列明拟采用的数据源基本情况,包括所含的字段信息、患者数量、数据缺失、数据记录准确性等数据质量信息。方案中明确数据清洗的步骤与方法,若涉及多个数据库,方案中需明确链接的具体方法,以及数据链接准确性的验证方法。提取诊断、临床结局数据时,提供清晰具体的定义。非手动提取数据时,需提供各变量提取的具体算法,并对其判断的准确性进行验证。注意在构建研究结局筛选的算法时,关注随访时间设计的合理性,原则上,目标临床结局的发生时间与干预实施之间有足够长的时间间隔(与疾病自然进程相比较),如果在干预实施后的很短时间内即发生结局,此结局可能与干预无关,如果没有加以区分的话,可能引入新的偏倚。
(十) 确定需调整的混杂变量
未采用随机分组的真实世界研究设计需预先确定需调整的混杂变量,原则上需识别全部混杂变量,以便在设计和统计分析阶段对混杂偏倚进行控制。通常可按照以下三条标准判断为混杂变量:(1)该变量与结局变量存在因果关系;(2)该变量与分组变量(暴露变量)存在关联;(3)该变量不是分组变量与结局变量因果路径中的中间变量。建议首先制定合理的变量筛选流程,基于既往积累的专业知识和临床经验确定混杂变量,建议通过与临床专家团队进行讨论和确认。对于最终仍不能确认是否应纳入的变量,可对纳入和不纳入情形开展敏感性分析。列明全部变量纳入或不纳入调整的理由,提供支持性资料。在实际操作过程建议持保守的变量筛选态度,确定与治疗分配和结局变量均无关的变量才从模型中剔除,但也需注意避免纳入碰撞节点变量、工具变量、中间变量。为清晰地展现各变量之间的因果关系,可使用有向无环图呈现。
(十一) 随访时间
通常情况下,将暴露于感兴趣器械的时间定为研究开始时间,研究结束时间则取决于随访或观察时间是否足以回答研究问题。对于植入性器械,通常为植入手术完成后第一天作为起始随访时间,对于多次治疗为一个完整疗程的器械,起始随访时间需为疗程结束后的第一天,注意治疗过程中的安全性事件也需观察。
(十二) 计算样本量和检验效能
对于回顾性真实世界研究,可基于可用的样本量估算检验效能。对于前瞻性真实世界研究,可基于预估的参数计算样本量。不同研究设计估算样本量的方式不同,例如,横断面研究可基于预期达到的置信区间宽窄估算样本量,有对照组的研究设计基于组间比较差异、相对风险度、优势比等估算样本量。
对于涉及变量调整的真实世界研究,由于需预先估计的参数较多,某些参数估算可能缺乏文献数据支持,样本量估算相较于传统随机对照临床试验复杂,需考虑的因素更多。例如,对于基于倾向性评分的分层调整统计需考虑层内效应值大小(如有效率、比值比、发生率等)、每层试验组分配概率、倾向性评分重叠程度等。
(十三) 质量控制
1.数据质量
按照通则内容,数据质量可从代表性、完整性、准确性、真实性、一致性和可重复性进行评价,具体评价内容见通则第三章内容,申请人需对所用数据源质量按照以上6个方面进行评价,并将各个维度的评价结果以表格的形式呈现。
2.偏倚风险
在真实世界研究设计、实施、分析和报告等各阶段均可能存在偏倚,申请人可从选择偏倚、信息偏倚和混杂偏倚三方面,在真实世界研究方案中详细描述用来控制不同偏倚风险的措施。对于观察性真实世界研究,可参考非随机干预性临床研究ROBINS-I评价工具对整体研究的偏倚风险进行评估。以下仅列举部分真实世界研究中的偏倚类型:
(1) 研究人群缺乏代表性
在设计阶段,设置合理的入排标准亦非常重要,研究的入排标准设置考虑纳入的人群是否可代表产品预期适用范围,pRCT通常采用较宽松的入排标准,因此其更少受入排标准造成的选择偏倚影响。对于前瞻性研究,建议采用连续入组的方式,以避免挑选患者。对于某些易受临床机构和医生水平影响的器械,建议采用多中心设计。对于设置对照的研究,尤其是病例对照设计,需在设计中避免入院偏倚的措施,如实验组和对照组人群从相同人群中抽样确定。
(2) 混杂偏倚
混杂偏倚是指暴露因素与干预措施的相关(关联)程度受到其他因素的歪曲或干扰,使得呈现的研究变量与评价指标或结局变量的关系不是真实的,而是叠加了混杂效应的具有偏差的关系。
随机是控制混杂的有力手段,可同时均衡可测量和不可测量混杂因素。由于绝大多数真实世界研究设计(pRCT除外)不采用随机,可在分析阶段考虑使用限制、配对和分层设计等其他方法控制混杂。在分析阶段,还可应用各种调整统计方法(如分层分析、多变量回归分析、基于倾向性评分的调整方法等)对混杂进行控制。
(3) 干预措施偏离
在真实世界研究中,治疗中途由于多种原因干预措施可能发生偏离,例如患者主动要求更换治疗方式、医生改变治疗策略等,多次治疗的干预措施(如血液透析)或治疗时间长的干预措施(如呼吸机、体外膜肺氧合器),有更大可能出现干预措施偏离。在开展真实世界研究时,需提前考虑待研究器械出现此类偏倚风险的程度大小,若存在不可忽视的干预措施偏倚风险,在选择真实世界数据源时,需考虑该数据源是否详尽和准确地记录所用治疗方式及其治疗途中发生的变化。
在临床实践中,还可能出现干预措施记录错误,如所用的器械制造商、型号规格记录错误,导致干预措施相关的信息偏倚,当怀疑存在记录错误的可能时,可考虑通过患者如影像学下植入物形态、标记点特征、费用单上的价格等其他信息进行验证。
(4) 测量偏倚
在真实世界研究中,准确和精准的测量是降低信息偏倚的重要措施。施加盲法可帮助克服来自申请人或受试者主观因素所导致的测量偏倚,施盲存在困难时,尽可能选择客观的硬终点指标(如死亡等)。在实施过程中,制定详细的操作手册、培训工作人员、标准化数据收集程序和监测数据收集活动、使用统一的方法收集、测量和解释信息;适用的条件下,可设置第三方独立数据监查委员会或统一标准规范指标测量结果;当怀疑数据测量不准确时,开展数据核查。除以上通常考虑的措施,还需根据可能出现的具体测量偏倚类型,规定相应措施。
针对受试者来源的测量偏倚:需设置充分的培训,使受试者能正确理解问题,准确回答问题。
针对评价者来源的测量偏倚:可通过使用多个评价者平行测量降低该种测量偏倚,虽然在真实世界研究中更多的还是一个人(即主治医师)完成了相关测量或评价活动,但某些情况下(如基于影像的测量),可以事后由其他评价者再次测量。
针对评价工具来源的测量偏倚:使用信效度经过验证的测量方法,使用精准的仪器等。
(5) 回忆偏倚
尽量在设计阶段避免采用研究人群回忆的方式收集信息,尽量在数据产生时即记录至文档中。巢式病例对照设计可避免传统病例对照通过回忆获得干预措施、基线数据等带来的回忆偏倚。
有些情况下,查看患者其他健康医疗资料可能有助于确认患者回忆是否准确。例如,如果患者回忆称自身接受干预措施后,有疼痛或发炎,可通过审阅该患者对应日期健康记录、服药记录、电子病历资料看是否存在一些相关信息,以进一步佐证。
(6) 失访导致的选择偏倚
需在真实世界研究方案中尽可能设置充分的预防失访的措施,包括发生失访后可采用的补救措施,如通过额外的随访方式(如电话、登门拜访)弥补相关数据,与其他数据源(如医保数据、死亡登记数据等)链接等;
针对使用回顾性数据时可能存在的数据缺失情况,需在研究方案中预先明确数据缺失处理的方法和原则。针对缺失数据,需尽可能调查清楚失访的原因,若失访与干预措施或结局无关,可根据方案中预先规定的填补方法和原则进行填补。也可采用保守的方式进行填补,例如,实验组填补为无效,对照组填补为有效。
(7) 报告偏倚
选择性呈现有利的结果会造成选择报告偏倚,避免报告偏倚的最佳方法是在方案或统计分析计划中预先规定,建议将方案在公共网站(如中国临床试验注册中心、ClinicalTrials.gov等)预先注册。
对于使用回顾性数据开展真实世界研究的情形,申请人需在设置措施保证在正式统计分析前研究人员不可接触结局数据,避免研究人员在研究开始前为得到期望的统计结果开展数据挖掘行为。例如,在应用基于倾向性评分的统计分析方法时,可采取两阶段设计。第一阶段需构建结局数据防火墙、确定独立的统计人员、确定混杂变量、建立倾向性评分估计模型,直至第一阶段达到令人满意的混杂变量平衡后,再在第二阶段制定统计分析计划。
(8) 未测量混杂偏倚
如果所有混杂因素均已收集并正确建模,且样本量足够,则可通过适当分析方法来减少或消除估计偏差。然而在实践中难以获知全部混杂因素数据,且部分混杂因素未或不能测量,由此带来的偏倚称为未测量混杂偏倚。未测量混杂效应大小难以估计,可尝试通过敏感性分析评估它对结论的潜在影响。
3.评估偏倚方向和大小
偏倚具有方向性,即低估或高估干预措施的效应值,偏倚亦有程度大小之分,有些相对较小的偏倚可能不会影响研究结论。在完成研究后,建议回顾总结研究过程中仍然存在的偏倚,并评估对证据强度的影响。
如何评估偏倚因具体研究而异,例如对于失访造成的选择偏倚,对比失访研究人群特征与未失访研究人群特征,可能由于发现是干预措施效果不佳导致的失访,从而确定了偏倚存在以及偏倚的方向大小。对于测量偏倚,可使用一些统计指标(如组内相关系数、符合率等)对比不同人、不同临床机构的测量值帮助评价测量偏倚。
(十四) 伦理审查和知情同意
真实世界研究伦理审查和知情同意需符合《世界医学大会赫尔辛基宣言》和《涉及人的生命科学和医学研究伦理审查办法》等相关法规和指南的规定。
四、真实世界研究统计分析
(一) 统计分析计划
真实世界研究需要包括详细具体的统计分析计划,该部分需明确具体采用的统计方法和参数设定,以及统计方法和参数设定的理由和依据。相比于传统随机对照临床试验,真实世界研究由于控制偏倚的原因,更常涉及混杂效应调整性的统计分析方法。相同的数据使用不同的分析方法,结果数值通常是不同的,若统计分析结果与设定的研究成功数值相接近时,可能存在不同方法研究结论不同的情形。即使使用相同的统计方法,由于参数选择等细微差异,也可能导致结果不同。因此需尽可能详细具体提前规定统计分析计划,统计分析计划的详细程度需能确保按照计划执行分析时,不会存在可由分析人员自由选择分析方法和参数的情形。
(二) 分析数据集
预先根据不同的分析目的定义不同的数据集,如有效性数据集和安全性数据集、亚组分析数据集等。
(三) 混杂调整统计分析
1.分层分析
分层分析是一种常用的控制混杂因素的方法,需在方案中预先规定层数的具体划分原则,明确具体使用的统计方法,如Mantel- Haenszel法,若使用其他加权统计方法,明确方法的出处。
2.多变量回归分析
多变量线性回归分析需预先规定纳入的自变量,确定的混杂变量均需纳入到模型中去,当无法在设计阶段确定具体的自变量时,需在方案中明确具体的规则,遵循该规则确定纳入模型中的变量具有唯一性。多变量回归分析中纳入的研究对象(及病例)的数量需满足模型中需要估计的参数所需的例数,一般研究对象的数量至少为20~30倍于协变量的个数,发生结局事件的患者数量建议至少为10倍的协变量数。除此之外,需检验所使用模型的基本假设是否成立,如残差独立、期望为零、方差齐、分布假设、线性假设、Cox回归等比例风险假设等;恰当地处理多重共线性、交互作用;线性回归模型需具有可接受的拟合优度,需预先明确评估模型拟合优度的指标(多重决定系数、残差均方、马洛斯Cp统计量、赤池信息准则和贝叶斯信息准则等)、可接受阈值及其确定依据。
需预先明确多重共线性检验参数,如相关系数、方差膨胀因子、基于特征值的条件数等,预先明确判定是否存在多重共线性的阈值,以及阈值设定的依据,对于多重共线性的后续处理原则需有合理充分的论述。由于不能很好地探测比两两回归变量更复杂的多重共线性关系,不建议仅使用相关系数检验多重共线性。
是否纳入交互作用项需考虑专业知识和经验方面、统计分析两方面。在专业知识和经验方面,如果已经存在先验信息显示回归变量间存在交互作用,或者专业知识可判断某变量与另一变量存在交互作用,需将该交互项纳入模型。若交互项存在统计学意义,但从专业无法判断交互作用是否真实存在,建议纳入和不纳入均开展统计分析,作为敏感性分析。
对于使用相对危险统计指标的多变量回归模型,如优势比(odds ratio)和风险比(hazard ratio)等,相对值不如率差、均值差等临床意义直观,需注意对这些指标大小的临床意义解释。预先在方案中明确判定研究假设成立的阈值。
3.基于倾向性评分的调整方法
基于倾向性评分的研究建议设计为两个独立的阶段,第一阶段主要内容包括识别全部混杂变量、估计样本量、构建结局数据防火墙、确定独立的统计人员、建立倾向性评分估计模型,过程中存在迭代,直至达到令人满意的协变量均衡为止,整个过程对结局数据保持盲态;第一阶段主要目的是实现试验组和对照组组间均衡。第二阶段则是应用倾向性评分估计干预措施效应值,包括分层、匹配、逆加权和回归等方法。
在倾向性评分第一阶段(即寻找倾向性得分在组间均衡的阶段),部分特征人群由于未能在组间分布均衡而被剔除,此时需注意剔除部分人群后研究结论的外推性,需对过程有明确的记录,并对研究结论外推性有充分的论述。建议将研究器械组中的所有受试者都包括在分析人群中,在倾向性评分未得到均衡的情况下,可增加对照组数据源。
需预先明确效应值估计采用的方法及相关参数。对于分层法,需预先明确分层具体划分,以及判定协变量组间均衡的阈值及其依据,层权重系数计算方式等;对于匹配法,需预先明确试验组和对照组匹配比例(如1:1或1:n)、采用的匹配法(如精确匹配法、最近邻匹配法、卡尺匹配法等)、匹配成功判定阈值及其依据,通常单个患者数据仅用于1次匹配。
不推荐逆加权和回归法。逆加权基于倾向性评分决定个体的权重系数,实现对效应值的加权,其在倾向性评分接近0或1的情形下权重会过大或过小,且逆加权对于倾向性得分模型准确性要求很高。回归法将倾向性评分直接纳入到模型中,假设结局变量与组别、倾向性评分的回归模型是正确的,这通常难以被证实。与逆加权相同,其对倾向性得分模型准确性更敏感,同时回归法在设计阶段难以对结局数据保持盲态。
4.其他调整方法
用于控制混杂的调整方法还包括边际结构模型、工具变量和结构方程模型等较复杂的统计方法,目前在医疗器械临床评价中的实际应用较少。
(四) 处理数据缺失
多种原因可导致数据缺失,如依从性差、缺乏改善、副作用、治疗体验差以及与研究无关的外部因素等,合理处理数据缺失,需首先探究和明确数据缺失机制,根据缺失机制采用相应统计方法进行处理。数据缺失与所有已测或未测的变量无关为完全随机缺失,其不会引入偏倚;与已测的变量相关,但不受未测的数据的影响的数据缺失为随机缺失;缺失数据与其自身有关的成为非随机缺失,如由于疗效差或副作用导致的数据缺失。
应对缺失数据的最佳策略是通过合理的研究设计和高质量实施预防数据缺失。对于前瞻性真实世界研究,可通过筛选具有经验和负责的研究者、设置多种不同随访方式、采用阳性对照、采用易测量的结局指标、合理的数据收集表和快捷的数据录入方式、缩短研究时间、开展培训等减少数据缺失;对于使用回顾性真实世界研究,需评估数据库数据缺失程度。若数据缺失较多,或无法确定为完全随机性缺失,不建议使用该数据源开展真实世界研究。
目前缺失数据填补法可分为单一填补和多重填补法两大类,需预先规定缺失数据具体的处理方法。单一填补法推荐使用保守的结转法,例如将试验组缺失值均填补为无效,对照组缺失值均填补为有效;需注意单一填补法将减小方差,参数精度将被高估,体现为置信区间缩窄。对于多重填补,需预先规定填补模型、分析模型、插补次数、合并规则及相应确定依据。预先规定插补和分析模型的模型诊断方法及诊断指标,如缺失信息比例、相对增加的方差、相对效率和参数稳定性等。
(五) 亚组分析
若纳入研究的人群存在异质性,可考虑开展亚组分析,探索在不同亚组中,效应值的大小是否一致。若不一致,需注意此时研究结论对预期人群的外推性,避免产品在部分人群中具有显著的疗效,而在另外部分人群中无效。纳排标准越宽,更容易出现异质性,可基于既往研究经验和知识预先在方案中确定亚组分析,未预先规定会降低亚组分析结果的可信度。
(六) 敏感性分析
敏感性分析用于评估研究结果稳健性,在多种不同情形下均可能需开展敏感性分析,尤其对于观察性真实世界研究。真实世界研究中敏感性分析常见的应用情形包括违背模型假设、统计方法(如是否纳入交互项、共线性变量处理等)、变量选择、评估未被测量混杂的影响、评估干预偏离的影响、数据缺失填补、矛盾数据处理、离群值、变量定义不一致、不同人群亚组、基线不均衡等。需报告全部的敏感性分析结果,不能选择性报告。若敏感性分析的结果与主要分析的结果不一致,提示研究结论稳健性不够,可能需开展额外的研究进一步验证。
五、研究报告
研究报告需遵循完整、准确、规范的总体原则。不同类型真实世界研究报告内容存在差异,pRCT研究报告内容可参考实效性试验CONSORT指南,队列设计、病例对照设计等观察性研究可参考STROBE指南,也可以参考其他适用的文件,如STaRT-RWE清单,以确保临床报告要素完整。在以上的考虑基础上,需特别注意以下内容:
(一) 筛选流程图:提供相应研究对象的筛选流程图,说明研究过程中如何从原始数据库中逐步筛选出合格的分析对象,给出原始数据库的样本量、每一个步骤排除的研究对象数目、相应的排除原因以及最后纳入分析的研究对象样本量;
(二) 数据源基本特征描述:包括人群代表性、数据质量等;该数据源自身质控措施,基于该数据源发表的高水平文献等信息。
(三) 人群基本特征描述:详细描述研究对象的基线特征,各组病例入选时的基线特征,基线数据是否平衡。
(四) 变量数据提取:提供将暴露、结局、混杂因素和效应修饰因子等变量的具体定义,若采取自动方法从观察性数据库中提取变量数据,列明各变量具体的提取算法,提供相应算法的准确性验证资料。
(五) 伴随用药、伴随治疗统计:记录和统计其他干预措施(药物治疗及其他诊疗方法)使用情况。
(六) 按照方案开展统计分析,呈现所有统计分析结果,包括:主分析结果、有效性分析结果、安全性分析结果、亚组分析结果、期中分析结果、敏感性分析结果;
(七) 数据缺失处理:描述缺失数据的数量及具体情况,列明缺失处理情况,与方案规定的符合性。若与方案规定的数据缺失处理方法不一致,提供合理的理由。
(八) 矛盾数据处理:描述不同来源数据重要信息的统计量,针对矛盾数据的敏感性分析结果
(九) 偏倚风险及控制情况:以表格的形式列出可能存在的全部偏倚,针对偏倚逐个列出降低/消除偏倚的措施,并对应列出采取措施后残留的偏倚风险大小评估。
(十) 讨论和结论:讨论研究局限性,考虑潜在偏倚来源或不精确性。讨论潜在偏倚的方向和大小;讨论研究结果的外推性(外部有效性);结合研究目标、局限性、多种分析方法、相似研究的结果和其他相关证据,对结果进行谨慎、全面的解释。
六、参考文献
[1]国家药品监督管理局.真实世界数据用于医疗器械临床评价技术指导原则(试行):国家药监局关于发布真实世界数据用于医疗器械临床评价技术指导原则(试行)的通告.2020年第77号[Z].
[2]高培, 王杨, 罗剑锋, 等. 基于真实世界数据评价治疗结局研究的统计分析技术规范[J]. 中国循证医学杂志. 2019;19(7):787-793.
[3]温泽淮, 李玲, 刘艳梅, 等. 实效性随机对照试验的技术规范. 中国循证医学杂志[J]. 2019;19(7):794-802.
[4]聂晓路, 彭晓霞. 使用常规收集卫生数据开展观察性研究的报告规范-RECORD规范. 中国循证医学杂志. 2017;17(4):475-487.
[5]Yue LQ, Campbell G, Lu N, Xu Y, Zuckerman B. Utilizing national and international registries to enhance pre-market medical device regulatory evaluation. Journal of Biopharmaceutical Statistics[J]. 2016;26(6):1136-1145.
[6] Sterne JA, Hernán MA, Reeves BC, et al. ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions[J]. BMJ. 2016;355:i4919.
[7]Wang SV, Pinheiro S, Hua W, et al. STaRT-RWE: structured template for planning and reporting on the implementation of real world evidence studies[J]. BMJ. 2021;372:m4856.