您当前的位置:检测资讯 > 科研开发
嘉峪检测网 2021-09-10 21:15
摘 要 / Abstract
深度学习辅助医疗产品确证性临床试验的主要评价目标是辅助临床医疗的诊断准确性和安全性, 多阅片者多病例(MRMC)的研究设计是评价或比较不同辅助医疗产品软件诊断性能的一种方法,可有 效地避免或减少临床评价过程中因读片医生经验或资历水平等不同以及使用场景等各种差异而产生的偏 倚,从而更加客观的评价试验结果。本文基于 MRMC 设计的特点,探讨了深度学习辅助医疗产品的临 床试验设计和方法学思考要点,如对选择对照、目标疾病诊断金标准、临床试验类型和评价指标的考虑;对检验假设建立、病例和阅片者样本量、病例和阅片者的代表性、阅片过程随机化及对阅片者培训等的 考虑 ;对临床试验过程中可能产生的各种偏倚的考虑。同时,提出了目前仍面临的问题和难点。建议申 办方多与方法学专家和监管部门沟通,以期为临床试验科学、完善、合理的设计和执行提供参考。
The main objective of deep learning-assisted confirmatory clinical trials is to evaluate the accuracy and safety of clinical diagnostic products. The multi-reader multi-case (MRMC) research design is a method to evaluate or compare the diagnostic performance of different medical device software, which can effectively avoid or reduce bias in the clinical evaluation process due to differences in the experience or qualification of film readers and different scenario of application and can deliver more objective study results. Based on the characteristics of MRMC design, this paper discusses key considerations of clinical trial design and methodology of deep learning-assisted medical products, including the selection of control, the gold standard of target disease diagnosis, the type of clinical trial and evaluation index, the establishment of test hypothesis, the sample size of cases and readers, the representativeness of cases and readers, the randomization of film reading process, the training for film readers, and consideration of bias in the studies. At the same time, current problems and difficulties are put forward. It is suggested that sponsors communicate with methodology experts and regulators more frequently to facilitate more scientific study design and conduct studies more effectively.
关 键 词 / Key words
深度学习 ;人工智能 ;辅助医疗 ;多阅片者多病例 ;确证性临床试验
deep learning; artificial intelligence; deep learning-assisted medical device software; multi-reader multi-case; confirmatory clinical trials
以深度学习(deep learning) 为 核 心 的 人 工 智 能(artificial intelligence,AI)技术的兴起给 计算机图像识别、自然语言处理 和语音识别等领域带来了巨大的 技术突破,这些技术突破也逐渐 从通用算法研发拓展到了医疗、 遥控、自动驾驶等各领域学科场 景中 [1]。以临床医疗为例,如通 过引进 AI 深度学习技术在内的各 种自动化工具 ;各领域深度学习 研发辅助决策医疗器械软件 ;基于大量的医疗数据信息和各种算 法,为医务人员提供诊疗活动建 议以辅助进行临床决策(如临床 的辅助筛查、辅助诊断、辅助治 疗和辅助结局预测)等。
近年来,AI 在我国辅助治疗、 医学影像处理等医疗器械领域的 应用愈发广泛,为提高诊断率和 治疗有效性做出了重大贡献,已 成为医疗器械行业的热点和焦点。目前,使用传统 AI 技术的医疗器 械已有多款产品注册上市(如乳腺肿瘤、肺结节、结肠息肉等辅 助识别软件),而使用深度学习等 新一代 AI 技术的医疗器械仍处于 研发、检测、临床试验阶段。从 批准上市前对深度学习辅助医疗 器械软件确认的临床试验角度出 发,考虑到软件的真实使用场景 和使用对象的差异性,国家药品 监督管理局医疗器械技术审评中 心建议临床试验采用多阅片者多 病例(multi-reader multi-case, MRMC) 研 究 设 计 [2]。MRMC研究设计是 FDA 推荐的,用于比 较 2 种或多种影像诊断软件诊断 性能的常用方法,可有效避免临 床评价过程中因读片医生、使用 场景等各种差异而产生的读片偏 倚,从而更加客观的评价试验结 果 [3]。但由于 MRMC 研究设计常 需要阅片者分别在不同的阅片模 式下(如单独阅片和 AI 辅助阅片) 对所有入选病例交叉读片,阅片 结果可能存在病例与阅片者之间 的多重相关问题,也可能存在试 验结果和阅片者间潜在的交互作 用。这对于 MRMC 设计的临床试 验来说不管是研究设计、实施还 是最终统计分析都比常规设计的 临床试验更加专业和复杂,尤其 是样本量计算及对相关参数的合 理假设。据此本文从临床研究方 法学角度对 MRMC 研究设计的相 关设计要点进行简要介绍,以期 为开展深度学习辅助医疗器械软 件确认临床试验提供支持和参考。
01、研究设计方法
AI 辅助医疗器械确证临床试 验的目的旨在评价目标设备在预 期使用人群和计划使用场景中对 目标疾病筛查、诊断或预测等临 床评估的安全性和有效性。采用 MRMC 研究设计的临床试验设计 分类基本分为以下 3 种 [4]。
①配对阅片者配对病例设计 :全交叉设计全部阅片者对每一种阅 片模式下所有病例的影像数据给出 阅片结果。②非配对阅片者配对病 例设计 :所有病例均提供所有阅片 模式下的影像数据,部分阅片者只 针对某一种阅片模式下的影像数据 给出阅片结果,其余阅片者对另一 种阅片模式下的影像数据给出阅片 结果。③配对阅片者非配对病例设 计 :部分病例提供某一种阅片模式 下的影像数据,其余病例提供另一 种阅片模式下的影像数据,全部阅 片者均对所有病例的影像数据给出 阅片结果。其中,应用最多最常见 的是①全交叉配对设计,这种设计 需要的样本量相比②③非配对设计 少。如果在某个前瞻性研究中,无 法同时获取多名临床医生对同一患 者影像数据的阅片结果或者同一患 者无法同时提供所有不同阅片模式 下的影像数据时,也可以采用非完 全交叉的研究设计方法。
02、评价指标和研究假设
MRMC 与新药和医疗器械 确证性临床试验的设计思路一致, 主要和次要评价指标的选择取决 于目标产品的预期用途,并且评 价指标应该在研究设计阶段方案 中进行明确的定义。
2.1 评价指标
MRMC 研究设计常应用于影 像诊断产品的临床评价,如 AI 辅 助临床医生对于肺结节的检出 [5] 或者对于乳腺癌的筛查诊断 [6],采 用 MRMC 研究设计的 AI 辅助医 疗器械确证临床试验的评价指标 多为诊断试验研究的相关评价指 标。从诊断产品的性能角度考虑, 受试者工作特征曲线(receiver operating characteristic curve, ROC)曲线下面积(area under curve,AUC)可以综合所有可 能诊断界值(cut-off value)下 的 灵 敏 度(sensitivity)和 特 异 度(specificity),从整体水平评 价及比较不同诊断产品或不同阅 片模式下的诊断效能,通常是被 优先考虑的一个主要指标。另一 方面,从临床实践的角度考虑, 针对有实际临床意义或影响临床 操作的诊断界值,也建议给出此 诊断界值的灵敏度和特异度,以 结合临床实际评价新辅助诊断产 品或者影像诊断模式对疾病或患者诊断的实际获益或风险,通常 也会将特定诊断界值下的灵敏度 和特异度作为另外一个主要指 标,或者也可以退而求其次将其 定义为次要评价指标。但需要注 意的是,此处的诊断界值应该是 对应有明确临床意义的界值,而 不是仅通过分析 ROC 曲线的统 计方法得到的界值。目前,AI 辅 助医疗器械除应用在病例水平检 测外,也有一部分是具体到病变 水平(如结节、冠状动脉部位) 给出相应的结果,所以除对病 例水平的 ROC 分析外,专门针 对病变水平的无反应 ROC 曲线 下 面 积(free-response ROC area under curve,FROCAUC)及在此基础上做出改进的 可 替 代 无 反 应 ROC 曲 线 下 面 积(alternative free-response ROC area under curve, AFROC-AUC)也常作为评价 指标 [7-9]。
2.2 假设检验
临床试验评价深度学习辅助 决策医疗器械软件的设计多样, 通常情况下建议选择同期可比的 对照进行比较研究,如可以选择 同类仪器或软件或临床参考标准 进行非劣效比较设计,也可以选 择替代方法,如 AI 辅助医生联 合阅片与医生单独阅片比较进行 优效比较设计 [2]。统计学假设检 验类型的选择需要结合目标产品 的临床预期、试验的主要目的和 选择的参考对照综合考虑,但 总体来说假设检验基本类型与 临床研究的常见研究假设一致, 可以分为非劣效性试验(noninferiority trial)、 等 效 性 试 验 (equivalencetrial)和优效性试 验(superiority trial)[10]。几种 假设检验的具体表述形式见表 1。
申办者在计划开展试验时需 要结合产品实际情况选择合理的 设计类型。国家药品监督管理局 医疗器械技术审评中心也建议优 先选择同品种产品或临床参考标 准进行非劣效对照设计,若无同 品种产品且难以获取临床参考标 准可选择替代方法,如选择用户 结合软件联合决策与用户单独决 策进行优效对照设计 [2]。但是无 论是哪种设计,非劣效或优效试 验对界值的确定应当有充分的临 床依据。
03、目标疾病诊断金标准
对于 MRMC 设计的临床试 验来说,必须明确针对研究对象 目标疾病状态的诊断金标准。所 谓“ 金 标 准 ”(gold standard) 就是目前医学界公认的、诊断某 一疾病的最佳方法,如病理检查、 随访诊断或其他检查手段的检查 结果等。对于深度学习辅助决策 医疗器械软件或影像诊断等临床 试验来说,会存在目标疾病暂时 并未有明确的诊断金标准或标准 诊断方法,针对这种情况基于多 名临床专家共同读片的诊断结果 也可以作为最终评价的金标准。
如果采用多名临床或影像专 家共同读片的诊断结果作为金标 准,建议在研究方案中对以下内 容进行明确 :①专家的数量。② 专家的专业、资质、知识水平、 职称或资历。③在读片过程中为 帮助专家给出相对准确的诊断结 果而提供给专家的关于研究对象的具体信息(如年龄、性别和其 他检查结果等)。④临床专家对于 目标疾病定义为阳性或者阴性的 明确的判定方法和标准等。需要 注意的是,参与目标疾病金标准 诊断结果的临床或影像专家与目 标产品试验评价过程中的阅片医 生必须是完全独立的。
04、病例和阅片者数量
如前所述,在 MRMC 设计 的临床试验中,数据变异的来源 除入组病例间的变异外,阅片者 间的变异性也是一个主要的影响 因素。在临床试验设计阶段尤其 是样本量估算时,需要综合考虑 病例间的变异和阅片者间的变异, 分别估计病例和阅片者两部分的 样本数量。同时,在相同的检验 假设条件下采用多数量的阅片者 也可以在一定程度上减少所需的 病例数量。
由于 MRMC 设计的临床研 究样本量计算推导过程相对比 较复杂且偏数学推导,后续本 研究组将专门针对样本量的计 算进行阐述,在此不再做详细 介绍。但需要明确的是,在临 床试验设计时需结合临床研究 的主要目的,即从统计学角度 同时考虑估计纳入病例和阅片 医生两部分的样本量。
05、数据收集和报告
MRMC 设计的临床试验中统 计评价指标主要是基于 ROC 曲 线计算得到的 AUC,以及相关 的 衍 生 指 标( 如 FROC-AUC、 AFROC-AUC),也可以是特定 诊断界值下的灵敏度、特异度一 类二分类指标。所以,针对这类 设计的研究,以 AI+ 临床医生评 判和临床医生独立评判为例,需 要收集的数据信息除病例和阅片 者的基本信息外,与有效性评价 相关的指标主要为病例水平的 金标准诊断结果(如阳性 / 阴性 或病例 / 非病例格式的二分类数 据)、临床医生独立阅片的诊断结 果和 AI 辅助下临床医生独立阅片 的诊断结果。其中,与 MRMC ROC 分析相对应,临床医生独 立阅片的评判结果和 AI 辅助下临 床医生独立阅片的评判结果常常 是相对细化的置信度评分,如乳 腺影像报告和数据系统(breast imaging reporting and data system,BIRADS) 分 级 形 式, 即 1~7 级的等级计数形式或百分 计数形式,反映了临床医生对于 判定阳性结果的把握程度,评分 越高表示诊断为阳性病例的可能 性越大。通常在有些临床试验中 除细化的置信度评分外,临床医 生也可根据临床实际给出一个二 分类的结果,用于灵敏度和特异 度等指标的计算。
FDA 给 出 了《 关 于 诊 断 类 产品评价的统计结果报告指南》 (Statistical Guidance on Reporting Results from Studies Evaluating Diagnos Tests)[11],可以为 AI 辅助诊断 临床试验的统计结果报告提供标 准。针对MRMC设计的临床试验, 参考该指南建议汇报总体的诊断 效能情况、每位阅片医生的诊断 准确性,以及考虑阅片者、病例 等各种变异下的置信区间等结果。
06、MRMC设计在临床试验研究中的偏倚及控制
临床试验的主要目的是尽量 无偏倚的评价诊断产品的准确度 或 2 种或 2 种以上不同诊断产品 或诊断模式之间的准确度差异 [12]。但临床试验实际操作过程中难免 会引入一些偏倚从而影响试验结 果的准确评价,在采用 MRMC 设计的诊断试验准确度评价研究 中最常见的几种偏倚如下。
(1)选择偏倚 :入选样本受 额外因素的影响无法代表目标总 体而引起的偏倚。对 MRMC 设 计的临床研究入选样本应包括入 组病例和入组阅片医生两部分。入组病例应包括全面的疾病特征 和信息(如不同分型、不同严重 程度等),入组阅片医生也应当依 据目标产品的预期使用环境和使 用对象选择与之相匹配的阅片医 生(如职称、资历、阅片经验等), 以保证研究人群的代表性。
(2)证实偏倚 :阳性(或阴 性)试验结果的患者会有更多的 机会接受金标准的验证,这样当 仅以接受金标准验证的患者进行 诊断能力的评估时就会产生证实 偏倚,尤其是在回顾性收集资料 的研究设计中,更应该注意尽量 减少这类偏倚,且前瞻性设计的 研究也建议尽可能让全部入组病 例均能接受金标准的验证。
(3)阅片顺序偏倚 :在比较 2 种或 2 种以上不同诊断产品或 诊断模式之间的诊断能力时,阅 片医生需要分别在不同模式下进 行阅片,后一种阅片模式下阅片 医生的判读可能会受到记忆中前 一阅片模式下的信息干预而影响 结果。阅片过程的随机化操作可 有效减少这类偏倚,可以随机分 配阅片医生的阅片顺序,也可以 随机分配入组受试者接受时的阅 片顺序。另外,对于不同诊断产 品或诊断模式间的读片间隔,建 议设定至少 4 周的洗脱期,因为 洗脱期间隔越长读片过程中的记 忆偏倚相对越小 [3]。另外,为避 免阅片医生间由于不同的阅片习 惯和评判标准所带来的阅片过程 和评判结果的偏倚,研究开始前 需要对阅片者进行统一的培训, 包括阅片环境、阅片方法和评判 结果的标准化定义等,同时建议 在方案中明确定义整个阅片流程、 阅片操作的规范化和评判结果的 标准化。
07、结 论
在深度学习辅助医疗器械 软件确认的临床试验中,采用 MRMC 的设计方法可以有效地控 制由于阅片医生年资、水平和经 验等不同和器械软件使用场景和 目的的不同所带来的结果评价的 偏倚,同时采用多阅片者研究可 以在一定程度上减少需要的入组 病例数,提高试验的把握度。但 是,由于 MRMC 的设计引入了 阅片者的因素,使得临床试验的 研究设计和统计分析变得相对更 加复杂,建议申办方在开展类似 的临床试验时多与方法学专家和 相关监管部门沟通,合理设计试 验流程和操作、减少试验中的偏 倚,更加客观和准确地评价临床 试验的效果。
引用本文
尚美霞,阎小妍,姚晨*,李雪迎,朱赛楠.深度学习辅助医疗产品开展确证性临床试验的多阅片者设计和方法学考虑[J].中国食品药品监管,2021(7):100-105.
深度学习辅助医疗产品开展确证性临床试验的多阅片者设计和方法学考虑
第一作者简介
尚美霞,硕士研究生,北京大学第 一医院医学统计室,主管技师。专 业方向 :临床研究统计设计与分析
通讯作者简介
姚晨,教授,卫生统计学硕士,临 床研究方法学博士生导师,北京大 学第一医院医学统计室主任,北京 大学临床研究所副所长。专业方向:临床研究统计设计与分析
来源:中国食品药品监管杂志