您当前的位置:检测资讯 > 监管召回
嘉峪检测网 2024-07-16 19:20
前言
随着人工智能技术的快速发展,具有人工智能/机器学习(AI/ML)特征的医疗器械通过提供诊断、治疗和预后方面的医疗建议或决定,正在重塑着整个医疗保健行业。作为全球医疗监管领域的领导者,FDA正在通过人工智能计划进行多个监管科学研究,用于确保患者或使用者能获得安全有效的基于AI/ML的医疗器械。
人工智能计划和挑战
很多正在发生的情况,比如AI/ML技术可应用于越来越多的临床领域,临床医学数据的独特性质(例如,疾病流行率低,缺乏或难以获得真实数据),随着时间推移不断发展和学习的AI/ML医疗器械,都给FDA对AI/ML医疗器械的监管带来了各种挑战。推动FDA人工智能计划的监管科学差距和挑战包括:
Ø 缺乏针对有限的标记训练和测试数据增强人工智能算法训练的方法;
Ø 缺乏分析训练和测试方法来理解、测量和最大限度地减少人工智能设备的偏差;
Ø 缺乏人工智能设备的性能评估、参考标准和不确定性指标;
Ø 缺乏评估可持续学习人工智能算法安全性和有效性的方法;
Ø 缺乏评估人工智能医疗设备新兴临床应用安全性和有效性的方法;
Ø 缺乏人工智能设备上市后监测的方法;
人工智能计划的监督科学研究项目
FDA正式执行的以下6个监管科学研究项目旨在通过开发出强大的人工智能测试方法和评估方法来填补这些知识空白,以评估人工智能在上市前和现实世界中的表现,从而合理地确保新型人工智能算法的安全性和有效性。
1、解决人工智能研发医疗数据短缺的问题
FDA正在研究用合成数据补充医疗患者数据集的可能性和局限性。具体来说医疗人工智能模型的快速开发和监管评估可以为患者提供及时准确的诊断,并减少医疗服务的差异。然而,人工智能模型的开发和评估需要涉及多种患者人群和成像条件的大型数据集。对于医疗器械开发人员而言,由于获取成本高、安全性限制、患者隐私限制或疾病患病率低等实际情况,获取具有适当注释的代表性患者数据集可能是一项繁重的工作。与收集真实的患者数据相比,合成数据(也称为计算机模拟)可以允许更安全和有效地获得标记的示例。
2、识别和测量人工智能偏倚以增加健康公平
这项监管科学研究的目标是了解和测量偏倚,并改善对AI模型可推广性的评估。在人工智能计划中,FDA将偏倚定义为与其他对象、人或群体相比,在某些对象、人或群体治疗上的系统差异. 由于算法偏倚,人工智能模型可能(通常是无意中)加剧医疗保健服务的不平等。人工智能医疗器械监管中的一个主要监管科学差距包括分析培训和测试方法的基本方法,以了解,测量和最大限度地减少偏倚,并表征亚群的性能。这与人工智能模型的可推广性和鲁棒性密切相关,其中人们感兴趣的是在自然诱导的变化(包括子群体之间的变化)下能否保持模型性能。这就需要人工智能医疗器械提供可推广和稳健输出的条件,以合理确保其安全性和有效性。
3、人工智能医疗的评估方法:性能评估和不确定度量化
这项监管科学研究旨在帮助器械开发人员、评审人员和其他利益相关者确定并使用最少负担的指标来适当评估AI医疗器械。这项工作的第一个目标是开发工具,该工具用于在评估AI器械性能时提供适当的指标。对于AI医疗器械来说,参考标准或“数据标注”通常具有很高的不确定性或可变性,这一事实加剧了这一挑战。例如,“数据标注”可能需要根据专家的主观审查来定义,这可能导致参比标准品的高度变异性。“数据标注”的这种不确定性与其他类型的不确定性,例如缺乏知识或数据,机器学习中的随机效应,都反映在AI器械的输出中。这项工作的第二个目标是开发方法和工具来量化这种不确定性,如果适用,将其在器械输出中传达给用户,并测量其对用户的影响。在这个项目中,FDA将开发用于AI算法中不确定性量化的方法和工具。准确量化不确定性并全面了解影响不确定性的因素将使审查小组和监管科学家能够评估不确定性输出的校准。这些充分验证的输出使临床医生作出更明智的临床决策,将有利于患者和公众健康。
4、模型更新的人工智能医疗器械能评估方法
这项监管科学研究的目标是开发器械模型更新的性能评估方法。
2023年3月30日,FDA器械和放射卫生中心(CDRH)发布了指南文件草案:人工智能/机器学习(AI)器械软件功能预定变更控制计划(PCCP)的入市申请建议。本指南草案旨在使器械制造商能够在入市申请文件中纳入计划,以便器械在上市时能够在受控范围内发展。这种方法可以帮助制造商更容易地对其设备进行修改和更新,同时保持FDA确保设备持续安全性和有效性的能力。虽然指南草案概述了一种合理的方法,但在含有PCCP的器械的上市前评价中,有些领域需要进一步的技术分析,以获得负担最少的上市途径。
在医疗应用中,收集精心策划、标记和代表性的数据集是困难的,因此器械申请人自然希望在使用PCCP评估其器械时重复使用其测试数据集。然而,在测试一系列AI模型更新时重复使用相同的测试数据集可能会出现问题,因为AI模型最终可能会过度拟合测试数据集。如果发生这种情况,性能评估将给出误导的,过于乐观的结果,AI模型将无法准确分析新的数据。FDA需要一种方法来安全地重复使用具有PCCP的器械的评价数据集。该领域还有一些需要解决的问题,包括参考标准潜在变更的影响,为保持适当的获益/风险特征可接受的变更程度,以及如何平衡持续学习AI模型的可塑性/稳定性。
该项监管科学研究的目标是通过以下方式解决问题:
开发统计方法和理论结果,以及进行实证实验和研究。
发布可用于设计研究的监管科学工具,这些研究将根据上市后保证计划持续测量不断发展的算法的性能。
5、用于改善和自动化医疗事件的新型人工智能的监管评估
CDRH对许多类型的人工智能器械有明确的监管方法,但新的临床适应症或新类型的AI需要新的评估范式(非临床和临床测试)来确定安全性和有效性。与旨在帮助临床医生提高诊断准确性的模型相比,用于排除和分类的AI模型具有不同的实际应用和监管意义。尽管目前市场上大多数AI器械都是诊断型的,但设计用于预后、治疗反应预测、风险评估、治疗、改进图像采集和多级分类的新器械需要不同的评估指标和参考标准。
在医疗器械的开发或操作中使用自然语言处理和大型语言模型,给器械评估带来了新的问题。结合多种类型数据源(例如,来自放射学、生理学、病理学、患者人口统计学和电子健康记录的数据)的新型人工智能需要研究有关数据协调和缺失的问题。
6、人工智能医疗器械上市后的有效监测方法
这项监管科学研究的目标是开发方法和实用工具,以检测AI医疗器械输入的变化,监测其输出的性能,并了解性能变化的原因。
人工智能模型高度依赖数据。数据采集系统、方案和患者人群随时间和临床地点而变化。此外,模型开发期间未遇到的数据可能会导致意外输出。因此,AI模型的临床效用可能会在其开发阶段和实际临床使用之间发生变化。这些差异可能会影响人工智能医疗设备的安全性和有效性。
通过监测和审计人工智能医疗设备的数据和输出检测人工智能医疗器械输入变化、监测其输出性能并了解性能变化原因的工具,来提供质量保证,并使用多个临床站点的患者数据进行评估。这些工具将使器械用户受益。此外,这一努力将实现动态的创新周期,从而实现持续改进。
来源:海河生物视界