心电图人工智能软件技术审评指导原则
本指导原则是人工智能医学信息系统软件审评指导体系构建的组成部分,基于人工智能医疗器械审评指导原则的通用要求,细化了心电图人工智能软件的一般要求。
本指导原则是供心电图人工智能软件的研发、生产和技术审评使用的指导性文件,不涉及相关行政审批事项,亦不作为法规强制执行,应在遵循相关法规的前提下使用本指导原则。
本指导原则是在现行法规和标准体系以及当前认知水平下制定的,随着法规和标准的不断完善,以及科学技术的 不断发展,在使用过程中应对相关内容适时进行调整。
一、适用范围
本指导原则适用于采用人工智能技术的心电图人工智能软件的产品注册。按现行《医疗器械分类目录》和《人工智能医用软件产品分类界定指导原则》,该类软件的管理类别应结合产品的预期用途、算法成熟度等因素综合判定。
本审评指导原则适用于采用人工智能算法的心电图人工智能软件(含独立软件、软件组件)的注册申报。
该类软件基于采集的心电数据,包括但不限于静态心电、动态心电(包含单导心电)、运动心电和监护心电等数据,采用人工智能算法进行疾病辅助分析和诊断,疾病类型包括但不限于心律失常、心肌缺血等。
本指导原则不包含光电容积描记(PPG)信号的产品。
二、注册审查要点
(一)监管信息
明确产品名称的确定依据、管理类别、分类编码、规格型号、产品组成等信息。
1.产品名称
产品命名应符合《医疗器械通用名称命名规则》、《医用软件通用名称命名指导原则》的要求。根据产品预期用途可采用心电图辅助分析软件进行命名。一般可以按“特征词+核心词”的方式命名,通常体现输入数据(如静态心电图、动态心电图、单导心电图)、目标疾病(如心律失常、心肌缺血)、预期用途(如辅助决策、辅助诊断、辅助检测、辅助分析)等特征词,例如:心电图辅助决策软件、动态心电图辅助诊断软件、动态心电辅助分析软件、深度学习心电图辅助分析软件、心电图辅助检测软件。
2.分类编码
依据《医疗器械分类目录》和《人工智能医用软件产品分类界定指导原则》,明确类别和编码。
3.注册单元划分
根据产品的技术原理、结构组成、性能指标、适用范围进行注册单元划分。
可以与心电图机设备或心电信息系统一起作为软件组件注册,也可以按照独立软件注册。
不同预期用途的独立软件作为不同注册单元,按照预期用途可分为辅助决策类和非辅助决策类,辅助决策类用途如:心搏自动分类,心律失常自动诊断等,非辅助决策类用途如:心电参数的自动检测,心电特征的自动分析(P波检测)、心电信号质量的优化等,每类又可细分为诊断、监护、临床管理、个人管理等情形。
不同输入数据类型作为不同注册单元,如静态心电图、30s单导心电图、动态心电图应作为不同注册单元。
预期用途相同但核心算法类型不同的独立软件亦作为不同注册单元,如传统心电分析算法和深度学习算法。
软件组件注册单元与所属医疗器械相同。专用型独立软件视为软件组件的注册单元与软件组件相同。
4.适用范围
适用范围应当明确预期用途、使用场景和核心功能,包括但不限于处理对象、目标疾病、临床用途、适用人群、目标用户、使用场所、采集设备要求、临床使用限制(应明确是否为持续学习/自适应学习,根据《人工智能医疗器械注册审查指导原则》的要求,在当前法律法规体系和技术水平条件下,持续学习/自适应学习应关闭自学习功能,或者虽然开放自学习功能但不得投入使用,即用户始终使用产品原有功能,自学习功能仅用于算法训练或医学科研。)。
例如,本产品自动分析功能仅用于成人心律失常、心肌梗塞和ST-T异常分析,分析结果仅供为诊断参考,供经培训合格的医师使用,不能单独用作临床诊疗决策依据。本产品不适用于电解质紊乱、药物以及肺栓塞、瓣膜病等情况下的心电图数据分析。
(二)综述资料
1. 产品描述
1.1器械及操作原理描述
1.1.1工作原理
需详述产品的工作原理,例如:基于人工智能技术对心电图特征进行分析处理、对心律失常、心肌梗塞和ST-T异常自动识别等。对于软件安全性级别为中等、严重级别的产品,全新类型在软件研究资料中以算法为单位,提交每个人工智能算法或算法组合的算法研究报告;成熟类型在软件研究资料中明确算法基本信息即可,无需提供算法研究资料。
产品的工作原理举例如下:
明确算法的输入与算法的输出:
1) 明确算法所采用的神经网络结构,如LCNN、CNN、ResNet,Dense-Net等;
2) 明确算法训练采用的损失函数,如交叉熵,Focal损失函数;损失函数等核心组件选择和设计的原则、方法与风险考量,如不同类别样本的不均衡性、过拟合等;若算法采用多个模型融合,需明确不同模型训练与推理的方式,以及模型融合的策略,如多数投票;
3) 明确算法的流程图,训练与部署所采用的框架(如Tensorflow, Pytorch)、算法运行环境(如内存、显存的需求)。
4) 若使用迁移学习技术,除上述内容外还需补充预训练模型的数据集构建、算法测试等总结信息,并明确算法选用依据。
1.1.2结构组成
结构组成明确交付内容和功能模块,心电图人工智能软件包括独立软件和软件组件。
心电图辅助诊断分析独立软件无需运行在心电图机(硬件)上。它基于通用、专用的数据接口接收心电图信号,分析并显示在其运行的计算机平台,交付内容包括软件安装程序、授权文件、外部软件环境安装程序等软件程序文件,功能模块包括客户端、服务器端(若适用)、云端(若适用),若适用注明选装、模块版本。基于人工智能算法的功能模块,需在功能模块名称中注明人工智能算法核心算法名称,如人工智能(如深度学习)等。
心电图人工智能软件组件运行在心电产品硬件上。它基于通用、专用的数据接口接收心电图信号,分析并显示在其运行的硬件上。心电图诊断分析软件组件通常无需在注册证载明信息中体现。其软件功能名称可参照人工智能独立软件通用名称要求。若有辅助决策类软件功能,结构组成(若适用)和适用范围需予以体现。
1.2 型号规格
需明确申报产品的型号规格及发布版本。产品型号/规格及其划分,如同一个注册单元包含多个型号规格,需提供产品型号规格区分列表或配置表。
1.3研发历程
阐述申请注册产品的研发背景和目的。如有参考的同类产品(如使用传统技术的心电图自动分析诊断设备/软件)或前代产品,需提供同类产品或前代产品的信息,并说明选择其作为研发参考的原因,说明与传统心电分析诊断软件的区别。
2.适用范围和禁忌证
(1)适用范围
适用范围需明确处理对象、核心功能、适用人群、目标用户、临床用途、禁忌症等。
例如,本产品自动分析功能仅用于成人心律失常、心肌梗塞、心室肥大和ST-T异常分析,分析结果仅供为诊断参考,供经培训合格的医师使用,不能单独用作临床诊疗决策依据。本产品不适用于电解质紊乱、药物以及肺栓塞、瓣膜病等情况下的心电图数据分析。
(2)预期使用环境
需明确设备使用环境要求。包括:医疗机构机房等,非医疗机构,如家庭、公共场所等。
(3)适用人群
需详述产品的适用人群。目标人群信息(如用于成人、小儿或新生儿)以及预期使用该产品的目标用户(如经培训合格的心电图室医师、心内科医师、技师、专科医师、经专业培训的个人等)
(4)禁忌证
明确产品临床应用的禁忌证以及不推荐使用该产品的情况。
3.产品功能
明确心电图人工智能软件能够支持的硬件设备或能够分析的心电数据格式,描述产品的功能模块组成以及这些模块的主要功能(如诊断数据类型、算法分析效率,诊断疾病基本种类等)描述,明确软件工作的环境,包括但不局限于服务器部署(局域网、云端)等。
(三)非临床资料
1.产品风险管理资料
依据YY/T 0316《医疗器械风险管理对医疗器械的应用》,提供产品风险管理报告。
申请人需重点说明:申报产品的研制阶段已对有关可能的危害及产生的风险进行了估计和评价,针对性地实施了降低风险的技术和管理方面的措施。产品性能测试对上述措施的有效性进行了验证,达到了通用和专用标准的要求。申请人对所有剩余风险进行了评价,全部达到可接受的水平。产品风险分析资料需为申请人关于产品安全性的承诺提供支持。
风险管理报告一般包括以下内容:
(1)申报产品的风险管理组织。
(2)申报产品的组成。
(3)申报产品符合的安全标准。
(4)申报产品的预期用途,与安全性有关的特征的判定。
(5)对申报产品的可能危害作出判定(见附录1)。
(6)对所判定的危害采取的降低风险的控制措施。
(7)对采取控制措施后的剩余风险进行估计和评价。
2.产品技术要求及检测报告
2.1产品技术要求
依据《医疗器械产品技术要求编写指导原则》以及《医疗器械软件注册审查指导原则(2022年修订版)》附录“独立软件产品技术要求模板”进行编制。
2.1.1型号规格及软件版本
明确不同型号间产品差异。
明确软件发布版本和版本命名规则。软件版本命名规则原则上需涵盖算法驱动型更新和数据驱动型更新,明确并区分重大软件更新和轻微软件更新,其中重大软件更新列举常见典型情况。软件版本命名规则的基本要求详见《医疗器械软件注册审查指导原则(2022年修订版)》。
2.1.2性能指标
性能模板见附录3。
运行环境,运行在不同计算机系统的产品模块(如客户端和云端)需分别描述其运行环境。
2.2检测报告
检测单元是指同一注册单元内用于检测的代表产品。
(1)独立软件
独立软件检测单元原则上与注册单元相同,但若有多个运行环境或多个发布版本,则每个互不兼容的运行环境(含云计算)或每个互不涵盖的发布版本均需作为一个检测单元。
若软件核心功能相同但核心算法类型不同,则每类核心算法所对应的核心功能均需检测(检测对象为核心功能而非核心算法)。
(2)软件组件
软件组件检测单元原则上与所属医疗器械相同,但医疗器械若包含多个软件组件或多个发布版本的软件组件,则每个软件组件或每个发布版本的软件组件均需作为一个检测单元,除非检测单元能够完整覆盖注册单元全部情况。同理,若软件核心功能相同但核心算法类型不同,则每类核心算法所对应的核心功能均需检测。
专用型独立软件视为软件组件的检测单元原则上与软件组件相同,但若有多个运行环境,则每个互不兼容的运行环境(含云计算)均需作为一个检测单元。
3.软件研究
(1)基本要求
注册申请人需依据《医疗器械软件注册审查指导原则(2022年修订版)》提交自研软件研究报告。其中,人工智能算法需依据 《人工智能医疗器械注册审查指导原则》第六章的要求提交算法研究报告。
注册申请人需依据《医疗器械网络安全注册审查指导原则(2022年修订版)》提交自研软件网络安全研究报告。按照《人工智能医疗器械注册审查指导原则》提交数据安全资料。也可关注课题《人工智能医学软件产品网络安全指导原则》的相关要求。
若使用云计算服务,生产企业需依据《人工智能医疗器械注册审查指导原则》、《移动医疗器械注册技术审查指导原则》提交相应研究资料。使用云计算服务需明确服务模式、部署模式、核心功能、数据接口、网络安全能力、服务(质量)协议等要求。
注册申请人需在软件研究资料中提交GB/T 25000.51自测报告或委托有资质的医疗器械检验机构出具检验报告。检测报告需明确软件发布版本信息。
(2)软件安全级别
该类产品的软件安全性级别为中等或严重。
(3)核心算法
列明软件核心功能的名称、所用核心算法、预期用途并注明类型,全新的核心功能、核心算法、预期用途均需提供安全有效性研究资料。
表1.核心算法示例
算法名称 |
类型 |
用途 |
功能 |
基于深度卷积神经网络的心搏分类算法 |
成熟算法/全新算法 |
心搏分类 |
心搏类型辅助分析 |
基于目标检测的心搏检测及定位算法 |
成熟算法/全新算法 |
心搏检测及分类 |
识别心搏位置并判断心搏类型 |
端到端的心电自动诊断算法 |
成熟算法/全新算法 |
心电诊断分析 |
辅助心电图诊断 |
…… |
|
|
|
4.算法研究资料
4.1算法基本信息
明确算法的名称、类型、结构、输入输出、流程图、算法框架、运行环境等基本信息以及算法选用依据。
需描述算法每个阶段(如心搏分类等)的设计和功能,通过文献论述算法类型(成熟及全新)。
其中,算法类型从学习策略、学习方法、可解释性等角度明确算法特性。成熟是指安全有效性已在医疗实践中得到充分证实的情形,全新是指未上市或安全有效性尚未在医疗实践中得到充分证实的情形。算法结构明确算法的层数、参数规模等超参数信息。算法框架明确所用人工智能算法框架的基本信息,包括名称(如Tensorflow, Pytorch等)、类型(自研算法框架、现成算法框架)、型号规格、完整版本、制造商等信息;若基于云计算平台,明确云计算的名称、服务模式、部署模式、配置以及云服务商的名称、住所、服务资质。运行环境明确算法正常运行所需的典型运行环境,包括硬件配置、外部软件环境、网络条件;若使用人工智能芯片需明确其名称、型号规格、制造商、性能指标等信息。算法选用依据详述人工智能算法或算法组合选用的理由和基本原则。
4.2算法需求规范
算法功能需求建议关注数据库需求、算法性能评价指标及制定依据、性能的拟定目标及制定依据。
4.2.1数据库需求
算法性能评价需要基于训练和测试数据库,数据库具体要求详见附录2。
4.2.2算法性能评价指标
明确算法任务,明确算法训练和调优过程中不同任务的评估指标及定义。明确不同任务的算法评价指标的定义、计算公式及确定依据,如2020室性心律失常中国专家共识、等。
心律失常指标包括不限于灵敏度、特异度、阳性预测率、F1分数、准确率。
提供文献综述论证评价指标选择的合理性。
4.2.3算法性能测试基本要求
基于算法流程图评价每个器械操作点的基于病例、基于心搏分类、基于房颤分类的性能指标,需包括训练集、调优集、测试集的算法性能测试结果,需明确测试方法。所有性能指标均需具有相关置信区间,需提供关于估计置信区间以及与其相关的临床显著性的方法学描述,需提供FROC曲线图及FROC置信区间(如适用)。
4.2.3.1心搏分类
须给出心搏各类别的灵敏度、特异度、阳性预测率、F1分数、准确率。其中:灵敏度=真阳性心搏数/(真阳性心搏数+假阴性心搏数)*100%;特异度=真阴性心搏数/(真阴性心搏数+假阳性心搏数)*100%;阳性预测率=真阳性心搏数/(真阳性心搏数+假阳性心搏数)*100%;F1分数=(2*真阳性心搏数)/ (2*真阳性心搏数+假阴性心搏数+假阳性心搏数) *100%;准确率=(真阳性心搏数+真阴性心搏数)/(真阳性心搏数+假阳性心搏数+真阴性心搏数+假阴性心搏数) *100%
4.2.3.2 心律失常:
须给出心律失常检测的灵敏度、特异度、阳性预测率、F1分数、准确率。其中:灵敏度=真阳性人数/(真阳性人数+假阴性人数)*100%;特异度=真阴性人数/(真阴性人数+假阳性人数)*100%;阳性预测率=真阳性人数/(真阳性人数+假阳性人数)*100%;F1分数=(2*真阳性人数)/ (2*真阳性人数+假阴性人数+假阳性人数) *100%;准确率=(真阳性人数+真阴性人数)/(真阳性人数+假阳性人数+真阴性人数+假阴性人数) *100%。
算法测试需符合YY 0782-2010(GB 9706.225-2021)、YY 0885-2013(YY 9706.247-2021)、《IEC 60601-2-47-2012》等要求。
4.2.4样本量
明确样本量估计的公式、参数及制定依据。研究样本应足够大,以使声称的性能具有统计学显著性。
4.2.5测试方法
需明确测试方法及制定依据。
4.3数据质控
建议参考《人工智能医疗器械注册审查指导原则》及YY/T 1833.2-2022 《人工智能医疗器械质量要求和评价 第2部分:数据集通用要求》。
4.3.1明确数据库信息
需提供数据采集协议,需要考虑明确偏倚控制的方法,如通过各亚组设置进行偏移控制,不应为提高算法结果刻意筛选数据。
明确数据库信息(详见附录2)
4.3.2数据整理
明确数据转移保存的方法。明确数据纳入排除标准(例如数据是否满足导联类型、时长、采集精度、滤波器带宽要求),以及进行数据筛选的方法(人工清洗、自动清洗),提供数据整理软件工具的研究资料。
提供数据清洗流程图,明确清洗规则,例如确定数据合规性、心电数据唯一性等信息满足要求、连续性、完整性、已完成脱敏等并加以筛选。清洗结果明确弃用数据的数量和原因。明确预处理的操作步骤和内容。
4.3.3数据标注
数据标注建议参考YY/T 1833.3-2022 《人工智能医疗器械质量要求和评价 第3部分:数据标注通用要求》。YY/T 1833.3附录A.1给出了可穿戴心电的标注任务描述示例。
需明确标注任务分类(包括数据模态、执行主体、标注结果格式、标注结果性质、标注结果形式等维度),提供标注任务描述文档(标准规则、标注人员、标注工具、标注环境、数据)。其中标注规则需明确制定依据并提供参考文献。标注人员建议列表给出标注、审核、仲裁人员的基本信息,如数量、医疗机构、科室、工作年限、职称、培训、工作量、标注任务。
标注与质控流程建议提供业务架构、过程组织(任务生成、任务分配、任务实施、质量控制、验收准则及验收报告。其中业务架构宜采用流程图介绍标注、审核、仲裁过程。
如标注工具、标注平台使用人工智能算法进行辅助标注,需提交标注工具、标注平台算法性能研究资料。
4.3.4数据集构建
依据《人工智能医疗器械注册审查指导原则》指南明确训练集、调优集、测试集的划分方法、划分依据、数据分配比例。
提供查重验证结果,以证实训练集、调优集、测试集的样本两两无交集。
明确数据扩增需明确扩增的对象、范围、方式(离线、在线)、方法(心电扩增可以做频域差值、重采样、叠加噪声、滤波等等)、倍数、在线数据扩增记录。
提供扩增数据库与标注数据库样本量、样本分布(注明扩增倍数)对比表,以证实扩增数据库样本量的充分性以及样本分布的合理性。
如果采用生成对抗网络进行数据扩增,应提供生成对抗网络的算法基本信息以及算法选用依据资料。
4.4算法训练
算法训练需明确训练过程所采用的优化器及其相关参数;在算法训练阶段,需明确验证集的划分方式,如留出法,交叉验证法; 需明确训练目标,即判断何时停止训练。当训练停止后,明确训练模型最佳epoch的选择方法;在交叉验证法中,计算多次随机划分验证集的评价指标平均值,选择最优的epoch。同时,结合临床需求(如灵敏度、精准度),明确算法出厂阈值的选择与方法,并论证训练所得模型是否满足产品既定目标。算法出厂阈值的选择需提供制定依据。
算法训练阶段需结合训练数据量-评估指标曲线验证算法训练数据量的充分性。对于不同的训练数据量,计算对应的评价指标。结合训练数据量-评估指标曲线,判断当训练数据量有限时,评价指标是否随数据量的增加而增加,并在数据量达到一定程度后,评价指标趋于平稳。
若训练过程中采用了数据扩增的方式,需明确扩增方式,如离线数据扩增,在线数据扩增。同时,需明确数据扩增的方法以及相应的参数设置。若训练过程未采用数据扩增,需说明不适用于数据扩增。
4.5算法验证与确认
明确临床医师操作点、不同算法任务的算法评价指标的阈值及确定依据。明确算法标记目标与参考标准的匹配方式和匹配阈值。
明确病例阳性的方法。需要明确阳性以及阴性病例的定义。
4.5.1算法性能评估
基于算法的出厂阈值,明确算法在训练集,调优集和测试集的假阴性(召回率)与假阳性(精确度),通过比较三个数据集的性能来评估算法的泛化性。
若在训练过程中使用数据扩增,需在调优集上比较使用与不使用数据扩增对心搏检出性能的影响。
需提供算法性能测试报告,至少包括软件环境、硬件环境、测试平台描述(如适用)、测试集描述、算法性能指标的符合性分析(性能指标的定义、测试通过准则、统计分析)、算法错误统计。需包括算法性能及算法质量特性、随访功能测试结果。
4.6算法性能综合分析
结合算法训练、算法性能评估、临床评价等结果开展算法性能综合评价,针对训练样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情况,对产品的适用范围、使用场景、核心功能进行必要限制。
需对算法测试产生的错误结果进行分析,评估算法在检出、分类等任务中出现的假阳性、假阴性结果的含义与危险程度,形成定量报告。
5.用户培训方案
对于软件安全性级别为严重级别的产品,原则上需单独提供一份用户培训方案,包括用户培训的计划、材料、方式、师资等。
用户培训需关注以下内容:预期用户要求,如工作年限或执业资格;医生必须对软件结果进行确认,软件只用于辅助诊断,不能替代医生。心电数据要求,如:采集方式(单导,标准十二导)、采集参数(如:采集时间)、采集精度(如:分辨率、采样率)等要求。
(四)临床评价
临床评价应基于核心功能或核心算法,结合产品的预期用途和成熟度予以综合考虑。
同品种医疗器械临床评价要求见附录4。
临床试验要求见附录5。
(五)产品说明书和标签样稿
说明书、标签和包装标识需符合《医疗器械说明书和标签管理规定》和《医疗器械软件技术审查指导原则(2022年修订版)》、《医疗器械网络安全技术审查指导原则(2022年修订版)》、《人工智能医疗器械注册审查指导原则》和相关标准的规定。
说明书内容需重点关注:
1.用户说明
对预期用户和推荐用户培训的详细说明。如,预期用户工作年限或执业资格要求,且需经培训合格。
2.使用限制
若产品采用人工智能黑盒算法,需根据算法影响因素分析报告,在说明书中明确产品使用限制和必要警示提示信息。
示例:不应仅仅依靠本器械所标识的输出,应由专业医师对结果进行解释。
已发现该器械对于XX的受检者无效。具有这种疾病/病症/异常的受检者不应使用该器械。
对训练数据、测试数据与临床试验的算法性能评估结果不佳,数据量偏少的,此类受检者使用该器械,应由专业医师结合受检者的病史、症状、体征、其他检查结果情况综合给出最终的结论,核实是否需要进行一步诊疗的决策,并对临床诊断结果负责。
3.注意事项
测量准确性、测量功能警示信息。
医生必须对软件结果进行确认,软件只用于辅助诊断分析,不能替代医生。原始的AI结果应保留,确保软件结果的可追溯性与可责性。
4.预防措施
需明确与器械使用相关的不良事件,并提供缓解措施建议。不良事件讨论需至少包括对假阳性事件和假阴性事件的不良事件的讨论。
5.器械描述
需提供以下内容:
-算法设计和功能的概述,如有特殊声明,可以特别说明。
-培训范例和培训或开发数据库的概述
-研发和调整算法中所用的受检者数据的参考标准的描述
-与本器械兼容的采集技术
-适当显示器械标记的要求
-软件输出报告及界面数据图示
6.软件
需明确软件发布版本、提供网络安全说明和使用指导,明确用户访问控制机制、电子接口(含网络接口、电子数据交换接口)及其数据类型和技术特征、网络安全特征配置、数据备份与灾难恢复、运行环境(含硬件配置、外部软件环境、网络环境,若适用)、安全软件兼容性列表(若适用)、外部软件环境与安全软件更新(若适用)、现成软件清单(SBOM,若适用)等要求。
7.产品接口和联合使用设备
需明确对配合使用的心电图机或心电数据格式的要求。
需明确兼容性心电图数据格式要求(如导联、采样时间、采样精度等)。
8.算法训练总结
训练集基本信息、训练指标与结果
9.算法性能评估总结
-算法输入与输出
-测试集基本信息
-诊断类型结论总体敏感性、特异性指标
-使用标准数据库、自建数据库测试结果
10.临床评价/临床试验总结
如采用临床试验路径,需包括临床试验设计基本类型、研究对象、评价指标,金标准、对收集临床信息方法的描述、统计方法描述、样本量,临床试验结果。
11.公开数据库及测试结果(如有)
12.第三方测评数据库及测试结果(如有)
13.决策指标定义(或提供决策指标定义所依据的临床指南、专家共识等参考文献)等信息。
(六)质量管理体系
除了符合质量管理体系法规及相关规范要求外,还应关注课题《人工智能医学软件产品现场检查指导原则》的相关要求。
三、编写单位
广东省药品监督管理局审评认证中心、深圳市理邦精密仪器股份有限公司、上海乐普云智科技股份有限公司、深圳迈瑞生物医疗电子股份有限公司
四、参考文献
[1] 医疗器械监督管理条例[Z].
[2] 医疗器械注册与备案管理办法[Z].
[3]医疗器械说明书和标签管理规定[Z].
[4]医疗器械注册申报资料要求和批准证明文件格式[Z].
[5]医疗器械通用名称命名指导原则[Z].
[6]医用软件通用名称命名指导原则[Z].
[7]医疗器械安全和性能基本原则[Z].
[8]医疗器械产品技术要求编写指导原则[Z].
[9]医疗器械软件注册审查指导原则(2022年修订版)[Z].
[10] 医疗器械网络安全注册审查指导原则(2022年修订版)[Z].
[11]移动医疗器械注册技术审查指导原则[Z].
[12]深度学习辅助决策医疗器械软件审评要点[Z].
[13]人工智能医疗器械注册审查指导原则[Z].
[14]医疗器械生产质量管理规范附录独立软件[Z].
[15]人工智能类医用软件产品分类界定指导原则[Z].
[16]人工智能辅助诊断技术管理规范[Z].
[17]人工智能辅助治疗技术管理规范[Z].
[18]YY/T 0287, 医疗器械 质量管理体系 用于法规的要求[S] .
[19] YY/T 0316, 医疗器械 风险管理对医疗器械的应用[S] .
[20] YY/T 0664,医疗器械软件 软件生存周期过程[S]
[21] YY/T 1406.1,医疗器械软件 第1部分:YY/T 0316应用于医疗器械软件的指南[S] .
[22]GB/T 25000.10,系统与软件工程 系统与软件质量要求与评价(SQuaRE)系统与软件质量模型[S] .
[23]GB/T 39725,信息安全技术 健康医疗数据安全指南 [S] .
[24]YY/T 1833.1,人工智能医疗器械 质量要求和评价 第1部分:术语 [S] .
[25] YY/T 1833.2,人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求 [S] .
[26]YY/T 1833.3,人工智能医疗器械 质量要求和评价 第3部分:数据标注通用要求 [S] .
[27] FDA. Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML) - Based Software as a Medical Device (SaMD) Draft
[28] FDA. Artificial Intelligence and Machine Learning(AI/ ML) Software as a Medical Device(SaMD) Action Plan
[29] 人工智能医疗器械创新合作平台. www.aimd.org.cn
[30] IMDRF AIMD. ww.imdrf.org/workitems/wi-aimd.asp
[31] ITU&WHO AI4H. www.itu.int/go/fgai4h
附录:
1.风险管理文档
2.数据库(集)
3.人工智能心电分析软件性能指标示例
4.临床评价要求
5.临床试验要求
附录1 风险管理文档
风险管理文档
下表所列为常见可预见事件及事件序列/可能的损害示例,需关注:
危害类型 |
可预见事件及事件序列 |
可能的损害 |
信息危害 |
算法对心电图测量结果存在错误 |
导致用户对疾病的主观判断产生误导 |
算法对心脏疾病诊断结果存在假阳性 |
导致用户对疾病的主观判断产生过度诊断 |
算法对心脏疾病诊断结果存在假阴性现象 |
导致用户对疾病的主观判断产生延误诊断 |
未按规定编制产品说明书,使用说明不明确 |
导致软件无法正常使用并对用户造成不便 |
无法正常显示心电图波形,波形增益、速度存在偏差 |
导致软件无法正常使用并对用户对疾病的判断产生误导 |
数据信息丢失或损坏 |
延误治疗 |
软件不兼容导致产品无法正常运行 |
对用户造成不便 |
AI模型失效导致无法进行心电图识别 |
对用户造成不便 |
无法正常显示心电波形或结论 |
导致软件无法正常使用并对用户造成不便 |
服务器和客户端之间无法正常传输数据 |
导致软件无法正常使用并对用户造成不便 |
滤波器设置不当导致波形显示失真 |
导致用户对疾病的主观判断产生误导 |
操作危害 |
算法无法对接收到的心电数据进行处理分析 |
导致软件无法正常使用并对用户造成不便 |
界面定义存在歧义、客户理解偏差 |
导致误操作 |
无法与相关设备或系统进行通讯连接 |
导致软件无法正常使用并对用户造成不便 |
菜单设置不实用 |
导致误操作 |
算法被未经培训的用户、使用不熟练的用户、或非专业用户使用并完成主观诊断 |
导致心脏疾病的过度诊断或延误诊断 |
缺少算法准确计算相关的病人信息输入,导致算法诊断结果不准确 |
导致用户对疾病的主观判断产生误导 |
采取风险控制措施前后的风险矩阵表示例
表 采取风险控制措施前的风险分布图
附录2 数据库(集)
数据库(集)
按照产品开发时间顺序明确使用的数据库/集情况,需明确数据量变化原因,抽样及合并方法及合理性。数据库/集包括不限于基础数据库、标注数据库、训练集、调优集、测试集、对抗测试集、公开数据库,测评数据库、临床试验数据库。
每个数据库建议提供以下信息:
-数据库名称及版本、类型(如外部、内部;训练、测调优、测试)
-受检者数据收集的纳入和排除标准
-人口统计学数据(年龄、种族、人种)
-采集方式(前瞻性、回顾性)
-采集数据的方法
数据来源(体检筛查、门诊病房)
设备厂家、型号
采集参数: 采集要求应当明确采集设备的采集方式(如:单导,标准十二导)、采集参数(如:采集时间)、采集精度(如:分辨率、采样率)等要求。
-样本量(正常案例数、疾病案例数、确定疾病状态、位置、范围的方法)
需明确总体数据范围,并需列表对比分析各数据库信息。
采用公开数据数据库的需明确用途,不应作为测评数据库使用。
附录3 人工智能心电分析软件性能指标示例
人工智能心电分析软件性能指标示例
序号 |
指标要求 |
考量因素及示例 |
1 |
功能 |
包含说明书和用户界面的全部功能纲要。如用户管理功能、波形回顾、心电分析功能(心率失常事件监测、心率计算、心搏检测功能、P波时限、QRS波时限、PR期间期、QT间期等)、心律失常种类、报告编辑及打印、后台管理等 |
2 |
使用限制 |
用户名账号密码的字符限制;需要专业医生使用;应用场景(体检筛查、门诊病房)、患者(年龄、地域、疾病类型) |
3 |
输入输出 |
输入:明确心电数据类型,如导联数目(如6导联,12导联,18导联)、导联类型(例如 wilson导联体系,Frank导联体系)、动态心电、静态心电波形;心电图设备或心电图数据文件的要求,例如AD位数、采样率、滤波器参数、增益等,DICOM ECG、SCP ECG、HL7 aECG、企业自定义格式(实例)等。 |
输出结果:心搏总数、平均心率、心律失常具体类型等。 |
4 |
接口 |
如Dicom、TCP/IP、USB3.0版本协议等 |
5 |
必备软硬件 |
如:经过验证的心电设备都可配合使用 |
6 |
运行环境 |
明确软件运行所需的硬件、软件和网络条件,包括云端、服务器和客户端。需要注意的是,PC端、WEB端、移动端应分别作为一个检测单元。不同浏览器IE和Chrome,不同操作系统Android和IOS应分别作为一个检测单元。 |
7 |
性能效率 |
在典型运行环境(序号6)下,完成心电数据分析的时间。 |
8 |
最大并发数 |
在典型运行环境下可支持的最大并发用户数,以及响应时间 |
9 |
用户界面 |
如图形界面,还需明确用户输入类型(如文本框等) |
10 |
消息 |
消息类型,如提示音、错误等 |
11 |
用户差错防御 |
明确软件对导致严重后果的用户操作错误的防御能力 |
12 |
访问控制 |
如护士、检查医生、诊断医生、诊断主任、后台管理员,明确每个角色对应的访问权限(序号1功能的具体模块) |
13 |
版权保护 |
如加密狗、注册码等 |
14 |
可靠性 |
出错后心电数据保存与恢复能力,明确传输后数据、波形的一致性和完整性。 |
15 |
维护性 |
日志记录 |
16 |
专用要求 |
动态心电分析功能应符合YY0885-2013第五十章的要求;心电图符合YY0782-2010第五十章的要求。如对数据库进行特定处理,应在试验方法中明确具体处理过程、检验要求。 |
17 |
网络安全 |
保密性、完整性、可得性等方面的考量 |
18 |
测评数据库 |
若含有基于测评数据库测试的性能指标,需在“附录”中明确测评数据库的基本信息(如名称、型号规格、完整版本、责任方、主文档登记编号等) |
附录4 同品种医疗器械临床评价要求
同品种医疗器械临床评价要求
应按照《医疗器械临床评价技术指导原则》、《医疗器械临床评价等同性论证技术指导原则》、《医疗器械临床试验数据递交要求注册审查指导原则》以及《决策是否开展医疗器械临床试验》的要求提交临床评价资料。
(一)同品种对比要求
如果采用同品种对比路径进行临床评价,应按照《医疗器械临床评价技术指导原则》进行同品种比对时,应重点考虑下列因素:
1.基本原理
应对比产品的工作原理。
2.性能要求
性能指标应以“软件功能”(不限于软件或硬件产品)为单位进行对比。应对比所有涉及到使用人工智能算法的软件功能。
性能指标包括不限于灵敏度、特异度、阳性预测率、F1分数、准确率。AHA、MIT、NST、CU、 CTS、CSE等标准数据库的准确性。
3.软件核心功能
应对比软件产品中涉及到使用人工智能算法的软件功能。如核心功能不一致,不能作为同品种。
4.适用范围
应对比软件的适用人群、疾病类型。疾病类型不一致,则不能视为等同,如申报产品包含房颤、早搏的分析,对比产品仅包含房颤的分析。
5.数据来源
应对比产品的心电数据来源。如来自通用设备(健康手表)采集的单导心电数据,与已获批医疗器械注册证的单导心电产品的心电数据,两者需进行差异性评价。
(二)基本等同性判定举例
(1)申报产品与对比器械具有相同的适用范围,如:心律失常事件的类型相同。
若申报产品对比了多个对比医疗器械的适用范围,在申报产品与多个对比器械(如A公司的房颤功能、B公司的早搏功能)具有相同适用范围的前提下,若不同的适用范围在申报产品中组合时不会相互影响,或不同适用范围的组合分别与多个对比医疗器械相比,没有引起不同的安全性有效性问题。
通过对申报产品与对比器械的适用范围及临床使用相关信息的比较,对二者差异进行充分识别、详细阐述及科学评价,以做出适用范围是否相同的判定。值得注意的是,申报产品与对比器械在适用范围的差异可能引起但并非均会导致适用范围的不同。
(2)申报产品与对比器械具有相同的适用范围,相似的技术特征;有充分的科学证据证明申报产品与对比器械具有相同的安全有效性。如针对标准12导联的心律失常分析,可尝试通过临床评价数据集进行临床评价。临床评价数据集同样独立于医疗器械生产厂家,与被测产品所用的训练、内部验证数据(包含被测产品通过预训练模型等方式间接使用的数据)不存在交叉。临床评价数据集的存储、访问授权不低于性能独立测试集。临床评价数据集来源应至少追溯至采集机构,在不违反伦理的前提下可追溯至受试者。
附录5 临床试验要求
临床试验要求
如果同品种对比不能充分说明申报产品的安全性和有效性,申请人应按照规定提交临床试验资料。全新的功能、算法和用途原则上均需开展临床试验。临床试验应在取得资质的临床试验机构内,按照医疗器械临床试验质量管理规范的要求开展临床试验。
临床试验示例如下:
1.试验目的
生产企业应根据产品适用范围确定临床试验目的。适用范围考虑因素包括但不限于:目标疾病(如心律失常、心肌缺血等)、临床用途(特定心律失常的识别如房颤检测识别、特定结构性心脏疾病的辅助诊断、辅助心搏自动分类如室性早搏识别分类等)、禁忌症(如胸部严重畸形、体表皮肤大面积损伤、右位心、严重电解质紊乱、肺栓塞等)、预期适用人群(如具有目标疾病临床表现的成人、小儿或新生儿)、预期使用场所(医疗机构机房等,非医疗机构,如家庭、公共场所等)、预期目标用户(如经培训合格的心电图室医师、心内科医师、技师、专科医师、经专业培训的个人等)、预期兼容的心电图采集设备等。
临床试验目的主要对临床用途(如房颤的检测识别、室性早搏的识别等)的诊断准确度进行确认,确认试验器械是否优于/等效于/非劣于已上市同类产品或单组目标值。
2.试验设计
对采用临床试验方式进行临床评价的产品,辅助决策类功能临床试验建议采用对照设计。试验组采用申报产品进行自动检测诊断,对照组为同品种医疗器械或者采用传统心电分析方法的医疗器械进行检测诊断。例如当申报产品采用静息心电图片段进行房颤的检测时,可以采用传统静息心电图机进行对照;当申报产品采用连续心电图进行实时的室性早搏分类时,可以采用传统心电监护仪进行对照。临床试验比较类型应能够体现产品受益风险的可接受性,如进行对照的医疗器械采用传统的心电分析算法,建议考虑优效性设计。当申报产品为创新产品,且确认无法找到合适的已上市产品进行对照试验时,才可考虑采用单组目标值的试验设计,生产企业应通过广泛的文献检索综述和定量分析确定临床所认可的目标值。
试验实施机构应当具备代表性和广泛性,应不同于训练数据的主要来源机构,地域分布尽可能广泛,机构数量尽可能多,以确认算法泛化能力。
3.受试对象
受试对象入排标准应当基于目标疾病临床特征,保证阳性病例和阴性病例选取的合理性和充分性。在此基础上,病例的选择还需要综合考虑以下因素:
3.1临床试验纳入病例应独立于产品开发所用病例。
3.2临床试验纳入病例需来源于不同地域医疗机构。
3.3临床试验纳入阳性病例中目标疾病的类型、良恶性、病程阶段分布合理性。以房颤检测为例,应该考虑阵发性房颤、持续性房颤、长期持续性房颤和永久性房颤等不同程度房颤的合理覆盖;以室性早搏为例,应考虑偶发性室性早搏、频发性室性早搏、持续性室性早搏、单形性室性早搏、多形性室性早搏等不同程度和类型室性早搏的覆盖。
4.评价指标和方法
针对采用人工智能算法设计的临床功能原则上选择敏感度、特异性、阳性预测度、受试者工作特性曲线(ROC)曲线下面积(AUC)等为主要评价指标,亦可在此基础上根据软件特点选择敏感性/特异性衍生指标、受试者工作特性曲线(ROC)曲线下面积(AUC)衍生指标如诊断准确率、精确率、召回率)、F1系数、组内相关系数、Kappa系数、数据有效使用率等指标作为次要评价指标。具体的评价指标和方法需要根据申报产品实现的具体功能和临床应用模式来确定,生成企业应针对所选取的评价指标和方法的合理性进行阐述。
以房颤检测识别为例,如果申报产品仅根据输入的心电数据判断是否存在房颤,可采用敏感度、特异性等常规的指标进行评价;如果申报产品还提供房颤段起止时间的检测,则应考虑将所检测的房颤段与金标准进行重合度计算,基于重合程度来计算房颤段检测的敏感度和阳性预测度等指标。
又例如室性早搏的分类可以参考目前已被广泛接受认可的ANSI/AAMI EC57标准中逐搏比较的方法与金标准进行评价对比,进而计算出室性早搏分类的敏感度和阳性预测度等指标。
5.金标准构建
临床应用中某些疾病或异常可以仅通过心电图来进行诊断,例如绝大部分心律失常(如房颤、室性早搏),和传导性异常(如二度房室传导阻滞)等,但也有部分疾病或异常仅通过心电图无法进行确诊,需要依赖心电图之外的其他检测方法,例如心室肥厚需要通过超声心动图等影像学方法来确诊,心肌损伤需要通过肌钙蛋白等生化指标的检测来确诊。
对于无法单纯由心电图进行诊断的疾病或异常,生产企业应以包含流行病学史、多模态临床检测数据(电生理指标、影像学特征、生化指标等)的临床综合诊断结果作为金标准。
对于可以采用心电图进行诊断的疾病或异常可以通过至少三名专家组成的评价小组来进行金标准构建。生产企业需明确专家数量、来源科室、专家资质要求(如职称)、专家相关培训要求、培训效果评测(判定一致性)、结果判定标准、结果判定规则(如少数服从多数,双人背靠背评判,高水平医师仲裁)、专家抽取标准(随机抽取或顺序轮转)等。建议由具有不同科室背景和经验的医师联合参与读图标注,以减少不完美金标准的偏倚。应实施盲法,将申报产品和对照产品在试验过程中的所有结果输出对参与金标准构建的专家设盲,以防止金标准构建由于不同产品的结果产生偏倚。
6.样本量
样本量估算需综合考虑临床试验设计、主要评价指标和统计学要求。生产企业需明确计算公式、相应参数及确定理由,以及所用的统计软件。对于复合终点,样本量估算需考虑满足所有单项指标的假设检验的样本量需求。
当采用优效性试验设计时,试验组和对照组按照1:1随机化分组,主要评价指标为P,其方差齐且不接近于0%或100%时,其样本量估算公式为:
nT、nC分别为试验组和对照组的样本量;Z1-α/2、Z1-β为标准正态分布的分数位;PT、PC分别为试验组和对照组预期指标;为两组预期指标差的绝对值, = ;Δ为优效性界值,取正值。以室性早搏分类为例,如果试验组的预期敏感度为99%,对照组预期敏感度为95%,优效性界值Δ设定为2%,Ⅰ类错误概率α设定为双侧0.05,Ⅱ类错误概率β设定为0.2,则可以得到满足敏感度优效判断至少需要1127例病例;如果试验组的预期阳性预测度为95%,对照组预期敏感度为90%,优效性界值Δ设定为2%,Ⅰ类错误概率α设定为双侧0.05,Ⅱ类错误概率β设定为0.2,则可以得到满足阳性预测度优效判断至少需要2699例病例;综合敏感度和阳性预测度的需求,并在此基础上考虑5%脱落率确定最终样本量需要2824例。
当采用单组目标值试验设计时,主要评价指标为P,其样本量估算公式为:
n为试验组的样本量;Z1-α/2、Z1-β为标准正态分布的分数位;PT为试验组预期指标;P0为临床认可的目标值。以房颤检测识别为例,假设软件的预期敏感性为95%,临床认可的目标值为90%,则在双侧显著性水平α设为0.05、把握度(1-β)设为0.8,至少需231例阳性病例;假设软件的预期特异性为85%,临床认可的目标值为80%,则在双侧显著性水平α设为0.05、把握度(1-β)设为0.8,至少需466例阴性病例;综合所需阳性及阴性病例,并在此基础上考虑5%脱落率确定最终样本量为732。
7.其他
临床试验资料需明确以下信息:
7.1病例基线情况统计学描述,包括年龄、性别、流行病学特征、病例数(阳性病例数、阴性病例数)、疾病分型、临床诊断等。
7.2 心电图数据采集情况统计学描述,包括数据来源机构、心电图采集设备厂商及型号规格、心电图的导联数量及电极放置位置、心电图采集的指标参数(如采样率,分辨率,带宽,硬件噪声水平)等。