您当前的位置:检测资讯 > 法规标准
嘉峪检测网 2022-01-12 20:43
肺结节CT影像辅助检测软件注册审查指导原则(征求意见稿)
本指导原则是对肺结节CT影像辅助检测软件的一般要求。注册申请人应依据具体产品的特性对注册申报资料的内容进行充实和细化。注册申请人还应依据具体产品的特性确定其中的内容是否适用,若不适用,需具体阐述其理由及相应的科学依据。
本指导原则是供注册申请人和技术审评人员使用的指导性文件,但不包括注册审批所涉及的行政事项,亦不作为法规强制执行,如果有能够满足相关法规要求的其他方法,也可以采用,但是需要提供详细的研究资料和验证资料。应在遵循相关法规的前提下使用本指导原则。本指导原则是在现行法规和标准体系以及当前认知水平下制定的,随着法规和标准的不断完善,以及科学技术的不断发展,本指导原则相关内容也将进行适时的调整。本指导原则中相关内容均应执行最新版本的标准。
本指导原则是人工智能医疗器械指导原则体系的重要组成部分,基于人工智能医疗器械审评指导原则的通用要求,明确了肺结节CT图像辅助检测软件的具体要求。
一、适用范围
本指导原则适用于肺结节CT影像辅助检测软件的产品注册。按现行《医疗器械分类目录》,该类产品分类编码为21-04-02,管理类别为三类。
肺结节CT影像辅助决策软件包括肺结节CT影像辅助检测软件、肺结节CT影像辅助诊断软件,前者主要用于疑似肺结节的检测或者检测及影像学分类,后者主要用于疑似肺结节良恶性等临床诊断。肺结节CT影像辅助诊断软件可参照本指导原则执行。
二、注册审查要点
(一)监管信息
明确产品名称的确定依据、管理类别、分类编码、规格型号、产品组成等信息。
1.产品名称
产品命名应符合《医疗器械通用名称命名规则》的要求。根据产品预期用途可采用肺结节CT影像辅助检测软件进行命名。
2.分类编码
依据《医疗器械分类目录》,申报产品分类编码为21-04-02。按第三类医疗器械管理。
3.注册单元划分
根据产品的技术原理、结构组成、性能指标、适用范围进行注册单元划分。
可以与CT设备一起作为软件组件注册,也可以按照独立软件注册。
4.适用范围
适用范围需明确处理对象、核心功能、适用人群、目标用户、临床用途。
例如,用于胸部CT影像的显示、处理、测量和分析,可对4mm及以上肺结节进行识别并分析结节影像学特征,供经培训合格的医师使用,不能单独用作临床诊疗决策依据。
(二)综述资料
1. 产品描述
1.1器械及操作原理描述
1.1.1工作原理
需详述产品的工作原理,例如:基于深度学习技术对医学影像进行分析处理、对肺结节进行分割、检测、自动识别等。
1.1.2结构组成
结构组成明确交付内容和功能模块,其中交付内容包括软件安装程序、授权文件、外部软件环境安装程序等软件程序文件,功能模块包括客户端、服务器端(若适用)、云端(若适用),若适用注明选装、模块版本。基于人工智能算法(如深度学习)的功能模块,需在模块名称中注明人工智能(如深度学习)。
1.2 型号规格
需明确申报产品的型号规格及发布版本。产品型号/规格及其划分,如同一个注册单元包含多个型号规格,需提供产品型号规格区分列表或配置表。
1.3研发历程
阐述申请注册产品的研发背景和目的。如有参考的同类产品或前代产品,需提供同类产品或前代产品的信息,并说明选择其作为研发参考的原因。
2.适用范围和禁忌证
(1)适用范围
适用范围需明确处理对象、核心功能、适用人群、目标用户、临床用途、软件与医生阅片顺序。
例如,肺结节CT影像辅助检测软件产品适用范围为:用于胸部CT影像的显示、处理、测量和分析,可对4mm及以上肺结节进行识别并分析结节影像学特征,供经培训合格的医师使用,不能单独用作临床诊疗决策依据。
(2)预期使用环境
需明确设备使用场所和使用环境要求。
设备使用场所包括:医疗机构机房等。
使用环境要求需至少包括:温度、湿度、大气压、光照条件。
(3)适用人群
需详述产品的适用人群。目标人群信息(如用于筛查、诊断)或无预期治疗特定人群的声明、感兴趣器官/疾病/病灶/异常、以及预期使用该产品的目标用户(如经培训合格的放射科医师、技师、专科医师等)
(4)禁忌证
明确产品临床应用的禁忌证以及不推荐使用该产品的情况。
3.产品功能
明确软件与医生阅片顺序。结合用户界面图示详细介绍技术要求中对应的临床功能,如有特殊声明,如用于检测继发性结节或更小结节,可以在功能中体现。明确自动、手动、半自动输出的数据、量化分析的具体内容、服务器部署(局域网、云端)等。
(三)非临床资料
1.产品风险管理资料
依据YY/T 0316《医疗器械风险管理对医疗器械的应用》,提供产品风险管理报告。
申请人需重点说明:申报产品的研制阶段已对有关可能的危害及产生的风险进行了估计和评价,针对性地实施了降低风险的技术和管理方面的措施。产品性能测试对上述措施的有效性进行了验证,达到了通用和专用标准的要求。申请人对所有剩余风险进行了评价,全部达到可接受的水平。产品风险分析资料需为申请人关于产品安全性的承诺提供支持。
风险管理报告一般包括以下内容:
(1)申报产品的风险管理组织。
(2)申报产品的组成。
(3)申报产品符合的安全标准。
(4)申报产品的预期用途,与安全性有关的特征的判定。
(5)对申报产品的可能危害作出判定(见附录1)。
(6)对所判定的危害采取的降低风险的控制措施。
(7)对采取控制措施后的剩余风险进行估计和评价。
2.产品技术要求及检测报告
2.1产品技术要求
依据《医疗器械产品技术要求编写指导原则》进行编制。
2.1.1规格信息
明确软件发布版本和版本命名规则。软件版本命名规则原则上需涵盖算法驱动型更新和数据驱动型更新,明确并区分重大软件更新和轻微软件更新,其中重大软件更新列举常见典型情况。
明确不同型号间产品差异。
2.1.2性能指标
明确产品处理对象,以及数据接口信息,包括成像模态(如计算机体层摄影)和特定软硬件名称及型号(如适用)。
明确软件所有的临床功能,如结节检出的尺寸范围(如4-30mm)、结节密度分类类别(如实性、亚实性的手动分类等)、结节位置(如肺叶、肺段、肺结节CT图像层面、肺内、胸膜)、结节标记方式(紧密包裹结节的边界框、不紧密包裹结节的边界框)、分割方式(自动分割、半自动分割、手动分割)、测量功能(如体积、最大轴向平面最长直径、短径、平均直径、最大三维直径、有效直径、平均密度、面积等)、随访评估功能(如倍增时间、数值参数的百分比(%)和绝对变化、结节长轴、短轴、平均直径、最大三维直径、有效直径、体积、平均密度等)、测量精度(相对误差绝对值的平均值、绝对误差)、结节的3D或MIP可视化等。
使用限制明确应用场景(体检筛查、门诊病房)、患者(年龄、地域、疾病类型)、CT设备厂家、探测器排数、CT扫描参数(如管电压、管电流、层厚/层间距、剂量、窗宽窗位、重建方式、显示方式)、放射学检查条件(CT增强扫描、CT平扫)、CT图像质量要求(如分辨率、伪影)、结节检出的尺寸范围、结节密度分类类别。如软件包含图像质量判定功能,明确软件使用限制。
若含有基于测评数据库测试的性能指标,其要求参考《人工智能医疗器械注册审查指导原则》。
运行环境,运行在不同计算机系统的产品模块(如客户端和云端)需分别描述其运行环境。
附录中明确软件输出报告及界面数据图示及测评数据库数据库/集信息。服务器部署(局域网、云端)。
2.2检验报告
产品需符合GB/T 25000.51 《系统与软件工程 系统与软件质量要求和评价(SQuaRE)第51部分:就绪可用软件产品(RUSP)的质量要求和测试细则》的要求。
注册人需在软件研究资料中提交GB/T 25000.51自测报告或委托有资质的医疗器械检验机构出具检验报告。检测报告需明确软件发布版本信息。
3.软件研究
(1)基本要求
生产企业需依据《医疗器械软件注册审查指导原则》提交相应软件研究资料。其中,核心算法所述人工智能算法需依据 《人工智能医疗器械注册审查指导原则》提交相应算法研究资料。
生产企业需依据《医疗器械网络安全注册审查指导原则》提交网络安全描述文档。按照《人工智能医疗器械注册审查指导原则》提交数据安全资料。
若使用云计算服务,生产企业需依据《人工智能医疗器械注册审查指导原则》提交相应研究资料。使用云计算服务需明确服务模式、部署模式、核心功能、数据接口、网络安全能力、服务(质量)协议等要求。
软件版本命名规则涵盖算法驱动型软件更新和数据驱动型软件更新;区分重大软件更新和轻微软件更新,其中重大软件更新需列举常见典型情况。
(2)软件安全级别
该类产品的软件安全性级别为严重(C)级。
(3)核心算法
核心算法的选择可以参考下表,其中采用全新算法(如深度学习)需提供算法研究资料。
表1.核心算法示例
算法名称 |
类型 |
用途 |
功能 |
灰度拉伸图像增强算法 |
公认成熟算法 |
影像增强,用于增强影像对比度,提升算法精度 |
肺叶分割及肺结节检测 |
NMS非极大值抑制 |
公认成熟算法 |
目标选择 |
以预测概率对检测框进行优先级排序,消除冗余检测框,抑制假阳性检出 |
基于FPN-ONS的肺结节检出算法 |
全新 |
对肺部小结节进行检出 |
辅助医生检测肺结节 |
肺分割算法 |
全新 |
对左肺、右肺进行分割,提取肺野区域 |
过滤肺结节检出算法检出的肺外假阳性,以及肺结节左右肺定位 |
基于UNET的肺叶分割算法 |
全新 |
对左肺上下叶,右肺上中下叶进行分割 |
肺结节肺叶定位 |
肺段分割算法 |
全新 |
对左肺8个肺段,右肺10个肺段进行分割 |
肺结节肺段定位 |
肺结节分割算法 |
全新 |
对肺结节进行分割,并计算长短径 |
辅助医生测量肺结节体积,长短径 |
肺结节密度分类算法 |
全新 |
对肺结节密度类型(磨玻璃,实性,钙化,部分实性)进行分类 |
辅助医生判断肺结节密度类型 |
肺结节恶性程度评估算法 |
全新 |
对肺结节的良恶性进行评估,输出恶性程度(0-100%) |
辅助医生对肺结节良恶性进行判断 |
肺结节密度测量算法 |
公认成熟算法 |
基于肺结节分割,测量肺结节平均HU值 |
辅助医生测量肺结节内部HU值 |
…… |
|
|
|
4.算法研究资料
4.1算法基本信息
肺结节CT影像辅助检测软件所涉及的算法一般包括肺结节检出算法、肺结节分类算法和肺结节测量算法。其中肺结节检出算法目的在于在胸部CT影像中利用人工智能技术自动检出肺结节,辅助医生筛查;肺结节分类算法对每个肺结节的属性进行归类,按照类别不同,肺结节分类算法包括但不限于肺结节密度分类算法,肺结节解剖定位分类算法等;肺结节测量算法对每个肺结节的属性进行量化测量,区别于肺结节分类算法,肺结节测量算法输出的是连续的量化值,而肺结节分类算法输出的是离散的类别。按照测量属性不同,肺结节测量算法包括但不限于肺结节体积测量算法,肺结节密度值测量算法和肺结节长短径测量算法等。
4.1.1肺结节检出算法
肺结节检出算法需明确算法的输入,比如算法采用的是2D,2.5D还是3D的胸部CT图像作为神经网络的输入;算法的输出,比如紧密包裹肺结节的矩形框端点(二维/三维),肺结节中心点;
明确算法所采用的神经网络结构,如 Faster RCNN;明确算法训练采用的损失函数,如交叉熵,L1范数;明确算法设计过程中网络结构、损失函数等核心组件选择和设计的原则、方法与风险考量,如肺结节大小尺度的差异,肺结节与背景正负样本的不均衡性、假阳性、过拟合等;若肺结节检出采用多个模型融合,需明确不同模型训练与推理的方式,以及模型融合的策略,如级联,多数投票;
肺结节检出存在同一个目标多个重叠框的问题,算法需明确匹配关系所采用的策略,如交并比(IoU),定位框中心距离;
明确算法的流程图,需包含算法运行前所进行的前处理(图像缩放、图像像素值归一化、图像重采样)以及算法运行后所进行的后处理操作(图像重采样、非最大化抑制)。明确训练与部署所采用的框架(如Tensorflow, Pytorch)、算法运行环境(如内存、显存的需求)。
若使用迁移学习技术,除上述内容外还需补充预训练模型的数据集构建、验证与确认等总结信息,并论证迁移学习的适用性。
4.1.2肺结节分类算法
肺结节分类算法包括密度分类算法、肺结节解剖定位分类。
肺结节密度分类算法需明确输出(密度类别),密度类别制定依据以及临床适用性。
肺结节密度分类算法需明确算法的输入,比如算法采用的是2D,2.5D还是3D的图像作为神经网络的输入。若采用2D,需明确肺结节选取的图像层面,如中心层面,最大面积层面;明确算法所采用的神经网络结构,如Residual Net,Dense-Net;明确算法训练采用的损失函数,如交叉熵,Focal损失函数;损失函数等核心组件选择和设计的原则、方法与风险考量,如肺结节大小尺度的差异,不同类别肺结节样本的不均衡性、过拟合等;若肺结节分类采用多个模型融合,需明确不同模型训练与推理的方式,以及模型融合的策略,如多数投票;最后,明确算法的流程图,训练与部署所采用的框架(如Tensorflow, Pytorch)、算法运行环境(如内存、显存的需求)。
肺结节解剖定位分类中,明确肺结节定位的类别,如左/右肺定位、肺叶定位、肺段定位。明确算法输入的类型,如肺结节二维切片,肺结节三维图像块,若输入类型为二维切片,明确二维切片选取标准(肺结节长短径交点所在切片、肺结节最大面积切片)。肺结节解剖定位分类算法需明确实现的机理,如图像分割算法,图像分类算法。
4.1.3肺结节测量算法
针对肺结节测量算法,明确测量实现的方式。肺结节体积测量算法、密度值测量算法与长短径测量算法可以通过肺结节分割技术来实现,也可以通过机器学习中的回归方法来进行预测。其中密度值测量算法需明确测量的类型,如平均值,标准差,最大值,最小值,中位数。
若申报产品涉及上述多个算法,需提供算法整体流程图,明确各个算法调用先后关系,以及输入输出依赖关系。
若使用迁移学习技术,除上述内容外还需补充预训练模型的数据集构建、验证与确认等总结信息,并论证迁移学习的适用性。
4.2算法需求规范
算法功能需求建议关注数据库需求、算法性能评价指标及制定依据。
4.2.1数据库需求
算法性能评价需要基于训练和测试数据库,数据库具体要求详见附录2。
4.2.2算法性能评价指标
在指定肺结节检出算法评估指标之前,需明确标记匹配的方式,即算法标记目标与参考标准目标的匹配方式,常见的标记匹配方式有按照区域重叠的比例、中心点的距离、中心是否落入来判断标记是否匹配;明确算法任务,明确算法训练和调优过程中不同任务的的评估指标及定义。有关标记匹配方式与评估指标的定义可以参考“人工智能医疗器械 肺部影像辅助分析软件算法性能测试方法”5.1.1.1章节。
明确不同任务的算法评价指标的确定依据、分层影响因素选择依据,建议参考《人工智能医疗器械 肺部影像辅助分析软件 算法性能测试方法》、肺结节诊疗中国专家共识、美国国立综合癌症网络NCCN指南、Fleishner年学会指南、中华医学会肺癌临床诊疗指南等。
结节检出指标包括不限于召回率、精确度、特异度。
结节分类指标包括不限于灵敏度、特异度、总体的Kappa系数、准确率。
结节分割指标包括不限于体积交并比、Dice系数、Hausdorff距离。
尺寸测量指标包括不限于结节体积相对误差率、肺结节平均径相对误差率、肺结节长径绝对误差均值MAE、肺结节短径绝对误差均值MAE。
提供文献综述论证评价指标选择及分层影响因素选择的合理性。分层分析的影响因素包括年龄、病变类型、大小、层厚、采集协议等重要变量。
算法质量特性包括泛化能力、鲁棒性(面向硬件变化的对抗测试、面向软件前处理的对抗测试、压力测试)、重复性、一致性、效率。
随访评估功能包括倍增时间、数值参数的百分比(%)和绝对变化,如结节长轴、短轴、平均直径、最大三维直径、有效直径、体积、平均HU。
4.2.3算法性能测试基本要求
4.2.3.1结节检出
软件检出肺结节的召回率和精确度不低于X%。
召回率和精确度的计算一般针对全体结节进行。在设置筛选条件后,可以使用筛选后的参考标准与筛选后的AI结果进行匹配。如筛选后假阳性结果难以定义,建议以召回率为主要指标,常见情形为:
-对具体某一种结节类型,计算结节的召回率。结节类型包括实性结节、纯磨玻璃结节、部分实性结节、钙化结节等。
-对平均直径、长径处于某一区间的结节,计算召回率
-·对类型、尺寸范围组合的结节,计算召回率。
4.2.3.2结节分类准确度
明确分类场景,如二分类场景、多分类场景。对于二分类场景下的指标,如软件能够对A类型的肺结节进行分类,准确率不低于X%,灵敏度不低于Y%,特异性不低于Z%。总体的Kappa系数不低于N%;多分类问题可以转化为二分类问题,按每一类进行描述。
4.2.3.3结节分割
体积交并比不小于XX;如果产品只输出最大层面则计算最大层面交并比,或DICE系数不小于XX
4.2.3.4尺寸测量
体积测量偏差±XX%;长径测量偏差±XX%。长径小于等于10mm则增加平均直径允差,大于10mm则增加短径允差。
4.2.4样本量
明确样本量估计的公式、参数及制定依据。
4.3数据质控
建议参考“人工智能医疗器械注册审查指导原则”及“人工智能医疗器械质量要求和评价 第2部分:数据集通用要求”。
4.3.1明确数据库信息(详见附录2)
4.3.2数据预处理
数据预处理需明确数据转移保存的方法。
数据入库前完成清洗,主要是读取Patient数据确定数据是否完成脱敏,是否合规;读取Study和Series的识别码确定图像的唯一性,通过Image的标识码判定图像是否连续完整。此外,通过读取层厚、层间距等信息确定图像的质量并加以筛选。流程图示例如图1所示:
图1 数据清洗流程图
4.3.3数据标注
数据标注建议参考“人工智能医疗器械质量要求和评价 第3部分:数据标注通用要求”。
需明确标注任务分类(包括数据模态、执行主体、标注结果格式、标注结果性质、标注结果形式等维度),提供标注任务描述文档(标准规则、标注人员、标注工具、标注环境、数据)。其中标注规则需明确制定依据并提供参考文献。标注人员建议列表给出标注、审核、仲裁人员的基本信息,如数量、医疗机构、科室、工作年限、职称、培训、培训考核情况、工作量、标注任务、参考的所有受检者临床信息(如病理检测结果)。
标注与质控流程建议提供业务架构、过程组织(任务生成、任务分配、任务实施、质量控制、验收准则及验收报告。其中业务架构宜采用流程图介绍单张图片的标注、审核、仲裁过程。
如标注工具、标注平台使用人工智能算法进行辅助标注,需提交标注工具、标注平台算法性能研究资料。
4.3.4数据集构建
依据《人工智能医疗器械注册审查指导原则》指南明确训练集、调优集、测试集的划分方法、划分依据、数据分配比例。
提供查重验证结果,以证实训练集、调优集、测试集的样本两两无交集。
明确数据扩增需明确扩增的对象、范围、方式(离线、在线)、方法(如翻转、旋转、镜像、平移、缩放、滤波、生成对抗网络等)、倍数、在线数据扩增记录。
提供扩增数据库与标注数据库样本量、样本分布(注明扩增倍数)对比表,以证实扩增数据库样本量的充分性以及样本分布的合理性。
提供采用生成对抗网络数据扩增的算法基本信息以及算法选用依据资料。
4.4算法训练
算法训练需明确训练过程所采用的优化器及其相关参数,如Adam,SGD;在算法训练阶段,需明确验证集的划分方式,如留出法,交叉验证法; 需明确训练目标,即判断何时停止训练,如设定最大的训练epoch数目,依据损失函数判断损失稳定且不继续下降,根据训练epoch数量-评估指标曲线判断评估指标不继续提升等。当训练停止后,明确训练模型最佳epoch的选择方法,如在留出法中,根据留出部分的验证集选取评价指标最优的epoch;在交叉验证法中,计算多次随机划分验证集的评价指标平均值,选择最优的epoch。同时,结合临床需求(如灵敏度、精准度),明确算法出厂阈值的选择与方法,并论证训练所得模型是否满足产品既定目标。算法出厂阈值的选择需提供制定依据。
算法训练阶段需结合训练数据量-评估指标曲线验证算法训练数据量的充分性,常用的方式有以最小训练数据量为基础,逐步增加数据量。对于不同的训练数据量,计算对应的评价指标。当评价指标为单一标量时(如灵敏度),训练数据量-评估指标曲线的x轴为训练数据的样本量(如CT序列个数),y轴为在使用特定训练量时,算法在测试集的评价指标。结合训练数据量-评估指标曲线,判断当训练数据量有限时,评价指标是否随数据量的增加而增加,并在数据量达到一定程度后,评价指标趋于平稳。当评价指标为曲线时,可考虑根据不同训练数据量,绘制对应的评价指标曲线,判断曲线下面积(AUC)是否先随数据量的增加而增加,最后当数据量达到一定程度后趋于平稳。以fROC曲线为例,在评估训练数据量的充分性时,当训练数据量有限时,fROC曲线下面积需随数据量增加而增加,fROC曲线逐步逼近坐标左上角;当训练数据量达到一定程度后,fROC曲线下面积慢慢趋于稳定。
若训练过程中采用了数据扩增的方式,需明确扩增方式,如离线数据扩增,在线数据扩增。同时,需明确数据扩增的方法以及相应的参数设置,如图像平移,旋转,缩放,弹性形变等。若训练过程未采用数据扩增,需论证未进行数据扩增的理由,或者通过对比试验(数据扩增 vs 未数据扩增)来论证合理性。
4.5算法验证与确认
明确算法任务,明确不同任务的算法评价指标的阈值及确定依据。明确算法标记目标与参考标准的匹配方式和匹配阈值。明确病例水平和结节水平计算方法及定义一个结节的处理方法及病例阳性的方法。区分算法任务制定具体测试方法和结果计算方法。建议参考《人工智能医疗器械 肺部影像辅助分析软件 算法性能测试方法》。
4.5.1检出算法性能评估
基于算法的出厂阈值,明确算法在训练集,调优集和测试集的假阴性(召回率)与假阳性(精确度),通过比较三个数据集的性能来评估算法的泛化性。
若在训练过程中使用数据扩增,需在调优集上比较使用与不使用数据扩增对肺结节检出性能的影响。
对于肺结节检出算法,需分层统计算法对于不同大小和不同密度的肺结节的检出效能,可以通过fROC曲线,召回率以及精确度等指标来评价,同时结合临床需求论述结果的合理性。在肺结节大小的维度,可将肺结节分为4-5mm,5-8mm以及8-10mm来进行分层统计,一般而言,肺结节尺寸越大,检出的难度越低。在肺结节密度维度,需明确是二分类还是多分类,需明确密度类型及制定依据,进行密度类型的分层统计。
除此之外,还需考虑性别、年龄、设备厂家、重建方式、层厚/层间距、管电流、管电压等参数对肺结节检出算法效能的影响。需明确设备厂家,且必须符合DICOM 3.0协议标准数据;管电压考虑70-140 kV,管电流考虑10-400 mA;层厚与层间距需不超过5mm,在分层统计中可以考虑将层厚与层间距归为两大类0.625-1.250mm和1.25-5mm,前者为“胸部CT肺结节数据集构建及质量控制专家共识”推荐的肺结节诊断层厚的范围;重建方式需考虑常见的肺算法与标准算法(软组织算法)。
在亚组的分层统计中,肺结节检出效能需在不同因素下均能取得较好性能。若在某些影响因素下,肺结节检出效能存在差异,需进行合理地论证,并在说明书给出使用限制。
需提供算法性能测试报告,至少包括软件环境、硬件环境、测试平台描述(如适用)、测试集描述、算法性能指标的符合性分析(性能指标的定义、测试通过准则、统计分析)、算法错误统计。需包括算法性能及算法质量特性、随访功能测试结果。
4.6 算法性能综合分析
结合算法训练、算法性能评估、临床评价等结果开展算法性能综合评价,针对训练样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情况,对产品的适用范围、使用场景、核心功能进行必要限制。
5.用户培训方案
对于软件安全性级别为严重级别的产品,原则上需单独提供一份用户培训方案,包括用户培训的计划、材料、方式、师资等。
用户培训需关注以下内容:预期用户要求,如工作年限或执业资格;医生必须对软件结果进行确认,软件只用于辅助检测,不能替代医生。CT图像要求,如严重呼吸、金属伪影或有扫描质量问题的CT影像慎用;基于临床试验验证,不宜使用该软件的疾病;
(四)产品说明书和标签样稿
说明书、标签和包装标识需符合《医疗器械说明书和标签管理规定》(国家食品药品监督管理总局令第6号)和《医疗器械软件技术审查指导原则》、《医疗器械网络安全技术审查指导原则》、《人工智能医疗器械注册审查指导原则》和相关标准的规定。
说明书内容需重点关注:
1.用户说明
对预期用户和推荐用户培训的详细说明。如,预期用户工作年限或执业资格要求,且需经培训合格。
2.使用限制
若产品采用人工智能黑盒算法,需根据算法影响因素分析报告,在说明书中明确产品使用限制和必要警示提示信息。
示例:不应仅仅依靠本器械所标识的输出,应由专业医师对结果进行解释。
已发现该器械对于XX的受检者无效。具有这种疾病/病症/异常的受检者不应使用该器械。
对训练数据、测试数据与临床试验的算法性能评估结果不佳,数据量偏少的,此类受检者使用该器械,应由专业医师结合受检者的病史、症状、体征、其他检查结果情况综合给出最终的肺结节检出结论,核实是否需要进行一步诊疗的决策,并对临床诊断结果负责。
3.注意事项
测量准确性(如图像长度、CT值平均值、最大值、最小值、面积值、体积、密度、位置坐标)、测量功能警示信息,如体积测量是基于体素个数的图形学测量,并不能完全反映人体真实的体积,测量体积仅供医生参考。
CT影像质量要求,如严重呼吸、金属伪影或有扫描质量问题的CT影像慎用;图像序列未完整包含肺脏全部组织的图像数据禁用。
医生必须对软件结果进行确认,软件只用于辅助检测,不能替代医生。原始的AI结果应保留,确保软件结果的可追溯性与可责性。
4.预防措施
需明确与器械使用相关的不良事件,并提供缓解措施建议。不良事件讨论需至少包括对假阳性事件和假阴性事件的不良事件的讨论。
5.器械描述
需提供以下内容:
-算法设计和功能的概述,如有特殊声明,如用于继发性结节或更小结节检测,可以特别说明。
-培训范例和培训或开发数据库的概述
-研发和调整算法中所用的受检者数据的参考标准的描述
-与本器械兼容的采集技术
-适当显示器械标记的要求
6.软件
需明确软件发布版本、提供网络安全说明和使用指导,明确用户访问控制机制、电子接口(含网络接口、电子数据交换接口)及其数据类型和技术特征、网络安全特征配置、数据备份与灾难恢复、运行环境(含硬件配置、外部软件环境、网络环境,若适用)、安全软件兼容性列表(若适用)、外部软件环境与安全软件更新(若适用)、现成软件清单(SBOM,若适用)等要求。
7.产品接口和联合使用设备
需明确对配合使用的图像工作站和PACS适当显示器械标记的要求。
需明确CT设备兼容性与扫描参数要求(如层厚、排数)、
8.算法训练总结
训练集基本信息、训练指标与结果
9.算法性能评估总结
-算法输入与输出
-测试集基本信息
-用于确定器械标记的每个区域的性质的评分标准
-每个可用器械操作点的总体敏感度和假阳性率指标
-分层分析(如,根据病变大小、病变类型、采集参数、成像或数据特征)
-独立FROC性能(如适用),需和操作特性曲线一起说明。
-测试结果
10.临床试验总结
需包括临床试验设计基本类型、研究对象(受试者及阅片者情况)、评价指标,金标准、对收集临床信息方法的描述、统计方法描述、样本量,临床试验结果(含各结节尺寸、密度影、阅片者亚组情况)。
11.公开数据库及测试结果(如有)
12.第三方测评数据库及测试结果(如有)
13.决策指标定义(或提供决策指标定义所依据的临床指南、专家共识等参考文献)等信息。
三、参考文献
[1]国家市场监督管理总局. 医疗器械注册与备案管理办法(市场监管总局令第47号),2021.8
[2]原国家食品药品监督管理总局. 医疗器械说明书和标签管理规定(总局令第6号),2014.7
[3]国家药品监督管理局. 医疗器械注册申报资料要求和批准证明文件格式(2021年第121号),2021.9
[4]国家药品监督管理局. 医疗器械通用名称命名指导原则(2019年第99号通告),2019.12
[5]国家药品监督管理局. 医疗器械安全和性能基本原则(2020年第18号通告),2020.3
[6]原国家食品药品监督管理总局.医疗器械产品技术要求编写指导原则(2014年第9号通告),2014.5
[7]国家药品监督管理局医疗器械技术审评中心. 医疗器械软件技术审查指导原则(第二版)(征求意见稿),2020.6
[8] 国家药品监督管理局医疗器械技术审评中心. 医疗器械网络安全技术审查指导原则(第二版)(征求意见稿),2020.9
[9]原国家食品药品监督管理总局. 移动医疗器械注册技术审查指导原则(2017年第222号通告),2017.12
[10]国家药品监督管理局医疗器械技术审评中心. 深度学习辅助决策医疗器械软件审评要点(2019年第7号通告),2019.7
[11] 国家药品监督管理局医疗器械技术审评中心. 肺炎CT影像辅助分诊与评估软件审评要点(试行)(2020年第8号通告),2020.3
[12]国家药品监督管理局医疗器械技术审评中心. 人工智能医疗器械审查指导原则(征求意见稿),2021.6
[13]国家药品监督管理局. 医疗器械生产质量管理规范附录独立软件(2019年第43号通告),2019.7
[14] 国家药品监督管理局. 医疗器械生产质量管理规范独立软件现场检查指导原则(药监综械管〔2020〕57号),2020.5
[15] 国家药品监督管理局. 人工智能类医用软件产品分类界定指导原则(2021年第47号)),2021.7
[16] 国家药品监督管理局标准管理中心. 辅助决策类医用软件产品分类界定指导原则(征求意见稿),2021.6
[17] 国家卫生健康委员会. 人工智能辅助诊断技术管理规范(国卫办医发〔2017〕7号),2017.2
[18]国家卫生健康委员会. 人工智能辅助治疗技术管理规范(国卫办医发〔2017〕7号),2017.2
[19]YY/T 0287-2017 医疗器械 质量管理体系 用于法规的要求[S]
[20] YY/T 0316-2016 医疗器械 风险管理对医疗器械的应用[S]
[21] YY/T 0664-2020 医疗器械软件 软件生存周期过程[S]
[22] YY/T 1406.1-2016 医疗器械软件 第1部分:YY/T 0316应用于医疗器械软件的指南[S]
[23]GB/T 25000.10-2016 系统与软件工程 系统与软件质量要求与评价(SQuaRE)系统与软件质量模型[S]
[24]GB/T 39725-2020 信息安全技术 健康医疗数据安全指南 [S]
[25]YY/T 1833.1人工智能医疗器械 质量要求和评价 第1部分:术语(报批稿) [S]
[26] YY/T 1833.2人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求(报批稿) [S]
[27]YY/T 1833.3人工智能医疗器械 质量要求和评价 第3部分:数据标注通用要求(报批稿) [S]
[28] YY/T 人工智能医疗器械 肺部影像辅助分析软件 算法性能测试方法(报批稿) [S]
[29 ]AIMDICP-WG6-2020-002 基于胸部CT的肺结节影像辅助决策产品性能指标和测试方法 [S]
[30] AIMDICP-WG12-2021-001 医学人工智能技术学名词(草稿) [S]
[31] FDA. Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data, 2012.7
[32] FDA. Considerations for Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data, 2012.7
[33] FDA. Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML) - Based Software as a Medical Device (SaMD) Draft, 2019.5
[34] FDA. Artificial Intelligence and Machine Learning(AI/ ML) Software as a Medical Device(SaMD) Action Plan, 2021.1
[35] 人工智能医疗器械创新合作平台. www.aimd.org.cn
[36] IMDRF AIMD. ww.imdrf.org/workitems/wi-aimd.asp
[37] ITU&WHO AI4H. www.itu.int/go/fgai4h
[38] 胸部CT肺结节数据集构建及质量控制专家共识[J].中华放射学杂志,2021,55(02):104-110.
附件:
1.风险管理文档
2.数据库(集)
附录1 风险管理文档
下表所列为常见可预见事件及事件序列/可能的损害示例,需关注:
危害类型 |
可预见事件及事件序列 |
可能的损害 |
信息危害 |
算法对肺结节直径测量给出过高或过低的结果 |
导致用户对肺结节的主观判断产生误导 |
算法对肺结节的位置存在错误的判定 |
导致用户对肺结节的主观判断产生误导 |
|
算法对肺结节密度类型存在分类错误 |
导致用户对肺结节的主观判断产生误导 |
|
未按规定编制产品说明书,使用说明不明确 |
导致软件无法正常使用并对用户造成不便 |
|
界面实用性差 |
导致误操作 |
|
无法正常显示医学影像,或影像失真 |
导致软件无法正常使用并对用户造成不便 |
|
菜单设置不实用 |
导致误操作 |
|
影像信息丢失或损坏 |
延误治疗 |
|
软件不兼容导致产品无法正常运行 |
对用户造成不便 |
|
AI模型失效导致无法进行影像识别 |
对用户造成不便 |
|
服务器和客户端之间无法正常传输数据 |
导致软件无法正常使用并对用户造成不便 |
|
算法给出的肺结节检出结果存在假阳性结果 |
导致肺结节的过度诊断 |
|
算法对真阳性肺结节存在漏检 |
导致肺结节的延误诊断 |
|
|
算法对肺结节的良恶性程度给出过高或过低的结果 |
导致肺结节的过度诊断或延误诊断 |
操作危害 |
算法无法对接收到的CT影像进行处理分析 |
导致软件无法正常使用并对用户造成不便 |
无法与相关设备或系统进行通讯连接 |
导致软件无法正常使用并对用户造成不便 |
|
软件设计缺陷,可能软件死机或软件自动退出 |
导致软件无法正常使用并对用户造成不便 |
|
算法被未经培训的用户、使用不熟练的用户、或非专业用户使用并完成主观诊断 |
导致肺结节的过度诊断或延误诊断 |
|
算法对接收到的CT影像进行处理分析的时间过长 |
导致软件无法正常使用并对用户造成不便 |
采取风险控制措施前后的风险矩阵表示例
表 采取风险控制措施前的风险分布图
表 采取风险控制措施后的风险分布图
附录2 数据库(集)
按照产品开发时间顺序明确使用的数据库/集情况,需明确数据量变化原因,抽样及合并方法及合理性。数据库/集包括不限于基础数据库、标注数据库、训练集、调优集、测试集、对抗测试集、公开数据库,测评数据库、临床试验数据库。
每个数据库建议提供以下信息:
-数据库名称及版本、类型(如外部、内部;训练、测调优、测试)
-受检者数据收集的纳入和排除标准
-人口统计学数据(年龄、种族、人种)
-采集方式(前瞻性、回顾性)
-放射学检查条件,如CT增强扫描,CT平扫
-采集数据的方法
数据来源(体检筛查、门诊病房)
设备厂家、型号、探测器排数
扫描参数:管电压范围、管电流范围、层厚范围、辐射剂量(低剂量平扫CT,剂量小于等于1.5mSv;常规剂量平扫或增强,剂量大于1.5mSv)
-重建方式(标准算法、肺算法、其他)
-样本量(正常案例数、疾病案例数、确定疾病状态、位置、范围的方法)
-按影像因素分层的病例分布,如年龄、性别、地区、结节大小、结节类型、图像重建层厚/层间距、疾病类型、重建方式、扫描协议、成像厂家、医疗机构。
需明确总体数据范围及分层数量及占比,并需列表对比分析各数据库信息。
采用公开数据数据库的需明确用途,不应作为测评数据库使用。
来源:国家药监局