您当前的位置:检测资讯 > 法规标准
嘉峪检测网 2022-12-15 09:17
本文适用于糖尿病视网膜病变眼底图像辅助诊断软件的研发。糖尿病视网膜病变眼底图像辅助诊断软件通常由客户端和服务器端(云服务器或本地服务器)组成,深度学习算法通常运行在服务器端。
本产品的核心功能是采用深度学习等人工智能算法对由眼底相机(指采用照相技术用于眼底摄影成像的常规眼底照相机,不包括激光、荧光等特殊方式的眼底相机)拍摄的彩色眼底照片进行分析,临床通常用于辅助医生发现II期及II期以上糖尿病视网膜病变(简称“糖网”,英文缩写DR),并给出进一步就医检查的建议。I期和II期的分界线决定着患者需要转诊到专业眼科机构进行诊疗,还是留在基层医疗机构定期复查。不能仅凭算法诊断结果进行临床决策,需要由医生对图像拍摄质量和诊断结果进行综合判断,确认签字后报告生效,必要时需重新拍摄分析和/或修改结果。
不同产品支持的拍摄方式(散瞳或免散瞳)、拍摄范围(体现视场角,并明确多张拼接,眼底后极部包括黄斑区和视盘区的单张照片,分别以黄斑区和视盘区为中心的2张眼底照片等情形)、相机种类/型号等有所区别。
按照2017版《医疗器械分类目录》和《人工智能医用软件产品分类界定指导原则》,该类产品管理类别为三类,分类编码为21-04-02。
一、糖尿病视网膜病变眼底图像辅助诊断软件的性能研究实验要求
基于测评数据库测试的性能指标,其要求参考《人工智能医疗器械注册审查指导原则》。
运行效率,明确所定义效率包括了哪些环节(如上传、处理、返回、显示)。
运行环境,运行在不同计算机系统的产品模块(如客户端和云端)应分别描述其运行环境。
1.软件研究
应依据《医疗器械软件技术审查指导原则》、《医疗器械网络安全技术审查指导原则》、《移动医疗器械注册技术审查指导原则》、《人工智能医疗器械注册审查指导原则》等指导原则,开展相应研究。
该类产品的软件安全性级别不低于为B级,软件研究应分为软件研究资料、网络安全研究、算法研究三部分。
关于运行环境兼容性,依据《医疗器械软件注册审查指导原则》:每个互不兼容的运行环境(含云计算)需作为一个检测单元分别检测;进行兼容性验证,对于B/S架构的软件,还应对所有可兼容的客户端浏览器的兼容性进行测试。
网络安全方面除遵循《医疗器械网络安全注册技术审查指导原则》之外,由于深度学习算法的特殊性,还需要遵循《人工智能医疗器械注册审查指导原则》中关于网络安全和数据安全过程控制的要求。
2.算法研究
应基于《人工智能医疗器械审查指导原则》第四章生存周期过程、第五章技术考量、第六章算法研究资料的所有相关要求开展算法研究或算法更新研究,以及人机交互研究。在核心功能糖网二分类之外包括其他相关子功能的应分别开展研究,对有接口关系的算法/功能应统筹开展研究。根据本产品特点需要细化之处如下。
2.1算法基本信息
(1)糖网分类算法的输入应明确支持的拍摄方式、拍摄范围、相机型号,输出应分别明确算法的输出和自动生成的诊断结论;
(2)图像质量判定算法应明确可识别的不良质量类型或程度,给出判定规则的依据,明确对于不同质量的图像后续是否均进行分析,结果是否有其他使用限制。
(3)部署在云服务器的应说明服务器的物理位置(至少明确到省/直辖市);
(4)软件组件应描述与产品其他组成部分的功能接口和用户接口。
2.2算法需求规范
产品设计应充分考虑我国糖网相关诊疗指南、方案,跟踪最新版本,如《我国糖尿病视网膜病变临床诊疗指南(2014)》、《我国糖尿病视网膜病变筛查的图像采集及阅片指南(2017)》、《糖尿病视网膜病变分级诊疗服务技术方案(2017)》等。
明确产品的使用场景、使用者、适用人群。
明确图像质量控制的方式,即达到什么要求的图像可供算法分析,尤其应描述算法在图像质量不佳情形下的处理方法(如:不进行分析,或在给出分析结果时明确提示图像质量不佳的负面影响)。明确图像质控过程中使用者和算法(若有)的职责。
明确算法训练数据集要求,明确预期采集各糖网分期样本、阴性样本、相似/相关的疾病/症状样本的数量和分布要求,明确相机型号/种类、拍摄方式(散瞳、免散瞳)、拍摄范围、分辨率的要求,以及人群分布(性别、年龄、地域、基础疾病等)、医院级别、医院数量等要求。应纳入一定量相似/相关的疾病/症状样本,即与糖网症状类似或具有相关性疾病患者的图像。
明确算法性能设计目标,应给出核心功能糖网二分类的敏感性、特异性,明确设定依据,应能够满足预期临床使用需求,其他辅助功能参考《人工智能医疗器械注册审查指导原则》的建议设定性能设计目标。
2.3数据质控
(1)数据采集
应明确不同眼底相机的拍摄方式、拍摄范围、采集过程的不同要求,明确采集过程的人员管理、流程管理、质量评估要求。若使用历史数据,至少应明确拍摄设备、拍摄方式、拍摄范围,对其他要求开展差异分析,追溯数据的生成过程,论证采集和标注过程的科学性、规范性。
(2)数据整理
明确经数据清洗弃用数据的原因和数量。数据预处理环节应采用典型图片和流程图说明处理过程和每一步处理的结果。原始数据库的预处理过程若与产品中算法运行的预处理过程存在差异,应通过比较来说明。
(3)数据标注
明确标注、审核、仲裁人员的基本信息,如科室/专业、职称、工作年限、所在机构、培训考核情况、工作量,若有外国人员则需明确其资质要求。明确单张图片的标注、审核、仲裁过程。若标注较复杂宜采用典型图片加流程图说明每一步的标注内容以及特殊情况处理,简述全部图片标注的管理过程、时间周期,特别是标注周期内的质量评估。若用于不同功能做标注的数据集与数据量有所区别,应明确具体情况。
(4)数据集构建
对于标注前的基础数据库,标注后划分的训练集、调优集、测试集,应给出样本量和分布情况及其确定依据,以及集合划分的方法、依据。应注意保证糖网I期、II期样本的数量。样本分布应主要考虑相机种类/型号、拍摄方式(散瞳与否)、拍摄范围、合并相似/相关的疾病/症状等因素,兼顾人群分布(性别、年龄、地域、基础疾病等)、来源医院等因素。可进行数据扩增,应符合《人工智能医疗器械注册审查指导原则》的要求。
2.4算法验证与确认
(1)算法性能评估
基于测试集提供假阴性与假阳性、重复性与再现性、鲁棒性/健壮性等算法性能指标评估结果,以证明算法性能满足设计目标。亦可基于第三方数据库开展算法性能评估。
若有图像质量判定模块,应选择合适的评价指标验证图像质量分级算法性能。
(2)算法性能影响因素分析
应进行算法性能影响因素分析以提升算法可解释性,详述影响算法性能的主要因素及其影响程度,基于分析结果明确产品使用限制和必要警示提示信息。
核心功能糖网二分类的主要性能影响因素包括但不限于相机种类/型号、拍摄方式(散瞳与否)、拍摄范围、合并相似/相关的疾病/症状、图像质量,还可能受人群分布(性别、年龄、地域、基础疾病等)、来源医院等因素一定影响。应针对不同因素分别建立子数据集进行测试,以了解这些因素的影响程度。对于其他功能模块,应基于产品特征初步分析识别可能对性能产生影响的因素后进行分析。
对于某一影响因素,可建立多个包含单一因素的子集和一个包含所有子集的合集(必要时)分别进行性能测试,统计分析各集合性能差异,评价影响程度。对于预期对性能有显著影响且存在相互关联的不同影响因素,也可建立包含多因素的子集进行分析,如有A、B两个因素,每个因素有2种情况,可形成分别仅包含A1B1、A1B2、A2B1、A2B2因素的4个子集。其中,处于分界点处的糖网I期、II期分类的准确性对产品性能起关键影响,应单独建立测试集验证。各集合应保证具有足够的样本量,性能评估结果应给出中心值和95%置信区间。各子集宜以产品研发时标注数据库中的测试集为主,当某一待评价因素的样本量较少或没有时(如测试集只包括A型、B型眼底相机的图像,从其他数据集纳入C型相机的图像),可补充其他数据集的样本,如临床试验、真实世界数据、第三方测试等的样本,但合并在一个子集的数据其标注规则应基本一致。简述各子集的构建情况,如数据来源、标注过程、标准规则、样本分布等。
(3)算法性能综合评价
按照《人工智能医疗器械注册审查指导原则》开展算法性能比较分析和算法性能综合评价。自建测试数据集测试、临床试验、真实世界数据测试、第三方数据库测试、压力测试、对抗测试等均可视为算法性能评估场景。应分别简介各数据集的构建情况,如数据来源、标注过程、标注规则、样本分布(至少应体现相机型号、拍摄方式、拍摄范围、相似/相关疾病/症状的情况)等,列表给出主要性能评价指标,结合数据集构建和性能评价结果对产品性能综合评价。针对训练样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情况,对产品的适用范围、使用场景、核心功能在产品适用范围、产品技术要求、说明书、产品界面等处明确使用限制;针对其他对算法性能影响较小的因素,给出必要的提示信息。
2.5人机交互研究
本产品核心功能单一,结果明确,但使用场景局限,不仅不能替代医生,更需要操作者充分了解产品的特点、使用限制和注意事项。应制定操作者培训和考核方案,并验证方案的可行性。
软件生成的报告应可修改,由具有糖网诊疗资质的执业医师签字确认后生效,上述医生应已具备基于眼底照片进行糖网分期诊断及易混淆病症辨析的能力,经过产品培训,还应具有以下能力:1.能够判定拍摄范围和拍摄质量能否达到申报产品处理要求;2.结合软件给出结果,根据自己的判断对自动生产报告进行修改或重新拍摄、分析;3.了解算法的限制和注意事项,结合患者临床情况做出综合判断,给予患者必要的口头医嘱和/或在报告上附加信息。注意,某些产品虽然具有图像质量判断模块,但由于软件验证无法穷举所有图像质量不合格情况,仍需由医生对图像质量做最终判断。
培训方案应包括但不限于:软件基本操作、图像质量判定、软件的使用限制和注意事项。培训考核应纳入适当的医生数量和测试样本数量,评价点除糖网分期诊断,还应包括上述能力。参加考核的医生应与预期使用产品的医生在培训前具有等同能力,以验证培训方案的可行性。
来源:嘉峪检测网