您当前的位置:检测资讯 > 科研开发
嘉峪检测网 2025-02-21 08:10
前言
在眼科领域,人工智能的发展和应用正逐步改变着医疗实践的面貌。然而,正如本文所强调的,从AI模型的开发到真实世界应用,随机对照试验(RCTs)的重要性不容忽视。这不仅是对技术本身的考验,更是对患者安全和医疗质量的保障。AI技术的引入不仅需要技术上的突破,更需要临床实践中的不断验证和优化。同时,我们也呼吁行业内的跨学科合作,共同推动AI技术与临床实践的深度融合,为患者带来更高质量的医疗服务。在这个过程中,伦理和隐私问题同样需要得到充分关注,确保技术的发展真正惠及每一位患者。
2025年2月15日,来自香港中文大学眼科与视觉科学系冉安然教授团队在自然子刊「EYE」发表题为「Moving artificial intelligence development to deployment in ophthalmology: randomised controlled trials are warranted」即「将人工智能开发应用于眼科:有必要进行随机对照试验」的评论。
本文强调了在眼科领域中,人工智能(AI)模型从开发到实际部署过程中随机对照试验(RCTs)的重要性。尽管AI在眼科诊断和治疗中展现出潜力,但大多数AI模型仅在受控环境中测试,缺乏真实世界临床实践的验证。高质量的RCTs对于验证AI模型在真实世界中的有效性和安全性至关重要。未来研究应关注AI模型在不同临床环境和患者群体中的表现,并加强跨学科合作,促进AI技术与临床实践的深度融合,以提升眼科医疗服务的质量。
1.将人工智能开发应用于眼科:有必要进行随机对照试验
人工智能(AI)在眼科领域显示出巨大的潜力,这从该领域相关出版物数量的激增中可见一斑。然而,大多数AI模型仅在实验室环境中开发和测试,使用回顾性数据集,与真实世界临床实践相隔离。实验室与真实世界之间存在显著差异,包括疾病流行率、共病情况、人群人口统计学特征、图像质量和成像设备等,这可能导致AI模型出现偏差、性能差异和安全性问题。即使是一些获得美国 FDA 批准的人工智能医疗设备也没有在真实世界临床实践中进行严格评估,这可能会引发监管机构、临床医生和患者的担忧。
在眼科领域,根据现有证据,AI模型的真实世界应用可能不可靠,表现不佳。例如,Lee 等人对包括美国 FDA 批准算法在内的 7 种自动化AI糖尿病视网膜病变(DR)筛查系统进行了一项“头对头”(非安慰剂对照研究)的实际验证研究。研究发现,其中一个系统的增殖性DR检测灵敏度仅为74.42%,漏掉了近1/4的晚期病例,这引发了对AI安全性的严重担忧。另一方面,IDx-DR(FDA批准的首个用于DR检测的AI),在实际应用中表现出的假阳性率高于回顾性研究中的表现。这些差异突显了误诊和不必要干预的风险,可能会危及患者的诊治。此外,观察性研究报告的AI模型在真实世界应用中的疗效结果相互矛盾,存在偏差和质量参差不齐的问题,限制了证据的一致性。考虑到AI在眼科领域中的潜在风险,必须通过严格的研究来验证其在实际临床实践中的表现,以确保患者安全。
2.需要随机对照试验来推动AI从开发转向眼科领域的临床应用
许多指南和共识声明都强调需要高质量的证据来验证临床环境中的AI模型,尤其是当这些模型(使用环境)和开发环境存在偏差时。因此,严谨设计的随机对照试验(RCT)是必要的,以确定AI干预与临床结果之间是否存在因果关系,并通过随机化、盲法和干预标准化等多种机制将偏差最小化。高质量的RCT对于弥合AI开发与眼科临床应用之间的差距至关重要。目前,评估AI模型的RCT仍然缺乏,尤其是在眼科领域。随着AI技术的进步,需要高质量且具有代表性的RCT来证明特定代际的AI技术(例如从传统神经网络到大语言模型和基础模型)在真实世界临床实践中的可行性。
3.在眼科领域开展高质量随机对照试验的见解与建议
在眼科领域进行验证AI的高质量随机对照试验(RCTs),遵循 CONSORT-AI 和 SPIRIT-AI [19] 等指南将有助于提高透明度并降低偏倚风险。具体而言,在研究设计中需要考虑以下方面(下图)。
开展高质量的人工智能(AI)随机对照试验(RCTs)的关键之一是对试验进行精心设计和伦理考量。首先,将人工智能模型整合到临床常规中并确定临床相关终点至关重要,例如管理计划的改变、减少眼科诊所不必要的转诊、改善视力结果、避免失明或降低死亡率。仅使用模型性能等替代终点是不够的,因为它们不一定能转化为患者的实际获益。
其次,应识别分层因素,如年龄和视力,以控制研究组之间的混杂变量,因为老年人或视力差的患者更易患眼病。
第三,建议进行多中心试验,以解决患者之间的异质性问题,因为AI模型可能由于人群特征、疾病流行率或医疗实践的差异而在不同中心表现不一致。多中心试验可以通过识别不同临床环境、设备和人群中的潜在AI性能问题,提供A级证据,确保AI系统的泛化能力(generalizability,指的是模型在未见过的数据上表现良好的能力)和稳健性。
最后,伦理考量至关重要,例如把AI作为筛查工具或辅助工具时,需要彻底的知情同意流程,明确解释AI的角色、潜在风险和益处。此外,尽管医生会根据患者的年龄、视力、既往病史和AI输出等信息综合做出临床决策,但应告知参与者,由于在检测眼病时的诊断错误,可能会出现不必要的治疗或错过治疗的情况。
更重要的是,为了成功开展人工智能(AI)的随机对照试验(RCTs),需要与不同利益相关者(例如AI工程师)进行跨学科合作。这种合作使试验设计能够全面考虑技术、临床和伦理方面的问题。眼科医生可以提供关于临床工作流程和将AI整合到实践中的实际考虑的关键见解,而AI工程师可以提供技术支持,例如在试验期间修复AI平台故障和算法错误。
4.成功的临床试验并非终点
将AI整合到真实世界临床实践中代表着一场具有巨大潜力的范式转变。高质量的随机对照试验RCT在这一演变过程中起着关键作用,为将有前景的技术转化为标准临床常规提供了必要的证据。然而,RCT只能在特定时间点对AI系统进行基本验证,无法适应AI系统的持续更新。因此随着医疗环境和患者群体的演变,持续的上市后监督以及利益相关者之间的接受度评估对于长期监测AI模型的实施至关重要。适应性监管和准入框架,例如实施研究综合框架(CFIR),可能是适应人AI系统迭代性质所必需的,因为人工智能系统通常需要根据新数据和临床见解进行更新和改进。
5.结论
在将AI模型应用于医疗保健之前,需要进行严格的评估。通过精心设计的RCT提供高质量的证据,最大限度地减少偏差并增强真实世界临床意义,我们将更有信心将AI从开发阶段推进到眼科领域的应用阶段。RCT不仅是一种方法学上的必要性,而且是实现AI在转变眼科诊疗和改善全球患者生活质量方面的全部潜力的基础性步骤。
延伸
除了需要在严肃环境中理性审视 AI 的应用。借助本文,笔者也想表达一下对目前互联网上大语言模型在人们各项生活工作中普遍受到过度追捧这一现象的看法。
目前在网络上,类似 “某大语言模型和医生的诊断治疗建议几乎一致” 等内容大多是部分成功案例,更容易被媒体广泛传播,存在幸存者偏差,容易让人忽略失败的情况。
不仅如此,媒体大量输出“某大语言模型认为...“、“必读!某大语言模型给某某行业人士的建议...”、“某大语言模型的某某行业观:....”等等,似乎大语言模型的观点已经被奉为圣典。在这种狂热中,理性的声音往往被淹没,过度夸大的背后有媒体小编完成KPI的热点驱动,也有一些卖课者故意刺激人群焦虑的推波助澜。
最需要警惕的是,“AI 幻觉”是大语言模型与生俱来的问题,大语言模型凭借强大的能力产出的内容虽然令人惊艳,硬币的另一面也带来了不可避免的副作用,看似清晰合理实则充斥了似是而非、张冠李戴甚至无中生有的内容,而恰恰因其看似严谨合理的(我把它称为well-structure)逻辑,甚至部分专业人士也容易被“唬弄”。然而,很多生活工作场景中,我们无法接受“差点儿正确”。
此外,这些大语言模型及其衍生应用无法为输出的医学、法律等专业内容负责,AI 在现行法律上没有主体资格。回归到医疗行业来看,医疗与生命健康息息相关,哪怕是没有明确追责机制的科普内容输出,也不容丝毫懈怠。在使用大语言模型时,必须严谨对待其生成的内容,进行严格的复核校验。一旦未经严格审核、存在错误的内容流入语料库,后续 AI 在学习和生成内容时,会进一步传播这些错误信息,使得 AI 输出的可信度持续降低,对医疗科普和专业信息传播造成更严重的负面影响。
在信息爆炸与算法茧房交织的数字时代,AI技术正以"智能滤镜"形态重塑人类认知体系。面对 AI 在医疗和生活的广泛应用,我们更需要在批判性思维下进行独立思考维,在这个算法即权力的时代,真正的智能革命不在于创造更强大的AI,而在于培养能驾驭AI的人类心智。AI给出的每个答案,应是我们追问的新起点而非终点。
本文文献:
Zhang, S., Nguyen, T.X., Liu, X. et al. Moving artificial intelligence development to deployment in ophthalmology: randomised controlled trials are warranted. Eye (2025). https://doi.org/10.1038/s41433-025-03708-2
来源:Aggie 青白视角