2024年2月14日,Biorelate首席执行官Daniel Jamieson在Drug Discov Today发表文章Gen AI's real opportunity in drug development? As a smart, strategic decision aid,探讨了生成式人工智能在药物研发中的真正机遇。
Biorelate搭建了Galactic AI™平台,利用人工智能技术,为科学家和开发未来创新产品的机构提供和实现重要的洞察力。
生成式人工智能(GenAI)目前在生命科学领域备受关注,它包括深度学习算法,可以将复杂的知识提炼成易于了解的摘要,可以将公司的整个研发战略汇集到一个超级决策智能工具中,从而帮助完善药物研发及其成果。
将一种新药推向市场需要花费数十亿美元(见《制药研发生产力分析--需要新视角》,美国国立卫生研究院,2023年7月,参考资料1)。随着生物制药公司对产品和疗法创新方面的追求越来越高,失败率也随之上升。选择最适合商业化的候选药物仍然是一项痛苦且成本高昂的挑战,而GenAI可以帮助改变这一局面。这就需要药物开发商战略性地应用该技术,而不是在单一部门或某一案例中战术性地应用该技术。
识别微妙的新关联
GenAI的更大机遇在于,根据该领域已知的一切重要信息,以及结合和交叉参考一系列表面上看似毫不相干的不同见解的能力,推断出哪些新药值得开发。这种新的、全面的清晰度可以在更广泛的药物开发过程中大大节约成本,更重要的是,可以加快向最需要的患者提供更多药物。
GenAI是人工智能的一个子集,通过机器学习,它可以从庞大的知识库中快速提炼出关键信息和见解,并从中创造出直观、易于消化的新产出。作为药物研发的战略组成部分,该技术能以可靠、便捷的方式利用智能、大规模数据分析。
任何药物开发商都不能浪费时间和资源去重复已经进行过的研究,或追求有问题的下一代药物--除非他们能准确找到对成功起关键作用的见解。已发表的研究成果和其他文本可能包含丰富的知识,但在大多数情况下,这些知识仍未经整理,规模也难以捉摸。例如,尽管在现有文本中可能存在大量因果关系,但这些关系仍然难以定位、连接和分析。
在一项科学研究中,研究人员可能研究了特定药物如何触发特定蛋白质的反应。与此同时,另一项研究可能会强调,这种被激活的蛋白质与高血压的发病有关。虽然这些研究结果各自提供了有价值的见解,但只有将它们联系起来,才会产生潜在的假设:在这种情况下,有关药物可能会带来诱发高血压的风险。
试想一下,如果能将迄今为止一直以文本形式保存在内部档案和/或数百万篇科研文章中的宝贵数据与所有其他结构化数据源(如转录组学和蛋白质组学)结合起来,就能对其进行结构化处理和分析。这就是GenAI的优势所在。
可实现的投资回报率:了解资源的重点所在
任何能够帮助药物开发公司更快,并通过减少额外试验的需要来提高批准和市场准入速度的方法,都有助于实现其在开发周期中优化支出和控制成本的目标,并使关键药物更快地进入市场。
在可能涉及数百个药物项目的宏观层面上,哪怕只是将药物的成功几率提高1-2%、加快上市速度或抓住更多机会,都会对整个药物研发管线产生巨大影响。有针对性地适当应用人工智能,从庞大的研究档案中获取有价值的见解,可使临床试验过程的某些环节提高10到100倍。将早期目标选择到I期临床试验的时间从原来的四年半缩短到一年,这意味着速度的显著提高。
制定人工智能战略
迄今为止,很少能看到一个超越研发并延伸至商业规划的单一业务层面目标,能够以一种综合的方式影响一切。但随着企业逐渐认识到GenAI的更大潜力,这种情况很可能会发生改变--GenAI将成为整个组织的"聊天机器人"或知识助手,提供明智的指导。
葛兰素史克在这方面取得了良好的进展,它通过自己的GenAI大型语言模型(LLM)来完成专业任务,并通过对话界面让用户无需了解公司的数据生态系统就能探索复杂的研究问题。
扩大Gen AI的覆盖范围:现实检查
生成式人工智能提供了一种与数据和其他人工智能模型对接的新方法,让用户不仅可以询问生物制药公司及其药物的财务业绩等问题,还可以更深入地询问:"市场上表现最好的药物有哪些,它们的共同作用机制是什么?"
当然,人工智能也在不断发展,增加了更多的可能性。2024年,多模态算法(MLM)将成为一个巨大的、不断增长的趋势,为团队提供了不仅审阅文本,而且审阅图像、声音和视频的机会。
然而,比潜在应用更重要的是人工智能能力的稳健性和可靠性。除非团队能够绝对信任所返回结果的有效性,并将其追溯到源头,否则始终需要进行进一步的艰苦评估和分析。
要想让生成式人工智能作为药物发现领域可靠的"真理之源"而受到信任,知识来源必须透明且经过验证,同时还要说明是如何建立联系的(见box)。
重要的是,既要立足于细节,又要有超越单一GenAI用例的愿景。
生命科学是否可以信赖生成式人工智能?
生成式人工智能的潜在价值直接取决于它所利用和训练的数据源的质量和可信度。要使这项技术成为可靠的"真理之源",尤其是在关键的生命科学应用中,知识来源必须经过验证。此外,利用的资源以及如何建立联系和获得新的见解也必须完全透明。
检索-增强生成(RAG)是一种公认的数据整理和质量控制方法。这是一种从外部知识库中检索事实的人工智能框架。它可以确保生成式人工智能系统利用最准确和最新的信息,同时为用户(以及必要时的监管机构)提供发现过程和知识关联的透明度。
这种透明度不仅能确保系统参考了现有资料来源,还意味着用户可以找到原始资料并进行更详细的阅读。
生成式人工智能的孤立应用可能会限制生命科学的转型潜力
如果药物发现、开发和商业化活动及预算继续孤立管理,生成式人工智能项目继续以零敲碎打的方式应用于个别应用,那么该技术更广泛的潜力就可能受到抑制。
使用生成式人工智能有两种主要策略。在单个部门/孤立的应用中部署该技术对许多用例来说都是合理的:这是每个人现在都在做的事情,而且行之有效。但还有一个更大的机会,迄今为止,这个机会在很大程度上尚未被利用。那就是在所有部门使用GenAI,将整个公司的战略整合到一个超级决策智能工具中。虽然这在今天可能还不能百分之百实现,但公司可以采取一些措施来为自己定位,以迎接这个更广阔的机遇,因为这些能力肯定会到来。
参考资料:
【1】https://pubmed.ncbi.nlm.nih.gov/37506762/
【2】https://uamsd.66557.net/science/article/pii/S135964462400028X