在ChatGPT发布后的短短几个月里,大型语言模型(LLM)和生成式人工智能(AI)颠覆艺术、营销、新闻、文案、法律和软件工程等多个领域的潜力已经得到了实现。
近日,Nature biotechnology发表了一篇名为"How will generative AI disrupt data science in drug discovery?",探讨生成式AI在生物学上的理解,发现和开发新的治疗方法。
首先,现有的大语言模型(LLM)已经能够作为非凡的生产力工具,让数据科学家和工程师,包括那些从事医学研究和药物发现的人,更有效地完成他们的工作。
软件工程团队正迅速采用GitHub Copilot和ChatGPT等解决方案,以更快地编写高质量的代码,数据科学家也越来越多地在基于人工智能的助手的帮助下生成图表、起草报告和演示文稿。
当前的LLM还可以帮助解决更多技术和复杂的任务,例如解决跨多个数据中心的数据协调这一长期存在的问题,这在很大程度上仍然依赖于人工数据处理。特别是,一种越来越流行的协调异构多队列数据集的方法是使用生成式人工智能合成属于缺失模态或领域的样本,将数据协调视为风格转移问题。
通过自动化和简化与集成来自异构数据源的数据相关的技术程序,LLM和生成式人工智能模型将增加协作数据网络的增长,使人工智能模型能够由前所未有的大数据集推动。
其次,由于深度生成模型不仅能够生成文本和图像,而且能够生成具有所需结构或功能的新颖小分子、核酸序列和蛋白质,因此深度生成模型越来越多地用于药物发现,以快速探索广泛的候选治疗方法,并针对给定的靶点或功能在计算机上对其进行优化。
例如,Shanehsazzadeh等人使用深度生成模型生成曲妥珠单抗的变体,曲妥珠单抗是一种靶向人表皮生长因子受体2 (HER2)的单克隆抗体,用于治疗乳腺癌和胃癌,并通过实验验证了三个与曲妥珠单抗序列相似性较低但与HER2结合较好的人工智能生成的变体。
除了设计治疗方法外,基于人工智能的生物数据生成模型还被用于其他领域,如精确的长DNA读取测序,以降低成本并提高DNA测序的准确性;或者在单细胞基因组学模式之间进行翻译,以便探索组织内组学的多模式多样性。
第三,LLM 和生成式人工智能模型可以促进现有的人工智能模型,并为异构数据和概念的无缝集成提供一个令人兴奋的框架和流程。
事实上,包括LLM在内的大多数基于深度学习的生成模型的一个显著特征是,它们在底层以统一的方式表示任何类型的数据,即数字列表(数学术语中的向量),通常称为数据嵌入。例如,要回答一个问题,ChatGPT首先将其从文本转换为向量嵌入,然后作为该嵌入的函数生成答案。
现代生成式人工智能系统(如文本数据转换器或小分子图神经网络)学习的表征在获取生成有意义的文本或相关分子所需的信息方面非常强大,但它们也可以用于其他目的。
特别是,通过将复杂数据表示为向量的能力,LLM和生成式人工智能模型可以作为数据先验知识的强大来源,用于提高其他机器学习系统的性能。
这已经在神经符号表征学习领域发生了,其中基因或疾病的表征是通过深度表征学习从编码大量生物学数据的知识图中学习的,智能模型用于预测基因的特性或推断基因与疾病的关联。
我预计这些想法的更多应用将会出现,以改进人工智能模型,从患者数据中进行诊断、预后或治疗反应预测。
如何准确地实现这一想法,以及它的有效性在很大程度上仍然是一个开放的研究问题,但简单的方法,如将LLM所学到的基因或疾病的表示转移到基于组学的机器学习模型中,是一个很有前途的方向。
第四,LLM的潜力远远超出了上述复杂的技术任务。他们会很快成为科学家的得力助手吗?甚至会成为真正的科学家吗?
LLM有能力存储从大量数据中提取的知识,包括科学文献和内部研究文件,他们可能能够像科学家一样推理并产生科学假设和发现。
但对于这样的任务来说。尽管在许多基准测试中取得了令人满意的结果,Galactica,一个科学大语言模型,在网上只存活了三天。尽管ChatGPT很快成为网络上流行的工具,但它和所有语言模型一样,因其“幻觉”而臭名昭著。
也就是说,创造没有数据基础的事实,也不遵循任何逻辑推理。这是科学研究中的一个重大问题,未来是否可以解决这个问题是人工智能社区的一个激烈争论。为了解决这个问题,许多人正在努力开发所谓的增强语言模型(ALMs),将LLM的灵活性和规模与其他机制结合起来,以提高其推理和可靠性。
对于科学来说,一个特别有趣的机制是使LLM能够实时地从数据库中自动查询和检索相关信息,这有助于它生成基于数据库中真实信息的文本。
有趣的是,用于指导ALM的数据库原则上可以包含大量不同的数据,这为生物医学应用带来了许多新机会。例如,我们可能希望用一个知识图来增强LLM,该知识图编码了我们所拥有的关于基因、疾病、药物及其相互作用的所有知识,以便LLM生成的文本以这些知识为基础。
另一个有趣的方向是增强LLM在回答问题和产生假设时查询多模态患者数据的能力。这不仅可以使它产生基于科学知识的假设,还可以基于患者数据,并且可以自动发现可能对一种新的假定治疗有反应的患者亚组。
ChatGPT代表了使用人工智能颠覆的里程碑式时刻,并有望对人类产生积极影响。虽然技术专家、伦理学家和监管机构都在疯狂地争论LLM等技术的持久影响,但越来越明显的是,药物发现和开发将发生转变。
通过自动化耗时的任务,生成新的分子和假设,提高现有预测模型的性能并充当研究助理,现有的生成式人工智能模型已经证明了它们的变革潜力。
在未来,更先进的LLM可能会走得更远,并从根本上改变我们在药物发现和医学研究中使用人工智能的方式。
然而,与其他领域一样,语言模型也引发了许多伦理、法律和安全问题。除了上面已经提到的,如果模型出现幻觉,那么存在错误信息危害的风险之外,在制药和医疗领域部署这些解决方案还需要我们注意其他风险,例如与私人信息泄露相关的信息危害,以及强化他们所训练的数据中存在的偏见所带来的歧视。
虽然目前没有简单的解决方案来减轻这些风险,但我们至少应该对如何建立和验证模型保持完全透明,并使用模板系统地报告这一点,以确保科学研究建立在坚实的基础上,并确保医学进步使所有人受益。
参考来源:https://www.nature.com/articles/s41587-023-01789-6