2023年11月6日,FDA国家毒理学研究中心Weida Tong等人在nature communication上发表名为《A generative adversarial network model alternative to animal studies for clinical pathology assessment》的文章,旨在讨论利用生成对抗网络(generative adversarial network,GAN)模型代替动物实验用于临床病理学评估。
背景
在生物医学科学领域中,动物实验对于理解疾病进展、发现预后/诊断生物标志物、风险和安全性评估以及开发新治疗方案至关重要。尽管动物实验提供了与临床实践相似的多维信息,但当前关注已从传统的动物实验转向评估药物在人体中的应用安全性。FDA现代化法案2.0强调了探索新方案的需求,而新方案支持动物实验的替代、减少和改进(replacement,reduction,refinement,即3R原则)。
人工智能(Artificial Intelligence, AI)技术在许多领域日益革新,毒理学中的 AI发展很有可能找到支持3R的风险评估替代方法。毒理学中的大多数AI主要用于分析和处理数据来识别模式并进行预测,如定量构效关系(QSARs)。这些方法常侧重于毒理学效应的笼统概念(如毒性或非毒性)的单一终点。相反,基于动物的毒性评价提供更丰富、多维的信息,包括毒素基因组学和临床病理学信息,来支持风险评估和决策。
近来,生成式AI获得了很多关注,如chatGPT。生成式AI如GAN可以创造新的内容,通过学习传统的动物实验结果来生成未检测化合物的动物数据从而提供一种代替动物实验的方法。作者报告了一种用GAN方法开发的生成式AI叫做AnimalGAN,用于动物实验。AnimalGAN能够模拟虚拟的动物实验生成类似于传统动物实验的多维数据。具体而言,AnimalGAN利用传统的动物实验数据,建立药物暴露(药物、药物剂量和暴露持续时间结合)与临床病理学发现(如临床化学和血液学指标)的联系来生成未检测的新药在预定剂量和治疗时间内的临床病理学概况。
作者证明了即使未检测新药与训练集的药物在化学结构、药物类别、FDA批准的年份显著不同的情况下,仍表现出显著的稳健性。相比传统的毒理学计算方法,AnimalGAN在预测临床病理学指标方面优于12种传统定量构效关系方法(QSAR)。此外,在评估药物的肝脏毒性方面,AnimalGAN结果与动物实验相当。在3R科学中,最关键的争论之一是动物实验并不总是能够准确预测复杂情况下(如特殊药物引起的肝损伤)的人类结果。然而,该研究人员发现,AnimalGAN通过无限次实验(资源允许的情况下)可以对不同个体动物的临床病理数据进行群体的近似估计,这有可能发现传统动物实验不太可能识别的罕见毒理学事件从而改善动物研究向人类结果的转化。
结果
AnimalGAN的开发
在当前的研究中,AnimalGAN生成了38种临床病理学指标,其中测试化合物用化学描述符表示,研究条件包括治疗持续时间(3天、7天、14天和28天)和剂量组(高、中、低)。
AnimalGAN模型是在来自Open Toxicogenomics Project-Genomics Assisted Toxicity Evaluation Systems(TG-GATEs)数据库的6442只大鼠数据(作为训练集),对应于1317种治疗方案下(包括化合物-剂量-时间的组合)的110种化合物(其中大多数是药物)进行开发的,采用了混合的生成对抗网络(GANs)架构(图1a)。然后相同TG-GATEs数据库的1636只大鼠数据作为测试集来进行模型评估,测试集包括332种治疗方案下的28种不同化合物(图1b)。
图1. AnimalGAN模型开发
在测试集中观察到生成数据和真实的临床病理学指标之间高度一致性(图2c均方根误差RMSE17.58,显著小于背景对照的中位数72.46,Wilcoxon秩和检验p值2.48×10-169);高余弦相似性(图2d, 1.00,显著高于中位背景对照值0.98,Wilcoxon秩和检验p值1.45×10-181)。t-SNE(T分布随机近邻嵌入)降温可视化显示了测试集的生成数据与真实临床病理学指标之间的高度相似性(图2e)。
图2. AnimalGAN模型评价
AnimalGAN方法评估
AnimalGAN方法在训练/测试集分离策略上有三方面的难点,证明了AnimalGAN用于未检测药物结果的可行性和可靠性;测试药物包括1)化学结构与建模使用的药物结构完全不同;2)治疗类别不在AnimalGAN开发的范围内,3)相比于构建AnimalGAN模型的药物,测试药物最近才获得FDA批准。在这三种不同的情境中,衍生的AnimalGAN模型在相应的测试集上产生了与原始AnimalGAN模型相同的结果。在三个场景的生成数据和真实数据之间的余弦相似性中位数 > 0.99(显著高于背景对照的中位数0.98,P < 5.65×10-140),而中位均方根误差 < 20.18(显著小于中位背景对照72.46,P < 4.80×10-141)(图3)。此外,在三种场景中,生成数据和真实数据中38项临床病理学指标的相关性与原始AnimalGAN模型观察到的结果相当。作者强调了第一种极端情况,当化合物的结构信息是开发预测模型的唯一输入时存在一些担忧,如适用领域和活性悬崖;所谓活性悬崖是指化合物结构中微小的改变会导致生物活性显著变化。为缓解这些担忧,将药物的暴露信息(药物剂量和治疗持续时间)纳入模型中确保在真实世界中具有强大的适用性。
图3. AnimalGAN模型在三种完全不同的真实世界场景的评估
AnimalGAN VS 传统人工智能
作者比较了AnimalGAN结果与38项临床病理学指标的每一项QSAR分析进行了比较。对于每项指标,作者采用与AnimalGAN完全相同的试验设计和输入(描述符和暴露信息)开发了12个回归模型。AnimalGAN的预测值与真实值之间的均方误差比所有QSAR模型对每项临床病理学指标的预测值与真实值之间的方差小得多。值得注意的是,38项临床病理学指标的每一项都开发了一个单独的QSAR模型,而AnimalGAN同时生成38项指标的数据。
AnimalGAN应用
动物数据用于毒理学评估的常见情景是,将治疗组的观察结果与其时间匹配对照组的观察结果进行比较以确定安全范围。作者比较了此情景下真实动物实验数据与AnimalGAN结果,测试集中观察到高度一致(即96.08% - 100%)。在临床和临床前研究的情况下,所预测的38项临床病理指标中,7项用于肝毒性评估(丙氨酸氨基转移酶ALT、天冬氨酸氨基转移酶AST、乳酸脱氢酶LDH、碱性磷酸酶ALP、γ-谷氨酰基转肽酶GTP、总胆红素TBIL和直接胆红素DBIL),另7项用于肾毒性评估(尿素氮BUN、肌酐CRE、钠、钾、氯、钙和无机磷)。基于AnimalGAN的评估与动物研究中肝毒性和肾毒性一致性分别为96.08%-100%和97.89%-100%(图4),表明AnimalGAN在无动物试验中的潜在用途。
图4. AnimalGAN模型毒性评估
毒性评价中DrugMatrix数据的外部验证
使用DrugMatrix数据集对AnimalGAN进行外部验证。临床病理学指标在不同的实验方案或不同的实验室之间可能差异很大。为此,作者分析了TG-GATEs和DrugMatrix都测试过的70种常见化合物(对应175种治疗情况)的实验数据,建立实验设置中的基线一致性。25项常见指标在两个数据集之间的总体平均一致性是81.20%。对于717种治疗方案下的355个化合物,AnimalGAN生成的结果和DrugMatrix的真实数据一致性是82.85%。作者还比较了25项临床病理学指标基线设置的一致性比较(图5a)。此外,作者还比较了训练集中的110个化合物和外部验证的355个化合物的化学结构,结果显示重叠并不显著(图5b),表明模型对不同结构的化合物可能具有广泛的适用性。
图5. AnimalGAN模型的外部验证
AnimalGAN预测特异性药物引起的肝损伤(idiosyncratic drug-induced liver injury, iDILI)
由于AnimalGAN是一个虚拟动物模型,可以模拟许多大鼠的临床病理分布,其结果可能预测人群中罕见的有害事件,从而将临床前的发现有效地转化为临床实践。例如,iDILI很少见,即使在临床试验后期也无法检测到,而临床前的研究更加难以预见。因此,iDILI仅在上市后监测中报告,在美国也是导致药物撤回和急性肝功能衰竭的主要原因。监测iDILI是药物警戒中最具挑战性的领域之一,因为动物和人体研究中有限的样本量不能够提供足够的统计学意义。作者用AnimalGAN进行了一项28天的虚拟研究来生成十万只大鼠的肝酶数据,这些大鼠分别用troglitazone、pioglitazone和rosiglitazone进行高剂量治疗。Thiazolidinediones是一类化学结构相似的家族药物,用于治疗2型糖尿病。其中,Troglitazone由于发生iDILI的频率和严重程度较高而撤市,而pioglitazone和rosiglitazone因为iDILI发生的频率较小(不到1%)和严重程度较轻(大多数是轻度和可逆)。作者通过大量模拟,利用肝酶(传统用于评估DILI)高于正常上限的大鼠数量来检验这三种药物DILI风险的差异;这些指标分别是ALT、AST和TBIL,ALT和AST评估肝脏受损的程度,而TBIL显示肝功能的丧失。采用经典的医学法则(Hy’s Law)将ALT(或AST)与TBIL结合评估临床环境中药物诱导性肝损伤的整体风险。Troglitazone组肝酶升高(除ALT外)的大鼠多于其他组的大鼠。此外,就ALT(或AST)与TBIL结合评估的总体DILI风险而言,Troglitazone的DILI频率比其他两种药物高出两倍多,与实际情况相符。
讨论
全球各地正在积极推动无动物实验的研究,包括FDA现代化法案、FDA预测毒理学路线图、Tox21计划以及欧洲的ONTOX。这反映了对计算毒理学,以及取代传统动物实验的日益重视。计算毒理学领域长期依赖于类似QSAR的方法,但这些方法通常只能预测笼统概念的单一终点,缺乏关键的具体信息。相比之下,基于动物的毒性评估提供了更丰富、多维的信息支持风险评估和决策。
AnimalGAN作为一种生成式AI,致力于模拟生成多维毒理学信息,以更全面地反映传统临床前毒理评估。与传统的QSAR方法相比,AnimalGAN在预测临床病理学指标方面表现出色。作者使用DrugMatrix数据集进行了AnimalGAN的验证,虽然存在一些实验设计上的差异,但AnimalGAN与实验数据在毒性评估中显示出大约83%的一致性,证明了其应用潜力。AnimalGAN不仅在预测准确性上具有优势;相较于QSAR一次只能预测一个终点,AnimalGAN还能一次生成完整的毒理学特征报告。该技术为评估人类种群中罕见的不良事件提供了可能的途径,从而改善对于药物安全性的评估。尽管AnimalGAN是一项有潜力的技术,但研究者也强调了AnimalGAN目前的局限性,特别是在化学结构相对有限的情况下。未来的研究可以通过对更广泛的动物数据进行学习,进一步提高AnimalGAN的稳健性和适用性。