您当前的位置:检测资讯 > 科研开发
嘉峪检测网 2021-08-19 12:35
• 药物发现和研发是制药企业和化学科学家的重要研究领域。然而,低效率和高成本给该领域带来了障碍。此外,处理来自基因组学、蛋白质组学、微阵列和临床试验的大量复杂数据也存在挑战。
人工智能和机器学习技术使制药领域实现了现代化。机器学习和深度学习算法已被应用于多肽合成、虚拟筛选、毒性预测、药物监测和释放、药效团建模、定量构效关系、药物重定位、多药理和生理活性等药物发现过程。此外,新的数据挖掘和管理技术为最近开发的建模算法提供了支持。
今天为大家解读的文献是Molecular Diversity杂志于今年4月发表的《Artificial intelligence to deep learning: machine intelligence approach for drug discovery》[1],第一作者为印度DTU的Rohan Gupta教授。由于阅读后对编者启发很大,所以整理后分享出来,如有理解不当之处,恳请大家批评指正。
图1 人工智能在药物发现与研发中的应用
人工智能的演进:从机器学习到深度学习
人工智能(AI),也被称为机器智能,指的是计算机系统从输入或过去的数据中学习的能力,术语“人工智能”通常用于机器在学习和解决问题过程中模仿与人脑相关的认知行为。2015年9月,谷歌显示AI已成为搜索量最大的词汇。
一些人将机器学习(ML)描述为“AI的应用”,而另一些人则将其描述为“AI的子集”。ML将数据与朴素贝叶斯、决策树(DT)、隐马尔可夫模型(HMM)等算法一起输入机器,使其在不显式编程的情况下进行学习。大约在20世纪中旬,Igor Aizenberg和他的同事们在谈论人工神经网络(ANN)时,首次提出了“深度学习(DL)”这一术语。
根据《人工智能:现代方法》中的讨论,人工智能有七种分类(图2),分别是推理和问题解决、知识表示、规划和社会智能、感知、机器学习、机器人:运动和操纵,以及自然语言处理。机器学习进一步分为三个重要子集:监督学习、无监督学习和深度学习;而自然语言处理被分为五个主要子集,包括分类、机器翻译、问答、文本生成和内容提取。可以说,DL是ML的子集,ML是AI的子集,进化的顺序是AI>ML>DL。
图2 人工智能的分类
药物发现的革命性过程:大数据和人工智能的作用
大数据可以定义为过于庞大和错综复杂的数据集,无法使用传统的数据分析软件、工具和技术进行分析。大数据的三个主要特征是体积、速度和多样性,其中体积代表产生的大量数据,速度代表这些数据被再现的速率,多样性代表数据集中存在的异质性。随着微阵列、RNA-seq和高通量测序(HTS)技术的出现,每天都会产生过多的生物医学数据,当代药物发现也因此进入了大数据时代。
在药物发现中,第一步也是最重要的一步是确定与疾病病理生理学有关的适当靶点(如基因、蛋白质),然后找到可以干扰这些靶点的药物或类药物分子。如今我们可以搜索一系列生物医学数据库来实现,如NCBI GEO、癌症基因组图谱(TCGA)和Arrayexpress等等。有时甚至出版的文献也可以用于识别靶点,如PubMed是各种已出版生物医学文献的数据库,对其进行数据挖掘可以帮助识别不同疾病的靶点。此外,人工智能的发展使得大数据分析变得容易得多,因为现在有无数的ML技术可用,这些技术可以帮助提取这些大型生物医学数据集中存在的有用特征、模式和结构。如Han等人[2]利用大数据和人工智能在2019年开发了DriverML,这是一个基于ML监督学习的工具,可以指出与癌症相关的驱动基因。
在确定和验证了合适的靶点之后,下一步是寻找合适的药物或类药物分子,这些分子可以与靶点相互作用并引起所需的反应。在大数据时代,我们可以支配海量的大型化学数据库,这些数据库可以帮助我们找到针对特定靶点的完美药物。比如PubChem是一个免费的化学数据库,其中包含各种化学结构的数据,包括它们的生物、物理、化学和毒性特性;ChEMBL包含许多具有类似药物特性的生物活性化合物的数据,还包含有关这些化合物的吸收、分布、新陈代谢和排泄(ADME)、毒性特性,甚至它们的靶相互作用的信息;其他的化学数据库还包括DrugBank、LINCS L1000和PDB等。
图3 大数据在药物设计和发现中的应用
人工智能和传统化学的结合:促进药物发现
随着技术的进步和高性能计算机的发展,在计算机辅助药物设计(CADD)中补充了从ML到DL的一系列人工智能算法。在过去的二十年里,发展了许多用于计算药物发现、定量结构活性关系(QSAR)和自由能最小化技术的工具。例如,使用机器智能方法(如DT、随机森林(RF)方法、CNN、SVM、LSTM网络和梯度增强机)区分复合细胞活性。类似地,使用QSAR方法预测PAMPA有效渗透率时,结果表明相比于偏最小二乘(PLS)方案,使用分层支持向量机(HSVR)方案开发的基于ML的模型在训练集、测试集和统计分析方面执行得更好。另外,对于新化合物的合成,化学科学家常常借助已发表的文献,而随着涉及AI和ML的自动药物发现方法的进步,区分现有药物和新的化学结构变得相对简单。
传统的面向化学的药物发现与人工智能药物设计相结合,提供了一个很好的研究平台。此外,世界各地的系统生物学和化学科学家与计算科学家合作,开发现代ML算法和原理,可以促进药物的发现和开发。
人工智能在药物发现与药物研发中的应用
在药物发现和开发过程中,最艰巨和令人沮丧的一步是寻找存在于浩瀚化学空间中合适的、具有生物活性的药物分子;而最令人气愤的,是十分之九的药物分子通常不能通过第二阶段临床试验和其他监管批准。上述事件可以通过实施基于人工智能的工具和技术来解决。人工智能可以参与药物开发过程的每一个阶段:
5.1 一次和二次药物筛选
在药物发现中,先导化合物的筛选是至关重要的,人工智能在识别新的和潜在的先导化合物方面发挥着巨大的作用。在化学空间中有大约1.06亿个化学结构,他们来自不同的研究,如基因组研究、临床和临床前研究、体内分析和微阵列分析。利用机器学习模型,如强化模型、Logistic模型、回归模型和生成模型,根据活性位点、结构和靶结合能力可以筛选出这些化学结构。
图4 人工智能在一次和二次药物筛选中的应用
5.2 肽合成与小分子设计
多肽是一种由大约2-50个氨基酸组成的生物活性小链,由于它们具有跨越细胞屏障的能力并可以到达所需的靶点,因此越来越多地被用于治疗。近年来,研究人员利用人工智能的优势发现了新肽。例如,Yan[3]等人在2020开年发了基于DL的短抗菌肽(AMPs)鉴定平台Deep-AmPEP30。AmPEP30是一种CNN驱动的工具,可以根据DNA序列数据预测短AMP。使用该平台,研究人员从一种存在于胃肠道的真菌病原体——光滑梭菌的基因组序列中鉴定出新的AMPs。
小分子是分子量非常低的分子,就像肽一样,利用人工智能也可以用来探索小分子的治疗作用。例如,Zhavoronkov等人[4]设计了一种基于生成性强化学习的小分子从头设计工具GENTRL,并利用它发现了一种新的酶抑制剂,DDR1激酶。
5.3 药物剂量和给药效果的识别
给病人任何不适当剂量的药物都可能导致不良和致命的副作用,多年来,确定能够以最小毒副作用达到预期效果的药物的最佳剂量一直是一个挑战。随着人工智能的出现,许多研究人员正在借助ML和DL算法来确定合适的药物剂量。
例如,Shen等人[5]开发了一个基于人工智能的平台,称为AI-PRS,用于确定通过抗逆转录病毒疗法治疗艾滋病毒的最佳剂量和药物组合。AI-PRS是一种神经网络驱动的方法,它通过抛物线响应曲线(PRS)将药物组合和剂量与疗效联系起来。在他们的研究中,10名HIV患者联合使用替诺福韦、法韦伦和拉米夫定,AI-PRS分析表明替诺福韦的剂量可以减少起始剂量的33%,而不会导致病毒复发。
5.4 生物活性物质预测与药物释放监测
最近已经开发了多种在线工具来分析药物释放,以及选定的生物活性化合物作为载体的可行性。最常用的是基于化学特征的药效团评价。为了研究基于配体的化学性质,已经使用CATALYST程序建立了各种成功的实验。此外,利用人工智能研究人员可以确定用于与疾病相关的特定靶点的生物活性化合物。例如,Wu等人利用集成DL和RF的方法设计了WDL-RF用于测定靶向配体的G蛋白偶联受体(GPCRs)的生物活性。
5.5 蛋白质折叠和蛋白质相互作用的预测
分析蛋白质-蛋白质相互作用(PPI)对于药物开发和发现至关重要。比如使用贝叶斯网络(BN)预测PPI,其本质是利用基因共表达、基因本体(GO)和其他生物过程相似性,集成数据集产生精确的PPI网络。已有研究小组使用BN结合酵母菌的数据集研究出一种新的层次模型PCA集成极限学习机(PCA-EELM),该工具可以仅使用蛋白质序列信息来预测蛋白质-蛋白质相互作用,提供准确且快速的输出[6]。
5.6 基于结构和基于配体的虚拟筛选
在药物设计和药物发现中,虚拟筛选(VS)是CADD的重要方法之一,是从化合物库中筛选出有前景的治疗化合物的有效方法。作为高通量筛选的重要工具,它也带来了成本高、准确率低的问题。要将ML用于VS,应该有一个由已知的活性和非活性化合物组成的过滤训练集。这些训练数据用于使用监督学习技术训练模型。然后对训练的模型进行验证,如果它足够精确,则将该模型用于新的数据集,以针对目标筛选具有所需活性的化合物。ML能够加快VS的速度,使其更完善,甚至可以减少VS中的误报。
一般来说VS分两种,基于结构的VS(SBVS)和基于配体的VS(LBVS)(图5)。其中,分子对接是SBVS中应用的主要原则,已经开发了几种基于AI和ML的评分算法,如NNScore、CScore、SVR-SCORE和ID-SCORE;也有算法被开发用于SBVS中的分子动态模拟分析以及预测SBVS中蛋白质-配体的亲和力,如RFS、支持向量机、CNNs和浅层神经网络。类似的, LBVS也开发了不同的算法和工具,例如SwissSimilarity、METADOCK、HybridSim-VS、PKRank、BRUSELAS和AutoDock Bias等等。
图5 基于配体的(A)和基于结构的(B)虚拟筛选
5.7 QSAR建模与药物再利用
在药物设计和开发中,研究化学结构和理化性质与生物活性之间的关系是至关重要的。定量构效关系(QSAR)建模是一种计算方法,通过它可以在化学结构和生物活性之间建立定量的数学模型。传统QSAR模型大致分为两类,回归模型(如高斯过程GPs)和分类模型。目前已经开发了多种基于网络的工具和算法,如Vega平台、QSAR-Co、FL-QSAR、Transformer-CNN和Chemception等,为QSAR建模提供了一条新的途径。
在药物设计和发现中,药物重新定位是指对已经针对一种疾病情况开发的药物进行调查,并针对其他疾病情况进行重新定位。近年来,基于人工智能的工具和算法的出现为该领域研究提供了平台,如DrugNet、DRIMC、DPDR-CPI、PHARMGKB和DRRS等。特别是最近,新冠肺炎成为一种全球性的流行病,世界各地的研究人员开始寻找有前途的治疗剂。在这方面,Hooshmand等人基于神经网络进行药物重新定位,确定了16种潜在的抗HCoV可再利用药物,并为新冠肺炎确定了12个有前景的药物靶点[7]。
图6 QSAR建模(A)与药物再利用(B)
5.8 理化性质和生物活性的预测
众所周知,每一种化合物都与溶解度、分配系数、电离度、渗透系数等物理化学性质有关,这可能会阻碍化合物的药代动力学特性和药物靶向结合效率。因此,在设计新的药物分子时,必须考虑化合物的物理化学性质。为此,已经开发了不同的基于人工智能的工具来预测这些性质,包括分子指纹、SMILES格式、库仑矩阵(Coulomb matrices)和势能测量,这些都用于DNN训练阶段。
此外,药物分子的治疗活性取决于其与受体或靶点的结合效率,因此,预测化学分子与治疗靶点的结合亲和力对于药物的发现和开发至关重要。人工智能算法的最新进展增强了该过程,使用相似性特征已经开发了几个基于网络的工具,如ChemMapper和相似集合方法(SEA)。此外,还构建了基于ML和DL的药物靶标亲和力识别模型,如KronRLS、SimBoost、DeepDTA和Padme等。
5.9 化合物的作用方式和毒性预测
药物毒性是指化学分子由于化合物的作用方式或新陈代谢方式而对生物体产生的不利影响。人工智能可以预测药物分子与靶点结合和未结合时的效应,以及体内安全性分析。已经开发了不同的基于Web的工具,如LimTox、pkCSM、admetSAR和Toxtree。
5.10 分子通路的鉴定与多重药理学
人工智能和最大似然算法在药物发现和开发中的重要成果之一是预测和估计疾病网络、药物-药物相互作用和药物-靶点关系的总体拓扑和动力学。数据库如DisGeNET、STRTCH、STRING分别被用于确定基因-疾病关联、药物-靶标关联和分子途径。例如,Gu等人在2020年使用相似性集成方法确定了197种最常用中草药的靶点,然后使用DisGeNET数据库将这些靶标与不同的疾病联系起来,从而将草药与可用于治疗的疾病联系起来[8]。
在药物化学中,多重药理学是指在与疾病相关的药物靶标生物网络中设计能够与多个靶点相互作用的单一药物分子。它适合于为复杂疾病,如癌症、神经退行性疾病(NDDS)、糖尿病和心力衰竭等设计治疗剂。由于强大的挖掘能力和数据分析能力,基于ML的方法具有分析牵连分子网络的潜力,大大增加发现多靶配体的概率。此外,ML模型有助于识别具有不同结合口袋的多靶配体。
5.11 临床试验的设计
在引入人工智能技术后,临床试验的成功率大幅提高。IBM Watson开发了一个临床试验配对系统[9],该系统使用患者的医疗记录和大量过去的临床试验数据来创建详细的档案。人工智能模型还可以通过分析毒性、副作用和其他相关参数来提高成功率,从而降低临床试验的成本。
未来的挑战和可能的解决方案
目前,制药行业在开发新药时面临的主要挑战是成本高和效率低。ML方法和DL的最新发展带来了“降本增效”的巨大机会,这也引起了各地研究人员的极大兴趣,以至于许多制药公司都与人工智能公司合作。此外,该领域的初创公司数量也在不断攀升,到2020年6月达到了230家。
如今,人工智能在药物发现领域被用于靶标识别、先导优化、ADME-T预测和构建临床试验等各个步骤。尽管取得了巨大的成功,但仍然存在许多挑战,其中有两个最重要的问题:首先,标记不能是二元的,因为药物在生物系统中的作用是复杂的;其次,虽然数据库拥有海量信息,但药物发现中可用的高质量数据并不多。因此,需要一个不仅能提供数据数量而且能提供质量的平台。在制药行业,开放数据共享并不常见,皮斯托亚联盟(Pistoia alliance)主动发起了一场运动,鼓励许多公司与他人共享数据,在未来他们还打算建立统一的数据格式。
2020年12月,In silico medicine公司为他们的小分子抑制剂向FDA提出了IND申请,他们的目标是在2022年初进行临床试验。如果试验成功,那么这将是有史以来第一次通过基于人工智能的工具提出并批准一种新的靶点及其抑制剂。尽管将人工智能工具融入药物发现过程中存在一些不可避免的障碍,还有大量的工作要做,但毫无疑问,在不久的将来,人工智能将给药物发现和开发过程带来革命性的变化。
参考文献
[1] Gupta, R., Srivastava, D., Sahu, M. et al. Artificial intelligence to deep learning: machine intelligence approach for drug discovery. Mol Divers (2021)
[2] Han Y, Yang J, Qian X et al (2019) DriverML: a machine learning algorithm for identifying driver genes in cancer sequencing studies. Nucleic Acids Res.
[3] Yan J, Bhadra P, Li A et al (2020) Deep-AmPEP30: improve short antimicrobial peptides prediction with deep learning. Mol Ther-Nucleic Acids 20:882–894.
[4] Zhavoronkov A, Ivanenkov YA, Aliper A et al (2019) Deep learning enables rapid identification of potent DDR1 kinase inhibitors. Nat Biotechnol 37:1038–1040.
[5] Shen Y, Liu T, Chen J et al (2020) Harnessing artificial intelligence to optimize long-term maintenance dosing for antiretroviral-naive adults with HIV-1 Infection. Adv Ther 3:1900114.
[6] You ZH, Lei YK, Zhu L et al (2013) Prediction of protein-protein interactions from amino acid sequences with ensemble extreme learning machines and principal component analysis. BMC Bioinformatics 14:1–11.
[7] Hooshmand SA, Zarei Ghobadi M, Hooshmand SE et al (2020) A multimodal deep learning-based drug repurposing approach for treatment of COVID-19. Mol Divers.
[8] Gu S, Lai L, hua, (2020) Associating 197 Chinese herbal medicine with drug targets and diseases using the similarity ensemble approach. Acta Pharmacol Sin 41:432–438.
[9] Fogel DB (2018) Factors associated with clinical trials that fail and opportunities for improving the likelihood of success: a review. Contemp Clin Trials Commun 11:156–164.
来源:AIDD Pro