您当前的位置:检测资讯 > 科研开发
嘉峪检测网 2019-04-28 09:30
在过去的3年里,我们见证了人工智能(AI)的第三波崛起,并为之折服。同样的风潮也吹拂了相对保守的医药行业,甚至侵入了最具技术门槛的制药业。
在一些创业团队的蓝图里,通过机器学习算法和虚拟研发的商业模式,可以革新目前这种“2 Billions, 20 years”低效的药物研发过程,将新药更快更省地带给患者。
但如果把眼光从未来移开,回头凝视历史,我们就会发现AI在药物研发中并非陌生。自80年代开始,一大批巨头就开始推动计算机辅助药物发现(Computer Aided Drug Design,CADD)。
大家可能知道Merck赞助了好几次Kaggle Challenge,主题是用机器学习预测P450酶活性。但其实,人家在30多年前就开始了相关的尝试,还登上了1981年的《财富》杂志。
在那个年代里,早期的计算化学家,已经在使用KNN和SVM等算法对药物分子中的moieties进行无监督聚类,试图归纳出特定药效的特征。一些分子动力学程序也试图用机器学习来优化收敛速度,尤其是面对蛋白质构型docking的搜索时。
这些人工智能的思路,早就融入了商用的QSAR(Quantitive Structure Activity Relatioship,定量构效关系 )软件中。
那么这次,以深度学习为代表的AI回潮,有什么不一样?如果这次确实不一样,AI又能不能让药物研发这件越来越糟心的事情变得“不一样”?
在讨论AI药物研发之前,让我们梳理一下药物研发的整个流程。通常可以划分为三阶段:
Drug Discovery:了解疾病机理(或发现“奇迹”),识别出机理中能成药的靶点,我称其为“生物学”阶段;
Drug Design :筛选出适用于靶点的lead小分子/生物大分子,设计并优化lead的结构,然后对分子进行临床前assay,也就是广义的“化学”阶段;
Drug Development:三阶段的临床试验验证安全性和疗效,并在上市后的继续跟进和扩展适应症,可以称之为“医学”阶段;
在这三个不同阶段,研发团队有着不同的目标函数,也产生了不一样的技术需求和解决这些需求的方法论。因此,AI运用于不同的阶段会有非常不同的难度和效用。
在生物学阶段,主要的目标函数是:Found (找到)
在最理想的情况下,生物学家能够把疾病现象解释为机理,然后按照机理去识别靶点tackle这个机理。在更实际的情况下,可以通过临床中的特例或是一些heuristic的推理,定向识别出能用药物tackle的靶点。
也就是说,虽然不清楚整个疾病机理的作用网络,但作用于某些网络的hub可以让疾病伏法。这大概是最能称之为“Magic Bullet”(神奇子弹)的情况了。
而在当前的医药研发中,生物学研发者会面对两个越来越宽的鸿沟,一个比较明显但是相对容易理解,一个比较隐秘但真正棘手。
比较明显的鸿沟是:将机理转化为可成药的靶点,这并没有理想中那么直接。我们已经遭遇了太多完美机理无法成药的案例,因为作用于单个机理的药物,会受到其他未理解机理的干涉,导致预计有效的疗法完全失效,或是产生先期不可预见的副作用。这已经造成了大量的研发项目在早期就停滞,或者更惨的如Tau蛋白,在进入临床后才宣告失败。
而这个明显的鸿沟背后,有一个更难的鸿沟:从生物现象本身的复杂性里提取可理解的机理,这比给你个CPU的电镜照片让你逆推出计算电路要难得多。人体在分子层面的运作本身的复杂性,很可能是超越人的理解范畴的。从某种意义上说,生物学发现的所有机理都只可能是局部机理,是“比特例更一般的特例”。
这并不意味着这些“更一般的特例”不对,但是他们的数量将会是有限的。我们已经摘了很多容易摘的果子(Low Hanging Fruit),而在研究接下来的机理时,会面临可理解性和可预测性之间的背离,而预测性的下降会对临床造成困惑。
而现有的生物学研究范式里并没有意识到这种困难,这也就不难理解,为什么本世纪以来生物学研究的可重复性大大下降了(排除掉学术不端的影响)。如果意识到生物现象本身的复杂性,你会发现“生物学解签师”真的已经尽力了,但是他们被误用的统计学(如最近的P<0.05争论)和网络复杂性联手给蒙了,因此得不出具有确定性又可理解的机理。
而这也许是药物研发效率下降的最底层原因,我们先按下不表。
那么进入化学阶段后,主要的目标函数就是:Optimize (优化)
当AI研究者见到这个词的时候,一定会觉得暗爽。的确,在已经了解靶点的情况下筛选药物分子,是最容易想到的AI能够赋能的任务。实际上,这是计算化学和CADD已经耕耘了几十年的战场,已经有了很深的积攒了。
大部分AI新药公司也都集中在“化学”这个阶段,无论是做分子模拟,构型预测和QSAR分析,晶型优化,甚至继续向下去做逆合成路线推演,或是生产流程优化,都是从已有的先验知识出发,去搜寻和优化lead compound。
对于这个比较成熟的过程,可能的困难不是出在算法上,因为计算化学家一直在follow最新的机器学习算法并加以应用。最头痛的问题在于,现有的生化数据库的维度和量级都有点小了,而这却是深度学习方法较为依赖的要素。
想要达到ImageNet对DL的推动力,现有的如DeepChem, ZINC之类的库是不够的。更糟糕的是数据来源的可靠性不足,毕竟我们都知道garbage in, garbage out。
在组学和结构生物学的数据库未完善和矫正之前,我们很难做到足够可靠的virtual screening,因此我非常看好质谱和冷冻电镜的大规模应用,这相当于互联网出现之前的全美光纤建设,是基础。
当然,ab initio直接计算出新的分子结构,也许可以对真实数据做一些补充,但是这种方法依然受限于已有的分子库本身的数据结构。
但更让人困惑的是,AI算法所需要实现的事情,化学家们通过heuristic approach也可以有很高效的实现,他们没有意识到算法给自己工作带来的颠覆性价值。
比方说,最奇怪的就是用深度学习来做逆合成分析,AI并没有体现出比人的灵感更优异之处,因为最终路线的实现更需要wet lab的实践而不是图上推演。AI所试图优化的地方,恰恰是目前人工操作最成熟,最不需要AI的地方。在这些阶段玩AI,是内卷化的竞争,能玩的空间其实很小的。
更何况,“化学”阶段在整个药物研发中并非是一个速度决定步骤。在这个阶段任何的改进都只是边际上的小规模提高,除非运用于速度的细微差别更重要的me-too,me-better或首仿药中,否则能够带来的收益是较小的。
从这个角度上看,AI算法在“化学”阶段更多是一个工具的角色,必须结合一些尚未成药的新机理,或是成药困难的靶点才可以产生更大的价值。
我们的确看到部分团队会自建生物学团队,从机理出发来全程开发lead直到卖给药企。但问题在于,你首先要有个牢靠的生物学机理作为出发点,而这个关键问题却和你自己的机器学习knowhow无关。这是一个很尴尬的局面。
但我认为,作为一种无监督无先验知识的学习过程,机器学习真正最颠覆的地方,应该是在对人类未知机理的情况下寻找能够tackle疾病的药物分子,而并不需要给出人类可以理解的机理。这很有难度,但是却是最值得探索的地方,因为在机理明确的情况下药物的发现只是一个速度快不快的问题,而机理未知的情况下则是从零到一的问题。现在真正阻碍药物研发效率的,是后者!如果改一下克林顿当年竞选的口号的话,那么我可以说:“It’s biology, stupid!”
但是biology是一个Hard Problem,而现在,很少有AI制药团队把目标设定在那里。
而到了医学阶段,主要的目标函数会变成:Verify(验证)
如果说化学阶段的目的是Be better的话,那么医学阶段的目标似乎又收缩了,变成了Be usable,然而真实的情况是大部分药物分子跨不过这个坎。在药物研发里有个谚语,叫做“Fail fast, Fail early”,这其实是求之不得的事情,因为如果拖到临床II期甚至III期临床再失败,将会造成摧毁整个公司市值的重大损失。
这看起来似乎是荒谬的,如果前期的生物学机理和化学优化已经完善,为什么放到真人身上就砸了呢。但这个荒谬背后的原因是非常深刻的:药物分子在复杂的人体系统,尤其是具有基因和组学异质性的人群中的效应是难以捉摸的,在不同的维度上可以呈现出不同的usability。
大部分的药物如果是在II期及之后失败,最大的问题可能不是因为药不好,而是以错误的方式用在了错误的人群中。很多药物其实在临床试验里并没有死透,如果我们知道自己错在那里,其实是有可能通过给药方案和适用范围的调整,达到新的临床终点。
如果能够及时止损,及时选择合适的适应症,提高成功率的话,这才是真正值钱的地方。而这其实可以借助于机器学习对患者画像的洞察来实现,在临床试验开始之前就对这个药在大人群中的可用性,或是对哪些细分marker的人群可用,以及最重要的,哪些marker人群和临床终点无效做出判断。这样的洞见,在II期及以后的临床试验中都价值上亿!
可以看到,目前的药物研发的流程,最大的矛盾集中在生物学阶段和医学阶段,相反,化学阶段反而是最成熟的部分。而如果只是在这个非瓶颈部分做优化,并不会显著提升药物研发的时间效率和回报率。
因此我认为,如果AI药物研发的项目,仅仅是过去计算化学模拟,组学和药物开发自动化的延续,是用AI的工具去优化和加强已有的研发流程,这当然是一个最具可行性的前期策略,但是这并不是那么值钱的市场。这些针对药物研发中“化学”阶段的AI创业项目,做的普遍是容易做,但不是必须做的事情。如果只是提升当前的药物研发效率,那么AI药物研发公司的估值,显然有点高了。
大型药企对这些创业项目的关注和支持,与其说是看好技术而去投资,不如说是出于财务KPI的考虑,以投资AI药物研发公司的方式,将非药企核心的研发业务外包给了CRO和这些“virtual biotech”的AI创业公司。
这可以输出药企的优势:充沛的现金流投入,和临床开发“接盘”能力,而产生的收益又不会立即体现在损益表上,而是通过收购-商誉的调节,让报表变得更好看。当然,从投资的角度去看,我也认同这种商业逻辑。
但真正具有极大价值的,应该是用AI重构药物研发的整体逻辑,这可以从两个方向进行努力:
1,在生物学的阶段,甩开可理解性的限制,以无监督学习的方式去更高效寻找新机理和有效的新靶点,往外扩张成药的空间。
2,在医学的阶段,结合患者画像参与到临床实验的决策中,以提高药物定位和过审的成功概率,尽早识别并kill掉无底洞的烂药,以免到了3期失败被坑死。
这两个方向其实都体现出同一个理念,那就是应该用AI去提高药物研发的成功率,而非药物研发的运营效率,这两者是质和量的不同。如果能够直面“生物学”和“医学”阶段的Hard Problem,实现颠覆性创新,我相信,这会比在“化学”阶段做的任何渐进式创新,都更有价值。与诸君共勉!
本文作者:刘正 新加坡Timbre capital分析师
来源:AnyTesting