人工智能制药的本质:数据制药 解决数据痛点问题是未来发展主要方向之一

  • 2022-11-15 10:27
  • 作者:段宏亮
  • 来源:中国医药报

  深势科技近日发布了一站式药物计算设计平台Hermite;借助AI(人工智能)进行新药设计和研发服务的泓博医药,11月1日成功登陆创业板……AI制药正在成为很多医药企业纷纷涉足的新赛道。


  然而,AI赋能制药行业,既有机遇也面临诸多挑战,尤其是可用数据问题,是关系人工智能制药未来发展的关键。


人工智能三要素

数据是AI算法的“粮食”


  拉动人工智能发展的“三驾马车”,是数据、算力和算法。其中,数据是信息的源头,算力是基础设施,算法是创新的灵魂,三者联动,是人工智能打破瓶颈、飞速发展的必备要素。随着数据资源的累积,算力的增强,算法的革新,人工智能这一源于20世纪40年代的技术,在经历两次低谷后正在重新焕发出勃勃生机。


  对于制药行业来说,在算力层面,各种诸如亚马逊云、阿里云、腾讯云等云计算平台的出现,在一定程度上解决了AI制药所需要的计算资源问题。在算法层面,深度学习领域开源代码的共享和包括PyTorch、Tensorflow、Keras、Theano和Caffe等各大深度学习框架的开发,大大提高了AI制药领域先进模型的更新迭代速度。唯有药物研发数据这一信息源头问题,尚未能够得到很好解决。


  数据是一切智慧体学习的源泉,对于人工智能的应用来说,数据就是AI算法的“粮食”。从实际应用来看,大型数据集的可用性,是迄今为止许多深度学习得以成功应用的一个关键因素。


  比如图像识别任务,用于训练模型的ImageNet数据集,包含了大约120万张带标签图像。而对于自然语言处理任务来说,GPT-3模型的训练,使用了近万亿个单词的语言文字训练数据集。围棋王者Al phaGo的初始训练阶段,则利用了人类围棋游戏中的3000万个对弈位置,从而打败了人类。


  AI制药涉及药物研发的各个环节,目前做得比较成功的切入点,无一不是跟海量医药数据相关的研发环节,如大名鼎鼎的用于蛋白质结构预测的AlphaFold2,以及人工智能技术在药物合成中的应用等。


AlphaFold2与蛋白质结构预测

充足的蛋白质序列数据及结构数据


  从蛋白质序列预测其三维结构的计算方法,一直在沿着两条不同的路径进行:一条是从极其依赖于算力的物理相互作用出发;另一条是数据依赖的从进化历史出发的路径。


  物理相互作用路径是从分子相互作用力层面来模拟蛋白质的热力学和动力学过程。由于分子模拟的计算过程极其复杂,要想产生足够精确的蛋白质物理学模型,所需的算力大大超过了目前人类计算机水平。因此,这一技术路径对蛋白质的模拟具有很高的挑战性。


  受益于海量结构未知的蛋白质序列数据以及蛋白质结构数据库(PDB)中稳定增长的实验蛋白质结构数据,数据依赖的共进化方法为我们提供了另一种选择。蛋白质结构的约束来源于蛋白质进化史的生物信息学分析,同源性则解决了蛋白质结构和序列进化之间的相关性。


  在2020年举行的CASP14竞赛中,DeepMind公司基于Transformer算法的AlphaFol d2模型是整体表现最好的方法。并且,AlphaFold2与前几年的结果相比有了实质性的改进。其表现水平如此之高,以至于许多研究人员认为已经从根本上解决了蛋白质结构预测的问题。


  PDB中大约可以获得17万个蛋白质结构,以现代深度学习标准来衡量,这并不是一个特别大的数据集。然而,随着PDB中序列多样性的增加,局部结构基序的覆盖范围将开始饱和,并且在20种有限的氨基酸组合中,可以生成的三维结构数量是有限的。因此,可以认为所有的蛋白质结构预测现在可以简化为搜索局部结构同源性。这种类型的模式识别任务正是深度神经网络的优势所在,尽管这很复杂,但其挑战性明显低于物理系统的第一性原理模拟。


  AlphaFold2之所以能够取得如此大的突破,DeepMind公司在模型层面的工程化能力自然不必多说,但蛋白质结构预测这个任务能够被解决的根本原因在于积累了足够的蛋白质数据:其一便是PDB中的17万个蛋白质结构,这是直接与蛋白质结构预测任务相关的一个数据集;其二便是能够从中提取到共进化信息的蛋白质序列数据库BFD,其中包含了超过20亿的蛋白质序列数据。


深度学习应用于药物合成

得益于千万级化学反应数据


  1969年,诺贝尔奖获得者E.J.Corey首次提出,将计算机用于药物逆合成分析的程序作为LHASA软件的一部分,主要用于帮助化学家规划找到药物的合成原料。此后,许多用于化学合成的软件和方法不断被开发出来,用于提供药物合成路线的设计,也用于在已知试剂的情况下预测反应产物,或在已知试剂和产物的情况下进行反应优化等。


  在这波人工智能浪潮兴起之前,计算机技术在化学合成领域的应用,主要采用基于化学反应模板的技术。最近几年,深度学习技术,例如基于语言翻译或者图的技术被应用于化学合成领域,它的表现大大碾压了人类计算化学家积累了几十年的基于反应模板的技术。


  人工智能中的深度学习技术在药物合成领域能够得到较好的应用,与两大化学反应数据库提供商——Scifinder和Reaxys持续不断地对数百年以来的化学反应数据所开展的工作密不可分,他们将文献以及专利中的化学反应数据集进行了挖掘和清洗整理。得益于这些数据库中千万级的化学反应数据集,深度学习才能够在该领域一展身手。


  2018年德国明斯特大学的研究团队在《自然》杂志上发表的论文显示,采用基于蒙特卡洛树搜索的深度学习技术,对几乎所有已知的1240万个单步有机化学反应进行训练学习,实现了对化合物合成路线的高效设计。在图灵测试中,实验化学家在算法提出的合成路线与文献合成路线之间没有展示出任何偏好。


  为了找到最优的药物合成路线,2018年,麻省理工学院的研究人员通过对2200万个反应物和产物对进行深度神经网络训练,提出了评估药物合成复杂度分数SCScore,它可以准确描述药物合成步骤的难易程度。


  此外,也有研究人员采用人工智能技术对化学反应的反应条件进行研究,测试了近百万个化学反应的催化剂、溶剂和试剂,其中TOP10准确率达到了70%,在60%~70%的测试用反应中,温度的预测误差也控制在20℃以内。


干湿实验结合

自力更生产生数据


  目前,人工智能制药的一大难点在于,可用数据多来源于公开的药物研发文献和专利,这些数据并不是为了训练人工智能模型而专门产生的。除了上述提到的几个有限的场景以外,多数药物研发的数据,无论是从数量上看还是从质量上看,都不能充分满足人工智能模型的要求。


  这势必要求我们应按照人工智能技术的发展需要,建造专门用以产生数据的“湿实验室”,来实现高通量的干湿实验闭环,解决人工智能制药中的数据痛点问题,这将成为这个行业未来发展的一个主要方向。(作者系浙江工业大学智能制药研究院院长)

(责任编辑:李硕)

分享至

×

右键点击另存二维码!

网民评论

{nickName} {addTime}
replyContent_{id}
{content}
adminreplyContent_{id}