人工智能辅助药物发现——从颠覆性思维到底层逻辑的重构

2022-11-28 11:49
作者：徐峻
来源：中国医药报

　　当前，人工智能技术（AI）正在通过多种方式、多种途径应用于药物发现。在这些令人眼花缭乱的应用背后，是AI对于药物发现的底层逻辑的重构。底层逻辑的研究，将是未来研究的重要方向。

传统的药物设计方法面临挑战

　　药物设计方法学发轫于定量构效关系（QSAR）的研究。QSAR通过一些数理统计方法，建立化学结构与生物活性之间的数学关系，进而预测化合物的生理活性或某些性质。但是经过几十年的发展之后，QSAR的困境日益凸显。这缘于QSAR的两个基本公设：一是相似的分子结构应该有相似的活性；二是骨架上的取代基对活性的贡献有加和性。这两个基本公设奠定了QSAR迅速发展的基础，同时也为当下的发展困境埋下了伏笔。

　　基于QSAR的药物设计学当前面临以下重大挑战：

　　一是骨架/子结构的划分问题没有共识。QSAR假定结构相似的化合物有相似的活性，然而关于哪些子结构是共同的子结构（或者称之为骨架结构）并不好划分，这在数学上也没有一个严谨的定义方法。

　　二是QSAR的取代基加和性判别问题难解。没有简单可行的方法判别取代基对分子性质的贡献是否具有加和性。骨架上的两个或两个以上取代基对分子性质的贡献的加和性取决于彼此之间没有协同作用，或者协同作用可以忽略。但由于实验数据存在误差，人们很难将协同作用与实验误差区别开来。在很多情况下，如共轭体系、极性诱导效应都会导致加和性公设失效。

　　三是QSAR的相似性公设，受到活性断崖问题的严重挑战。活性断崖问题，即很多结构相似的分子却具有迥然不同的活性的现象，这直接挑战了第一个基本公设。活性断崖问题的本质是：很多情况下，分子的活性/性质与子结构密切相关，而不与分子的整体相似度相关。但当QSAR方法试图将分子的活性/性质与分子的整体相似度相关时，可能产生巨大的预测偏差。

　　四是QSAR模型的预测精确性与普适性悖论。药物发现领域也存在与海森堡测不准原理类似的悖论：如果要求模型预测精确，那么模型的实用性就会降低；如果要求模型能够广泛适用，那么预测又不可能精确。

　　五是药物开发过程的多参数决策困难。药物开发过程极其复杂，涉及复杂系统的多参数决策，不能用简单的拟合法求解。

深度学习背后的新思维

　　在传统药物设计方法面临许多困难的情况下，AI方法是否能够带来新的解决方案？

　　我们回顾一下深度学习背后的新思维。

　　药物设计从规则驱动转变为统计学+规则驱动 AlphaFold的成功宣告了药物设计方法学新时代的到来，主要原因是现代人工智能给人类认识论带来了颠覆性的转变。

　　在爱因斯坦、牛顿的时代，科学认识论一直是所谓的决定论，即预测由机制决定，而机制是以函数的形式表达。新思维认为，这个世界不仅由规则驱动、还有统计学。规律在统计学驱动下不断演化。因此，预测分子的性质不仅限于传统的规则驱动的方法，可以先用统计学方法发现事物之间的关系，然后解析这种关系的机理。

　　QSAR方法从函数拟合转变为张量空间的变换传统的QSAR是寻找一种优化的方法来产生自变量应变量的最佳拟合。而在AI驱动的药物设计中，自变量、应变量属于两种张量空间，我们需要做的是寻找一种变换，将两种张量进行空间的映射，穿越离散数学空间与连续数学空间之间的壁垒。

　　实现QSAR从整体模式识别到局部注意力机制的转变构效关系是关于结构与活性之间的关系，本质是局部结构 (子结构) 与活性之间的关系。但是传统的QSAR方法因为无法动态划分子结构而不能找出上述关系。传统的QSAR中的“活性断崖”问题的根源在于用分子的整体相似度关联分子的活性，而分子的活性会因为局部结构的微小变化而发生巨大变动，传统的QSAR方法难以捕捉这种变动。而AI的注意力机制有可能动态地捕捉此类重要局部特征与活性的关系，从而解决了子结构划分、加和性难题和活性断崖难题。

　　从关注分子整体(积分)到关注局部(微分) 分子的数学本质是图，属于离散数学（不可微分），传统数学分析方法难以实现离散空间到连续可微空间的转换。AI使QSAR实现从关注分子中的原子到关注原子片段（子结构）的转变，解决了分子子结构动态划分问题。基于AI，我们可以从关注分子整体（积分）到关注局部（微分），即从离散数学（不可微分)穿越到连续空间(可微分)；从关注分子中的原子到关注原子片段 (子结构)，即从关心每个原子到关心每个原子的化学环境 (周边的电子氛)。可以说，注意力机制解决了子结构动态划分问题，结构与活性的关系被改正为子结构 (局部化学环境) 与活性的关系。

AIDD的应用、局限性及发展方向

　　基于深度学习技术，药物发现的端到端数据分析可以实现多种应用，例如探索药物化学多样性空间，生成小分子结构，辅助类药化合物设计，预测小分子与靶标的作用，发现与验证药物靶标，筛选化合物与发现先导物，临床前研究、设计临床试验等。

　　当前，AI辅助药物研发（AIDD）的热点主要有三方面：小分子的发现，包括面向靶标的分子生成模型、合成路线规划、合成可行性预测、先导化合物优化等；图像识别的应用，包括药物和基因扰动数百万个细胞样本产生染色成像，AI分析数据发现靶标、优化先导化合物、预测毒性等；临床试验设计，如分析电子健康记录、患者人口统计、临床试验的结果、组学数据，建立患者与临床试验匹配等。值得注意的是，现代人工智能最擅长于图像识别和自然语言处理，在药学领域的许多数据分析问题，可以借助于图像识别和自然语言处理所用到的人工智能方法。

　　AI也有其局限性。比如，机器学习的目标是最大程度地发现数据所呈递出来的特征，这就导致创新的数据特征往往具有小众性 (常常被当作离群数据处理)，不能被AI方法所捕捉。但看似“奇葩”的离群数据点却很可能是通往新发现的入口。机器学习的本质是守旧的，而创新是对守旧的颠覆，所以单靠机器学习发现创新药物是不现实的。AIDD的本质性局限，内在地规定了AI药物设计可能会出现的问题，比如结构新颖性问题。

　　当代人工智能的发展对整个学科未来的方向产生了巨大影响，这包括：机器学习的底层逻辑——神经网络已经渗入到各种学习的过程中；在人工智能的推动下，人类基因组计划完成以后产生的学科大分化，开始向学科大综合发展(大综合有个标志性的前缀，即Meta)；而数据与程序之间的递归演变，引出了元数据的概念 (即数据之数据)，其中元数据的研究与实现是科学技术底层逻辑重构的标志性事件，它促进了人类知识体系的演化，引发了元-革命（Metarevolution）。以学科内部和学科之间的递归演变为特征的人类知识体系大综合时代已经到来，各种元科学/技术正方兴未艾。

　　对于AI应用于药物发现来说，底层逻辑的研究，是未来研究的重要方向。我们已经看到，注意力机制建立了重要局部特征与活性的关系，使QSAR获得重生（修补了子结构划分等先天缺陷）；AIDD在发现大数据中隐藏的关系方面，超过了人类智慧。但需要注意的是，在药物原创方面，AI可以辅助研究，但不能替代人的智慧。

　　AI药物发现的技术发展，将在学科的大分化与大综合的时代背景下，遵循其底层逻辑，螺旋式上升，波浪式前进。（作者系中山大学药物分子设计研究中心主任，本文整理自作者在今年9月召开的中国AI药物研发大会上所作报告《人工智能辅助药物发现——从颠覆性思维到底层逻辑的重构》）

(责任编辑：李硕)

分享至

右键点击另存二维码！

返回首页>>