人工智能+蛋白质组学:药物研发的生物学底层变革(中)

  • 2021-06-02 17:32
  • 作者:郭天南
  • 来源:中国食品药品网

完整意义上的蛋白质组学,是对细胞或生物体全部蛋白质进行系统鉴定、定量并阐释其生物学功能的一门学科。鉴于蛋白质的复杂性和多变性,这种意义上的蛋白质组学或许很长时间内都是一个科学理想。


然而蛋白质组大数据和人工智能技术,或许可以让这一理想的实现过程大大加速。笔者(注:西湖大学蛋白质组学大数据实验室负责人郭天南教授)在国际上首次提出“蛋白质组大数据”的概念,下面具体阐述一下“人工智能+蛋白质组学”可能带来的新突破。


人工智能+蛋白质组大数据,突破传统技术和方法的局限性


在生命科学和医学研究中,仅仅通过测量DNA和RNA很难获取关于生命活动的最直接信息,很难得知我们即时(此时此刻)的身体健康状态。要想实现这个目的,必须加入蛋白质维度的分析。以肺癌为例,从基因层面上来看,如果肺癌病人的基因有EGFR突变,那么理论上采用小分子的抑制剂进行靶向治疗可能会有效;如果没有EGFR突变,靶向治疗可能就没有效果。但是实际上,这个关联性却并不总是非常清晰且显而易见。药物在很多患者身上一开始有效,后来逐渐出现耐药性。这时候仅通过基因检测通常难以获得除了这个突变外的更多有效结果。并且肿瘤的基因组突变具有较高的组织异质性,导致活检组织测量的结果有时难以解释。但是如果测量蛋白质组,我们就会发现大量蛋白质的表达失调,造成一些通路的激活或者抑制。这时候研究人员面临一个新问题,即数据解析的问题:虽然该测量方法准确有效,但是由于涉及的蛋白质种类多、动态范围广,因此蛋白质组数据非常复杂,这时就需要引入人工智能来进行数据挖掘。


研究复杂的系统需要有大量的观测数据和先进的分析方法。就目前的学科进展而言,大数据科学和人工智能就是一个绝佳的组合方法,在面对此类复杂的问题时发挥出了最大而且有用的功效。缺少其中任何一个方法,我们都很难深入理解动态复杂的蛋白质系统。


引入人工智能的意义可以用交通系统来举例说明。春运、上下班高峰期的交通,很难只凭借若干个交警来协调。此时如果在系统上形成大数据,学习交通线路的规律,就可以发现哪里的道路需要扩张,哪里需要建造高架。这种宏观层面的理解和修改有效且精准。


人工智能+蛋白质组学,给生物医学带来崭新变化


在生物体复杂的生命活动中,目前还存在许多未知或不能理解的问题,这些都有可能通过数据分析蛋白质组的运作来得到解答。这需要两个步骤:其一是把蛋白质组变成数据的方法,也就是通过质谱测量,将生物样品中的的蛋白质组进行数字化;其二,需要用机器学习或者人工智能的方法去解读数据。


首先需要建立蛋白质信息库,之后将蛋白质的信息对应为一个表型:比如对哪个药物有效,或者是疾病轻症或重症,肿瘤还是非肿瘤等等。在梳理过后,可以发现蛋白质组和表型之间有着一一对应的关系。两者之间的联系,就是计算机的模型,即AI模型。在具体使用时,对新的病人样品进行蛋白质组测量,再与模型结合解析,就可以预测药物是否有效。同时,随着新的数据不断地进入和补充数据库,那么模型就可以得到不断改进。


蛋白质是非常复杂的,必须用大数据的方法,通过采集大数据,才能真正去理解蛋白质的工作原理与对疾病的判断有着怎样的作用。这里以笔者在《Cell》上发表的文章为例。


2020年4月,郭天南实验室在线发表了区分新冠轻重症患者的重要生物标志物研究的文章,这是人工智能+蛋白质组学研究的典型应用。

实验设计及流程

实验设计及流程


团队与临床、代谢组研究团队合作,对99份病毒灭活处理的血清样本进行了安全处理和质谱分析。与对照组、普通流感组和轻症组相比,新冠肺炎重症患者的样本中检测到了93种特有的蛋白表达和204个特征性改变的代谢分子。


在质谱分析数据的基础上,团队使用机器学习方法进一步“沙里淘金”,筛选出重症患者特征性的22个蛋白质和7个代谢物。血清样本成分符合这一组合的患者,很可能是重症患者,或有很大可能性发展为重症病例。


这仅仅是人工智能+蛋白质组学应用于新冠轻重症患者预测的一个案例。试想,如果有足够丰富和高质量的数据,那么将人工智能+蛋白质组学应用于其他类型的临床疾病的病情发展预测,促进医疗资源的合理调配,或许指日可待。 (本文由智药邦侯小龙整理)


本文仅代表作者观点,不代表本站立场。


(责任编辑:陆悦)

分享至

×

右键点击另存二维码!

网民评论

{nickName} {addTime}
replyContent_{id}
{content}
adminreplyContent_{id}