上海通用

“作为一名基础科研人员,当我第一次看到我们研发的蛋白质工程通用人工智能技术实现了面向功能的蛋白质序列设计并通过湿法实验成功验证时,我心中的激动是无与伦比的。”上海交通大学自然科学研究院物理与天文学院、药学院特聘教授洪亮说。

上海通用

图 | 洪亮(来源:洪亮)图|洪亮(来源:洪亮)

他进一步解释说,这意味着过去依赖专家经验和大量实验进行试错的蛋白质项目现在可以通过通用人工智能进行定向设计,从而将时间和经济成本降低几倍甚至几十倍。

此外,由于该模式具有普适性,适用于所有领域,因此将大大加速中国生物制造、合成生物学、生物医药等领域的发展,并有助于中国企业与国际头部公司互动和竞争。

相关论文以“具有轻量级图去噪神经网络的蛋白质工程”为题发表在《化学信息与建模杂志》【1】。

上海交通大学自然科学研究所助理研究员周秉新博士是第一作者,梁洪教授是通讯作者。

如今,洪亮和团队研发的蛋白质设计通用人工智能AccelProtein,通过AI+计算的“干实验”和“湿实验”协同闭环迭代,解决了传统蛋白质项目中研发时间长、成本高、上位性差等核心问题,为体外检测、合成生物学等领域提供了数十款性能优异的蛋白质产品。

利用通用人工智能设计蛋白质已成为蛋白质工程领域的大势所趋。

众所周知,蛋白质是生命系统的基础,在细胞、组织和器官中起着重要作用。除了其生物学意义外,蛋白质对许多工业应用也非常重要,并具有广泛的市场价值。

例如,在生物医学领域,它可以用作药物靶标和治疗剂;在化学工程领域,它可以作为各种反应的关键催化剂。

然而,自然界中的蛋白质通常需要进行工程改造以提高其活性、热稳定性、对极端PH环境和苛刻溶剂的耐受性,然后才能应用于各种工业应用。

然而,传统的蛋白质设计需要数年的实验研究,不仅耗时耗力且成本高昂,而且越来越无法满足蛋白质这一重要工业应用的转化要求。

近年来,深度学习技术的发展在一定程度上打破了传统方法面临的瓶颈。利用AI设计和改造蛋白质已逐渐成为该领域的大势所趋。

自主研发蛋白质设计通用人工智能,实现蛋白质从序列到功能的精准预测。

据介绍,洪亮在AI蛋白质设计领域拥有多年研究经验。他毕业于中国科技大学物理系和香港中文大学物理系,分别获得学士和硕士学位。博士期间在美国阿克伦大学高分子科学系工作,研究蛋白质生物物理机制。

在橡树岭国家实验室完成博士后研究后,他前往上海交通大学继续采用实验和计算生物学相结合的方法研究蛋白质的性能。

“实际上,这些研究属于‘后阐释’的范畴。换句话说,解释蛋白质的一些物理机制,例如其运动形式以及各种热力学参数如何影响其功能。”梁洪解释道。

2020年,AlphaFold的问世为洪亮开启AI蛋白质设计研究创造了契机。

“用户只需要将蛋白质序列输入AlphaFold,就可以得到准确的结构预测,这对整个分子生物学领域来说都是非常震撼的。

但是AlphaFold只解决了从序列到结构的问题,而没有解决从结构到功能的问题。我们想制造一套通用的人工智能来突破传统的蛋白质工程方法。”他说。

因此,他开始带领团队做AI蛋白质设计的研究,并在2021年开发了一套基于预训练蛋白质设计的通用人工智能Accel蛋白质。与AlphaFold的预测结构不同,Accel protein开创了从序列到功能的精确蛋白质设计。

具体而言,研究组通过预训练使AccelProtein学习自然界中所有已知的蛋白质序列和结构特征,探索和理解自然界中蛋白质序列与功能之间的映射规律,从而开发出一套稳定性好、活性高、功能性强的通用大规模AI蛋白质设计模型。

那么,这个模型是如何实现精确的蛋白质设计的呢?

根据梁洪的说法,自然界中有数亿种蛋白质具有已知的完整氨基酸序列,这些蛋白质的氨基酸序列是以现有的合理方式排列的。

在掌握这些序列后,团队采用了双任务学习方法:一方面,它帮助大模型在预训练后掌握符合蛋白质序列排列的语言规则;另一方面,它通过十亿美元的蛋白质标签数据库对蛋白质进行标记,这进一步提高了模型的准确性,从而提供了准确高效的蛋白质设计并大大降低了试错成本。

与类似的通用人工智能模型相比,AccelProtein具有以下优势。

第一,建筑优势。采用几何深度学习方法简化模型架构,在保证模型精度的同时减少模型参数,便于大规模预训练和推理。

第二,战略优势。使用小样本甚至零样本的学习方法,提高了大模型的工程泛化能力,这有助于其仅使用少量湿实验数据实现蛋白质性能优化,并大大提高了蛋白质设计的效率-过去需要2-5年才能完成的项目在AccelProtein的支持下只需2-6个月即可完成。

第三,数据优势。通过与国内多家科研院所和企业的合作,我们获得了丰富全面的高精度蛋白质序列数据,特别是一些在高温、低温或强酸强碱环境下的数据。

此外,研究组还在蛋白质方面开发了其他几个AI通用模型,并取得了与Google和Meta等国际团队产生的结果相当的结果。

根据哈佛医学院创立的蛋白质突变特性预测榜单ProteinGym的数据,洪亮团队提出的大模型在非检索方法中获得第一名,并在总榜单前十名中占据了半壁江山。

其中,预测真白质的大型模型排名第一,预测前白质的大型模型排名第二,预测人类蛋白质的大型模型排名第三【2】。

如上所述,在整个蛋白质设计过程中,通用人工智能可以在没有或只有少量湿实验数据的情况下完成对蛋白质转化的赋能。这是否意味着生物实验在空室中没有发挥作用?

在这方面,梁洪持否定观点。

他认为,首先,AI在优化特定蛋白质时需要湿实验来指导和调整方向。

其次,生物学家还可以通过湿实验提出更典型的科学问题,便于大型模型团队基于这些问题开发定制化的大型模型,从而实现批量蛋白质设计。

成立了AI蛋白质设计公司,并交付了十多个蛋白质产品。

正是基于在AI蛋白质设计领域的成就,洪亮在2021年创立了上海天启科技有限公司。

后者在不到三年的时间里完成了十多个蛋白质设计项目的交付,并获得了数千万Pre-A轮融资。投资机构包括耀途资本和金沙江资本。

据了解,公司服务范围已扩展至创新药、体外诊断、合成生物学等行业。

目前和未来,课题组也在努力拓展与更多科研院所和企业的合作,希望在蛋白质项目的赛道上打出中国乃至世界最好的符号。

在洪亮看来,虽然目前中国生物制药产业具备较强实力,但其在整个全球产品链中的利润占比仍然较低。

原因在于缺乏设计上游产品的良好能力,以至于无法在短时间内实现“破局”。

“毕竟,国际企业的设计能力是在过去100年大量科学研究和实验数据积累以及无数人才积累的基础上产生的。

但现在,借助protein的通用人工智能,我们可以直接利用AI实现‘变道超车’,而不是走国际企业的发展道路。”大声说道。

可以想象,一旦这条横跨跑道的道路铺好,中国将能够在合成生物学和生物医药领域与国际企业展开一场全新的竞争。

参考资料:

1.周,郑,李,吴,谭,杨,吕,欧,易,…洪(2023年)。基于轻量图去噪神经网络的蛋白质工程。化学信息与建模杂志。

https://protein gym . org/benchmarks

运营/排版:何陈龙

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

发表回复

登录后才能评论