加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

科学家说,人工智能发明的新型发光分子,在自然界中需要5亿年才能进化

(2025-02-25 14:56:30)

撰文:帕特里克.派斯特                         2025129

艺术家对 esmGFP(由 ESM3 产生的新型荧光蛋白)的描绘图。(图片:EvolutionaryScale
根据一项新的研究,人工智能 (AI) 模型模拟了五亿年的分子进化,为以前未知的蛋白质创建了密码。研

究人员说,这种发光的蛋白质,类似于在水母和珊瑚中发现的蛋白质,可能有助于开发新药。
蛋白质是生命的建筑积木之一,在体内执行各种功能,例如锻炼肌肉和对抗疾病。名为 esmGFP 的模拟蛋

白质,仅以计算机代码形式存在,但包含一种以前未知的绿里弗斯色荧光蛋白的图谱。在自然界中,绿色荧光蛋

白使荧光水母和珊瑚发出莹光。
拼出制造 esmGFP 指令的字母序列,与已知最接近的荧光蛋白只有 58% 相似,荧光蛋白是在气泡锥形海葵

中发现的一种蛋白质的人类修饰版本。

Entacmaea quadricolor 五颜六色的海洋生物,看起来像触手末端有气泡。序列的其余部分是独一无

二的,总共需要 96 种不同的基因突变才能进化。根据这项研究,这些变化需要 5 亿多年才能自然进化。

去年,一家名为 EvolutionaryScale 的公司的研究人员,在一项预印本研究中公布了,esmGFP 和用于创建它的 AI 模型 ESM3。独立科学家现在已经对这些发现进行了同行评审,这些发现于 116 日发表在《科学》杂志上。
    ESM3
不会在通常的进化限制下设计蛋白质。相反,它是一个问题解决者,填补了研究人员提供的不完整蛋白质代码的空白,并在此过程中根据进化可能采取的所有潜在途径,设计了可能存在的东西。
  
我们发现 ESM3 学习基础生物学,并且可以在进化探索的空间之外产生功能性蛋白质,该研究的合著者、EvolutionaryScale 的联合创始人、兼首席科学家亚历克斯.里弗斯,在一封电子邮件中告诉《生活科学》。

这项新研究建立在里弗斯和他的同事,在 2024 年启动 EvolutionaryScale 之前,在 FacebookInstagram 的母公司 Meta 开始的研究之上。ESM3 是他们最新版本的生成语言模型,类似于运行 ChatGPTOpenAIGPT-4,但它基于生物学。

蛋白质由称为氨基酸的分子链组成,其序列由基因提供,不同的蛋白质具有不同的氨基酸序列。据《大自然教育》称,它们在结构上也有所不同,每个折叠成独特的形状,使它们能够发挥其功能。为了让 ESM3 理解蛋白质,研究人员将蛋白质主要特性(氨基酸序列、结构和功能)的模型数据,以一系列字母的形式输入。

该团队利用自然界中发现的 27.8 亿种蛋白质的数据训练 ESM3。然后,研究人员随机隐藏了蛋白质蓝图的一部分,并让 ESM3 填补空白,以根据它所学到的内容完成代码。
   
就像一个人可以填入'to _ or not to _that's the _”的空白一样,我们可以训练一个语言模型,来填补蛋白质中的空白,里弗斯说。我们的研究表明,通过解决这个简单的任务,有关蛋白质生物学深层结构的信息,就会出现在网络中。

科学家们已经为各种目的修改了天然蛋白质,并设计了新的蛋白质。例如,绿色荧光蛋白在研究实验室中被广泛使用。它们的遗传密码通常被添加到其他 DNA 序列的末端,以将它们编码的蛋白质变成绿色。这使科学家能够轻松追踪蛋白质和细胞过程。里弗斯指出,ESM3 的功能可以加速蛋白质工程的广泛应用,包括帮助设计新药。
   
未参与这项研究的英国巴斯大学进化生物学家蒂芙尼·泰勒,于 2024 年为《生活科学》报告了该研究的预印本版本。泰勒在她的分析中写道,像 ESM3 这样的 AI 模型,将实现进化无法实现的蛋白质工程创新。然而,她也指出,研究人员模拟 5 亿年进化的说法,只集中在单个蛋白质上,并没有考虑到最终创造生命的自然选择的许多阶段。

泰勒说:人工智能驱动的蛋白质工程很有趣,但我不禁觉得,我们可能过于自信地假设,我们可以智取数百万年自然选择磨练的复杂过程。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有