科学家说,人工智能发明的新型发光分子,在自然界中需要5亿年才能进化

撰文:帕特里克.派斯特
艺术家对 esmGFP(由
ESM3
产生的新型荧光蛋白)的描绘图。(图片:EvolutionaryScale)
根据一项新的研究,人工智能 (AI) 模型模拟了五亿年的分子进化,为以前未知的蛋白质创建了密码。研
究人员说,这种发光的蛋白质,类似于在水母和珊瑚中发现的蛋白质,可能有助于开发新药。
蛋白质是生命的建筑积木之一,在体内执行各种功能,例如锻炼肌肉和对抗疾病。名为
esmGFP 的模拟蛋
白质,仅以计算机代码形式存在,但包含一种以前未知的绿里弗斯色荧光蛋白的图谱。在自然界中,绿色荧光蛋
白使荧光水母和珊瑚发出莹光。
拼出制造
esmGFP
指令的字母序列,与已知最接近的荧光蛋白只有 58% 相似,荧光蛋白是在气泡锥形海葵
中发现的一种蛋白质的人类修饰版本。
(Entacmaea quadricolor) — 五颜六色的海洋生物,看起来像触手末端有气泡。序列的其余部分是独一无
二的,总共需要 96 种不同的基因突变才能进化。根据这项研究,这些变化需要 5 亿多年才能自然进化。
去年,一家名为 EvolutionaryScale
的公司的研究人员,在一项预印本研究中公布了,esmGFP 和用于创建它的 AI 模型 ESM3。独立科学家现在已经对这些发现进行了同行评审,这些发现于 1 月 16 日发表在《科学》杂志上。
这项新研究建立在里弗斯和他的同事,在 2024 年启动 EvolutionaryScale 之前,在 Facebook 和 Instagram 的母公司 Meta 开始的研究之上。ESM3 是他们最新版本的生成语言模型,类似于运行 ChatGPT 的 OpenAI 的GPT-4,但它基于生物学。
蛋白质由称为氨基酸的分子链组成,其序列由基因提供,不同的蛋白质具有不同的氨基酸序列。据《大自然教育》称,它们在结构上也有所不同,每个折叠成独特的形状,使它们能够发挥其功能。为了让 ESM3 理解蛋白质,研究人员将蛋白质主要特性(氨基酸序列、结构和功能)的模型数据,以一系列字母的形式输入。
该团队利用自然界中发现的
27.8 亿种蛋白质的数据训练
ESM3。然后,研究人员随机隐藏了蛋白质蓝图的一部分,并让 ESM3 填补空白,以根据它所学到的内容完成代码。
科学家们已经为各种目的修改了天然蛋白质,并设计了新的蛋白质。例如,绿色荧光蛋白在研究实验室中被广泛使用。它们的遗传密码通常被添加到其他
DNA
序列的末端,以将它们编码的蛋白质变成绿色。这使科学家能够轻松追踪蛋白质和细胞过程。里弗斯指出,ESM3 的功能可以加速蛋白质工程的广泛应用,包括帮助设计新药。