元公司的新人工智能刚刚在两周内预测了6亿种蛋白质的形状

标签:
it杂谈 |
元公司的新人工智能刚刚在两周内预测了6亿种蛋白质的形状
By
2022/11/7
一个MEK1或有丝分裂活化的蛋白激酶1(兔)蛋白。
脸书和即时拍的母公司元公司的科学家们已经使用了一种人工智能(AI)语言模型来预测属于病毒、细菌和其它微生物的6亿多种蛋白质的未知结构。
这个叫ESMFold的程序使用了一个最初被设计解码人类语言来做出一个被决定它们的三维结构的蛋白质采取的拧扭和曲折的准确预测的模型。这些预测被编辑成开源ESM宏基因组图谱(ESM Metagenomic Atlas),可被用于帮助开发新药、特征化未知的微生物功能和追踪远缘物种之间的进化联系。
ESMFold并不是第一个来做出蛋白质预测的程序。2022年,谷歌旗下的深度思维公司宣布了它的蛋白质预测程序阿尔法折叠(AlphaFold)已经破译了科学已知的大约2亿种蛋白质的形状。ESMFold不像阿尔法折叠那样准确,元公司说但它比深度思维公司的程序更快60倍。该研究结果还没有被同行评审。
元公司研究团队在预印本数据库bioRxiv发布论文的一篇博客文章中写道,“ ESM宏基因组图谱将使科学家能够来在数亿种蛋白质的规模上搜索和分析元基因组蛋白质的结构。这能帮助研究人员来识别之前已经没有被特征化的结构,搜索遥远的进化关系并发现在医学和其他应用中是有用的新蛋白质” 。
蛋白质是所有活着的东西的构造块并由长、缠绕的氨基酸链组成------微小的以无数的组合在一起来形成蛋白质的3D形状的分子单位。
知道一个蛋白质的形状是来了解它的功能的最好方法,但在不同序列中相同的氨基酸组合形成中有惊人量的方式能发生。尽管蛋白质一旦它们已经被生产迅速的和可靠的采取某些形状,但可能的结构的蛋白质数量大约是10^300。来确定一个蛋白质的结构的黄金标准方法是使用x射线晶体图学------看高能光束怎样围绕蛋白质衍射------但这是一种艰苦的方法,能用数月或数年来产生结果,而且它对所有的蛋白质类型不起作用。经过几十年的工作,超过10万种蛋白质结构已经经由x射线晶体图学破译。
为了发现一种绕过这个问题的方法,元公司的研究人员转向了一个复杂的被设计来解码和做出关于人类语言的预测的计算机模型并将该模型相反应用于蛋白质序列的语言。
RELATED STORIES
—DeepMind cracks 'knot' conjecture that bedeviled mathematicians for decades
—Google AI 'is sentient,' software engineer claims before being suspended
研究人员写道,“使用一种被称为掩模语言建模的自我监督学习的形式,我们在数百万种自然蛋白质的序列上训练了一种语言模型。用这种方法,该模型必须正确的填写一段文本中的空白比如“对__或不对__即________”,我们训练了一个语言模型来填充一个蛋白质序列比如跨数百万种不同的蛋白质"GL_KKE_AHY_G"。我们发现了关于蛋白质的结构和功能的信息从这个训练浮现”。
为了测试他们的模型,科学家们转向了一个取自土壤、海水、人类肠道和皮肤地方的元基因组DNA数据库(之所以如此命名是因为它已经大量被从环境或临床测序)。通过将DNA数据输入进ESMFold程序,研究人员在短短两周内预测出了超过6.17亿种蛋白质的结构。
这比阿尔法折叠在四个月前宣布了它已经破译的更多4亿,当时它声称了已经推断出了几乎所有已知蛋白质的蛋白质结构。这意味着许多这些蛋白质之前从未被见过,可能是因为它们来自未知的生物体。按照该模型,超过2亿个ESMFold的蛋白质预测被认为是高质量的,这意味着该程序已经能够以一个下到原子水平的精度来预测形状。
研究人员希望为更多的蛋白质集中的工作用这个程序。元公司写道,“为了甚至进一步扩展这项工作,我们正在研究语言模型怎样被用来设计新的蛋白质并贡献到解决健康、疾病和环境中的挑战”。
https://www.livescience.com/meta-predicts-600-million-protein-shapes