马斯克也要搞超级计算机了

标签:
it |
分类: 横看IT |
根据 The Information 最新报道,马斯克 5 月份在向投资者做演示时表示,他希望超级计算机能在 2025 年秋季之前投入运行,并将亲自负责按时交付;预计完成后,连接在一起的芯片组将至少是当今最大 GPU 集群的4 倍,例如 Meta Platforms 为训练其 AI 模型而构建的 GPU 集群。马斯克曾公开表示,xAI 将需要多达 10 万个 GPU 来训练和运行其下一版本的Grok。为了让聊天机器人更智能,马斯克表示,xAI 计划将所有这些芯片串联成一台超级计算机,或者说是计算超级工厂(Gigafactory of Compute)。
据悉,xAI 可能会与 Oracle 合作开发这台超级计算机。目前,xAI 已经从 Oracle 租用了大约 1.6 万台 H100 芯片服务器,预计这台超级计算机需要花费数十亿美元并获得足够的电力,以赶上资金更雄厚的竞争对手,这些竞争对手也计划在明年推出类似规模的 AI 芯片集群,并在未来推出更大的芯片集群。集群是指单个数据中心内通过电缆连接的众多服务器芯片,以便它们能够以更高效的方式同时进行复杂计算。领先的 AI 公司和云提供商认为,拥有更大、计算能力更强的集群将带来更强大的 AI。
此前,市场也有传闻称,微软和 OpenAI 正在威斯康星州建设一个独立于价值1000亿美元的超级计算机的大型数据中心,而亚马逊网络服务正在亚利桑那州建设一些 AI 数据中心。按照微软和OpenAI的计划,两家计划联合开发一台价值1000 亿美元的超级计算机,规模将是马斯克设想的几倍,包含数百万个英伟达GPU。目前,xAI 正在 2 万个 GPU 上训练 Grok 2.0,可以说,在人工领域,各大巨头也在开展着一场新的“军备竞赛”,谁的计算能力更强,谁就可能拥有更大的机会。