转：所谓的能力密度，可以理解为模型在各种评测集上展现出来的能力_但斌

个人资料

微博

正文字体大小：大中小

转：所谓的能力密度，可以理解为模型在各种评测集上展现出来的能力

(2025-02-18 13:54:04)

标签：

分类：公司、行业研究

2025年2月6日：

@但斌：转：所谓的能力密度，可以理解为模型在各种评测集上展现出来的能力，除以其参数规模，或者说是激活的参数规模。我们观察了过去一年半发布的代表性模型，发现其能力密度大约每 100 天增加一倍。这意味着每过 100 天，我们可以用一半的参数实现相同的能力。这一现象背后有多个因素影响：

（1）数据质量：更高的数据质量取决于数据治理。高质量的数据能够提升模型的训练效果。（2）模型架构：采用更稀疏激活的模型架构，可以用更少的激活参数承载更多的能力。

（3）学习方法：包括 OpenAI 在内的所有一线团队都在开展所谓的“scaling prediction”。在真正训练模型之前，我们会进行大量的风洞实验，积累各种预测数据，以确定模型需要什么样的数据配比和超参配置，从而达到最佳效果。

综合这些因素，模型可以用更少的参数承载更多的能力。我们将这一现象类比为芯片行业的摩尔定律。摩尔定律告诉我们，每 18 个月，芯片上的电路密度会增加一倍。这一过程是通过不断的技术发展实现的。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report