转:所谓的能力密度,可以理解为模型在各种评测集上展现出来的能力

标签:
人工智能 |
分类: 公司、行业研究 |
2025年2月6日:
@但斌:转:所谓的能力密度,可以理解为模型在各种评测集上展现出来的能力,除以其参数规模,或者说是激活的参数规模。我们观察了过去一年半发布的代表性模型,发现其能力密度大约每
100 天增加一倍。这意味着每过 100 天,我们可以用一半的参数实现相同的能力。这一现象背后有多个因素影响:
(1)数据质量:更高的数据质量取决于数据治理。高质量的数据能够提升模型的训练效果。(2)模型架构:采用更稀疏激活的模型架构,可以用更少的激活参数承载更多的能力。
(3)学习方法:包括 OpenAI
在内的所有一线团队都在开展所谓的“scaling
prediction”。在真正训练模型之前,我们会进行大量的风洞实验,积累各种预测数据,以确定模型需要什么样的数据配比和超参配置,从而达到最佳效果。