加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

转:所谓的能力密度,可以理解为模型在各种评测集上展现出来的能力

(2025-02-18 13:54:04)
标签:

人工智能

分类: 公司、行业研究
2025年2月6日:
@但斌:转:所谓的能力密度,可以理解为模型在各种评测集上展现出来的能力,除以其参数规模,或者说是激活的参数规模。我们观察了过去一年半发布的代表性模型,发现其能力密度大约每 100 天增加一倍。这意味着每过 100 天,我们可以用一半的参数实现相同的能力。这一现象背后有多个因素影响:

(1)数据质量:更高的数据质量取决于数据治理。高质量的数据能够提升模型的训练效果。(2)模型架构:采用更稀疏激活的模型架构,可以用更少的激活参数承载更多的能力。

(3)学习方法:包括 OpenAI 在内的所有一线团队都在开展所谓的“scaling prediction”。在真正训练模型之前,我们会进行大量的风洞实验,积累各种预测数据,以确定模型需要什么样的数据配比和超参配置,从而达到最佳效果。

综合这些因素,模型可以用更少的参数承载更多的能力。我们将这一现象类比为芯片行业的摩尔定律。摩尔定律告诉我们,每 18 个月,芯片上的电路密度会增加一倍。这一过程是通过不断的技术发展实现的。转:所谓的能力密度,可以理解为模型在各种评测集上展现出来的能力

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有